{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Датасет №1 (рейтинги плиток шоколада) \n", "\n", "Ссылка: https://www.kaggle.com/datasets/rtatman/chocolate-bar-ratings\n", "\n", "Проблемная область: качество шоколада и факторы, влияющие на его оценку потребителями.\n", "\n", "Объекты наблюдения: плитки шоколада, каждая из которых имеет свои уникальные характеристики." ] }, { "cell_type": "code", "execution_count": 532, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['Company (Maker-if known)', 'Specific Bean Originor Bar Name', 'REF',\n", " 'ReviewDate', 'CocoaPercent', 'CompanyLocation', 'Rating', 'BeanType',\n", " 'Broad BeanOrigin'],\n", " dtype='object')\n" ] } ], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.model_selection import train_test_split\n", "\n", "# вывод всех столбцов\n", "df = pd.read_csv(\"..//..//static//csv//flavors_of_cacao.csv\")\n", "df.columns = df.columns.str.replace('\\n', '')\n", "print(df.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Атрибуты: \n", "* Company (Maker-if known) – название компании-производителя плитки;\n", "* Specific Bean Originor Bar Name – географический регион происхождения плитки;\n", "* REF – значение, связанное с тем, когда рецензия была внесена в базу данных. Чем значение больше, тем позже;\n", "* ReviewDate – дата публикации рецензии;\n", "* CocoaPercent – процент какао в плитке;\n", "* CompanyLocation – страна, где базируется производитель;\n", "* Rating – оценка эксперта;\n", "* BeanType – разновидность какао-бобов;\n", "* Broad BeanOrigin – географический регион происхождения бобов.\n", "\n", "Примеры бизнес целей и целей технического проекта:\n", "1. Оптимизация рецептур и производство высококачественного шоколада.\n", " * Бизнес-цель: повышение качества шоколадных плиток на основе анализа рейтингов и факторов, влияющих на вкус и текстуру (процент какао, происхождение бобов, сорт бобов).\n", " * Цель технического проекта: разработка системы анализа и предсказания успешности шоколада на основе его рейтинга, используя характеристики какао-бобов, содержания какао и других параметров.\n", "2. Разработка маркетинговых стратегий для производителей шоколада.\n", " * Бизнес-цель: определение лучших производителей и регионов происхождения какао-бобов для создания продуктов премиум-класса и продвижения их на рынке.\n", " * Цель технического проекта: создание системы ранжирования производителей и регионов на основе данных о рейтингах шоколадных плиток и происхождении какао-бобов.\n", "3. Стратегии закупок сырья для промышленности.\n", " * Бизнес-цель: оптимизация цепочек поставок какао-бобов с высоким качеством для производства шоколада с лучшими характеристиками.\n", " * Цель технического проекта: разработка системы анализа происхождения какао-бобов и их связи с качеством шоколада для улучшения стратегий закупок и логистики.\n", "\n", "Входные данные и целевой признак могут быть следующими:\n", "1. Входные данные:\n", " * Регион происхождения плитки;\n", " * Название кампании-производителя плитки;\n", " * Процент какао в плитке;\n", " * Страна, где базируется производитель;\n", " * Разновидность какао-бобов;\n", " * Регион происхождения бобов.\n", "2. Целевой признак:\n", " * Рейтинг, как оценка качества шоколада.\n", "\n", "Актуальность: анализ качества шоколада и факторов, влияющих на вкусовые характеристики, не только помогает производителям улучшать свои продукты и удовлетворять требования потребителей, но и способствует развитию новых технологий в пищевой промышленности, улучшению цепочек поставок и изучению свойств какао. Поэтому эта тема имеет важное значение для развития кондитерской индустрии, повышения стандартов качества и поддержки устойчивого производства.\n", "\n", "### Проверяем на выбросы" ] }, { "cell_type": "code", "execution_count": 533, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество выбросов в столбце 'CocoaPercent': 186\n", "Количество выбросов в столбце 'Rating': 19\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Удаляем символ '%' и преобразуем столбец CocoaPercent в числовой формат\n", "df['CocoaPercent'] = df['CocoaPercent'].str.replace('%', '').astype(float)\n", "\n", "# Выбираем столбцы для анализа\n", "columns_to_check = ['CocoaPercent', 'Rating']\n", "\n", "# Функция для подсчета выбросов\n", "def count_outliers(df, columns):\n", " outliers_count = {}\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Считаем количество выбросов\n", " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", " outliers_count[col] = len(outliers)\n", " \n", " return outliers_count\n", "\n", "# Подсчитываем выбросы\n", "outliers_count = count_outliers(df, columns_to_check)\n", "\n", "# Выводим количество выбросов для каждого столбца\n", "for col, count in outliers_count.items():\n", " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", "\n", "# Создаем диаграммы размахов\n", "plt.figure(figsize=(15, 10))\n", "for i, col in enumerate(columns_to_check, 1):\n", " plt.subplot(2, 2, i)\n", " sns.boxplot(x=df[col])\n", " plt.title(f'Box Plot of {col}')\n", "plt.tight_layout()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можно заметить, что оба столбца содержат выбросы, однако их значительно больше в столбце CocoaPercent. Кроме того, экстремальные значения здесь могут быть редкими экспериментальными продуктами и не отражать массовый рынок, а значит искажать статические модели и предсказания. С другой стороны, у столбца Rating выбросы несут информацию о таких крайних случаях, как исключительное качество продукта или совсем неудачный продукт. Такие данные могут быть ценны, особенно если целью является определение лучших и худших образцов для создания маркетинговых стратегий. Значит имеет смысл очистить от выбросов только столбец CocoaPercent.\n", "\n", "### Очищаем CocoaPercent от выбросов" ] }, { "cell_type": "code", "execution_count": 534, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество удаленных строк: 186\n" ] }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAusAAAJOCAYAAAAOKElgAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAA9GklEQVR4nO3deXyNZ+L///dJJCeJbHaSJogiirGkKFpLaau2tFrKaElr69Dqoqqqg7RjtNWpmo4uZhBVpfWpDh1USZmpZUoZS1GCWIrGHtqQRHJ9//DL+TlOdiKXej0fD49Hz33uc5/rvtxOX273ueMwxhgBAAAAsI5XaQ8AAAAAQO6IdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUA19T+/fvlcDiUkJBQ2kNx89VXX6lx48by8/OTw+HQmTNnSntIKCVDhw7VPffcU+zXx8XFqUaNGtduQKXM4XBo/PjxrscffPCBIiMjlZ6eXnqDAuBCrAOWSkhIkMPhcPtVuXJltW/fXkuXLr3u41m1apXbWHx8fBQVFaV+/fpp37591+Q91q5dq/Hjx1/zkD558qR69eolf39/TZ06VbNnz1bZsmXzfc3evXs1ZMgQRUVFyc/PT8HBwWrdurWmTJmi8+fPX9PxlZQrjyE/Pz/VqVNHTz31lFJSUkp7eFdtx44dGj9+vPbv31/o1yQnJ+sf//iHXn75ZY/nzp49q/j4eDVq1EiBgYHy9/dXgwYNNGrUKB05cuQajtxucXFxysjI0IcffljaQwEgqUxpDwBA/l599VXVrFlTxhilpKQoISFBnTt31pdffqmuXbte9/EMHz5czZo1U2ZmpjZt2qRp06Zp8eLF2rZtm8LCwq5q22vXrlV8fLzi4uIUGhp6bQYsacOGDTp37pxee+01dezYscD1Fy9erJ49e8rpdKpfv35q0KCBMjIytHr1ao0cOVLbt2/XtGnTrtn4SlrOMXThwgWtXr1a77//vpYsWaIffvhBAQEBpT28YtuxY4fi4+PVrl27Qp/pnjJlimrWrKn27du7Ld+3b586duyogwcPqmfPnho8eLB8fX21detWTZ8+XV988YV2795dAnthHz8/P/Xv319vv/22nn76aTkcjtIeEnBTI9YBy91///26/fbbXY8HDBigKlWqaO7cuaUS63fddZcefvhhSdLjjz+uOnXqaPjw4Zo1a5ZGjx593cdTGMeOHZOkQv0FIDk5Wb1791b16tX1zTffqFq1aq7nhg0bpj179mjx4sUlNdQScfkxNHDgQFWoUEFvv/22Fi5cqD59+lzVttPS0m6Y4M/MzNScOXP05JNPui2/ePGievTooZSUFK1atUp33nmn2/MTJkzQG2+8cT2HWup69eqlN998UytXrtTdd99d2sMBbmpcBgPcYEJDQ+Xv768yZdz/rv3rr79qxIgRioiIkNPpVN26dfXWW2/JGCNJOn/+vKKjoxUdHe12GcepU6dUrVo1tWrVSllZWUUeT87/yJOTk/Nd75tvvtFdd92lsmXLKjQ0VLGxsdq5c6fr+fHjx2vkyJGSpJo1a7ou3SjoEof58+crJiZG/v7+qlixoh599FEdPnzY9Xy7du3Uv39/SVKzZs3kcDgUFxeX5/befPNN/fLLL5o+fbpbqOe49dZb9cwzz7geX7x4Ua+99ppq1aolp9OpGjVq6OWXX871et+lS5eqbdu2CgoKUnBwsJo1a6ZPPvmkSPsjSVu3blVcXJzrEp2qVavqiSee0MmTJ/Odqxy5/Z59/PHHrvctX768evfurUOHDrm9rl27dmrQoIE2btyoNm3aKCAgwHU5yYULFzR+/HjVqVNHfn5+qlatmnr06KG9e/e6Xp+dna133nlH9evXl5+fn6pUqaIhQ4bo9OnTbu9To0YNde3aVatXr1bz5s3l5+enqKgoffTRR651EhIS1LNnT0lS+/btXcfLqlWr8tzv1atX68SJEx7/uvL5559ry5YtGjNmjEeoS1JwcLAmTJiQ35QWet8WLlyoLl26KCwsTE6nU7Vq1dJrr73m8WcvZ6537Nih9u3bKyAgQOHh4XrzzTc93js9PV3jxo3TrbfeKqfTqYiICL344osex2B6erqee+45VapUSUFBQerevbt++umnXPcnJiZG5cuX18KFC/PdbwAlj1gHLJeamqoTJ07o+PHj2r59u/7whz/ol19+0aOPPupaxxij7t27a/LkyerUqZPefvtt1a1bVyNHjtTzzz8vSfL399esWbO0Z88ejRkzxvXaYcOGKTU1VQkJCfL29i7y+HJirEKFCnmus2LFCt133306duyYxo8fr+eff15r165V69atXTHeo0cP11neyZMna/bs2Zo9e7YqVaqU53YTEhLUq1cveXt7a+LEiRo0aJAWLFigO++803Xd+5gxYzR48GBJly4HmT17toYMGZLnNr/88ktFRUWpVatWhdr/gQMHauzYsWratKkmT56stm3bauLEierdu7fHWLt06aJTp05p9OjRev3119W4cWN99dVXRdofSVq+fLn27dunxx9/XO+++6569+6tefPmqXPnzq6/nOXnyt+zCRMmqF+/fqpdu7befvttPfvss0pMTFSbNm08vj9w8uRJ3X///WrcuLHeeecdtW/fXllZWeratavi4+MVExOjv/zlL3rmmWeUmpqqH374wfXaIUOGaOTIka5r/x9//HHNmTNH9913nzIzM93eZ8+ePXr44Yd1zz336C9/+YvKlSunuLg4bd++XZLUpk0bDR8+XJL08ssvu46XevXq5bnfa9eulcPhUJMmTdyWL1q0SJL02GOPFTh3eSnsviUkJCgwMFDPP/+8pkyZopiYGI0dO1YvvfSSxzZPnz6tTp06qVGjRvrLX/6i6OhojRo1yu07K9nZ2erevbveeustdevWTe+++64eeOABTZ48WY888ojb9gYOHKh33nlH9957r15//XX5+PioS5cuee5T06ZNtWbNmmLPCYBrxACw0syZM40kj19Op9MkJCS4rfvPf/7TSDJ/+tOf3JY//PDDxuFwmD179riWjR492nh5eZn//Oc/Zv78+UaSeeeddwocz8qVK40kM2PGDHP8+HFz5MgRs3jxYlOjRg3jcDjMhg0bjDHGJCcnG0lm5syZrtc2btzYVK5c2Zw8edK1bMuWLcbLy8v069fPtWzSpElGkklOTi5wPBkZGaZy5cqmQYMG5vz5867l//rXv4wkM3bsWNeynLnMGWNeUlNTjSQTGxtb4PsbY8zmzZuNJDNw4EC35S+88IKRZL755htjjDFnzpwxQUFBpkWLFm5jNcaY7OzsIu9PWlqax1jmzp1rJJn//Oc/Hvu9YsUKc/z4cXPo0CEzb948U6FCBePv729++ukns3//fuPt7W0mTJjgtr1t27aZMmXKuC1v27atkWQ++OADt3VnzJhhJJm3337bY1w5+/ftt98aSWbOnDluz3/11Vcey6tXr+6xL8eOHTNOp9OMGDHCtSzn+F25cqXH++bm0UcfNRUqVPBY3qRJExMSElKobRhjTP/+/U316tVdj4uyb7n93g0ZMsQEBASYCxcuuJblzPVHH33kWpaenm6qVq1qHnroIdey2bNnGy8vL/Ptt9+6bfODDz4wksyaNWuMMf//sTp06FC39X7/+98bSWbcuHEe4xo8eLDx9/fPZyYAXA+cWQcsN3XqVC1fvlzLly/Xxx9/rPbt22vgwIFasGCBa50lS5bI29vbdaYxx4gRI2SMcTsTN378eNWvX1/9+/fX0KFD1bZtW4/X5eeJJ55QpUqVFBYWpi5duujXX3/VrFmz3K6rv9zRo0e1efNmxcXFqXz58q7lv/vd73TPPfdoyZIlhX7vy33//fc6duyYhg4dKj8/P9fyLl26KDo6uljXlZ89e1aSFBQUVKj1c8ae868XOUaMGCFJrjEsX75c586d00svveQ2VkmuL+8VZX/8/f1d/33hwgWdOHFCd9xxhyRp06ZNHuPs2LGjKlWqpIiICPXu3VuBgYH64osvFB4ergULFig7O1u9evXSiRMnXL+qVq2q2rVra+XKlW7bcjqdevzxx92Wff7556pYsaKefvppj/fO2b/58+crJCRE99xzj9v7xMTEKDAw0ON9brvtNt11112ux5UqVVLdunWv6s5DJ0+eVLly5TyWnz17ttC/57kpyr5d/nt37tw5nThxQnfddZfS0tL0448/um03MDDQ7V/QfH191bx5c7c5mD9/vurVq6fo6Gi398651CnnvXOO1Sv/rD/77LN57le5cuV0/vx5paWlFXFGAFxLfMEUsFzz5s3dQrhPnz5q0qSJnnrqKXXt2lW+vr46cOCAwsLCPIIj55KAAwcOuJb5+vpqxowZatasmfz8/DRz5swi3e1h7Nixuuuuu+Tt7a2KFSuqXr16HtfPXy7nvevWrevxXL169bRs2TL9+uuvBd5KsSjbjY6O1urVq4u0PenStcnSpYgq7Bi8vLx06623ui2vWrWqQkNDXWPMueykQYMG+W5LKtz+nDp1SvHx8Zo3b57ry7M5UlNTPV4/depU1alTR2XKlFGVKlVUt25deXldOleTlJQkY4xq166d67h8fHzcHoeHh8vX19dt2d69e1W3bt18j4OkpCSlpqaqcuXKuT5/5X5ERkZ6rFOuXDmPa8CLyuRymVBwcPBV/SWgKPu2fft2vfLKK/rmm29cfznMceXv3S233OLxZ7NcuXLaunWr23vv3Lkzz8vFct4751itVauW2/O5HW85cuaKu8EApYtYB24wXl5eat++vaZMmaKkpCTVr1+/yNtYtmyZpEtnZZOSklSzZs1Cv7Zhw4aFuv3hjSg4OFhhYWFu11kXxvWOmV69emnt2rUaOXKkGjdurMDAQGVnZ6tTp07Kzs72WP/Kv/BdLjs7Ww6HQ0uXLs31OwuBgYFujy8/M1wU2dnZqly5subMmZPr81fGZl7fn8gttgurQoUKucZ+dHS0/ve//+nQoUOKiIgo8nYLu29nzpxR27ZtFRwcrFdffVW1atWSn5+fNm3apFGjRnn83hVmDrKzs9WwYUO9/fbbua5bnP3Jcfr0aQUEBBT79xzAtUGsAzegixcvSpJ++eUXSVL16tW1YsUKnTt3zu3ses4/q1evXt21bOvWrXr11Vf1+OOPa/PmzRo4cKC2bdumkJCQEhlrznvv2rXL47kff/xRFStWdJ1VL0r0Xr7dK28tt2vXLrd9LoquXbtq2rRpWrdunVq2bFngGLKzs5WUlOT2xcaUlBSdOXPGNYacs5k//PCDx1n4ou7P6dOnlZiYqPj4eI0dO9a1TlJSUhH3VK6xGWNUs2ZN1alTp9jb+O6775SZmelxJv7ydVasWKHWrVtfs/gr6l+SoqOjNWfOHKWmprod7926ddPcuXP18ccfF+v2o4Xdt1WrVunkyZNasGCB2rRp41pe0J2UCnrvLVu2qEOHDvnOR86xmvOvIDly+3N5+bjy+8IugOuDa9aBG0xmZqa+/vpr+fr6uv5H2rlzZ2VlZelvf/ub27qTJ0+Ww+HQ/fff73ptXFycwsLCNGXKFCUkJCglJUXPPfdciY23WrVqaty4sWbNmuV2Z5EffvhBX3/9tTp37uxalhPthfkJprfffrsqV66sDz74wO0WdUuXLtXOnTvzvctFfl588UWVLVtWAwcOzPWnfO7du1dTpkyRJNfY33nnHbd1cs5y5ozh3nvvVVBQkCZOnKgLFy64rZtzlrSw+5NztvXKM8xXjqGwevToIW9vb8XHx3ts0xhTqNtBPvTQQzpx4oTH8Xf5OHv16qWsrCy99tprHutcvHixWD+1tijHiyS1bNlSxhht3LjRbfnDDz+shg0basKECVq3bp3H686dO+d2B6UrFXbfcvu9y8jI0HvvvVeo8ef13ocPH9bf//53j+fOnz+vX3/9VZJcnwF//etf3dbJ77jZtGlToe+KBKDkcGYdsNzSpUtdZ8iPHTumTz75RElJSXrppZdc11h369ZN7du315gxY7R//341atRIX3/9tRYuXKhnn33WdWb3T3/6kzZv3qzExEQFBQXpd7/7ncaOHatXXnlFDz/8sFs4X0uTJk3S/fffr5YtW2rAgAE6f/683n33XYWEhGj8+PGu9WJiYiRdut1i79695ePjo27duuV6PbuPj4/eeOMNPf7442rbtq369OmjlJQUTZkyRTVq1Cj2X0Bq1aqlTz75RI888ojq1avn9hNM165dq/nz57vu096oUSP1799f06ZNc13isH79es2aNUsPPPCA66dkBgcHa/LkyRo4cKCaNWum3//+9ypXrpy2bNmitLQ0zZo1q9D7ExwcrDZt2ujNN99UZmamwsPD9fXXXxf77GytWrX0pz/9SaNHj9b+/fv1wAMPKCgoSMnJyfriiy80ePBgvfDCC/luo1+/fvroo4/0/PPPa/369brrrrv066+/asWKFRo6dKhiY2PVtm1bDRkyRBMnTtTmzZt17733ysfHR0lJSZo/f76mTJni+mFbhdW4cWN5e3vrjTfeUGpqqpxOp+6+++48rx2/8847VaFCBa1YscLtXy98fHy0YMECdezYUW3atFGvXr3UunVr+fj4aPv27frkk09Urly5PO+1Xth9a9WqlcqVK6f+/ftr+PDhcjgcmj179lVd2vPYY4/ps88+05NPPqmVK1eqdevWysrK0o8//qjPPvtMy5Yt0+23367GjRurT58+eu+995SamqpWrVopMTFRe/bsyXW7Gzdu1KlTpxQbG1vssQG4RkrhDjQACiG3Wzf6+fmZxo0bm/fff991S7wc586dM88995wJCwszPj4+pnbt2mbSpEmu9TZu3GjKlCljnn76abfXXbx40TRr1syEhYWZ06dP5zmenFs3zp8/P99x53brRmOMWbFihWndurXx9/c3wcHBplu3bmbHjh0er3/ttddMeHi48fLyKtRtHD/99FPTpEkT43Q6Tfny5U3fvn3NTz/95LZOYW/deLndu3ebQYMGmRo1ahhfX18TFBRkWrdubd599123W+xlZmaa+Ph4U7NmTePj42MiIiLM6NGj3dbJsWjRItOqVSvXHDRv3tzMnTu3yPvz008/mQcffNCEhoaakJAQ07NnT3PkyBGPW/AVZb8///xzc+edd5qyZcuasmXLmujoaDNs2DCza9cu1zpt27Y19evXz/X1aWlpZsyYMa55qFq1qnn44YfN3r173dabNm2aiYmJMf7+/iYoKMg0bNjQvPjii+bIkSOudapXr266dOni8R5t27Y1bdu2dVv297//3URFRRlvb+9C3cZx+PDh5tZbb831udOnT5uxY8eahg0bmoCAAOPn52caNGhgRo8ebY4ePepa78pbNxZl39asWWPuuOMO4+/vb8LCwsyLL75oli1b5jH2vOY6t/fOyMgwb7zxhqlfv75xOp2mXLlyJiYmxsTHx5vU1FTXeufPnzfDhw83FSpUMGXLljXdunUzhw4dyvXWjaNGjTKRkZEenzMArj+HMVfxV3oAAG4g+/btU3R0tJYuXaoOHTqU9nCslJ6erho1auill15y+2m9AEoH16wDAG4aUVFRGjBggF5//fXSHoq1Zs6cKR8fHz355JOlPRQAkjizDgAAAFiKM+sAAACApYh1AAAAwFLEOgAAAGApYh0AAACwVLF/KFJ2draOHDmioKCgIv/IZwAAAOBmZozRuXPnFBYWJi+vvM+fFzvWjxw5ooiIiOK+HAAAALjpHTp0SLfcckuezxc71oOCglxvkPMjzwEAAAAU7OzZs4qIiHA1dV6KHes5l74EBwcT6wAAAEAxFHQ5OV8wBQAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwVJnSHgAApKSkKDU1tbSHAcuFhISoSpUqpT0MALiuiHUAperHH3/U0KHDlJ2dVdpDgeV8fJ36ePZHBDuAmwqxDqBUHTp0SNnZWboQ3lRZIbeU9nBgKa8LqdK+fys1NZVYB3BTIdYBWMH4Biq7bMXSHgYAAFbhC6YAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYj1a+DChQvavXu3Lly4UNpDAQAAcEOn3NiI9Wvg4MGDGjx4sA4ePFjaQwEAAHBDp9zYiHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEvdsLG+f/9+dejQQe3atVOHDh20f//+0h4SAAAAcpGamqqnnnpKPXv21FNPPaXU1NRSG8uOHTvUrl07168dO3aU2lgKo0xpD6A42rdvL2OM63FWVpbi4uLkcDi0cuXKUhwZAAAALte3b18dPnzY9fj48eOKjY1VeHi45syZc13H0q5dO49lQ4cOlSStWrXquo6lsG64M+uXh7rT6dSQIUPkdDolScYYtW/fvjSHBwAAgP/P5aHevHlz/e1vf1Pz5s0lSYcPH1bfvn2v21iuDPXY2Nh8n7fFDXVmff/+/a5QnzdvnqpWrSpJ6tOnj37++Wf17t1bxhjt379fNWrUKMWRAgAA3NxSU1Ndob5kyRIFBARIkt58802lpaWpc+fOOnz4sFJTUxUSElKiY7n8UpcZM2YoKipKkvTcc89p3759euKJJ1zr3XbbbSU6lqIqdKynp6crPT3d9fjs2bMlMqD8DBgwQNKlM+o5oZ6jatWqcjqdSk9P14ABA5SYmHjdx3fgwIHr/p7Aje7o0aOlPQTcQPicBYqutP7cjBkzRtKlM+o5oZ4jICBAzZo104YNGzRmzBj97W9/K9Gx5FzqIskV6rk9Hjp0qHWXwxQ61idOnKj4+PiSHEuBsrKyJElxcXG5Pt+3b1/NmDHDtd71NmHChFJ5XwC4WfA5C9w4UlJSJEn9+vXL9fnHHntMGzZscK13PVx56UuOzp07a8mSJddtHEVR6FgfPXq0nn/+edfjs2fPKiIiokQGlRdvb29lZWUpISFBffr08Xg+50sK3t7e13VcOcaMGaPq1auXynsDN6r//ve/mjFjRmkPAzcIPmeBojtw4ECp/EW3SpUqOn78uD766CO9+eabHs/Pnj3btd71snDhQj333HMey20NdakIse50Ol1f5Cwt06dPV1xcnNLT0/Xzzz+7XQrz888/uy7TmT59eqmMr3r16qpTp06pvDdwo+KyBhQFn7PAjWPChAmKjY3V+vXrlZaW5nYpTFpamjZs2OBar6S99957rkth9u3b53bpy759+9zWs80N9QXTGjVqyOFwyBij3r17y+l0qm/fvpozZ44r1B0OB18uBQAAKGUhISEKDw/X4cOH1blzZzVr1kyPPfaYZs+e7Qr18PDwEv9yqSS3L43mfJk0t0tfbPtyqXQD3rpx5cqVcjgcki596XXGjBluoc591gEAAOwwZ84chYeHS5I2bNig4cOHu4X69bzP+pVfHL0y1G37YmmOG+rMeo6VK1dq//79GjBggLKysuTt7a3p06dzRh0AAMAyc+bMUWpqqsaMGaOUlBRVqVJFEyZMuC5n1K+0atUq7dixw+3uMO+9956VZ9Rz3JCxLl26JKY0bs8IAACAogkJCSnx2zMW1m233WbtWfTc3HCXwQAAAAA3C2IdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHr10BkZKSmTZumyMjI0h4KAACAGzrlxlamtAfwW+Dn56c6deqU9jAAAAA80Ck3Ns6sAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYqU9oDAABJcmT8Iq9fT5T2MGAprwuppT0EACgVxDqAUhURESEvL2/5Hd4kHd5U2sOBxXx8nQoJCSntYQDAdUWsAyhV0dHRmjv3E6WmcuYU+QsJCVGVKlVKexgAcF0R6wBKXZUqVYgwAABywRdMAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AAAAYCliHQAAALAUsQ4AAABYilgHAAAALEWsAwAAAJYi1gEAAABLEesAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsVaa4LzTGSJLOnj17zQYDAAAA3AxyGjqnqfNS7Fg/d+6cJCkiIqK4mwAAAABuaufOnVNISEiezztMQTmfh+zsbB05ckRBQUFyOBxFeu3Zs2cVERGhQ4cOKTg4uDhvjzwwtyWDeS05zG3JYF5LDnNbMpjXksPcloyrnVdjjM6dO6ewsDB5eeV9ZXqxz6x7eXnplltuKe7LJUnBwcEcNCWEuS0ZzGvJYW5LBvNacpjbksG8lhzmtmRczbzmd0Y9B18wBQAAACxFrAMAAACWKpVYdzqdGjdunJxOZ2m8/W8ac1symNeSw9yWDOa15DC3JYN5LTnMbcm4XvNa7C+YAgAAAChZXAYDAAAAWIpYBwAAACxFrAMAAACWuiaxfvjwYT366KOqUKGC/P391bBhQ33//feSpMzMTI0aNUoNGzZU2bJlFRYWpn79+unIkSP5bnP8+PFyOBxuv6Kjo6/FcG8o+c2tJMXFxXnMU6dOnQrc7tSpU1WjRg35+fmpRYsWWr9+fUnuhnUKmtcr5zTn16RJk/LcJsesVKNGjVznbdiwYZKkCxcuaNiwYapQoYICAwP10EMPKSUlJd9tGmM0duxYVatWTf7+/urYsaOSkpKux+5YI795PXXqlJ5++mnVrVtX/v7+ioyM1PDhw5WamprvNov72fFbU9Ax265dO4/nnnzyyXy3yTGb/7zu378/z8/Y+fPn57lNjlkpKytLf/zjH1WzZk35+/urVq1aeu2119x+XH1xj7+bvQsKmttS7VlzlU6dOmWqV69u4uLizHfffWf27dtnli1bZvbs2WOMMebMmTOmY8eO5tNPPzU//vijWbdunWnevLmJiYnJd7vjxo0z9evXN0ePHnX9On78+NUO94ZS0NwaY0z//v1Np06d3Obp1KlT+W533rx5xtfX18yYMcNs377dDBo0yISGhpqUlJSS3iUrFGZeL5/Po0ePmhkzZhiHw2H27t2b53Y5Zo05duyY2/4vX77cSDIrV640xhjz5JNPmoiICJOYmGi+//57c8cdd5hWrVrlu83XX3/dhISEmH/+859my5Ytpnv37qZmzZrm/Pnz12GP7JDfvG7bts306NHDLFq0yOzZs8ckJiaa2rVrm4ceeijfbRbns+O3qKBjtm3btmbQoEFu66Smpua7TY7Z/Of14sWLHp+x8fHxJjAw0Jw7dy7PbXLMGjNhwgRToUIF869//cskJyeb+fPnm8DAQDNlyhTXOsU5/m72LjCm4LktzZ696lgfNWqUufPOO4v0mvXr1xtJ5sCBA3muM27cONOoUaOrHN2NrTBz279/fxMbG1uk7TZv3twMGzbM9TgrK8uEhYWZiRMnFmeYN5ziHLOxsbHm7rvvzncdjllPzzzzjKlVq5bJzs42Z86cMT4+Pmb+/Pmu53fu3GkkmXXr1uX6+uzsbFO1alUzadIk17IzZ84Yp9Np5s6dW+Ljt9Xl85qbzz77zPj6+prMzMw8t1Gcz46bwZVz27ZtW/PMM88U+vUcs7kr6Jht3LixeeKJJ/LdBsesMV26dPGYpx49epi+ffsaY4p//N3sXWBMwXObm+vVs1d9GcyiRYt0++23q2fPnqpcubKaNGmiv//97/m+JjU1VQ6HQ6Ghofmul5SUpLCwMEVFRalv3746ePDg1Q73hlLYuV21apUqV66sunXr6g9/+INOnjyZ5zYzMjK0ceNGdezY0bXMy8tLHTt21Lp160pkP2xT1GM2JSVFixcv1oABAwrc9s1+zF4uIyNDH3/8sZ544gk5HA5t3LhRmZmZbsdedHS0IiMj8zz2kpOT9fPPP7u9JiQkRC1atLhpjtcrXTmvuUlNTVVwcLDKlCmT77aK8tlxM8hrbufMmaOKFSuqQYMGGj16tNLS0vLcBsesp4KO2Y0bN2rz5s2F+oy92Y/ZVq1aKTExUbt375YkbdmyRatXr9b9998vqXjHH11wSUFzm5vr1rNXlfrGGKfTaZxOpxk9erTZtGmT+fDDD42fn59JSEjIdf3z58+bpk2bmt///vf5bnfJkiXms88+M1u2bDFfffWVadmypYmMjDRnz5692iHfMAozt3PnzjULFy40W7duNV988YWpV6+eadasmbl48WKu2zx8+LCRZNauXeu2fOTIkaZ58+Yluj+2KOox+8Ybb5hy5coV+E/YHLPuPv30U+Pt7W0OHz5sjDFmzpw5xtfX12O9Zs2amRdffDHXbaxZs8ZIMkeOHHFb3rNnT9OrV69rP+gbwJXzeqXjx4+byMhI8/LLL+e7naJ+dtwMcpvbDz/80Hz11Vdm69at5uOPPzbh4eHmwQcfzHMbHLOeCjpm//CHP5h69eoVuB2O2UtnvEeNGmUcDocpU6aMcTgc5s9//rPr+eIcf3TBJQXN7ZWuZ89edaz7+PiYli1bui17+umnzR133OGxbkZGhunWrZtp0qRJgdf8Xen06dMmODjY/OMf/7iq8d5IijK3Ofbu3WskmRUrVuT6PH8oiz6vdevWNU899VSR3+dmPGYvd++995quXbu6HhPr18aV83q51NRU07x5c9OpUyeTkZFRpO0W9NlxM8hvbnMkJiYaSW7fcbkcx6yn/OY1LS3NhISEmLfeeqvI270Zj9m5c+eaW265xcydO9ds3brVfPTRR6Z8+fKuk03EevEVNLeXu949e9WXwVSrVk233Xab27J69ep5nOLPzMxUr169dODAAS1fvlzBwcFFep/Q0FDVqVNHe/bsudoh3zAKO7eXi4qKUsWKFfOcp4oVK8rb29vjDhwpKSmqWrXq1Q/6BlCUef3222+1a9cuDRw4sMjvczMeszkOHDigFStWuM1b1apVlZGRoTNnzritm9+xl7P8Zj5eL5fbvOY4d+6cOnXqpKCgIH3xxRfy8fEp0rYL+uz4rctvbi/XokULScpznjhm3RU0r//3f/+ntLQ09evXr8jbvhmP2ZEjR+qll15S79691bBhQz322GN67rnnNHHiREnFO/7ogksKmtscpdGzVx3rrVu31q5du9yW7d69W9WrV3c9ztmxpKQkrVixQhUqVCjy+/zyyy/au3evqlWrdrVDvmEUZm6v9NNPP+nkyZN5zpOvr69iYmKUmJjoWpadna3ExES1bNny2gzcckWZ1+nTpysmJkaNGjUq8vvcjMdsjpkzZ6py5crq0qWLa1lMTIx8fHzcjr1du3bp4MGDeR57NWvWVNWqVd1ec/bsWX333Xc3zfF6udzmVbo0J/fee698fX21aNEi+fn5FXnbBX12/NblNbdX2rx5syTlOU8cs+4Kmtfp06ere/fuqlSpUpG3fTMes2lpafLyck83b29vZWdnSyre8UcXXFLQ3Eql2LNFOnefi/Xr15syZcqYCRMmmKSkJDNnzhwTEBBgPv74Y2PMpX8q6N69u7nlllvM5s2b3W5dk56e7trO3Xffbd59913X4xEjRphVq1aZ5ORks2bNGtOxY0dTsWJFc+zYsasd8g2joLk9d+6ceeGFF8y6detMcnKyWbFihWnatKmpXbu2uXDhgms7V87tvHnzjNPpNAkJCWbHjh1m8ODBJjQ01Pz888/XfR9LQ0HzmiM1NdUEBASY999/P9ftcMzmLisry0RGRppRo0Z5PPfkk0+ayMhI880335jvv//etGzZ0uOSpLp165oFCxa4Hr/++usmNDTUda1qbGzsTXcbPGPyntfU1FTTokUL07BhQ7Nnzx63z9jLr+W9fF4L+9lxs8hrbvfs2WNeffVV8/3335vk5GSzcOFCExUVZdq0aeO2Hsds7vL7LDDGmKSkJONwOMzSpUtzfZ5j1lP//v1NeHi46/aCCxYsMBUrVnS7lLAwxx9d4KmguS3Nnr3qWDfGmC+//NI0aNDAOJ1OEx0dbaZNm+Z6Ljk52UjK9VfOfWyNMaZ69epm3LhxrsePPPKIqVatmvH19TXh4eHmkUceyfMawd+y/OY2LS3N3HvvvaZSpUrGx8fHVK9e3QwaNMjjD9eVc2uMMe+++66JjIw0vr6+pnnz5ua///3v9dgda+Q3rzk+/PBD4+/vb86cOZPrNjhmc7ds2TIjyezatcvjufPnz5uhQ4eacuXKmYCAAPPggw+ao0ePuq0jycycOdP1ODs72/zxj380VapUMU6n03To0CHXbf/W5TWvK1euzPMzNjk52bXe5fNa2M+Om0Vec3vw4EHTpk0bU758eeN0Os2tt95qRo4c6XGNKsds7vL7LDDGmNGjR5uIiAiTlZWV6/Mcs57Onj1rnnnmGRMZGWn8/PxMVFSUGTNmjFssFub4ows8FTS3pdmzDmMu+7FXAAAAAKxx1desAwAAACgZxDoAAABgKWIdAAAAsBSxDgAAAFiKWAcAAAAsRawDAAAAliLWAQAAAEsR6wAAAICliHUAAADAUsQ6AOTj559/1tNPP62oqCg5nU5FRESoW7duSkxMLO2h5WvVqlVyOByuX1WqVNFDDz2kffv2lfbQChQXF6cHHnigtIcBAFYoU9oDAABb7d+/X61bt1ZoaKgmTZqkhg0bKjMzU8uWLdOwYcP0448/lvYQC7Rr1y4FBQUpKSlJgwcPVrdu3bR161Z5e3sXeVuZmZny8fEpgVECAPLCmXUAyMPQoUPlcDi0fv16PfTQQ6pTp47q16+v559/Xv/9739d6x08eFCxsbEKDAxUcHCwevXqpZSUFLdtffnll2rWrJn8/PxUsWJFPfjgg67nTp8+rX79+qlcuXIKCAjQ/fffr6SkJNfzJ0+eVJ8+fRQeHq6AgAA1bNhQc+fOLdQ+VK5cWdWqVVObNm00duxY7dixQ3v27JEkLVy4UE2bNpWfn5+ioqIUHx+vixcvul7rcDj0/vvvq3v37ipbtqwmTJhQ4L6kp6frhRdeUHh4uMqWLasWLVpo1apVrucTEhIUGhqqZcuWqV69egoMDFSnTp109OhRSdL48eM1a9YsLVy40PWvApe/HgBuNsQ6AOTi1KlT+uqrrzRs2DCVLVvW4/nQ0FBJUnZ2tmJjY3Xq1Cn9+9//1vLly7Vv3z498sgjrnUXL16sBx98UJ07d9b//vc/JSYmqnnz5q7n4+Li9P3332vRokVat26djDHq3LmzMjMzJUkXLlxQTEyMFi9erB9++EGDBw/WY489pvXr1xdpn/z9/SVJGRkZ+vbbb9WvXz8988wz2rFjhz788EMlJCS4gjzH+PHj9eCDD2rbtm164oknCtyXp556SuvWrdO8efO0detW9ezZU506dXL7y0daWpreeustzZ49W//5z3908OBBvfDCC5KkF154Qb169XIF/NGjR9WqVasi7ScA/KYYAICH7777zkgyCxYsyHe9r7/+2nh7e5uDBw+6lm3fvt1IMuvXrzfGGNOyZUvTt2/fXF+/e/duI8msWbPGtezEiRPG39/ffPbZZ3m+b5cuXcyIESPyfH7lypVGkjl9+rQxxpgjR46YVq1amfDwcJOenm46dOhg/vznP7u9Zvbs2aZatWqux5LMs88+67ZOfvty4MAB4+3tbQ4fPuy2vEOHDmb06NHGGGNmzpxpJJk9e/a4np86daqpUqWK63H//v1NbGxsnvsGADcTrlkHgFwYYwq13s6dOxUREaGIiAjXsttuu02hoaHauXOnmjVrps2bN2vQoEF5vr5MmTJq0aKFa1mFChVUt25d7dy5U5KUlZWlP//5z/rss890+PBhZWRkKD09XQEBAQWO75ZbbpExRmlpaWrUqJE+//xz+fr6asuWLVqzZo3bmfSsrCxduHBBaWlprm3ffvvtbtvLb1+2bdumrKws1alTx215enq6KlSo4HocEBCgWrVquR5Xq1ZNx44dK3BfAOBmRKwDQC5q164th8NxTb5EmnP5SXFNmjRJU6ZM0TvvvKOGDRuqbNmyevbZZ5WRkVHga7/99lsFBwercuXKCgoKci3/5ZdfFB8frx49eni8xs/Pz/XfV14ClN++/PLLL/L29tbGjRs9vsAaGBjo+u8rv6TqcDgK/ZcjALjZcM06AOSifPnyuu+++zR16lT9+uuvHs+fOXNGklSvXj0dOnRIhw4dcj23Y8cOnTlzRrfddpsk6Xe/+12et3qsV6+eLl68qO+++8617OTJk9q1a5fr9WvWrFFsbKweffRRNWrUSFFRUdq9e3eh9qNmzZqqVauWW6hLUtOmTbVr1y7deuutHr+8vPL+X0N++9KkSRNlZWXp2LFjHtusWrVqocYrSb6+vsrKyir0+gDwW0asA0Aepk6dqqysLDVv3lyff/65kpKStHPnTv31r39Vy5YtJUkdO3ZUw4YN1bdvX23atEnr169Xv3791LZtW9clJOPGjdPcuXM1btw47dy5U9u2bdMbb7wh6dIZ/NjYWA0aNEirV6/Wli1b9Oijjyo8PFyxsbGudZYvX661a9dq586dGjJkiMfdZopq7Nix+uijjxQfH6/t27dr586dmjdvnl555ZV8X5ffvtSpU0d9+/ZVv379tGDBAiUnJ2v9+vWaOHGiFi9eXOix1ahRQ1u3btWuXbt04sQJ1xdtAeBmRKwDQB6ioqK0adMmtW/fXiNGjFCDBg10zz33KDExUe+//76kS5dwLFy4UOXKlVObNm3UsWNHRUVF6dNPP3Vtp127dpo/f74WLVqkxo0b6+6773a7k8vMmTMVExOjrl27qmXLljLGaMmSJa7LRV555RU1bdpU9913n9q1a6eqVate9Q8Nuu+++/Svf/1LX3/9tZo1a6Y77rhDkydPVvXq1fN9XWH2pV+/fhoxYoTq1q2rBx54QBs2bFBkZGShxzZo0CDVrVtXt99+uypVqqQ1a9YUez8B4EbnMFwoCAAAAFiJM+sAAACApYh1AAAAwFLEOgAAAGApYh0AAACwFLEOAAAAWIpYBwAAACxFrAMAAACWItYBAAAASxHrAAAAgKWIdQAAAMBSxDoAAABgKWIdAAAAsNT/Azri8JotG/kKAAAAAElFTkSuQmCC", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Выбираем столбцы для очистки\n", "columns_to_clean = ['CocoaPercent']\n", "\n", "# Функция для удаления выбросов\n", "def remove_outliers(df, columns):\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Удаляем строки, содержащие выбросы\n", " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", " \n", " return df\n", "\n", "# Удаляем выбросы\n", "df_cleaned = remove_outliers(df, columns_to_clean)\n", "\n", "# Выводим количество удаленных строк\n", "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", "\n", "# Создаем диаграммы размаха для очищенных данных\n", "plt.figure(figsize=(15, 6))\n", "\n", "# Диаграмма размаха для CocoaPercent\n", "plt.subplot(1, 2, 1)\n", "sns.boxplot(x=df_cleaned['CocoaPercent'])\n", "plt.title('Box Plot of CocoaPercent (Cleaned)')\n", "plt.xlabel('Cocoa Percent')\n", "\n", "plt.tight_layout()\n", "plt.show()\n", "\n", "# Сохраняем очищенный датасет\n", "df_cleaned.to_csv(\"..//..//static//csv//flavors_of_cacao_cleaned.csv\", index=False)\n", "df = df_cleaned" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Видно, что выбросов практически не осталось.\n", "\n", "### Теперь проверим на пустые значения" ] }, { "cell_type": "code", "execution_count": 535, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Company (Maker-if known) 0\n", "Specific Bean Originor Bar Name 0\n", "REF 0\n", "ReviewDate 0\n", "CocoaPercent 0\n", "CompanyLocation 0\n", "Rating 0\n", "BeanType 1\n", "Broad BeanOrigin 1\n", "dtype: int64\n", "\n", "Company (Maker-if known) False\n", "Specific Bean Originor Bar Name False\n", "REF False\n", "ReviewDate False\n", "CocoaPercent False\n", "CompanyLocation False\n", "Rating False\n", "BeanType True\n", "Broad BeanOrigin True\n", "dtype: bool\n", "\n", "BeanType процент пустых значений: %0.06\n", "Broad BeanOrigin процент пустых значений: %0.06\n" ] } ], "source": [ "# Количество пустых значений признаков\n", "print(df.isnull().sum())\n", "\n", "print()\n", "\n", "# Есть ли пустые значения признаков\n", "print(df.isnull().any())\n", "\n", "print()\n", "\n", "# Процент пустых значений признаков\n", "for i in df.columns:\n", " null_rate = df[i].isnull().sum() / len(df) * 100\n", " if null_rate > 0:\n", " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В датасете имеется пара пустых значений. Удалим их." ] }, { "cell_type": "code", "execution_count": 536, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Количество пустых значений в каждом столбце после удаления:\n", "Company (Maker-if known) 0\n", "Specific Bean Originor Bar Name 0\n", "REF 0\n", "ReviewDate 0\n", "CocoaPercent 0\n", "CompanyLocation 0\n", "Rating 0\n", "BeanType 0\n", "Broad BeanOrigin 0\n", "dtype: int64\n" ] } ], "source": [ "# Удаление пропущенных значений в столбцах BeanType и Broad BeanOrigin\n", "df = df.dropna(subset=['BeanType', 'Broad BeanOrigin'])\n", "\n", "# Проверка на пропущенные значения после удаления\n", "missing_values_after_drop = df.isnull().sum()\n", "\n", "# Вывод результатов после удаления\n", "print(\"\\nКоличество пустых значений в каждом столбце после удаления:\")\n", "print(missing_values_after_drop)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Пустых значений в датасете теперь нет.\n", "\n", "### Можно перейти к созданию выборок" ] }, { "cell_type": "code", "execution_count": 537, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: (964, 8)\n", "Размер контрольной выборки: (321, 8)\n", "Размер тестовой выборки: (322, 8)\n" ] } ], "source": [ "# Разделение на признаки (X) и целевую переменную (y)\n", "# Предположим, что Rating - это целевая переменная\n", "X = df.drop('Rating', axis=1)\n", "y = df['Rating']\n", "\n", "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", "\n", "# Разбиение остатка на контрольную и тестовую выборки\n", "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", "\n", "# Вывод размеров выборок\n", "print(\"Размер обучающей выборки:\", X_train.shape)\n", "print(\"Размер контрольной выборки:\", X_val.shape)\n", "print(\"Размер тестовой выборки:\", X_test.shape)" ] }, { "cell_type": "code", "execution_count": 538, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение классов в обучающей выборке:\n", "Rating\n", "3.50 0.242739\n", "3.00 0.199170\n", "3.25 0.155602\n", "2.75 0.137967\n", "3.75 0.125519\n", "2.50 0.062241\n", "4.00 0.050830\n", "2.00 0.012448\n", "2.25 0.007261\n", "5.00 0.002075\n", "1.50 0.002075\n", "1.75 0.001037\n", "1.00 0.001037\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в контрольной выборке:\n", "Rating\n", "3.50 0.211838\n", "3.00 0.168224\n", "3.25 0.165109\n", "2.75 0.137072\n", "3.75 0.127726\n", "2.50 0.074766\n", "4.00 0.074766\n", "2.00 0.021807\n", "2.25 0.009346\n", "1.50 0.006231\n", "1.00 0.003115\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в тестовой выборке:\n", "Rating\n", "3.25 0.211180\n", "3.50 0.198758\n", "3.00 0.164596\n", "2.75 0.145963\n", "3.75 0.136646\n", "4.00 0.068323\n", "2.50 0.062112\n", "2.00 0.006211\n", "1.00 0.003106\n", "2.25 0.003106\n", "Name: proportion, dtype: float64\n" ] } ], "source": [ "# Функция для анализа сбалансированности\n", "def analyze_balance(y_train, y_val, y_test):\n", " print(\"Распределение классов в обучающей выборке:\")\n", " print(y_train.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в контрольной выборке:\")\n", " print(y_val.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в тестовой выборке:\")\n", " print(y_test.value_counts(normalize=True))\n", "\n", "# Анализ сбалансированности\n", "analyze_balance(y_train, y_val, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выборки несбалансированны в частности из-за того, что некоторые классы занимают крайне малую долю в данных. При необходимости получить сбалансированный набор можно использовать специальные методы, к примеру oversampling и undersampling. Но в данном случае просто так их использовать не получится, потому что задача модели состоит в том, чтобы предсказать числовые (регрессионые) значения, а большинство реализаций в таком случае применить не получится. К тому же в Rating мало уникальных значений, что вызовет проблемы при использовании методов, предназначенных для регрессии (таких как к примеру SMOGN). Поэтому здесь применение таких методов не является целесообразным.\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "## Датасет №2 (качество воды) \n", "\n", "Ссылка: https://www.kaggle.com/datasets/adityakadiwal/water-potability\n", "\n", "Проблемная область: качество питьевой воды и факторы, влияющие на ее безопасность для здоровья.\n", "\n", "Объекты наблюдения: водоемы, содержащие воду разного качества." ] }, { "cell_type": "code", "execution_count": 539, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['ph', 'Hardness', 'Solids', 'Chloramines', 'Sulfate', 'Conductivity',\n", " 'Organic_carbon', 'Trihalomethanes', 'Turbidity', 'Potability'],\n", " dtype='object')\n" ] } ], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.model_selection import train_test_split\n", "from imblearn.over_sampling import SMOTE\n", "\n", "# вывод всех столбцов\n", "df = pd.read_csv(\"..//..//static//csv//water_potability.csv\")\n", "print(df.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Атрибуты: \n", "* ph – параметр для оценки кислотно-щелочного баланса воды;\n", "* Hardness – жесткость воды, определяемая содержанием кальция и магния;\n", "* Solids – общее количество растворенных веществ, указывающее на минерализацию воды;\n", "* Chloramines – концентрация хлора и хлораминов, использующихся для дезинфекции воды;\n", "* Sulfate – содержание сульфатов, присутствующих в воде;\n", "* Conductivity – электропроводность воды, измеряющая уровень ионов в растворе;\n", "* Organic_carbon – уровень органического углерода, происходящего из разлагающихся органических веществ;\n", "* Trihalomethanes – концентрация трихалометанов, образующихся при обработке хлором;\n", "* Turbidity – мутность воды, указывающая на количество взвешенных твердых частиц;\n", "* Potability – показатель пригодности воды для питья (1 – пригодна, 0 – непригодна).\n", "\n", "Примеры бизнес целей и целей технического проекта:\n", "1. Совершенствование систем очистки воды.\n", " * Бизнес-цель: разработка и внедрение инновационных технологий очистки воды, чтобы уменьшить расходы на водоочистные сооружения и повысить их эффективность.\n", " * Цель технического проекта: проектирование и тестирование новых фильтров и процессов очистки на основе данных о загрязнении воды.\n", "2. Интеграция данных для управления водными ресурсами.\n", " * Бизнес-цель: объединение данных о водных ресурсах для комплексного анализа и управления, что позволит более эффективно распределять ресурсы.\n", " * Цель технического проекта: разработка платформы для интеграции данных с различных датчиков и источников информации, использующей машинное обучение для прогнозирования изменений качества воды.\n", "3. Повышение осведомленности о качестве воды.\n", " * Бизнес-цель: информирование населения о состоянии водоемов и возможных рисках для здоровья.\n", " * Цель технического проекта: разработка платформы для публичного доступа к данным о качестве воды.\n", "\n", "Входные данные и целевой признак могут быть следующими:\n", "1. Входные данные:\n", " * pH значение;\n", " * Жесткость воды;\n", " * Общее количество растворенных веществ;\n", " * Концентрация хлора и хлораминов;\n", " * Содержание сульфатов;\n", " * Электропроводность;\n", " * Уровень органического углерода;\n", " * Концентрация трихалометанов;\n", " * Мутность воды.\n", "2. Целевой признак:\n", " * Пригодность воды для питья.\n", "\n", "Актуальность: анализ качества питьевой воды и факторов, влияющих на ее безопасность, играет очень важную роль в охране здоровья населения. Так мониторинг факторов, влияющих на качество воды, позволит предотвращать вспышки заболеваний и способствовать повышению уровня жизни.\n", "\n", "### Проверяем на выбросы" ] }, { "cell_type": "code", "execution_count": 540, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество выбросов в столбце 'Hardness': 83\n", "Количество выбросов в столбце 'Solids': 47\n", "Количество выбросов в столбце 'Organic_carbon': 25\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Выбираем столбцы для анализа\n", "columns_to_check = ['Hardness', 'Solids', 'Organic_carbon']\n", "\n", "# Функция для подсчета выбросов\n", "def count_outliers(df, columns):\n", " outliers_count = {}\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Считаем количество выбросов\n", " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", " outliers_count[col] = len(outliers)\n", " \n", " return outliers_count\n", "\n", "# Подсчитываем выбросы\n", "outliers_count = count_outliers(df, columns_to_check)\n", "\n", "# Выводим количество выбросов для каждого столбца\n", "for col, count in outliers_count.items():\n", " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", "\n", "# Создаем диаграммы размахов\n", "plt.figure(figsize=(15, 10))\n", "for i, col in enumerate(columns_to_check, 1):\n", " plt.subplot(2, 2, i)\n", " sns.boxplot(x=df[col])\n", " plt.title(f'Box Plot of {col}')\n", "plt.tight_layout()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В каждом из выбранных столбцов присутствуют выбросы. Очистим их." ] }, { "cell_type": "code", "execution_count": 541, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество удаленных строк: 145\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Выбираем столбцы для очистки\n", "columns_to_clean = ['Hardness', 'Solids', 'Organic_carbon']\n", "\n", "# Функция для удаления выбросов\n", "def remove_outliers(df, columns):\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Удаляем строки, содержащие выбросы\n", " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", " \n", " return df\n", "\n", "# Удаляем выбросы\n", "df_cleaned = remove_outliers(df, columns_to_clean)\n", "\n", "# Выводим количество удаленных строк\n", "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", "\n", "# Создаем диаграммы размаха для очищенных данных\n", "plt.figure(figsize=(15, 6))\n", "\n", "# Диаграмма размаха для Hardness\n", "plt.subplot(1, 3, 1)\n", "sns.boxplot(x=df_cleaned['Hardness'])\n", "plt.title('Box Plot of Hardness (Cleaned)')\n", "plt.xlabel('Hardness')\n", "\n", "# Диаграмма размаха для Solids\n", "plt.subplot(1, 3, 2)\n", "sns.boxplot(x=df_cleaned['Solids'])\n", "plt.title('Box Plot of Solids (Cleaned)')\n", "plt.xlabel('Solids')\n", "\n", "# Диаграмма размаха для Organic_carbon\n", "plt.subplot(1, 3, 3)\n", "sns.boxplot(x=df_cleaned['Organic_carbon'])\n", "plt.title('Box Plot of Organic_carbon (Cleaned)')\n", "plt.xlabel('Organic_carbon')\n", "\n", "plt.tight_layout()\n", "plt.show()\n", "\n", "# Сохраняем очищенный датасет\n", "df_cleaned.to_csv(\"..//..//static//csv//water_potability_cleaned.csv\", index=False)\n", "df = df_cleaned" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Количество выбросов уменьшилось.\n", "\n", "### Теперь проверим на пустые значения" ] }, { "cell_type": "code", "execution_count": 542, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ph 466\n", "Hardness 0\n", "Solids 0\n", "Chloramines 0\n", "Sulfate 746\n", "Conductivity 0\n", "Organic_carbon 0\n", "Trihalomethanes 154\n", "Turbidity 0\n", "Potability 0\n", "dtype: int64\n", "\n", "ph True\n", "Hardness False\n", "Solids False\n", "Chloramines False\n", "Sulfate True\n", "Conductivity False\n", "Organic_carbon False\n", "Trihalomethanes True\n", "Turbidity False\n", "Potability False\n", "dtype: bool\n", "\n", "ph процент пустых значений: %14.88\n", "Sulfate процент пустых значений: %23.83\n", "Trihalomethanes процент пустых значений: %4.92\n" ] } ], "source": [ "# Количество пустых значений признаков\n", "print(df.isnull().sum())\n", "\n", "print()\n", "\n", "# Есть ли пустые значения признаков\n", "print(df.isnull().any())\n", "\n", "print()\n", "\n", "# Процент пустых значений признаков\n", "for i in df.columns:\n", " null_rate = df[i].isnull().sum() / len(df) * 100\n", " if null_rate > 0:\n", " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В трех столбцах встречается большое число пустых значений. Поэтому вместо удаления заменим их значения на медиану." ] }, { "cell_type": "code", "execution_count": 543, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Количество пустых значений в каждом столбце после замены:\n", "ph 0\n", "Hardness 0\n", "Solids 0\n", "Chloramines 0\n", "Sulfate 0\n", "Conductivity 0\n", "Organic_carbon 0\n", "Trihalomethanes 0\n", "Turbidity 0\n", "Potability 0\n", "dtype: int64\n" ] } ], "source": [ "# Замена значений\n", "df[\"ph\"] = df[\"ph\"].fillna(df[\"ph\"].median())\n", "df[\"Sulfate\"] = df[\"Sulfate\"].fillna(df[\"Sulfate\"].median())\n", "df[\"Trihalomethanes\"] = df[\"Trihalomethanes\"].fillna(df[\"Trihalomethanes\"].median())\n", "\n", "# Проверка на пропущенные значения после замены\n", "missing_values_after_drop = df.isnull().sum()\n", "\n", "# Вывод результатов после замены\n", "print(\"\\nКоличество пустых значений в каждом столбце после замены:\")\n", "print(missing_values_after_drop)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Пустых значений в датасете теперь нет.\n", "\n", "### Можно перейти к созданию выборок" ] }, { "cell_type": "code", "execution_count": 544, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: (1878, 9)\n", "Размер контрольной выборки: (626, 9)\n", "Размер тестовой выборки: (627, 9)\n" ] } ], "source": [ "# Разделение на признаки (X) и целевую переменную (y)\n", "# Предположим, что Potability - это целевая переменная\n", "X = df.drop('Potability', axis=1)\n", "y = df['Potability']\n", "\n", "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", "\n", "# Разбиение остатка на контрольную и тестовую выборки\n", "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", "\n", "# Вывод размеров выборок\n", "print(\"Размер обучающей выборки:\", X_train.shape)\n", "print(\"Размер контрольной выборки:\", X_val.shape)\n", "print(\"Размер тестовой выборки:\", X_test.shape)" ] }, { "cell_type": "code", "execution_count": 545, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение классов в обучающей выборке:\n", "Potability\n", "0 0.613951\n", "1 0.386049\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в контрольной выборке:\n", "Potability\n", "0 0.616613\n", "1 0.383387\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в тестовой выборке:\n", "Potability\n", "0 0.614035\n", "1 0.385965\n", "Name: proportion, dtype: float64\n" ] } ], "source": [ "# Функция для анализа сбалансированности\n", "def analyze_balance(y_train, y_val, y_test):\n", " print(\"Распределение классов в обучающей выборке:\")\n", " print(y_train.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в контрольной выборке:\")\n", " print(y_val.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в тестовой выборке:\")\n", " print(y_test.value_counts(normalize=True))\n", "\n", "# Анализ сбалансированности\n", "analyze_balance(y_train, y_val, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Такие выборки сложно назвать сбалансированными. Сделаем приращение данных методом выборки с избытком (oversampling)" ] }, { "cell_type": "code", "execution_count": 546, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Сбалансированность обучающей выборки после SMOTE:\n", "Potability\n", "1 0.5\n", "0 0.5\n", "Name: proportion, dtype: float64\n" ] } ], "source": [ "smote = SMOTE(random_state=42)\n", "\n", "# Применение SMOTE для балансировки обучающей выборки\n", "X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)\n", "\n", "# Проверка сбалансированности после SMOTE\n", "print(\"Сбалансированность обучающей выборки после SMOTE:\")\n", "print(y_train_resampled.value_counts(normalize=True))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можно увидеть, что выборка была успешно сбалансирована." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "## Датасет №3 (данные о диабете) \n", "\n", "Ссылка: https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset\n", "\n", "Проблемная область: диагностика диабета и выявление факторов, влияющих на риск его возникновения.\n", "\n", "Объекты наблюдения: женщины в возрасте от 21 года из группы индейцев племени Пима." ] }, { "cell_type": "code", "execution_count": 547, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',\n", " 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],\n", " dtype='object')\n" ] } ], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.model_selection import train_test_split\n", "from imblearn.under_sampling import RandomUnderSampler\n", "\n", "# вывод всех столбцов\n", "df = pd.read_csv(\"..//..//static//csv//diabetes.csv\")\n", "print(df.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Атрибуты: \n", "* Pregnancies – количество беременностей у пациентки;\n", "* Glucose – уровень глюкозы в крови;\n", "* BloodPressure – артериальное давление;\n", "* SkinThickness – толщина кожи;\n", "* Insulin – уровень инсулина в крови;\n", "* BMI – индекс массы тела (Body Mass Index);\n", "* DiabetesPedigreeFunction – вероятность наследственной предрасположенности к диабету;\n", "* Age – возраст пациентки;\n", "* Outcome – признак, показывающий, диагностирован ли диабет (1 – да, 0 – нет).\n", "\n", "Примеры бизнес целей и целей технического проекта:\n", "1. Разработка программ ранней диагностики диабета.\n", " * Бизнес-цель: создание системы раннего выявления пациентов с высоким риском диабета для снижения затрат на лечение и улучшения прогноза.\n", " * Цель технического проекта: создание алгоритмов машинного обучения для предсказания вероятности заболевания на основе медицинских данных.\n", "2. Оптимизация медицинского мониторинга пациентов.\n", " * Бизнес-цель: эффективное распределение ресурсов здравоохранения за счет фокусирования на группах риска.\n", " * Цель технического проекта: разработка платформы для интеграции медицинских данных, которая позволит отслеживать ключевые показатели здоровья и предсказывать осложнения.\n", "3. Повышение осведомленности о факторах риска диабета среди населения.\n", " * Бизнес-цель: внедрение образовательных кампаний, направленных на изменение образа жизни с целью профилактики диабета.\n", " * Цель технического проекта: создание системы оповещения пациентов с рекомендациями на основе их медицинских показателей.\n", "\n", "Входные данные и целевой признак могут быть следующими:\n", "1. Входные данные:\n", " * количество беременностей;\n", " * уровень глюкозы в крови;\n", " * артериальное давление;\n", " * толщина кожи;\n", " * уровень инсулина в крови;\n", " * индекс массы тела;\n", " * вероятность наследственной предрасположенности к диабету;\n", " * возраст.\n", "2. Целевой признак:\n", " * Диагностика диабета (1 – да, 0 – нет).\n", "\n", "Актуальность: анализ медицинских данных для ранней диагностики диабета играет ключевую роль в профилактике этого заболевания и управлении им. Выявление факторов риска позволяет принимать превентивные меры, снижая вероятность осложнений и улучшая качество жизни пациентов.\n", "\n", "### Проверяем на выбросы" ] }, { "cell_type": "code", "execution_count": 548, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество выбросов в столбце 'Age': 9\n", "Количество выбросов в столбце 'BloodPressure': 45\n", "Количество выбросов в столбце 'BMI': 19\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Выбираем столбцы для анализа\n", "columns_to_check = ['Age', 'BloodPressure', 'BMI']\n", "\n", "# Функция для подсчета выбросов\n", "def count_outliers(df, columns):\n", " outliers_count = {}\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Считаем количество выбросов\n", " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", " outliers_count[col] = len(outliers)\n", " \n", " return outliers_count\n", "\n", "# Подсчитываем выбросы\n", "outliers_count = count_outliers(df, columns_to_check)\n", "\n", "# Выводим количество выбросов для каждого столбца\n", "for col, count in outliers_count.items():\n", " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", "\n", "# Создаем диаграммы размахов\n", "plt.figure(figsize=(15, 10))\n", "for i, col in enumerate(columns_to_check, 1):\n", " plt.subplot(2, 2, i)\n", " sns.boxplot(x=df[col])\n", " plt.title(f'Box Plot of {col}')\n", "plt.tight_layout()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В каждом из выбранных столбцов присутствуют выбросы. Очистим их." ] }, { "cell_type": "code", "execution_count": 549, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Количество удаленных строк: 61\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Выбираем столбцы для очистки\n", "columns_to_clean = ['Age', 'BloodPressure', 'BMI']\n", "\n", "# Функция для удаления выбросов\n", "def remove_outliers(df, columns):\n", " for col in columns:\n", " Q1 = df[col].quantile(0.25)\n", " Q3 = df[col].quantile(0.75)\n", " IQR = Q3 - Q1\n", " lower_bound = Q1 - 1.5 * IQR\n", " upper_bound = Q3 + 1.5 * IQR\n", " \n", " # Удаляем строки, содержащие выбросы\n", " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", " \n", " return df\n", "\n", "# Удаляем выбросы\n", "df_cleaned = remove_outliers(df, columns_to_clean)\n", "\n", "# Выводим количество удаленных строк\n", "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", "\n", "# Создаем диаграммы размаха для очищенных данных\n", "plt.figure(figsize=(15, 6))\n", "\n", "# Диаграмма размаха для Age\n", "plt.subplot(1, 3, 1)\n", "sns.boxplot(x=df_cleaned['Age'])\n", "plt.title('Box Plot of Age (Cleaned)')\n", "plt.xlabel('Age')\n", "\n", "# Диаграмма размаха для BloodPressure\n", "plt.subplot(1, 3, 2)\n", "sns.boxplot(x=df_cleaned['BloodPressure'])\n", "plt.title('Box Plot of BloodPressure (Cleaned)')\n", "plt.xlabel('BloodPressure')\n", "\n", "# Диаграмма размаха для BMI\n", "plt.subplot(1, 3, 3)\n", "sns.boxplot(x=df_cleaned['BMI'])\n", "plt.title('Box Plot of BMI (Cleaned)')\n", "plt.xlabel('BMI')\n", "\n", "plt.tight_layout()\n", "plt.show()\n", "\n", "# Сохраняем очищенный датасет\n", "df_cleaned.to_csv(\"..//..//static//csv//diabetes_cleaned.csv\", index=False)\n", "df = df_cleaned" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Количество выбросов уменьшилось.\n", "\n", "### Теперь проверим на пустые значения" ] }, { "cell_type": "code", "execution_count": 550, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Pregnancies 0\n", "Glucose 0\n", "BloodPressure 0\n", "SkinThickness 0\n", "Insulin 0\n", "BMI 0\n", "DiabetesPedigreeFunction 0\n", "Age 0\n", "Outcome 0\n", "dtype: int64\n", "\n", "Pregnancies False\n", "Glucose False\n", "BloodPressure False\n", "SkinThickness False\n", "Insulin False\n", "BMI False\n", "DiabetesPedigreeFunction False\n", "Age False\n", "Outcome False\n", "dtype: bool\n", "\n" ] } ], "source": [ "# Количество пустых значений признаков\n", "print(df.isnull().sum())\n", "\n", "print()\n", "\n", "# Есть ли пустые значения признаков\n", "print(df.isnull().any())\n", "\n", "print()\n", "\n", "# Процент пустых значений признаков\n", "for i in df.columns:\n", " null_rate = df[i].isnull().sum() / len(df) * 100\n", " if null_rate > 0:\n", " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Пустых значений в датасете нет. \n", "\n", "### Можно перейти к созданию выборок" ] }, { "cell_type": "code", "execution_count": 551, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: (424, 8)\n", "Размер контрольной выборки: (141, 8)\n", "Размер тестовой выборки: (142, 8)\n" ] } ], "source": [ "# Разделение на признаки (X) и целевую переменную (y)\n", "# Предположим, что Outcome - это целевая переменная\n", "X = df.drop('Outcome', axis=1)\n", "y = df['Outcome']\n", "\n", "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", "\n", "# Разбиение остатка на контрольную и тестовую выборки\n", "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", "\n", "# Вывод размеров выборок\n", "print(\"Размер обучающей выборки:\", X_train.shape)\n", "print(\"Размер контрольной выборки:\", X_val.shape)\n", "print(\"Размер тестовой выборки:\", X_test.shape)" ] }, { "cell_type": "code", "execution_count": 552, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение классов в обучающей выборке:\n", "Outcome\n", "0 0.658019\n", "1 0.341981\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в контрольной выборке:\n", "Outcome\n", "0 0.680851\n", "1 0.319149\n", "Name: proportion, dtype: float64\n", "\n", "Распределение классов в тестовой выборке:\n", "Outcome\n", "0 0.640845\n", "1 0.359155\n", "Name: proportion, dtype: float64\n" ] } ], "source": [ "# Функция для анализа сбалансированности\n", "def analyze_balance(y_train, y_val, y_test):\n", " print(\"Распределение классов в обучающей выборке:\")\n", " print(y_train.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в контрольной выборке:\")\n", " print(y_val.value_counts(normalize=True))\n", " \n", " print(\"\\nРаспределение классов в тестовой выборке:\")\n", " print(y_test.value_counts(normalize=True))\n", "\n", "# Анализ сбалансированности\n", "analyze_balance(y_train, y_val, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Такие выборки сложно назвать сбалансированными. В этот раз используем метод выборки с недостатком (undersampling)." ] }, { "cell_type": "code", "execution_count": 553, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Сбалансированность обучающей выборки после undersampling:\n", "Outcome\n", "0 0.5\n", "1 0.5\n", "Name: proportion, dtype: float64\n" ] } ], "source": [ "undersampler = RandomUnderSampler(random_state=42)\n", "\n", "X_train_resampled, y_train_resampled = undersampler.fit_resample(X_train, y_train)\n", "\n", "print(\"Сбалансированность обучающей выборки после undersampling:\")\n", "print(y_train_resampled.value_counts(normalize=True))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можно увидеть, что выборка была успешно сбалансирована." ] } ], "metadata": { "kernelspec": { "display_name": "aimenv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.12.5" } }, "nbformat": 4, "nbformat_minor": 2 }