diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb new file mode 100644 index 0000000..1bfbc4c --- /dev/null +++ b/lab_2/lab2.ipynb @@ -0,0 +1,1363 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Датасет №1 (рейтинги плиток шоколада) \n", + "\n", + "Ссылка: https://www.kaggle.com/datasets/rtatman/chocolate-bar-ratings\n", + "\n", + "Проблемная область: качество шоколада и факторы, влияющие на его оценку потребителями.\n", + "\n", + "Объекты наблюдения: плитки шоколада, каждая из которых имеет свои уникальные характеристики." + ] + }, + { + "cell_type": "code", + "execution_count": 532, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Company (Maker-if known)', 'Specific Bean Originor Bar Name', 'REF',\n", + " 'ReviewDate', 'CocoaPercent', 'CompanyLocation', 'Rating', 'BeanType',\n", + " 'Broad BeanOrigin'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "\n", + "# вывод всех столбцов\n", + "df = pd.read_csv(\"..//..//static//csv//flavors_of_cacao.csv\")\n", + "df.columns = df.columns.str.replace('\\n', '')\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Атрибуты: \n", + "* Company (Maker-if known) – название компании-производителя плитки;\n", + "* Specific Bean Originor Bar Name – географический регион происхождения плитки;\n", + "* REF – значение, связанное с тем, когда рецензия была внесена в базу данных. Чем значение больше, тем позже;\n", + "* ReviewDate – дата публикации рецензии;\n", + "* CocoaPercent – процент какао в плитке;\n", + "* CompanyLocation – страна, где базируется производитель;\n", + "* Rating – оценка эксперта;\n", + "* BeanType – разновидность какао-бобов;\n", + "* Broad BeanOrigin – географический регион происхождения бобов.\n", + "\n", + "Примеры бизнес целей и целей технического проекта:\n", + "1. Оптимизация рецептур и производство высококачественного шоколада.\n", + " * Бизнес-цель: повышение качества шоколадных плиток на основе анализа рейтингов и факторов, влияющих на вкус и текстуру (процент какао, происхождение бобов, сорт бобов).\n", + " * Цель технического проекта: разработка системы анализа и предсказания успешности шоколада на основе его рейтинга, используя характеристики какао-бобов, содержания какао и других параметров.\n", + "2. Разработка маркетинговых стратегий для производителей шоколада.\n", + " * Бизнес-цель: определение лучших производителей и регионов происхождения какао-бобов для создания продуктов премиум-класса и продвижения их на рынке.\n", + " * Цель технического проекта: создание системы ранжирования производителей и регионов на основе данных о рейтингах шоколадных плиток и происхождении какао-бобов.\n", + "3. Стратегии закупок сырья для промышленности.\n", + " * Бизнес-цель: оптимизация цепочек поставок какао-бобов с высоким качеством для производства шоколада с лучшими характеристиками.\n", + " * Цель технического проекта: разработка системы анализа происхождения какао-бобов и их связи с качеством шоколада для улучшения стратегий закупок и логистики.\n", + "\n", + "Входные данные и целевой признак могут быть следующими:\n", + "1. Входные данные:\n", + " * Регион происхождения плитки;\n", + " * Название кампании-производителя плитки;\n", + " * Процент какао в плитке;\n", + " * Страна, где базируется производитель;\n", + " * Разновидность какао-бобов;\n", + " * Регион происхождения бобов.\n", + "2. Целевой признак:\n", + " * Рейтинг, как оценка качества шоколада.\n", + "\n", + "Актуальность: анализ качества шоколада и факторов, влияющих на вкусовые характеристики, не только помогает производителям улучшать свои продукты и удовлетворять требования потребителей, но и способствует развитию новых технологий в пищевой промышленности, улучшению цепочек поставок и изучению свойств какао. Поэтому эта тема имеет важное значение для развития кондитерской индустрии, повышения стандартов качества и поддержки устойчивого производства.\n", + "\n", + "### Проверяем на выбросы" + ] + }, + { + "cell_type": "code", + "execution_count": 533, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество выбросов в столбце 'CocoaPercent': 186\n", + "Количество выбросов в столбце 'Rating': 19\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Удаляем символ '%' и преобразуем столбец CocoaPercent в числовой формат\n", + "df['CocoaPercent'] = df['CocoaPercent'].str.replace('%', '').astype(float)\n", + "\n", + "# Выбираем столбцы для анализа\n", + "columns_to_check = ['CocoaPercent', 'Rating']\n", + "\n", + "# Функция для подсчета выбросов\n", + "def count_outliers(df, columns):\n", + " outliers_count = {}\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Считаем количество выбросов\n", + " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", + " outliers_count[col] = len(outliers)\n", + " \n", + " return outliers_count\n", + "\n", + "# Подсчитываем выбросы\n", + "outliers_count = count_outliers(df, columns_to_check)\n", + "\n", + "# Выводим количество выбросов для каждого столбца\n", + "for col, count in outliers_count.items():\n", + " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", + "\n", + "# Создаем диаграммы размахов\n", + "plt.figure(figsize=(15, 10))\n", + "for i, col in enumerate(columns_to_check, 1):\n", + " plt.subplot(2, 2, i)\n", + " sns.boxplot(x=df[col])\n", + " plt.title(f'Box Plot of {col}')\n", + "plt.tight_layout()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Можно заметить, что оба столбца содержат выбросы, однако их значительно больше в столбце CocoaPercent. Кроме того, экстремальные значения здесь могут быть редкими экспериментальными продуктами и не отражать массовый рынок, а значит искажать статические модели и предсказания. С другой стороны, у столбца Rating выбросы несут информацию о таких крайних случаях, как исключительное качество продукта или совсем неудачный продукт. Такие данные могут быть ценны, особенно если целью является определение лучших и худших образцов для создания маркетинговых стратегий. Значит имеет смысл очистить от выбросов только столбец CocoaPercent.\n", + "\n", + "### Очищаем CocoaPercent от выбросов" + ] + }, + { + "cell_type": "code", + "execution_count": 534, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество удаленных строк: 186\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Выбираем столбцы для очистки\n", + "columns_to_clean = ['CocoaPercent']\n", + "\n", + "# Функция для удаления выбросов\n", + "def remove_outliers(df, columns):\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Удаляем строки, содержащие выбросы\n", + " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", + " \n", + " return df\n", + "\n", + "# Удаляем выбросы\n", + "df_cleaned = remove_outliers(df, columns_to_clean)\n", + "\n", + "# Выводим количество удаленных строк\n", + "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", + "\n", + "# Создаем диаграммы размаха для очищенных данных\n", + "plt.figure(figsize=(15, 6))\n", + "\n", + "# Диаграмма размаха для CocoaPercent\n", + "plt.subplot(1, 2, 1)\n", + "sns.boxplot(x=df_cleaned['CocoaPercent'])\n", + "plt.title('Box Plot of CocoaPercent (Cleaned)')\n", + "plt.xlabel('Cocoa Percent')\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "# Сохраняем очищенный датасет\n", + "df_cleaned.to_csv(\"..//..//static//csv//flavors_of_cacao_cleaned.csv\", index=False)\n", + "df = df_cleaned" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Видно, что выбросов практически не осталось.\n", + "\n", + "### Теперь проверим на пустые значения" + ] + }, + { + "cell_type": "code", + "execution_count": 535, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Company (Maker-if known) 0\n", + "Specific Bean Originor Bar Name 0\n", + "REF 0\n", + "ReviewDate 0\n", + "CocoaPercent 0\n", + "CompanyLocation 0\n", + "Rating 0\n", + "BeanType 1\n", + "Broad BeanOrigin 1\n", + "dtype: int64\n", + "\n", + "Company (Maker-if known) False\n", + "Specific Bean Originor Bar Name False\n", + "REF False\n", + "ReviewDate False\n", + "CocoaPercent False\n", + "CompanyLocation False\n", + "Rating False\n", + "BeanType True\n", + "Broad BeanOrigin True\n", + "dtype: bool\n", + "\n", + "BeanType процент пустых значений: %0.06\n", + "Broad BeanOrigin процент пустых значений: %0.06\n" + ] + } + ], + "source": [ + "# Количество пустых значений признаков\n", + "print(df.isnull().sum())\n", + "\n", + "print()\n", + "\n", + "# Есть ли пустые значения признаков\n", + "print(df.isnull().any())\n", + "\n", + "print()\n", + "\n", + "# Процент пустых значений признаков\n", + "for i in df.columns:\n", + " null_rate = df[i].isnull().sum() / len(df) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "В датасете имеется пара пустых значений. Удалим их." + ] + }, + { + "cell_type": "code", + "execution_count": 536, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Количество пустых значений в каждом столбце после удаления:\n", + "Company (Maker-if known) 0\n", + "Specific Bean Originor Bar Name 0\n", + "REF 0\n", + "ReviewDate 0\n", + "CocoaPercent 0\n", + "CompanyLocation 0\n", + "Rating 0\n", + "BeanType 0\n", + "Broad BeanOrigin 0\n", + "dtype: int64\n" + ] + } + ], + "source": [ + "# Удаление пропущенных значений в столбцах BeanType и Broad BeanOrigin\n", + "df = df.dropna(subset=['BeanType', 'Broad BeanOrigin'])\n", + "\n", + "# Проверка на пропущенные значения после удаления\n", + "missing_values_after_drop = df.isnull().sum()\n", + "\n", + "# Вывод результатов после удаления\n", + "print(\"\\nКоличество пустых значений в каждом столбце после удаления:\")\n", + "print(missing_values_after_drop)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Пустых значений в датасете теперь нет.\n", + "\n", + "### Можно перейти к созданию выборок" + ] + }, + { + "cell_type": "code", + "execution_count": 537, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (964, 8)\n", + "Размер контрольной выборки: (321, 8)\n", + "Размер тестовой выборки: (322, 8)\n" + ] + } + ], + "source": [ + "# Разделение на признаки (X) и целевую переменную (y)\n", + "# Предположим, что Rating - это целевая переменная\n", + "X = df.drop('Rating', axis=1)\n", + "y = df['Rating']\n", + "\n", + "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", + "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", + "\n", + "# Разбиение остатка на контрольную и тестовую выборки\n", + "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", + "\n", + "# Вывод размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": 538, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение классов в обучающей выборке:\n", + "Rating\n", + "3.50 0.242739\n", + "3.00 0.199170\n", + "3.25 0.155602\n", + "2.75 0.137967\n", + "3.75 0.125519\n", + "2.50 0.062241\n", + "4.00 0.050830\n", + "2.00 0.012448\n", + "2.25 0.007261\n", + "5.00 0.002075\n", + "1.50 0.002075\n", + "1.75 0.001037\n", + "1.00 0.001037\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в контрольной выборке:\n", + "Rating\n", + "3.50 0.211838\n", + "3.00 0.168224\n", + "3.25 0.165109\n", + "2.75 0.137072\n", + "3.75 0.127726\n", + "2.50 0.074766\n", + "4.00 0.074766\n", + "2.00 0.021807\n", + "2.25 0.009346\n", + "1.50 0.006231\n", + "1.00 0.003115\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в тестовой выборке:\n", + "Rating\n", + "3.25 0.211180\n", + "3.50 0.198758\n", + "3.00 0.164596\n", + "2.75 0.145963\n", + "3.75 0.136646\n", + "4.00 0.068323\n", + "2.50 0.062112\n", + "2.00 0.006211\n", + "1.00 0.003106\n", + "2.25 0.003106\n", + "Name: proportion, dtype: float64\n" + ] + } + ], + "source": [ + "# Функция для анализа сбалансированности\n", + "def analyze_balance(y_train, y_val, y_test):\n", + " print(\"Распределение классов в обучающей выборке:\")\n", + " print(y_train.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в контрольной выборке:\")\n", + " print(y_val.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в тестовой выборке:\")\n", + " print(y_test.value_counts(normalize=True))\n", + "\n", + "# Анализ сбалансированности\n", + "analyze_balance(y_train, y_val, y_test)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выборки несбалансированны в частности из-за того, что некоторые классы занимают крайне малую долю в данных. При необходимости получить сбалансированный набор можно использовать специальные методы, к примеру oversampling и undersampling. Но в данном случае просто так их использовать не получится, потому что задача модели состоит в том, чтобы предсказать числовые (регрессионые) значения, а большинство реализаций в таком случае применить не получится. К тому же в Rating мало уникальных значений, что вызовет проблемы при использовании методов, предназначенных для регрессии (таких как к примеру SMOGN). Поэтому здесь применение таких методов не является целесообразным.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Датасет №2 (качество воды) \n", + "\n", + "Ссылка: https://www.kaggle.com/datasets/adityakadiwal/water-potability\n", + "\n", + "Проблемная область: качество питьевой воды и факторы, влияющие на ее безопасность для здоровья.\n", + "\n", + "Объекты наблюдения: водоемы, содержащие воду разного качества." + ] + }, + { + "cell_type": "code", + "execution_count": 539, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['ph', 'Hardness', 'Solids', 'Chloramines', 'Sulfate', 'Conductivity',\n", + " 'Organic_carbon', 'Trihalomethanes', 'Turbidity', 'Potability'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "from imblearn.over_sampling import SMOTE\n", + "\n", + "# вывод всех столбцов\n", + "df = pd.read_csv(\"..//..//static//csv//water_potability.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Атрибуты: \n", + "* ph – параметр для оценки кислотно-щелочного баланса воды;\n", + "* Hardness – жесткость воды, определяемая содержанием кальция и магния;\n", + "* Solids – общее количество растворенных веществ, указывающее на минерализацию воды;\n", + "* Chloramines – концентрация хлора и хлораминов, использующихся для дезинфекции воды;\n", + "* Sulfate – содержание сульфатов, присутствующих в воде;\n", + "* Conductivity – электропроводность воды, измеряющая уровень ионов в растворе;\n", + "* Organic_carbon – уровень органического углерода, происходящего из разлагающихся органических веществ;\n", + "* Trihalomethanes – концентрация трихалометанов, образующихся при обработке хлором;\n", + "* Turbidity – мутность воды, указывающая на количество взвешенных твердых частиц;\n", + "* Potability – показатель пригодности воды для питья (1 – пригодна, 0 – непригодна).\n", + "\n", + "Примеры бизнес целей и целей технического проекта:\n", + "1. Совершенствование систем очистки воды.\n", + " * Бизнес-цель: разработка и внедрение инновационных технологий очистки воды, чтобы уменьшить расходы на водоочистные сооружения и повысить их эффективность.\n", + " * Цель технического проекта: проектирование и тестирование новых фильтров и процессов очистки на основе данных о загрязнении воды.\n", + "2. Интеграция данных для управления водными ресурсами.\n", + " * Бизнес-цель: объединение данных о водных ресурсах для комплексного анализа и управления, что позволит более эффективно распределять ресурсы.\n", + " * Цель технического проекта: разработка платформы для интеграции данных с различных датчиков и источников информации, использующей машинное обучение для прогнозирования изменений качества воды.\n", + "3. Повышение осведомленности о качестве воды.\n", + " * Бизнес-цель: информирование населения о состоянии водоемов и возможных рисках для здоровья.\n", + " * Цель технического проекта: разработка платформы для публичного доступа к данным о качестве воды.\n", + "\n", + "Входные данные и целевой признак могут быть следующими:\n", + "1. Входные данные:\n", + " * pH значение;\n", + " * Жесткость воды;\n", + " * Общее количество растворенных веществ;\n", + " * Концентрация хлора и хлораминов;\n", + " * Содержание сульфатов;\n", + " * Электропроводность;\n", + " * Уровень органического углерода;\n", + " * Концентрация трихалометанов;\n", + " * Мутность воды.\n", + "2. Целевой признак:\n", + " * Пригодность воды для питья.\n", + "\n", + "Актуальность: анализ качества питьевой воды и факторов, влияющих на ее безопасность, играет очень важную роль в охране здоровья населения. Так мониторинг факторов, влияющих на качество воды, позволит предотвращать вспышки заболеваний и способствовать повышению уровня жизни.\n", + "\n", + "### Проверяем на выбросы" + ] + }, + { + "cell_type": "code", + "execution_count": 540, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество выбросов в столбце 'Hardness': 83\n", + "Количество выбросов в столбце 'Solids': 47\n", + "Количество выбросов в столбце 'Organic_carbon': 25\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Выбираем столбцы для анализа\n", + "columns_to_check = ['Hardness', 'Solids', 'Organic_carbon']\n", + "\n", + "# Функция для подсчета выбросов\n", + "def count_outliers(df, columns):\n", + " outliers_count = {}\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Считаем количество выбросов\n", + " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", + " outliers_count[col] = len(outliers)\n", + " \n", + " return outliers_count\n", + "\n", + "# Подсчитываем выбросы\n", + "outliers_count = count_outliers(df, columns_to_check)\n", + "\n", + "# Выводим количество выбросов для каждого столбца\n", + "for col, count in outliers_count.items():\n", + " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", + "\n", + "# Создаем диаграммы размахов\n", + "plt.figure(figsize=(15, 10))\n", + "for i, col in enumerate(columns_to_check, 1):\n", + " plt.subplot(2, 2, i)\n", + " sns.boxplot(x=df[col])\n", + " plt.title(f'Box Plot of {col}')\n", + "plt.tight_layout()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "В каждом из выбранных столбцов присутствуют выбросы. Очистим их." + ] + }, + { + "cell_type": "code", + "execution_count": 541, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество удаленных строк: 145\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Выбираем столбцы для очистки\n", + "columns_to_clean = ['Hardness', 'Solids', 'Organic_carbon']\n", + "\n", + "# Функция для удаления выбросов\n", + "def remove_outliers(df, columns):\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Удаляем строки, содержащие выбросы\n", + " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", + " \n", + " return df\n", + "\n", + "# Удаляем выбросы\n", + "df_cleaned = remove_outliers(df, columns_to_clean)\n", + "\n", + "# Выводим количество удаленных строк\n", + "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", + "\n", + "# Создаем диаграммы размаха для очищенных данных\n", + "plt.figure(figsize=(15, 6))\n", + "\n", + "# Диаграмма размаха для Hardness\n", + "plt.subplot(1, 3, 1)\n", + "sns.boxplot(x=df_cleaned['Hardness'])\n", + "plt.title('Box Plot of Hardness (Cleaned)')\n", + "plt.xlabel('Hardness')\n", + "\n", + "# Диаграмма размаха для Solids\n", + "plt.subplot(1, 3, 2)\n", + "sns.boxplot(x=df_cleaned['Solids'])\n", + "plt.title('Box Plot of Solids (Cleaned)')\n", + "plt.xlabel('Solids')\n", + "\n", + "# Диаграмма размаха для Organic_carbon\n", + "plt.subplot(1, 3, 3)\n", + "sns.boxplot(x=df_cleaned['Organic_carbon'])\n", + "plt.title('Box Plot of Organic_carbon (Cleaned)')\n", + "plt.xlabel('Organic_carbon')\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "# Сохраняем очищенный датасет\n", + "df_cleaned.to_csv(\"..//..//static//csv//water_potability_cleaned.csv\", index=False)\n", + "df = df_cleaned" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Количество выбросов уменьшилось.\n", + "\n", + "### Теперь проверим на пустые значения" + ] + }, + { + "cell_type": "code", + "execution_count": 542, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ph 466\n", + "Hardness 0\n", + "Solids 0\n", + "Chloramines 0\n", + "Sulfate 746\n", + "Conductivity 0\n", + "Organic_carbon 0\n", + "Trihalomethanes 154\n", + "Turbidity 0\n", + "Potability 0\n", + "dtype: int64\n", + "\n", + "ph True\n", + "Hardness False\n", + "Solids False\n", + "Chloramines False\n", + "Sulfate True\n", + "Conductivity False\n", + "Organic_carbon False\n", + "Trihalomethanes True\n", + "Turbidity False\n", + "Potability False\n", + "dtype: bool\n", + "\n", + "ph процент пустых значений: %14.88\n", + "Sulfate процент пустых значений: %23.83\n", + "Trihalomethanes процент пустых значений: %4.92\n" + ] + } + ], + "source": [ + "# Количество пустых значений признаков\n", + "print(df.isnull().sum())\n", + "\n", + "print()\n", + "\n", + "# Есть ли пустые значения признаков\n", + "print(df.isnull().any())\n", + "\n", + "print()\n", + "\n", + "# Процент пустых значений признаков\n", + "for i in df.columns:\n", + " null_rate = df[i].isnull().sum() / len(df) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "В трех столбцах встречается большое число пустых значений. Поэтому вместо удаления заменим их значения на медиану." + ] + }, + { + "cell_type": "code", + "execution_count": 543, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Количество пустых значений в каждом столбце после замены:\n", + "ph 0\n", + "Hardness 0\n", + "Solids 0\n", + "Chloramines 0\n", + "Sulfate 0\n", + "Conductivity 0\n", + "Organic_carbon 0\n", + "Trihalomethanes 0\n", + "Turbidity 0\n", + "Potability 0\n", + "dtype: int64\n" + ] + } + ], + "source": [ + "# Замена значений\n", + "df[\"ph\"] = df[\"ph\"].fillna(df[\"ph\"].median())\n", + "df[\"Sulfate\"] = df[\"Sulfate\"].fillna(df[\"Sulfate\"].median())\n", + "df[\"Trihalomethanes\"] = df[\"Trihalomethanes\"].fillna(df[\"Trihalomethanes\"].median())\n", + "\n", + "# Проверка на пропущенные значения после замены\n", + "missing_values_after_drop = df.isnull().sum()\n", + "\n", + "# Вывод результатов после замены\n", + "print(\"\\nКоличество пустых значений в каждом столбце после замены:\")\n", + "print(missing_values_after_drop)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Пустых значений в датасете теперь нет.\n", + "\n", + "### Можно перейти к созданию выборок" + ] + }, + { + "cell_type": "code", + "execution_count": 544, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (1878, 9)\n", + "Размер контрольной выборки: (626, 9)\n", + "Размер тестовой выборки: (627, 9)\n" + ] + } + ], + "source": [ + "# Разделение на признаки (X) и целевую переменную (y)\n", + "# Предположим, что Potability - это целевая переменная\n", + "X = df.drop('Potability', axis=1)\n", + "y = df['Potability']\n", + "\n", + "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", + "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", + "\n", + "# Разбиение остатка на контрольную и тестовую выборки\n", + "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", + "\n", + "# Вывод размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": 545, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение классов в обучающей выборке:\n", + "Potability\n", + "0 0.613951\n", + "1 0.386049\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в контрольной выборке:\n", + "Potability\n", + "0 0.616613\n", + "1 0.383387\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в тестовой выборке:\n", + "Potability\n", + "0 0.614035\n", + "1 0.385965\n", + "Name: proportion, dtype: float64\n" + ] + } + ], + "source": [ + "# Функция для анализа сбалансированности\n", + "def analyze_balance(y_train, y_val, y_test):\n", + " print(\"Распределение классов в обучающей выборке:\")\n", + " print(y_train.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в контрольной выборке:\")\n", + " print(y_val.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в тестовой выборке:\")\n", + " print(y_test.value_counts(normalize=True))\n", + "\n", + "# Анализ сбалансированности\n", + "analyze_balance(y_train, y_val, y_test)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Такие выборки сложно назвать сбалансированными. Сделаем приращение данных методом выборки с избытком (oversampling)" + ] + }, + { + "cell_type": "code", + "execution_count": 546, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Сбалансированность обучающей выборки после SMOTE:\n", + "Potability\n", + "1 0.5\n", + "0 0.5\n", + "Name: proportion, dtype: float64\n" + ] + } + ], + "source": [ + "smote = SMOTE(random_state=42)\n", + "\n", + "# Применение SMOTE для балансировки обучающей выборки\n", + "X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)\n", + "\n", + "# Проверка сбалансированности после SMOTE\n", + "print(\"Сбалансированность обучающей выборки после SMOTE:\")\n", + "print(y_train_resampled.value_counts(normalize=True))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Можно увидеть, что выборка была успешно сбалансирована." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Датасет №3 (данные о диабете) \n", + "\n", + "Ссылка: https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset\n", + "\n", + "Проблемная область: диагностика диабета и выявление факторов, влияющих на риск его возникновения.\n", + "\n", + "Объекты наблюдения: женщины в возрасте от 21 года из группы индейцев племени Пима." + ] + }, + { + "cell_type": "code", + "execution_count": 547, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',\n", + " 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "from imblearn.under_sampling import RandomUnderSampler\n", + "\n", + "# вывод всех столбцов\n", + "df = pd.read_csv(\"..//..//static//csv//diabetes.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Атрибуты: \n", + "* Pregnancies – количество беременностей у пациентки;\n", + "* Glucose – уровень глюкозы в крови;\n", + "* BloodPressure – артериальное давление;\n", + "* SkinThickness – толщина кожи;\n", + "* Insulin – уровень инсулина в крови;\n", + "* BMI – индекс массы тела (Body Mass Index);\n", + "* DiabetesPedigreeFunction – вероятность наследственной предрасположенности к диабету;\n", + "* Age – возраст пациентки;\n", + "* Outcome – признак, показывающий, диагностирован ли диабет (1 – да, 0 – нет).\n", + "\n", + "Примеры бизнес целей и целей технического проекта:\n", + "1. Разработка программ ранней диагностики диабета.\n", + " * Бизнес-цель: создание системы раннего выявления пациентов с высоким риском диабета для снижения затрат на лечение и улучшения прогноза.\n", + " * Цель технического проекта: создание алгоритмов машинного обучения для предсказания вероятности заболевания на основе медицинских данных.\n", + "2. Оптимизация медицинского мониторинга пациентов.\n", + " * Бизнес-цель: эффективное распределение ресурсов здравоохранения за счет фокусирования на группах риска.\n", + " * Цель технического проекта: разработка платформы для интеграции медицинских данных, которая позволит отслеживать ключевые показатели здоровья и предсказывать осложнения.\n", + "3. Повышение осведомленности о факторах риска диабета среди населения.\n", + " * Бизнес-цель: внедрение образовательных кампаний, направленных на изменение образа жизни с целью профилактики диабета.\n", + " * Цель технического проекта: создание системы оповещения пациентов с рекомендациями на основе их медицинских показателей.\n", + "\n", + "Входные данные и целевой признак могут быть следующими:\n", + "1. Входные данные:\n", + " * количество беременностей;\n", + " * уровень глюкозы в крови;\n", + " * артериальное давление;\n", + " * толщина кожи;\n", + " * уровень инсулина в крови;\n", + " * индекс массы тела;\n", + " * вероятность наследственной предрасположенности к диабету;\n", + " * возраст.\n", + "2. Целевой признак:\n", + " * Диагностика диабета (1 – да, 0 – нет).\n", + "\n", + "Актуальность: анализ медицинских данных для ранней диагностики диабета играет ключевую роль в профилактике этого заболевания и управлении им. Выявление факторов риска позволяет принимать превентивные меры, снижая вероятность осложнений и улучшая качество жизни пациентов.\n", + "\n", + "### Проверяем на выбросы" + ] + }, + { + "cell_type": "code", + "execution_count": 548, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество выбросов в столбце 'Age': 9\n", + "Количество выбросов в столбце 'BloodPressure': 45\n", + "Количество выбросов в столбце 'BMI': 19\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Выбираем столбцы для анализа\n", + "columns_to_check = ['Age', 'BloodPressure', 'BMI']\n", + "\n", + "# Функция для подсчета выбросов\n", + "def count_outliers(df, columns):\n", + " outliers_count = {}\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Считаем количество выбросов\n", + " outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n", + " outliers_count[col] = len(outliers)\n", + " \n", + " return outliers_count\n", + "\n", + "# Подсчитываем выбросы\n", + "outliers_count = count_outliers(df, columns_to_check)\n", + "\n", + "# Выводим количество выбросов для каждого столбца\n", + "for col, count in outliers_count.items():\n", + " print(f\"Количество выбросов в столбце '{col}': {count}\")\n", + "\n", + "# Создаем диаграммы размахов\n", + "plt.figure(figsize=(15, 10))\n", + "for i, col in enumerate(columns_to_check, 1):\n", + " plt.subplot(2, 2, i)\n", + " sns.boxplot(x=df[col])\n", + " plt.title(f'Box Plot of {col}')\n", + "plt.tight_layout()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "В каждом из выбранных столбцов присутствуют выбросы. Очистим их." + ] + }, + { + "cell_type": "code", + "execution_count": 549, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество удаленных строк: 61\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Выбираем столбцы для очистки\n", + "columns_to_clean = ['Age', 'BloodPressure', 'BMI']\n", + "\n", + "# Функция для удаления выбросов\n", + "def remove_outliers(df, columns):\n", + " for col in columns:\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " # Удаляем строки, содержащие выбросы\n", + " df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n", + " \n", + " return df\n", + "\n", + "# Удаляем выбросы\n", + "df_cleaned = remove_outliers(df, columns_to_clean)\n", + "\n", + "# Выводим количество удаленных строк\n", + "print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n", + "\n", + "# Создаем диаграммы размаха для очищенных данных\n", + "plt.figure(figsize=(15, 6))\n", + "\n", + "# Диаграмма размаха для Age\n", + "plt.subplot(1, 3, 1)\n", + "sns.boxplot(x=df_cleaned['Age'])\n", + "plt.title('Box Plot of Age (Cleaned)')\n", + "plt.xlabel('Age')\n", + "\n", + "# Диаграмма размаха для BloodPressure\n", + "plt.subplot(1, 3, 2)\n", + "sns.boxplot(x=df_cleaned['BloodPressure'])\n", + "plt.title('Box Plot of BloodPressure (Cleaned)')\n", + "plt.xlabel('BloodPressure')\n", + "\n", + "# Диаграмма размаха для BMI\n", + "plt.subplot(1, 3, 3)\n", + "sns.boxplot(x=df_cleaned['BMI'])\n", + "plt.title('Box Plot of BMI (Cleaned)')\n", + "plt.xlabel('BMI')\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "# Сохраняем очищенный датасет\n", + "df_cleaned.to_csv(\"..//..//static//csv//diabetes_cleaned.csv\", index=False)\n", + "df = df_cleaned" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Количество выбросов уменьшилось.\n", + "\n", + "### Теперь проверим на пустые значения" + ] + }, + { + "cell_type": "code", + "execution_count": 550, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Pregnancies 0\n", + "Glucose 0\n", + "BloodPressure 0\n", + "SkinThickness 0\n", + "Insulin 0\n", + "BMI 0\n", + "DiabetesPedigreeFunction 0\n", + "Age 0\n", + "Outcome 0\n", + "dtype: int64\n", + "\n", + "Pregnancies False\n", + "Glucose False\n", + "BloodPressure False\n", + "SkinThickness False\n", + "Insulin False\n", + "BMI False\n", + "DiabetesPedigreeFunction False\n", + "Age False\n", + "Outcome False\n", + "dtype: bool\n", + "\n" + ] + } + ], + "source": [ + "# Количество пустых значений признаков\n", + "print(df.isnull().sum())\n", + "\n", + "print()\n", + "\n", + "# Есть ли пустые значения признаков\n", + "print(df.isnull().any())\n", + "\n", + "print()\n", + "\n", + "# Процент пустых значений признаков\n", + "for i in df.columns:\n", + " null_rate = df[i].isnull().sum() / len(df) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Пустых значений в датасете нет. \n", + "\n", + "### Можно перейти к созданию выборок" + ] + }, + { + "cell_type": "code", + "execution_count": 551, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (424, 8)\n", + "Размер контрольной выборки: (141, 8)\n", + "Размер тестовой выборки: (142, 8)\n" + ] + } + ], + "source": [ + "# Разделение на признаки (X) и целевую переменную (y)\n", + "# Предположим, что Outcome - это целевая переменная\n", + "X = df.drop('Outcome', axis=1)\n", + "y = df['Outcome']\n", + "\n", + "# Разбиение на обучающую и остальную выборку (контрольную + тестовую)\n", + "X_train, X_rem, y_train, y_rem = train_test_split(X, y, train_size=0.6, random_state=42)\n", + "\n", + "# Разбиение остатка на контрольную и тестовую выборки\n", + "X_val, X_test, y_val, y_test = train_test_split(X_rem, y_rem, test_size=0.5, random_state=42)\n", + "\n", + "# Вывод размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": 552, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение классов в обучающей выборке:\n", + "Outcome\n", + "0 0.658019\n", + "1 0.341981\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в контрольной выборке:\n", + "Outcome\n", + "0 0.680851\n", + "1 0.319149\n", + "Name: proportion, dtype: float64\n", + "\n", + "Распределение классов в тестовой выборке:\n", + "Outcome\n", + "0 0.640845\n", + "1 0.359155\n", + "Name: proportion, dtype: float64\n" + ] + } + ], + "source": [ + "# Функция для анализа сбалансированности\n", + "def analyze_balance(y_train, y_val, y_test):\n", + " print(\"Распределение классов в обучающей выборке:\")\n", + " print(y_train.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в контрольной выборке:\")\n", + " print(y_val.value_counts(normalize=True))\n", + " \n", + " print(\"\\nРаспределение классов в тестовой выборке:\")\n", + " print(y_test.value_counts(normalize=True))\n", + "\n", + "# Анализ сбалансированности\n", + "analyze_balance(y_train, y_val, y_test)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Такие выборки сложно назвать сбалансированными. В этот раз используем метод выборки с недостатком (undersampling)." + ] + }, + { + "cell_type": "code", + "execution_count": 553, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Сбалансированность обучающей выборки после undersampling:\n", + "Outcome\n", + "0 0.5\n", + "1 0.5\n", + "Name: proportion, dtype: float64\n" + ] + } + ], + "source": [ + "undersampler = RandomUnderSampler(random_state=42)\n", + "\n", + "X_train_resampled, y_train_resampled = undersampler.fit_resample(X_train, y_train)\n", + "\n", + "print(\"Сбалансированность обучающей выборки после undersampling:\")\n", + "print(y_train_resampled.value_counts(normalize=True))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Можно увидеть, что выборка была успешно сбалансирована." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/lab_2/requirements.txt b/lab_2/requirements.txt new file mode 100644 index 0000000..bc902c6 Binary files /dev/null and b/lab_2/requirements.txt differ