diff --git a/lab_3/lab_3.ipynb b/lab_3/lab_3.ipynb new file mode 100644 index 0000000..0b2f7d0 --- /dev/null +++ b/lab_3/lab_3.ipynb @@ -0,0 +1,889 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Начало лабораторной работы" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Бизнес-цели\n", + "\n", + "1. Оптимизация тарифов:\n", + "\n", + "Цель: Разработка более точных и справедливых тарифов на страховку, основанных на индивидуальных рисках клиентов.\n", + "\n", + "Показатели успеха:\n", + "\n", + "Снижение оттока клиентов (уменьшение количества отказов от страховки).\n", + "\n", + "Увеличение прибыли за счет более точного ценообразования.\n", + "\n", + "Повышение удовлетворенности клиентов (опросы, отзывы).\n", + "\n", + "2. Оценка рисков:\n", + "\n", + "Цель: Оценка рисков для новых видов страхования или географических регионов.\n", + "\n", + "Показатели успеха:\n", + "\n", + "Снижение убытков от страховых случаев.\n", + "\n", + "Увеличение прибыли за счет выхода на новые рынки.\n", + "\n", + "Сокращение сроков разработки новых страховых продуктов." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Технические цели для каждой бизнес-цели:\n", + "\n", + "1. Оптимизация тарифов:\n", + "\n", + "* **Техническая цель:** Разработка и внедрение модели машинного обучения, которая будет прогнозировать стоимость страховки с высокой точностью на основе данных о клиентах (возраст, пол, ИМТ, количество детей, статус курения, регион проживания).\n", + "* **Ключевые задачи:**\n", + " * Сбор и подготовка данных (очистка, нормализация, обработка пропущенных значений).\n", + " * Исследование данных и выявление важных признаков.\n", + " * Выбор и обучение модели машинного обучения (линейная регрессия, случайный лес, градиентный бустинг и т.д.).\n", + " * Оценка качества модели (метрики: RMSE, MAE, R²).\n", + " * Разработка API для интеграции модели в существующие системы компании.\n", + " * Тестирование и развертывание модели в продакшн.\n", + " * Мониторинг и поддержка модели (обновление данных, переобучение модели).\n", + "\n", + "2. Оценка рисков:\n", + "\n", + "* **Техническая цель:** Разработка модели оценки рисков для новых видов страхования или географических регионов, которая позволит определить потенциальные убытки и скорректировать тарифы соответствующим образом.\n", + "* **Ключевые задачи:**\n", + " * Сбор и подготовка данных о новых видах страхования или регионах (исторические данные, демографическая информация, данные о рисках).\n", + " * Исследование данных и выявление закономерностей, связанных с рисками.\n", + " * Выбор и обучение модели машинного обучения для оценки рисков (классификация, регрессия).\n", + " * Оценка качества модели (метрики: точность, полнота, F1-мера, AUC-ROC).\n", + " * Разработка отчетов и дашбордов для визуализации результатов оценки рисков.\n", + " * Интеграция модели в процесс принятия решений о тарифах и страховых продуктах.\n", + " * Тестирование и развертывание модели в продакшн.\n", + " * Мониторинг и поддержка модели (обновление данных, переобучение модели).\n" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (1940, 6)\n", + "Размер контрольной выборки: (416, 6)\n", + "Размер тестовой выборки: (416, 6)\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Вывод размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Функция для оценки сбалансированности выборок\n", + "def evaluate_balance(y_train, y_val, y_test):\n", + " plt.figure(figsize=(18, 6))\n", + " \n", + " plt.subplot(1, 3, 1)\n", + " sns.histplot(y_train, kde=True)\n", + " plt.title('Распределение целевой переменной в обучающей выборке')\n", + " \n", + " plt.subplot(1, 3, 2)\n", + " sns.histplot(y_val, kde=True)\n", + " plt.title('Распределение целевой переменной в контрольной выборке')\n", + " \n", + " plt.subplot(1, 3, 3)\n", + " sns.histplot(y_test, kde=True)\n", + " plt.title('Распределение целевой переменной в тестовой выборке')\n", + " \n", + " plt.show()\n", + "\n", + "# Оценка сбалансированности выборок\n", + "evaluate_balance(y_train, y_val, y_test)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Процесс конструирования признаков для обеих задач:**\n", + "1. **Анализ и очистка данных:**\n", + " - Проверить наличие пропущенных значений и дубликатов и обработать их (заполнение средним значением, медианой или удаление строк).\n", + "\n", + "2. **Кодирование категориальных признаков:**\n", + " - Применить One-Hot Encoding для категориальных признаков (`sex`, `smoker`, `region`).\n", + "\n", + "3. **Создание новых признаков:**\n", + " - **Возрастные группы:** Разделить возраст на группы (например, молодые, средний возраст, пожилые).\n", + " - **Индекс массы тела (ИМТ) группы:** Разделить ИМТ на группы (например, недостаточный вес, нормальный вес, избыточный вес, ожирение).\n", + " - **Количество детей:** Создать бинарный признак, указывающий, есть ли у клиента дети.\n", + " - **Комбинированные признаки:** Создать новые признаки, комбинируя существующие (например, возраст и ИМТ, возраст и статус курения).\n", + "\n", + "4. **Нормализация и стандартизация:**\n", + " - Применить нормализацию или стандартизацию к числовым признакам (`age`, `bmi`, `children`), чтобы привести их к одному масштабу.\n", + "\n", + "5. **Анализ важности признаков:**\n", + " - Удалить малозначимые признаки, чтобы упростить модель и улучшить ее производительность." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 1. Оптимизация тарифов" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка после конструирования признаков:\n", + " age bmi children sex_female sex_male smoker_no \\\n", + "1684 1.781292 0.374453 -0.907604 True False True \n", + "862 -0.083478 -0.570585 -0.085975 True False True \n", + "1992 -1.087585 -0.495147 -0.907604 True False True \n", + "889 0.705463 -0.586335 -0.907604 True False True \n", + "1362 0.777185 -0.680839 -0.907604 False True True \n", + "\n", + " smoker_yes region_northeast region_northwest region_southeast \\\n", + "1684 False False True False \n", + "862 False True False False \n", + "1992 False False False True \n", + "889 False False False True \n", + "1362 False False False False \n", + "\n", + " region_southwest age_bin age_bmi \n", + "1684 False 4.0 1.734561 \n", + "862 False 1.0 -0.339153 \n", + "1992 False 0.0 -1.055293 \n", + "889 False 2.0 0.231109 \n", + "1362 True 2.0 0.228540 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import OneHotEncoder, StandardScaler\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.pipeline import Pipeline\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Определение категориальных и числовых признаков\n", + "categorical_features = ['sex', 'smoker', 'region']\n", + "numerical_features = ['age', 'bmi', 'children']\n", + "\n", + "# Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "train_data_encoded = pd.get_dummies(X_train, columns=categorical_features)\n", + "val_data_encoded = pd.get_dummies(X_val, columns=categorical_features)\n", + "test_data_encoded = pd.get_dummies(X_test, columns=categorical_features)\n", + "\n", + "# Дискретизация числовых признаков (пример для возраста)\n", + "age_bins = [18, 30, 40, 50, 60, 100]\n", + "train_data_encoded['age_bin'] = pd.cut(train_data_encoded['age'], bins=age_bins, labels=False)\n", + "val_data_encoded['age_bin'] = pd.cut(val_data_encoded['age'], bins=age_bins, labels=False)\n", + "test_data_encoded['age_bin'] = pd.cut(test_data_encoded['age'], bins=age_bins, labels=False)\n", + "\n", + "# «Ручной» синтез признаков (пример: комбинированный признак возраст и ИМТ)\n", + "train_data_encoded['age_bmi'] = train_data_encoded['age'] * train_data_encoded['bmi']\n", + "val_data_encoded['age_bmi'] = val_data_encoded['age'] * val_data_encoded['bmi']\n", + "test_data_encoded['age_bmi'] = test_data_encoded['age'] * test_data_encoded['bmi']\n", + "\n", + "# Масштабирование числовых признаков\n", + "numerical_features = ['age', 'bmi', 'children', 'age_bmi']\n", + "scaler = StandardScaler()\n", + "train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n", + "val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n", + "test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])\n", + "\n", + "# Вывод результатов\n", + "print(\"Обучающая выборка после конструирования признаков:\")\n", + "print(train_data_encoded.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 2. Оценка рисков" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка после конструирования признаков:\n", + " age bmi children sex_female sex_male smoker_no \\\n", + "1684 1.781292 0.374453 -0.907604 True False True \n", + "862 -0.083478 -0.570585 -0.085975 True False True \n", + "1992 -1.087585 -0.495147 -0.907604 True False True \n", + "889 0.705463 -0.586335 -0.907604 True False True \n", + "1362 0.777185 -0.680839 -0.907604 False True True \n", + "\n", + " smoker_yes region_northeast region_northwest region_southeast \\\n", + "1684 False False True False \n", + "862 False True False False \n", + "1992 False False False True \n", + "889 False False False True \n", + "1362 False False False False \n", + "\n", + " region_southwest age_bin age_bmi \n", + "1684 False 4.0 1.734561 \n", + "862 False 1.0 -0.339153 \n", + "1992 False 0.0 -1.055293 \n", + "889 False 2.0 0.231109 \n", + "1362 True 2.0 0.228540 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import OneHotEncoder, StandardScaler\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.pipeline import Pipeline\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Определение категориальных и числовых признаков\n", + "categorical_features = ['sex', 'smoker', 'region']\n", + "numerical_features = ['age', 'bmi', 'children']\n", + "\n", + "# Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "train_data_encoded = pd.get_dummies(X_train, columns=categorical_features)\n", + "val_data_encoded = pd.get_dummies(X_val, columns=categorical_features)\n", + "test_data_encoded = pd.get_dummies(X_test, columns=categorical_features)\n", + "\n", + "# Дискретизация числовых признаков (пример для возраста)\n", + "age_bins = [18, 30, 40, 50, 60, 100]\n", + "train_data_encoded['age_bin'] = pd.cut(train_data_encoded['age'], bins=age_bins, labels=False)\n", + "val_data_encoded['age_bin'] = pd.cut(val_data_encoded['age'], bins=age_bins, labels=False)\n", + "test_data_encoded['age_bin'] = pd.cut(test_data_encoded['age'], bins=age_bins, labels=False)\n", + "\n", + "# «Ручной» синтез признаков (пример: комбинированный признак возраст и ИМТ)\n", + "train_data_encoded['age_bmi'] = train_data_encoded['age'] * train_data_encoded['bmi']\n", + "val_data_encoded['age_bmi'] = val_data_encoded['age'] * val_data_encoded['bmi']\n", + "test_data_encoded['age_bmi'] = test_data_encoded['age'] * test_data_encoded['bmi']\n", + "\n", + "# Масштабирование числовых признаков\n", + "numerical_features = ['age', 'bmi', 'children', 'age_bmi']\n", + "scaler = StandardScaler()\n", + "train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n", + "val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n", + "test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])\n", + "\n", + "# Вывод результатов\n", + "print(\"Обучающая выборка после конструирования признаков:\")\n", + "print(train_data_encoded.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Процесс конструирования признаков с применением фреймворка Featuretools:\n", + "\n", + "### 1. Оптимизация тарифов" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка после конструирования признаков:\n", + " age bmi children sex_female sex_male smoker_no \\\n", + "index \n", + "0 1.781292 0.374453 -0.907604 True False True \n", + "1 -0.083478 -0.570585 -0.085975 True False True \n", + "2 -1.087585 -0.495147 -0.907604 True False True \n", + "3 0.705463 -0.586335 -0.907604 True False True \n", + "4 0.777185 -0.680839 -0.907604 False True True \n", + "\n", + " smoker_yes region_northeast region_northwest region_southeast \\\n", + "index \n", + "0 False False True False \n", + "1 False True False False \n", + "2 False False False True \n", + "3 False False False True \n", + "4 False False False False \n", + "\n", + " region_southwest age_bin age_bmi \n", + "index \n", + "0 False 4 1.734561 \n", + "1 False 1 -0.339153 \n", + "2 False 0 -1.055293 \n", + "3 False 2 0.231109 \n", + "4 True 2 0.228540 \n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index index not found in dataframe, creating new integer column\n", + " warnings.warn(\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "import featuretools as ft\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Определение категориальных и числовых признаков\n", + "categorical_features = ['sex', 'smoker', 'region']\n", + "numerical_features = ['age', 'bmi', 'children']\n", + "\n", + "# Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "X_train_encoded = pd.get_dummies(X_train, columns=categorical_features)\n", + "X_val_encoded = pd.get_dummies(X_val, columns=categorical_features)\n", + "X_test_encoded = pd.get_dummies(X_test, columns=categorical_features)\n", + "\n", + "# Дискретизация числовых признаков (пример для возраста)\n", + "age_bins = [18, 30, 40, 50, 60, 100]\n", + "X_train_encoded['age_bin'] = pd.cut(X_train_encoded['age'], bins=age_bins, labels=False)\n", + "X_val_encoded['age_bin'] = pd.cut(X_val_encoded['age'], bins=age_bins, labels=False)\n", + "X_test_encoded['age_bin'] = pd.cut(X_test_encoded['age'], bins=age_bins, labels=False)\n", + "\n", + "# «Ручной» синтез признаков (пример: комбинированный признак возраст и ИМТ)\n", + "X_train_encoded['age_bmi'] = X_train_encoded['age'] * X_train_encoded['bmi']\n", + "X_val_encoded['age_bmi'] = X_val_encoded['age'] * X_val_encoded['bmi']\n", + "X_test_encoded['age_bmi'] = X_test_encoded['age'] * X_test_encoded['bmi']\n", + "\n", + "# Масштабирование числовых признаков\n", + "from sklearn.preprocessing import StandardScaler\n", + "\n", + "numerical_features = ['age', 'bmi', 'children', 'age_bmi']\n", + "scaler = StandardScaler()\n", + "X_train_encoded[numerical_features] = scaler.fit_transform(X_train_encoded[numerical_features])\n", + "X_val_encoded[numerical_features] = scaler.transform(X_val_encoded[numerical_features])\n", + "X_test_encoded[numerical_features] = scaler.transform(X_test_encoded[numerical_features])\n", + "\n", + "# Конструирование признаков с применением фреймворка Featuretools\n", + "es = ft.EntitySet(id='insurance_data')\n", + "es = es.add_dataframe(dataframe_name='train', dataframe=X_train_encoded, index='index')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='train', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "X_val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=X_val_encoded.index)\n", + "X_test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=X_test_encoded.index)\n", + "\n", + "# Вывод результатов\n", + "print(\"Обучающая выборка после конструирования признаков:\")\n", + "print(feature_matrix.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2. Оценка рисков" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка после конструирования признаков:\n", + " age bmi children sex_female sex_male smoker_no \\\n", + "index \n", + "0 1.781292 0.374453 -0.907604 True False True \n", + "1 -0.083478 -0.570585 -0.085975 True False True \n", + "2 -1.087585 -0.495147 -0.907604 True False True \n", + "3 0.705463 -0.586335 -0.907604 True False True \n", + "4 0.777185 -0.680839 -0.907604 False True True \n", + "\n", + " smoker_yes region_northeast region_northwest region_southeast \\\n", + "index \n", + "0 False False True False \n", + "1 False True False False \n", + "2 False False False True \n", + "3 False False False True \n", + "4 False False False False \n", + "\n", + " region_southwest age_bin age_bmi \n", + "index \n", + "0 False 4 1.734561 \n", + "1 False 1 -0.339153 \n", + "2 False 0 -1.055293 \n", + "3 False 2 0.231109 \n", + "4 True 2 0.228540 \n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index index not found in dataframe, creating new integer column\n", + " warnings.warn(\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "import featuretools as ft\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Перемешивание данных\n", + "df = df.sample(frac=1, random_state=42).reset_index(drop=True)\n", + "\n", + "# Разделение на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разбиение на обучающую, контрольную и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Определение категориальных и числовых признаков\n", + "categorical_features = ['sex', 'smoker', 'region']\n", + "numerical_features = ['age', 'bmi', 'children']\n", + "\n", + "# Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "X_train_encoded = pd.get_dummies(X_train, columns=categorical_features)\n", + "X_val_encoded = pd.get_dummies(X_val, columns=categorical_features)\n", + "X_test_encoded = pd.get_dummies(X_test, columns=categorical_features)\n", + "\n", + "# Дискретизация числовых признаков (пример для возраста)\n", + "age_bins = [18, 30, 40, 50, 60, 100]\n", + "X_train_encoded['age_bin'] = pd.cut(X_train_encoded['age'], bins=age_bins, labels=False)\n", + "X_val_encoded['age_bin'] = pd.cut(X_val_encoded['age'], bins=age_bins, labels=False)\n", + "X_test_encoded['age_bin'] = pd.cut(X_test_encoded['age'], bins=age_bins, labels=False)\n", + "\n", + "# «Ручной» синтез признаков (пример: комбинированный признак возраст и ИМТ)\n", + "X_train_encoded['age_bmi'] = X_train_encoded['age'] * X_train_encoded['bmi']\n", + "X_val_encoded['age_bmi'] = X_val_encoded['age'] * X_val_encoded['bmi']\n", + "X_test_encoded['age_bmi'] = X_test_encoded['age'] * X_test_encoded['bmi']\n", + "\n", + "# Масштабирование числовых признаков\n", + "from sklearn.preprocessing import StandardScaler\n", + "\n", + "numerical_features = ['age', 'bmi', 'children', 'age_bmi']\n", + "scaler = StandardScaler()\n", + "X_train_encoded[numerical_features] = scaler.fit_transform(X_train_encoded[numerical_features])\n", + "X_val_encoded[numerical_features] = scaler.transform(X_val_encoded[numerical_features])\n", + "X_test_encoded[numerical_features] = scaler.transform(X_test_encoded[numerical_features])\n", + "\n", + "# Конструирование признаков с применением фреймворка Featuretools\n", + "es = ft.EntitySet(id='insurance_data')\n", + "es = es.add_dataframe(dataframe_name='train', dataframe=X_train_encoded, index='index')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='train', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "X_val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=X_val_encoded.index)\n", + "X_test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=X_test_encoded.index)\n", + "\n", + "# Вывод результатов\n", + "print(\"Обучающая выборка после конструирования признаков:\")\n", + "print(feature_matrix.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Оценка качества наборов признаков по критериям:\n", + "\n", + "### 1. Предсказательная способность\n", + "\n", + "**Определение:** \n", + "Предсказательная способность набора признаков определяет, насколько хорошо эти признаки позволяют модели предсказывать целевую переменную.\n", + "\n", + "**Оценка:**\n", + "- **Обучающая выборка:** \n", + " - Оценивается с помощью метрик качества модели (например, RMSE, MAE, R²) на обучающей выборке.\n", + " - Высокие значения метрик указывают на высокую предсказательную способность.\n", + "- **Контрольная и тестовая выборки:**\n", + " - Оценивается с помощью метрик качества модели на контрольной и тестовой выборках.\n", + " - Близкие значения метрик на всех выборках указывают на хорошую обобщающую способность модели.\n", + "\n", + "### 2. Скорость вычисления\n", + "\n", + "**Определение:**\n", + "Скорость вычисления набора признаков определяет, насколько быстро можно вычислить эти признаки и обучить модель на них.\n", + "\n", + "**Оценка:**\n", + "- **Время вычисления признаков:**\n", + " - Измеряется время, затрачиваемое на вычисление признаков для всех выборок.\n", + " - Меньшее время указывает на более быстрое вычисление.\n", + "- **Время обучения модели:**\n", + " - Измеряется время, затрачиваемое на обучение модели на вычисленных признаках.\n", + " - Меньшее время указывает на более быстрое обучение.\n", + "\n", + "### 3. Надежность\n", + "\n", + "**Определение:**\n", + "Надежность набора признаков определяет, насколько стабильно модель, обученная на этих признаках, показывает хорошие результаты на разных выборках данных.\n", + "\n", + "**Оценка:**\n", + "- **Стабильность метрик:**\n", + " - Оценивается стабильность метрик качества модели (например, RMSE, MAE, R²) на разных выборках данных.\n", + " - Близкие значения метрик на разных выборках указывают на высокую надежность.\n", + "- **Устойчивость к изменениям данных:**\n", + " - Оценивается, как меняются метрики качества модели при добавлении или удалении данных.\n", + " - Небольшие изменения метрик указывают на высокую устойчивость.\n", + "\n", + "### 4. Корреляция\n", + "\n", + "**Определение:**\n", + "Корреляция набора признаков определяет, насколько сильно признаки коррелируют друг с другом и с целевой переменной.\n", + "\n", + "**Оценка:**\n", + "- **Корреляция между признаками:**\n", + " - Оценивается с помощью матрицы корреляции признаков.\n", + " - Высокая корреляция между признаками может привести к мультиколлинеарности, что снижает качество модели.\n", + "- **Корреляция с целевой переменной:**\n", + " - Оценивается с помощью коэффициента корреляции Пирсона или Спирмена.\n", + " - Высокая корреляция с целевой переменной указывает на высокую предсказательную способность признаков.\n", + "\n", + "### 5. Цельность\n", + "\n", + "**Определение:**\n", + "Цельность набора признаков определяет, насколько хорошо признаки соответствуют бизнес-целям и задачам модели.\n", + "\n", + "**Оценка:**\n", + "- **Соответствие бизнес-целям:**\n", + " - Оценивается, насколько признаки помогают решать поставленные бизнес-задачи (например, оптимизация тарифов, оценка рисков).\n", + " - Признаки, которые помогают решать бизнес-задачи, считаются целесообразными.\n", + "- **Интерпретируемость:**\n", + " - Оценивается, насколько легко интерпретировать значения признаков и их влияние на целевую переменную.\n", + " - Интерпретируемые признаки считаются более целесообразными." + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "RMSE: 2750.642231395856\n", + "R²: 0.9507037692209687\n", + "MAE: 1279.1669853384874\n", + "Cross-validated RMSE: 3242.964333689781\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Train RMSE: 1072.3827255198853\n", + "Train R²: 0.9921277274068127\n", + "Train MAE: 480.25126389741285\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\midni\\AIM\\AIM-PIbd-32-Bulatova-K-R\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.ensemble import RandomForestRegressor\n", + "from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error\n", + "from sklearn.model_selection import cross_val_score\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Medical_insurance.csv\")\n", + "\n", + "# Предобработка данных\n", + "# Преобразуем категориальные переменные в числовые\n", + "df = pd.get_dummies(df, drop_first=True)\n", + "\n", + "# Разделение данных на признаки и целевую переменную\n", + "X = df.drop('charges', axis=1)\n", + "y = df['charges']\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Выбор модели\n", + "model = RandomForestRegressor(random_state=42)\n", + "\n", + "# Обучение модели\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Предсказание и оценка\n", + "y_pred = model.predict(X_test)\n", + "\n", + "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", + "r2 = r2_score(y_test, y_pred)\n", + "mae = mean_absolute_error(y_test, y_pred)\n", + "\n", + "print(f\"RMSE: {rmse}\")\n", + "print(f\"R²: {r2}\")\n", + "print(f\"MAE: {mae}\")\n", + "\n", + "# Кросс-валидация\n", + "scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n", + "rmse_cv = (-scores.mean())**0.5\n", + "print(f\"Cross-validated RMSE: {rmse_cv}\")\n", + "\n", + "# Анализ важности признаков\n", + "feature_importances = model.feature_importances_\n", + "feature_names = X_train.columns\n", + "\n", + "importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})\n", + "importance_df = importance_df.sort_values(by='Importance', ascending=False)\n", + "\n", + "plt.figure(figsize=(10, 6))\n", + "sns.barplot(x='Importance', y='Feature', data=importance_df)\n", + "plt.title('Feature Importance')\n", + "plt.show()\n", + "\n", + "# Проверка на переобучение\n", + "y_train_pred = model.predict(X_train)\n", + "\n", + "rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n", + "r2_train = r2_score(y_train, y_train_pred)\n", + "mae_train = mean_absolute_error(y_train, y_train_pred)\n", + "\n", + "print(f\"Train RMSE: {rmse_train}\")\n", + "print(f\"Train R²: {r2_train}\")\n", + "print(f\"Train MAE: {mae_train}\")\n", + "\n", + "# Визуализация результатов\n", + "plt.figure(figsize=(10, 6))\n", + "plt.scatter(y_test, y_pred, alpha=0.5)\n", + "plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n", + "plt.xlabel('Actual Charges')\n", + "plt.ylabel('Predicted Charges')\n", + "plt.title('Actual vs Predicted Charges')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Вывод по данным:\n", + "\n", + "1. Train RMSE: Значение RMSE на обучающей выборке составляет 1072.38, что указывает на среднеквадратичную ошибку в предсказании стоимости медицинского страхования.\n", + "\n", + "2. Train R²: Значение R² на обучающей выборке составляет 0.9921, что говорит о том, что модель объясняет 99.21% вариации в данных. Это очень высокий показатель, что может указывать на потенциальное переобучение.\n", + "\n", + "3. Train MAE: Значение MAE на обучающей выборке составляет 480.25, что указывает на среднюю абсолютную ошибку в предсказании стоимости медицинского страхования." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}