From 5966479cf8fee885bc6ada30bc0854722c64d5ed Mon Sep 17 00:00:00 2001 From: mayday Date: Thu, 14 Nov 2024 11:47:25 +0400 Subject: [PATCH 1/3] lab4 --- lab_4/lab4.ipynb | 1773 ++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 1773 insertions(+) create mode 100644 lab_4/lab4.ipynb diff --git a/lab_4/lab4.ipynb b/lab_4/lab4.ipynb new file mode 100644 index 0000000..9b7c97e --- /dev/null +++ b/lab_4/lab4.ipynb @@ -0,0 +1,1773 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Начало лабораторной работы" + ] + }, + { + "cell_type": "code", + "execution_count": 67, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Store ID ', 'Store_Area', 'Items_Available', 'Daily_Customer_Count',\n", + " 'Store_Sales'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Бизнес-цели" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посетителей в магазине:\n", + "\n", + "Цель: Разработать модель, которая будет предсказывать посещение клиентами магазина на основе его характеристик (размер, распродажи, количество ассортимента).\n", + "\n", + "Применение:\n", + "Предсказывание посещения магазинов клиентами.\n", + "\n", + "2. Оптимизация параметров магазина:\n", + "\n", + "Цель: Определить оптимальные коэффициенты для различных факторов, влияющих на посещаемость магазина чтобы максимизировать прибыль компании при наименьших затратах на пространство магазина и его ассортиментт.\n", + "\n", + "Применение:\n", + "Создавать магазин с максимальной посещаемостью." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посетителей в магазине" + ] + }, + { + "cell_type": "code", + "execution_count": 68, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Среднее значение поля 'Daily_Customer_Count': 786.3504464285714\n", + " Store ID Store_Area Items_Available Daily_Customer_Count Store_Sales \\\n", + "0 1 1659 1961 530 66490 \n", + "1 2 1461 1752 210 39820 \n", + "2 3 1340 1609 720 54010 \n", + "3 4 1451 1748 620 53730 \n", + "4 5 1770 2111 450 46620 \n", + "\n", + " above_average_count customers_volatility \n", + "0 0 1550 \n", + "1 0 1550 \n", + "2 0 1550 \n", + "3 0 1550 \n", + "4 0 1550 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Устанавливаем случайное состояние\n", + "random_state = 42\n", + "\n", + "# Рассчитываем среднее значение посещаемости\n", + "average_count = df['Daily_Customer_Count'].mean()\n", + "print(f\"Среднее значение поля 'Daily_Customer_Count': {average_count}\")\n", + "\n", + "# Создаем новую переменную, указывающую, превышает ли посещаемость среднюю\n", + "df[\"above_average_count\"] = (df[\"Daily_Customer_Count\"] > average_count).astype(int)\n", + "\n", + "# Рассчитываем волатильность (разницу между максимальной и минимальной посещаемостью)\n", + "df[\"customers_volatility\"] = df[\"Daily_Customer_Count\"].max() - df[\"Daily_Customer_Count\"].min()\n", + "\n", + "# Выводим первые строки измененной таблицы для проверки\n", + "print(df.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Оптимизация параметров магазина:" + ] + }, + { + "cell_type": "code", + "execution_count": 69, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Средняя посещаемость для 'Store_Area':\n", + "Store_Area\n", + "775 1090.0\n", + "780 790.0\n", + "854 660.0\n", + "869 850.0\n", + "891 630.0\n", + " ... \n", + "2063 810.0\n", + "2067 790.0\n", + "2169 600.0\n", + "2214 740.0\n", + "2229 660.0\n", + "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", + "\n", + "Средняя посещаемость для 'Items_Available':\n", + "Items_Available\n", + "932 1090.0\n", + "951 790.0\n", + "1018 660.0\n", + "1050 850.0\n", + "1059 870.0\n", + " ... \n", + "2492 790.0\n", + "2493 810.0\n", + "2617 600.0\n", + "2647 740.0\n", + "2667 660.0\n", + "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", + "\n", + "Средняя посещаемость для 'Store_Sales':\n", + "Store_Sales\n", + "14920 990.0\n", + "16370 880.0\n", + "17670 660.0\n", + "20270 870.0\n", + "21300 850.0\n", + " ... \n", + "101820 820.0\n", + "102310 1310.0\n", + "102920 680.0\n", + "105150 980.0\n", + "116320 860.0\n", + "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\n", + "Store_Area Items_Available\n", + "775 932 1090.0\n", + "780 951 790.0\n", + "854 1018 660.0\n", + "869 1050 850.0\n", + "891 1073 630.0\n", + " ... \n", + "2063 2493 810.0\n", + "2067 2492 790.0\n", + "2169 2617 600.0\n", + "2214 2647 740.0\n", + "2229 2667 660.0\n", + "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\n", + "Store_Sales Items_Available\n", + "14920 1508 990.0\n", + "16370 1790 880.0\n", + "17670 1877 660.0\n", + "20270 1946 870.0\n", + "21300 1686 850.0\n", + " ... \n", + "101820 1758 820.0\n", + "102310 1587 1310.0\n", + "102920 1638 680.0\n", + "105150 2104 980.0\n", + "116320 2414 860.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\n", + "Store_Sales Store_Area\n", + "14920 1250 990.0\n", + "16370 1477 880.0\n", + "17670 1537 660.0\n", + "20270 1624 870.0\n", + "21300 1397 850.0\n", + " ... \n", + "101820 1486 820.0\n", + "102310 1303 1310.0\n", + "102920 1365 680.0\n", + "105150 1775 980.0\n", + "116320 1989 860.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Устанавливаем случайное состояние\n", + "random_state = 42\n", + "\n", + "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", + "for column in [\n", + " \"Store_Area\",\n", + " \"Items_Available\",\n", + " \"Store_Sales\"\n", + "]:\n", + " print(f\"Средняя посещаемость для '{column}':\")\n", + " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", + " print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\")\n", + "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\")\n", + "print(df.groupby([\"Store_Sales\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\")\n", + "print(df.groupby([\"Store_Sales\", \"Store_Area\"])[\"Daily_Customer_Count\"].mean())\n", + "print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Выбор ориентира:\n", + "1. Прогнозирование стоимости страховых взносов:\n", + "Ориентир:\n", + "\n", + "R² (коэффициент детерминации): 0.75 - 0.85\n", + "\n", + "MAE (средняя абсолютная ошибка): 150 - 300 человек\n", + "\n", + "RMSE (среднеквадратичная ошибка): 175 - 315 человек\n" + ] + }, + { + "cell_type": "code", + "execution_count": 70, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "MAE: 241.24369535006045\n", + "MSE: 82946.49105226391\n", + "RMSE: 288.004324711043\n", + "R²: -0.008816097180501359\n", + "Ориентиры для прогнозирования не достигнуты.\n", + "Средняя посещаемость 'Store_Area':\n", + "Store_Area\n", + "775 1090.0\n", + "780 790.0\n", + "854 660.0\n", + "869 850.0\n", + "891 630.0\n", + " ... \n", + "2063 810.0\n", + "2067 790.0\n", + "2169 600.0\n", + "2214 740.0\n", + "2229 660.0\n", + "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", + "\n", + "Средняя посещаемость 'Items_Available':\n", + "Items_Available\n", + "932 1090.0\n", + "951 790.0\n", + "1018 660.0\n", + "1050 850.0\n", + "1059 870.0\n", + " ... \n", + "2492 790.0\n", + "2493 810.0\n", + "2617 600.0\n", + "2647 740.0\n", + "2667 660.0\n", + "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", + "\n", + "Средняя посещаемость 'Store_Sales':\n", + "Store_Sales\n", + "14920 990.0\n", + "16370 880.0\n", + "17670 660.0\n", + "20270 870.0\n", + "21300 850.0\n", + " ... \n", + "101820 820.0\n", + "102310 1310.0\n", + "102920 680.0\n", + "105150 980.0\n", + "116320 860.0\n", + "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", + "\n", + "Средняя стоимость страховых взносов для комбинации 'Store_Area' и 'Items_Available':\n", + "Store_Area Items_Available\n", + "775 932 1090.0\n", + "780 951 790.0\n", + "854 1018 660.0\n", + "869 1050 850.0\n", + "891 1073 630.0\n", + " ... \n", + "2063 2493 810.0\n", + "2067 2492 790.0\n", + "2169 2617 600.0\n", + "2214 2647 740.0\n", + "2229 2667 660.0\n", + "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", + "\n", + "Средняя стоимость страховых взносов для комбинации 'Items_Available' и 'Store_Sales':\n", + "Items_Available Store_Sales\n", + "932 42530 1090.0\n", + "951 25600 790.0\n", + "1018 77740 660.0\n", + "1050 52540 850.0\n", + "1059 75110 870.0\n", + " ... \n", + "2492 70230 790.0\n", + "2493 51480 810.0\n", + "2617 67080 600.0\n", + "2647 65900 740.0\n", + "2667 87410 660.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y)\n", + "X = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки\n", + "scaler = StandardScaler()\n", + "X_train = scaler.fit_transform(X_train)\n", + "X_test = scaler.transform(X_test)\n", + "\n", + "# Обучаем модель линейной регрессии\n", + "model = LinearRegression()\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Делаем предсказания на тестовой выборке\n", + "y_pred = model.predict(X_test)\n", + "\n", + "# Оцениваем качество модели\n", + "mae = mean_absolute_error(y_test, y_pred)\n", + "mse = mean_squared_error(y_test, y_pred)\n", + "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", + "r2 = r2_score(y_test, y_pred)\n", + "\n", + "print(f\"MAE: {mae}\")\n", + "print(f\"MSE: {mse}\")\n", + "print(f\"RMSE: {rmse}\")\n", + "print(f\"R²: {r2}\")\n", + "\n", + "# Проверяем, достигнуты ли ориентиры\n", + "if r2 >= 0.75 and mae <= 300 and rmse <= 350:\n", + " print(\"Ориентиры для прогнозирования достигнуты!\")\n", + "else:\n", + " print(\"Ориентиры для прогнозирования не достигнуты.\")\n", + "\n", + "\n", + "columns_to_group = [\n", + " \"Store_Area\",\n", + " \"Items_Available\",\n", + " \"Store_Sales\"\n", + "]\n", + "\n", + "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", + "for column in columns_to_group:\n", + " print(f\"Средняя посещаемость '{column}':\")\n", + " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", + " print()\n", + "\n", + "# Рассчитываем среднюю посещаемость для комбинаций признаков\n", + "\n", + "print(\n", + " \"Средняя стоимость страховых взносов для комбинации 'Store_Area' и 'Items_Available':\"\n", + ")\n", + "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "print(\n", + " \"Средняя стоимость страховых взносов для комбинации 'Items_Available' и 'Store_Sales':\"\n", + ")\n", + "print(df.groupby([\"Items_Available\", \"Store_Sales\"])[\"Daily_Customer_Count\"].mean())\n", + "print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Анализ применимости алгоритмов обучения с учителем для решения поставленных задач:\n", + "1. Прогнозирование посещаемости магазинов:\n", + "Задача: Регрессия\n", + "\n", + "Свойства алгоритмов:\n", + "\n", + "Линейная регрессия:\n", + "Применимость: Хорошо подходит для задач, где зависимость между признаками и целевой переменной линейна.\n", + "Преимущества: Проста в реализации, интерпретируема.\n", + "Недостатки: Может плохо работать, если зависимость нелинейна.\n", + "\n", + "Деревья решений (регрессия):\n", + "Применимость: Подходит для задач с нелинейными зависимостями.\n", + "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", + "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", + "\n", + "Случайный лес (регрессия):\n", + "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", + "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", + "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", + "\n", + "Градиентный бустинг (регрессия):\n", + "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", + "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", + "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", + "\n", + "Нейронные сети (регрессия):\n", + "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", + "Преимущества: Может моделировать очень сложные зависимости.\n", + "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", + "\n", + "Вывод:\n", + "\n", + "Линейная регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", + "\n", + "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", + "\n", + "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", + "\n", + "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n", + "\n", + "2. Оптимизация тарифной сетки:\n", + "Задача: Классификация (группировка клиентов по группам риска)\n", + "\n", + "Свойства алгоритмов:\n", + "\n", + "Логистическая регрессия:\n", + "Применимость: Хорошо подходит для задач бинарной классификации, где зависимость между признаками и целевой переменной линейна.\n", + "Преимущества: Проста в реализации, интерпретируема.\n", + "Недостатки: Может плохо работать, если зависимость нелинейна.\n", + "\n", + "Деревья решений (классификация):\n", + "Применимость: Подходит для задач с нелинейными зависимостями.\n", + "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", + "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", + "\n", + "Случайный лес (классификация):\n", + "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", + "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", + "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", + "\n", + "Градиентный бустинг (классификация):\n", + "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", + "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", + "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", + "\n", + "Нейронные сети (классификация):\n", + "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", + "Преимущества: Может моделировать очень сложные зависимости.\n", + "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", + "\n", + "Вывод:\n", + "\n", + "Логистическая регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", + "\n", + "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", + "\n", + "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", + "\n", + "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование стоимости страховых взносов:\n", + "Выбранные модели:\n", + "\n", + "Линейная регрессия\n", + "\n", + "Случайный лес (регрессия)\n", + "\n", + "Градиентный бустинг (регрессия)\n", + "\n", + "2. Оптимизация тарифной сетки:\n", + "Выбранные модели:\n", + "\n", + "Логистическая регрессия\n", + "\n", + "Случайный лес (классификация)\n", + "\n", + "Градиентный бустинг (классификация)" + ] + }, + { + "cell_type": "code", + "execution_count": 71, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE: 241.24369535006045\n", + "MSE: 82946.49105226391\n", + "RMSE: 288.004324711043\n", + "R²: -0.008816097180501359\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "MAE: 240.68666666666667\n", + "MSE: 85748.043\n", + "RMSE: 292.82766775016324\n", + "R²: -0.042889276963148815\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Gradient Boosting Regression\n", + "MAE: 243.53822748120598\n", + "MSE: 86937.70201509264\n", + "RMSE: 294.85200018838714\n", + "R²: -0.05735820927548918\n", + "\n", + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy: 0.43333333333333335\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy: 0.4777777777777778\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy: 0.4888888888888889\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y_reg = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки для задачи регрессии\n", + "scaler_reg = StandardScaler()\n", + "X_train_reg = scaler_reg.fit_transform(X_train_reg)\n", + "X_test_reg = scaler_reg.transform(X_test_reg)\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " model.fit(X_train_reg, y_train_reg)\n", + " y_pred_reg = model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки для задачи классификации\n", + "scaler_class = StandardScaler()\n", + "X_train_class = scaler_class.fit_transform(X_train_class)\n", + "X_test_class = scaler_class.transform(X_test_class)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " model.fit(X_train_class, y_train_class)\n", + " y_pred_class = model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование стоимости страховых взносов:\n", + "Конвейер для задачи регрессии:" + ] + }, + { + "cell_type": "code", + "execution_count": 72, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "MAE: 247.89333333333335\n", + "MSE: 94993.29455555555\n", + "RMSE: 308.2098222892248\n", + "R²: -0.15533235289568936\n", + "\n", + "Model: Gradient Boosting Regression\n", + "MAE: 251.77123469394226\n", + "MSE: 91978.0886332414\n", + "RMSE: 303.27889579270334\n", + "R²: -0.11866065970944106\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " pipeline.fit(X_train_reg, y_train_reg)\n", + " y_pred_reg = pipeline.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Оптимизация характеристик магазина:\n", + "Конвейер для задачи классификации:" + ] + }, + { + "cell_type": "code", + "execution_count": 73, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy: 0.4722222222222222\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy: 0.4722222222222222\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " pipeline.fit(X_train_class, y_train_class)\n", + " y_pred_class = pipeline.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещения:\n", + "\n", + "Настройка гиперпараметров для задачи регрессии:" + ] + }, + { + "cell_type": "code", + "execution_count": 74, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "Best Parameters: {}\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", + "MAE: 242.55834193962204\n", + "MSE: 87591.55194330998\n", + "RMSE: 295.9586997256712\n", + "R²: -0.06531049664000643\n", + "\n", + "Model: Gradient Boosting Regression\n", + "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "MAE: 241.05326789654333\n", + "MSE: 82428.16277986151\n", + "RMSE: 287.1030525436146\n", + "R²: -0.0025120582972431027\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": (LinearRegression(), {}),\n", + " \"Random Forest Regression\": (RandomForestRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, (model, params) in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", + " grid_search.fit(X_train_reg, y_train_reg)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_reg = best_model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Оптимизация характеристик:\n", + "\n", + "Настройка гиперпараметров для задачи классификации:" + ] + }, + { + "cell_type": "code", + "execution_count": 75, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Random Forest Classification\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", + "Accuracy: 0.49444444444444446\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "Accuracy: 0.4777777777777778\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": (LogisticRegression(), {\n", + " 'model__C': [0.1, 1, 10],\n", + " 'model__solver': ['liblinear', 'lbfgs']\n", + " }),\n", + " \"Random Forest Classification\": (RandomForestClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, (model, params) in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", + " grid_search.fit(X_train_class, y_train_class)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_class = best_model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещаемости::\n", + "Задача: Регрессия\n", + "\n", + "Выбор метрик:\n", + "\n", + "MAE (Mean Absolute Error): Средняя абсолютная ошибка. Показывает среднее отклонение предсказанных значений от фактических. Эта метрика легко интерпретируется, так как она измеряется в тех же единицах, что и целевая переменная \n", + "\n", + "MSE (Mean Squared Error): Среднеквадратичная ошибка. Показывает среднее квадратичное отклонение предсказанных значений от фактических. Эта метрика чувствительна к выбросам, так как ошибки возводятся в квадрат.\n", + "\n", + "RMSE (Root Mean Squared Error): Квадратный корень из среднеквадратичной ошибки. Показывает среднее отклонение предсказанных значений от фактических в тех же единицах, что и целевая переменная. Эта метрика также чувствительна к выбросам, но легче интерпретируется, чем MSE.\n", + "\n", + "R² (R-squared): Коэффициент детерминации. Показывает, какую долю дисперсии целевой переменной объясняет модель. Значение R² близкое к 1 указывает на хорошее качество модели.\n", + "\n", + "Обоснование:\n", + "\n", + "MAE: Хорошо подходит для задач, где важно понимать среднее отклонение предсказаний от фактических значений.\n", + "\n", + "MSE и RMSE: Полезны для задач, где важно минимизировать влияние выбросов, так как они возводят ошибки в квадрат.\n", + "\n", + "R²: Позволяет оценить, насколько хорошо модель объясняет вариацию целевой переменной.\n", + "\n", + "2. Оптимизация характеристик:\n", + "Задача: Классификация\n", + "\n", + "Выбор метрик:\n", + "\n", + "Accuracy: Доля правильных предсказаний среди всех предсказаний. Эта метрика показывает общую точность модели.\n", + "\n", + "Precision: Доля правильных положительных предсказаний среди всех положительных предсказаний. Эта метрика важна, если важно минимизировать количество ложноположительных результатов.\n", + "\n", + "Recall (Sensitivity): Доля правильных положительных предсказаний среди всех фактических положительных случаев. Эта метрика важна, если важно минимизировать количество ложноотрицательных результатов.\n", + "\n", + "F1-score: Гармоническое среднее между precision и recall. Эта метрика показывает баланс между precision и recall.\n", + "\n", + "Обоснование:\n", + "\n", + "Accuracy: Хорошо подходит для задач, где классы сбалансированы.\n", + "\n", + "Precision и Recall: Важны для задач, где важно минимизировать ошибки определенного типа (ложноположительные или ложноотрицательные).\n", + "\n", + "F1-score: Позволяет оценить баланс между precision и recall." + ] + }, + { + "cell_type": "code", + "execution_count": 76, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "Best Parameters: {}\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 200}\n", + "MAE: 244.5229418633195\n", + "MSE: 87788.51054250356\n", + "RMSE: 296.29125964581465\n", + "R²: -0.06770595668688673\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Gradient Boosting Regression\n", + "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "MAE: 240.99176421026533\n", + "MSE: 82412.10586641222\n", + "RMSE: 287.075087505712\n", + "R²: -0.002316770075243779\n", + "\n", + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", + "Accuracy: 0.46111111111111114\n", + "Precision: 0.475\n", + "Recall: 0.2\n", + "F1-score: 0.2814814814814815\n", + "\n" + ] + }, + { + "data": { + "image/png": "iVBORw0KGgoAAAANSUhEUgAAAgwAAAHHCAYAAADTQQDlAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABPRElEQVR4nO3de1yO9/8H8Ndd6i7V3QGVqKSGmpzHEnJIOY7FjDFFmC2nzKlt5jiZzRjL2XIYY3KYwxdziiF+znNIUw4ZClkldLw/vz98u79ulbu7ruquXs89rsfcn+u6P5/3dXd3974/h+uSCSEEiIiIiN5Ar6wDICIiIt3HhIGIiIg0YsJAREREGjFhICIiIo2YMBAREZFGTBiIiIhIIyYMREREpBETBiIiItKICQMRERFpxIShkrpx4wZ8fHxgbm4OmUyGHTt2SFr/7du3IZPJsGbNGknrLc/at2+P9u3bS1ZfWloahg0bBltbW8hkMowbN06yunVFZGQkZDIZIiMjJalvzZo1kMlkuH37tiT1ETB9+nTIZLKyDoNKAROGMhQXF4dPPvkEdevWhZGRERQKBTw9PfHjjz/ixYsXJdq2v78/Ll++jG+++Qbr169HixYtSrS90hQQEACZTAaFQpHv63jjxg3IZDLIZDJ8//33Wtd///59TJ8+HRcvXpQg2qKbM2cO1qxZg08//RTr16/Hxx9/XKLt1alTBz169CjRNqQyZ84cyZPg1+UmH7lblSpVUKtWLQQEBODevXsl2jZRmRBUJnbv3i2MjY2FhYWFGDNmjFixYoX46aefRP/+/YWBgYEYPnx4ibX9/PlzAUB8+eWXJdaGUqkUL168ENnZ2SXWRkH8/f1FlSpVhL6+vti8eXOe/dOmTRNGRkYCgPjuu++0rv/MmTMCgAgPD9fqeRkZGSIjI0Pr9grSqlUr4enpKVl9mjg6Ooru3buXWntCCJGTkyNevHghcnJytHqeiYmJ8Pf3z1OenZ0tXrx4IZRKZbFjCw8PFwDEzJkzxfr168XKlStFYGCg0NfXF87OzuLFixfFbqM8yMrKqjTnWtlVKdt0pXK6desW+vfvD0dHRxw+fBg1a9ZU7QsKCkJsbCz27NlTYu0/evQIAGBhYVFibchkMhgZGZVY/ZrI5XJ4enri119/Rb9+/dT2bdy4Ed27d8fWrVtLJZbnz5+jatWqMDQ0lLTehw8fws3NTbL6srOzoVQqJY+zOPT09CR9H+nr60NfX1+y+gCga9euqh66YcOGoXr16vj222+xc+fOPO+9kiSEQHp6OoyNjUutTQCoUqUKqlThn5LKgEMSZWDevHlIS0vD6tWr1ZKFXC4uLhg7dqzqcXZ2NmbNmgVnZ2fI5XLUqVMHX3zxBTIyMtSel9tlfPz4cbRs2RJGRkaoW7cu1q1bpzpm+vTpcHR0BABMnDgRMpkMderUAfCyKz/336/Kb4zywIEDaNOmDSwsLGBqaor69evjiy++UO0vaA7D4cOH0bZtW5iYmMDCwgK9evVCdHR0vu3FxsYiICAAFhYWMDc3x5AhQ/D8+fOCX9jXfPTRR9i7dy+Sk5NVZWfOnMGNGzfw0Ucf5Tn+yZMnmDBhAtzd3WFqagqFQoGuXbvi0qVLqmMiIyPxzjvvAACGDBmi6o7OPc/27dujYcOGOHfuHNq1a4eqVauqXpfX5zD4+/vDyMgoz/n7+vrC0tIS9+/fz/e8csf1b926hT179qhiyB2Xf/jwIQIDA2FjYwMjIyM0btwYa9euVasj9+fz/fffY+HChar31rVr1wr12haksO9VpVKJ6dOnw87ODlWrVkWHDh1w7do11KlTBwEBAXnO9dU5DDdu3ECfPn1ga2sLIyMj1K5dG/3790dKSgqAl8nqs2fPsHbtWtVrk1tnQXMY9u7dCy8vL5iZmUGhUOCdd97Bxo0bi/QatG3bFsDLIcdXXb9+HX379oWVlRWMjIzQokUL7Ny5M8/z//rrL3h5ecHY2Bi1a9fG7NmzER4enifu3N/3/fv3o0WLFjA2Nsby5csBAMnJyRg3bhzs7e0hl8vh4uKCb7/9FkqlUq2tTZs2oXnz5qrzdnd3x48//qjan5WVhRkzZuCtt96CkZERqlWrhjZt2uDAgQOqY/L7fJDyM4t0B9PCMrBr1y7UrVsXrVu3LtTxw4YNw9q1a9G3b198/vnnOH36NEJDQxEdHY3t27erHRsbG4u+ffsiMDAQ/v7++PnnnxEQEIDmzZvj7bffhp+fHywsLBAcHIwBAwagW7duMDU11Sr+q1evokePHmjUqBFmzpwJuVyO2NhYnDhx4o3PO3jwILp27Yq6deti+vTpePHiBRYvXgxPT0+cP38+T7LSr18/ODk5ITQ0FOfPn8eqVatgbW2Nb7/9tlBx+vn5YeTIkdi2bRuGDh0K4GXvQoMGDdCsWbM8x9+8eRM7duzABx98ACcnJyQmJmL58uXw8vLCtWvXYGdnB1dXV8ycORNff/01RowYofrj8OrPMikpCV27dkX//v0xaNAg2NjY5Bvfjz/+iMOHD8Pf3x9RUVHQ19fH8uXL8ccff2D9+vWws7PL93murq5Yv349goODUbt2bXz++ecAgBo1auDFixdo3749YmNjMWrUKDg5OWHLli0ICAhAcnKyWiIKAOHh4UhPT8eIESMgl8thZWVVqNe2IIV9r4aEhGDevHno2bMnfH19cenSJfj6+iI9Pf2N9WdmZsLX1xcZGRkYPXo0bG1tce/ePezevRvJyckwNzfH+vXrMWzYMLRs2RIjRowAADg7OxdY55o1azB06FC8/fbbCAkJgYWFBS5cuIB9+/blm1hqkvtH3dLSUlV29epVeHp6olatWpgyZQpMTEzw22+/oXfv3ti6dSvef/99AMC9e/fQoUMHyGQyhISEwMTEBKtWrYJcLs+3rZiYGAwYMACffPIJhg8fjvr16+P58+fw8vLCvXv38Mknn8DBwQEnT55ESEgIHjx4gIULFwJ4mfQPGDAAnTp1Uv1ORUdH48SJE6r3yfTp0xEaGqp6PVNTU3H27FmcP38enTt3LvA1kPIzi3RIWY+JVDYpKSkCgOjVq1ehjr948aIAIIYNG6ZWPmHCBAFAHD58WFXm6OgoAIhjx46pyh4+fCjkcrn4/PPPVWW3bt3Kd/ze399fODo65olh2rRp4tW3yoIFCwQA8ejRowLjzm3j1XH+Jk2aCGtra5GUlKQqu3TpktDT0xODBw/O097QoUPV6nz//fdFtWrVCmzz1fMwMTERQgjRt29f0alTJyHEy/FwW1tbMWPGjHxfg/T09Dxj5bdu3RJyuVzMnDlTVfamOQxeXl4CgFi2bFm++7y8vNTK9u/fLwCI2bNni5s3bwpTU1PRu3dvjecoRP5zChYuXCgAiF9++UVVlpmZKTw8PISpqalITU1VnRcAoVAoxMOHD4vc3qsK+15NSEgQVapUyXOe06dPFwDU5h4cOXJEABBHjhwRQghx4cIFAUBs2bLljbEWNIchd97BrVu3hBBCJCcnCzMzM9GqVas84/Ca5jnk1nXw4EHx6NEjcffuXRERESFq1Kgh5HK5uHv3rurYTp06CXd3d5Genq5Wf+vWrcVbb72lKhs9erSQyWTiwoULqrKkpCRhZWWlFrcQ//t937dvn1pcs2bNEiYmJuLvv/9WK58yZYrQ19cX8fHxQgghxo4dKxQKxRvnGTVu3FjjvJXXPx9K4jOLdAOHJEpZamoqAMDMzKxQx//nP/8BAIwfP16tPPdb5etzHdzc3FTfeoGX3zrr16+PmzdvFjnm1+XOffj999/zdHEW5MGDB7h48SICAgLUvsU2atQInTt3Vp3nq0aOHKn2uG3btkhKSlK9hoXx0UcfITIyEgkJCTh8+DASEhIK/NYol8uhp/fyVyInJwdJSUmq4Zbz588Xuk25XI4hQ4YU6lgfHx988sknmDlzJvz8/GBkZKTqVi6K//znP7C1tcWAAQNUZQYGBhgzZgzS0tJw9OhRteP79OmDGjVqFLm919sGNL9XDx06hOzsbHz22Wdqx40ePVpjG+bm5gCA/fv3azU8VZADBw7g6dOnmDJlSp65EoVdKujt7Y0aNWrA3t4effv2hYmJCXbu3InatWsDeDnUdfjwYfTr1w9Pnz7F48eP8fjxYyQlJcHX1xc3btxQrarYt28fPDw80KRJE1X9VlZWGDhwYL5tOzk5wdfXV61sy5YtaNu2LSwtLVVtPX78GN7e3sjJycGxY8cAvPw9fvbsmdrwwussLCxw9epV3Lhxo1CvBaCbn1kkDSYMpUyhUAAAnj59Wqjj79y5Az09Pbi4uKiV29rawsLCAnfu3FErd3BwyFOHpaUl/v333yJGnNeHH34IT09PDBs2DDY2Nujfvz9+++23NyYPuXHWr18/zz5XV1c8fvwYz549Uyt//Vxyu3i1OZdu3brBzMwMmzdvxoYNG/DOO+/keS1zKZVKLFiwAG+99RbkcjmqV6+OGjVq4K+//lKNjxdGrVq1tJo4+P3338PKygoXL17EokWLYG1tXejnvu7OnTt46623VIlPLldXV9X+Vzk5ORW5rfzaLsx7Nff/rx9nZWWl1o2fHycnJ4wfPx6rVq1C9erV4evri7CwMK1+Pq/KnWfQsGHDIj0fAMLCwnDgwAFERESgW7duePz4sdoQQmxsLIQQmDp1KmrUqKG2TZs2DcDLeSfAy9cmv/dnQe/Z/H5+N27cwL59+/K05e3trdbWZ599hnr16qFr166oXbs2hg4din379qnVNXPmTCQnJ6NevXpwd3fHxIkT8ddff73x9dDFzyySBucwlDKFQgE7OztcuXJFq+cV9ttOQTPAhRBFbiMnJ0ftsbGxMY4dO4YjR45gz5492LdvHzZv3oyOHTvijz/+kGwWenHOJZdcLoefnx/Wrl2LmzdvYvr06QUeO2fOHEydOhVDhw7FrFmzYGVlBT09PYwbN67QPSkAtJ6lfuHCBdWH+OXLl9V6B0paScyoL+mL+MyfPx8BAQH4/fff8ccff2DMmDEIDQ3FqVOnVN/qS1PLli1VqyR69+6NNm3a4KOPPkJMTAxMTU1V750JEybk6Q3IVVBCoEl+Pz+lUonOnTtj0qRJ+T6nXr16AABra2tcvHgR+/fvx969e7F3716Eh4dj8ODBqkmy7dq1Q1xcnOq1XrVqFRYsWIBly5Zh2LBhb4ytND6zqHSxh6EM9OjRA3FxcYiKitJ4rKOjI5RKZZ4uwcTERCQnJ6tWPEjB0tJSbUVBrte/EQAvl7t16tQJP/zwA65du4ZvvvkGhw8fxpEjR/KtOzfOmJiYPPuuX7+O6tWrw8TEpHgnUICPPvoIFy5cwNOnT9G/f/8Cj4uIiECHDh2wevVq9O/fHz4+PvD29s7zmkj5B/HZs2cYMmQI3NzcMGLECMybNw9nzpwpcn2Ojo64ceNGngTn+vXrqv0lpbDv1dz/x8bGqh2XlJRU6G+V7u7u+Oqrr3Ds2DH8+eefuHfvHpYtW6baX9ifUe5kSG0T+ILo6+sjNDQU9+/fx08//QQAqFu3LoCXQ0Pe3t75brlDlI6OjnleFyDva/Umzs7OSEtLK7CtV7/RGxoaomfPnliyZInqQnLr1q1Ta8/KygpDhgzBr7/+irt376JRo0ZvTLxL8zOLShcThjIwadIkmJiYYNiwYUhMTMyzPy4uTrW0qVu3bgCgmtmc64cffgAAdO/eXbK4nJ2dkZKSotbl+ODBgzyzmp88eZLnubljrq8vm8pVs2ZNNGnSBGvXrlX7A3zlyhX88ccfqvMsCR06dMCsWbPw008/wdbWtsDj9PX183yr2bJlS56r9uUmNvklV9qaPHky4uPjsXbtWvzwww+oU6cO/P39C3wdNenWrRsSEhKwefNmVVl2djYWL14MU1NTeHl5FTvmN7UNaH6vdurUCVWqVMHSpUvVjsv9A/smqampyM7OVitzd3eHnp6e2mtmYmJSqJ+Pj48PzMzMEBoammeFRlG/4bZv3x4tW7bEwoULkZ6eDmtra7Rv3x7Lly/HgwcP8hyfe10U4OWS2qioKLWriD558gQbNmwodPv9+vVDVFQU9u/fn2dfcnKy6vVLSkpS26enp4dGjRoB+N/v8evHmJqawsXF5Y3vz9L8zKLSxSGJMuDs7IyNGzfiww8/hKurKwYPHoyGDRsiMzMTJ0+eVC2DA4DGjRvD398fK1asQHJyMry8vPB///d/WLt2LXr37o0OHTpIFlf//v0xefJkvP/++xgzZgyeP3+OpUuXol69emqT/mbOnIljx46he/fucHR0xMOHD7FkyRLUrl0bbdq0KbD+7777Dl27doWHhwcCAwNVyyrNzc3f+I2luPT09PDVV19pPK5Hjx6YOXMmhgwZgtatW+Py5cvYsGGD6htiLmdnZ1hYWGDZsmUwMzODiYkJWrVqpfV8gMOHD2PJkiWYNm2aaplneHg42rdvj6lTp2LevHla1QcAI0aMwPLlyxEQEIBz586hTp06iIiIwIkTJ7Bw4cJCT7YtSGxsLGbPnp2nvGnTpujevXuh3qs2NjYYO3Ys5s+fj/feew9dunTBpUuXsHfvXlSvXv2NvQOHDx/GqFGj8MEHH6BevXrIzs7G+vXroa+vjz59+qiOa968OQ4ePIgffvgBdnZ2cHJyQqtWrfLUp1AosGDBAgwbNgzvvPMOPvroI1haWuLSpUt4/vx5nutXFNbEiRPxwQcfYM2aNRg5ciTCwsLQpk0buLu7Y/jw4ahbty4SExMRFRWFf/75R3Wtj0mTJuGXX35B586dMXr0aNWySgcHBzx58qRQPScTJ07Ezp070aNHD9XyxGfPnuHy5cuIiIjA7du3Ub16dQwbNgxPnjxBx44dUbt2bdy5cweLFy9GkyZNVHNe3Nzc0L59ezRv3hxWVlY4e/YsIiIiMGrUqALbL83PLCplZblEo7L7+++/xfDhw0WdOnWEoaGhMDMzE56enmLx4sVqy6+ysrLEjBkzhJOTkzAwMBD29vYiJCRE7RghCl729vpyvoKWVQohxB9//CEaNmwoDA0NRf369cUvv/ySZ9nUoUOHRK9evYSdnZ0wNDQUdnZ2YsCAAWrLuPJbVimEEAcPHhSenp7C2NhYKBQK0bNnT3Ht2jW1Y3Lbe33Z5utL4gry6rLKghS0rPLzzz8XNWvWFMbGxsLT01NERUXluxzy999/F25ubqJKlSpq5+nl5SXefvvtfNt8tZ7U1FTh6OgomjVrJrKystSOCw4OFnp6eiIqKuqN51DQzzsxMVEMGTJEVK9eXRgaGgp3d/c8P4c3vQfe1B6AfLfAwEAhROHfq9nZ2WLq1KnC1tZWGBsbi44dO4ro6GhRrVo1MXLkSNVxry+rvHnzphg6dKhwdnYWRkZGwsrKSnTo0EEcPHhQrf7r16+Ldu3aCWNjY7WlmgW9h3bu3Clat26tel+2bNlS/Prrr298PXLrOnPmTJ59OTk5wtnZWTg7O6uWLcbFxYnBgwcLW1tbYWBgIGrVqiV69OghIiIi1J574cIF0bZtWyGXy0Xt2rVFaGioWLRokQAgEhIS1H4eBS15fPr0qQgJCREuLi7C0NBQVK9eXbRu3Vp8//33IjMzUwghREREhPDx8RHW1tbC0NBQODg4iE8++UQ8ePBAVc/s2bNFy5YthYWFhTA2NhYNGjQQ33zzjaoOIfIuqxRC+s8s0g0yITizhIjKXnJyMiwtLTF79mx8+eWXZR2OThk3bhyWL1+OtLQ0yS9tTVRYnMNARKUuv7uI5o55S3kL8PLo9dcmKSkJ69evR5s2bZgsUJniHAYiKnWbN2/GmjVrVJcmP378OH799Vf4+PjA09OzrMMrUx4eHmjfvj1cXV2RmJiI1atXIzU1FVOnTi3r0KiSY8JARKWuUaNGqFKlCubNm4fU1FTVRMj8JlRWNt26dUNERARWrFgBmUyGZs2aYfXq1WjXrl1Zh0aVHOcwEBERkUacw0BEREQaMWEgIiIijTiHoRCUSiXu378PMzOzEr9OPhERSUsIgadPn8LOzi7PjdmklJ6ejszMTEnqMjQ0zHMH1bLGhKEQ7t+/D3t7+7IOg4iIiuHu3bsldoOy9PR0GJtVA7KLf9t14OXdPW/duqVTSQMThkLIvZxu9Y+WQ89Q+rv7EemCs3N7lHUIRCXi6dNUvP1WnWJfGv1NMjMzgeznkLv5A/qFv719vnIykXBtLTIzM5kwlDe5wxB6hsbQM6xaxtEQlQyFQlHWIRCVqFIZUq5iBFkxEwYh083phUwYiIiIpCIDUNzEREenyjFhICIikopM7+VW3Dp0kG5GRURERDqFPQxERERSkckkGJLQzTEJJgxERERS4ZAEERERVWbsYSAiIpIKhySIiIhIMwmGJHS08183oyIiIiKdwh4GIiIiqXBIgoiIiDTiKgkiIiKqzNjDQEREJBUOSRAREZFGFXhIggkDERGRVCpwD4NupjFERESkU9jDQEREJBUOSRAREZFGMpkECQOHJIiIiKicYg8DERGRVPRkL7fi1qGDmDAQERFJpQLPYdDNqIiIiEinsIeBiIhIKhX4OgxMGIiIiKTCIQkiIiKqzNjDQEREJBUOSRAREZFGFXhIggkDERGRVCpwD4NupjFERESkU9jDQEREJBUOSRAREZFGHJIgIiKiyowJAxERkWT0/jcsUdRNyz/NderUgUwmy7MFBQUBANLT0xEUFIRq1arB1NQUffr0QWJiYlHOjIiIiCSROyRR3E0LZ86cwYMHD1TbgQMHAAAffPABACA4OBi7du3Cli1bcPToUdy/fx9+fn5anxrnMBAREZVjNWrUUHs8d+5cODs7w8vLCykpKVi9ejU2btyIjh07AgDCw8Ph6uqKU6dO4d133y10O+xhICIikopMVvwhif/2MKSmpqptGRkZGpvPzMzEL7/8gqFDh0Imk+HcuXPIysqCt7e36pgGDRrAwcEBUVFRWp0aEwYiIiKpFDtZ+N+yTHt7e5ibm6u20NBQjc3v2LEDycnJCAgIAAAkJCTA0NAQFhYWasfZ2NggISFBq1PjkAQREZEOunv3LhQKheqxXC7X+JzVq1eja9eusLOzkzweJgxERERSkfA6DAqFQi1h0OTOnTs4ePAgtm3bpiqztbVFZmYmkpOT1XoZEhMTYWtrq1VYHJIgIiKSioRDEtoKDw+HtbU1unfvripr3rw5DAwMcOjQIVVZTEwM4uPj4eHhoVX97GEgIiKSShld6VGpVCI8PBz+/v6oUuV/f9rNzc0RGBiI8ePHw8rKCgqFAqNHj4aHh4dWKyQAJgxERETl3sGDBxEfH4+hQ4fm2bdgwQLo6emhT58+yMjIgK+vL5YsWaJ1G0wYiIiIpFJGN5/y8fGBECLffUZGRggLC0NYWFixwmLCQEREJBXefIqIiIgqM/YwEBERSST3xk/FrESaYCTGhIGIiEgiFTlh4JAEERERacQeBiIiIqnI/rsVtw4dxISBiIhIIhySICIiokqNPQxEREQSqcg9DEwYiIiIJMKEgYiIiDSqyAkD5zAQERGRRuxhICIikgqXVRIREZEmHJIgIiKiSo09DERERBJ5eXfr4vYwSBOL1JgwEBERSUQGCYYkdDRj4JAEERERacQeBiIiIolU5EmPTBiIiIikUoGXVXJIgoiIiDRiDwMREZFUJBiSEBySICIiqtikmMNQ/FUWJYMJAxERkUQqcsLAOQxERESkEXsYiIiIpFKBV0kwYSAiIpIIhySIiIioUmMPAxERkUQqcg8DEwYiIiKJVOSEgUMSREREpBF7GIiIiCRSkXsYmDAQERFJpQIvq+SQBBEREWnEHgYiIiKJcEiCiIiINGLCQERERBpV5ISBcxiIiIhII/YwEBERSaUCr5JgwkBERCQRDkkQERFRpcYeBiozNuZGmNLbHV5uNjA2rILbj9Iw6ZezuByfnOfY2f2bYmDbupgZcQnhR2JLP1giLS1adwB7Ii8hNv4hjAwN8I67E776rCdcHG1Ux6zfcRLbDpzD5Zi7SHuegZj9oTA3q1qGUVNxVeQeBp1KGAICApCcnIwdO3aUdShUwhTGBoj4vD2i/n6EIUtOICktA041TJHyPCvPsT6N7dDUyQoJyS/KIFKioom6EIshfdqiiasDcnKUmLNsNz4ctxTHNobAxFgOAHiRkYmOrRqgY6sG+GbZ7jKOmKQggwQJg45OYtCphIEqj5E+9fHg3xeY9Ms5Vdk/Sc/zHGdjboTpHzSGf9hx/PypZ2mGSFQsvy74VO3xj18NRMPuX+Kv63fh0dQFADDiw/YAgBPnb5R2eERaKzdzGK5cuYKuXbvC1NQUNjY2+Pjjj/H48WPV/oiICLi7u8PY2BjVqlWDt7c3nj17BgCIjIxEy5YtYWJiAgsLC3h6euLOnTtldSoEwNu9Jv6K/xdhga1wZm537J7SCf1b11E7RiYDfvB/BysO3sCNB0/LJlAiiTx99rKHzELBIYeKLHdIoribLioXCUNycjI6duyIpk2b4uzZs9i3bx8SExPRr18/AMCDBw8wYMAADB06FNHR0YiMjISfnx+EEMjOzkbv3r3h5eWFv/76C1FRURgxYoTO/kAqC4fqJhjUti5uPUqD/0/HseHPm5j2QRP4tXJQHTOyc33kKAXWRHLOApVvSqUSUxduQ8tGTnB1tivrcKgkySTadFC5GJL46aef0LRpU8yZM0dV9vPPP8Pe3h5///030tLSkJ2dDT8/Pzg6OgIA3N3dAQBPnjxBSkoKevToAWdnZwCAq6vrG9vLyMhARkaG6nFqaqrUp1TpyWQyXI7/F9/vvAoAuPZPCurZKTCwTV1sOx2PhvYWGNLBBT3mHirjSImKb8r8CFy/mYCdy8aWdShERVYuEoZLly7hyJEjMDU1zbMvLi4OPj4+6NSpE9zd3eHr6wsfHx/07dsXlpaWsLKyQkBAAHx9fdG5c2d4e3ujX79+qFmzZoHthYaGYsaMGSV5SpXeo9QXiH2gnojFJjxFlya1AADvuFRHNVM5TszqqtpfRV8PX/o1wtAOLmj79b5SjZeoqELmR+DgiavYvmQM7KwtyjocKmEVeZVEuRiSSEtLQ8+ePXHx4kW17caNG2jXrh309fVx4MAB7N27F25ubli8eDHq16+PW7duAQDCw8MRFRWF1q1bY/PmzahXrx5OnTpVYHshISFISUlRbXfv3i2tU600zsYloa6NmVqZk7Up7j15OfFx+//Fo+ucg+geeki1JSS/wIqDf8P/p+NlETKRVoQQCJkfgb1H/0LE4iA42lUr65CoFFTkOQzlooehWbNm2Lp1K+rUqYMqVfIPWSaTwdPTE56envj666/h6OiI7du3Y/z48QCApk2bomnTpggJCYGHhwc2btyId999N9+65HI55HJ5iZ0PAT8fjkXEhPb4zLc+9pz/B40drTDA0wlf/HoeAJD8LBPJzzLVnpOdo8Sj1HTcfJhWFiETaWXK91uw/cB5rPl2GEyrGuFh0sseNTNTIxjLDQEAD5NS8TApFbf/eTmBOzruAUyrylHL1hKWCpMyi52KTiZ7uRW3Dl2kcwlDSkoKLl68qFY2YsQIrFy5EgMGDMCkSZNgZWWF2NhYbNq0CatWrcLZs2dx6NAh+Pj4wNraGqdPn8ajR4/g6uqKW7duYcWKFXjvvfdgZ2eHmJgY3LhxA4MHDy6bEyQAwF/x/2LkiihMfK8hxnR1xd2kZ5gVcQm/n2FvDlUMa7efAAD4BS1WK1/45Ufo372V6pj5P/9veK33Z4vyHEOkK3QuYYiMjETTpk3VygIDA3HixAlMnjwZPj4+yMjIgKOjI7p06QI9PT0oFAocO3YMCxcuRGpqKhwdHTF//nx07doViYmJuH79OtauXYukpCTUrFkTQUFB+OSTT8roDCnX4SsJOHwlodDHc94ClScJJ3/UeMzEYV0xcVhXjcdR+fGyh6G4cxgkCkZiMiGEKOsgdF1qairMzc1hHbAOeoZcQ00V0/WFvcs6BKISkZqaCgdbK6SkpEChUJRYG+bm5qg7JgL68uINJ+VkPMPNRX1LNN6iKBeTHomIiKhsMWEgIiKSSFmskrh37x4GDRqEatWqwdjYGO7u7jh79qxqvxACX3/9NWrWrAljY2N4e3vjxg3tL0fOhIGIiEgiuaskirsV1r///gtPT08YGBhg7969uHbtGubPnw9LS0vVMfPmzcOiRYuwbNkynD59GiYmJvD19UV6erpW56Zzkx6JiIiocL799lvY29sjPDxcVebk5KT6txACCxcuxFdffYVevXoBANatWwcbGxvs2LED/fv3L3Rb7GEgIiKSiJ6eTJINeDmR8tXt1VsW5Nq5cydatGiBDz74ANbW1mjatClWrlyp2n/r1i0kJCTA29tbVWZubo5WrVohKipKu3Mr4mtCREREr5FySMLe3h7m5uaqLTQ0NE97N2/exNKlS/HWW29h//79+PTTTzFmzBisXbsWAJCQ8HLpuo2NjdrzbGxsVPsKi0MSREREOuju3btqyyrzuwKxUqlEixYtVDdnbNq0Ka5cuYJly5bB399f0njYw0BERCQRKVdJKBQKtS2/hKFmzZpwc3NTK3N1dUV8fDwAwNbWFgCQmJiodkxiYqJqX2ExYSAiIpJIaa+S8PT0RExMjFrZ33//DUdHRwAvJ0Da2tri0KFDqv2pqak4ffo0PDw8tDo3DkkQERFJpLRvbx0cHIzWrVtjzpw56NevH/7v//4PK1aswIoVK1R1jRs3DrNnz8Zbb70FJycnTJ06FXZ2dujdu7dWcTFhICIiKqfeeecdbN++HSEhIZg5cyacnJywcOFCDBw4UHXMpEmT8OzZM4wYMQLJyclo06YN9u3bByMjI63aYsJAREQkkdLuYQCAHj16oEePHm+sb+bMmZg5c2ax4mLCQEREJBFt5yAUVIcu4qRHIiIi0og9DERERBKRQYIhCehmFwMTBiIiIolwSIKIiIgqNfYwEBERSaQsVkmUFiYMREREEuGQBBEREVVq7GEgIiKSCIckiIiISKOKPCTBhIGIiEgiFbmHgXMYiIiISCP2MBAREUlFgiEJHb3QIxMGIiIiqXBIgoiIiCo19jAQERFJhKskiIiISCMOSRAREVGlxh4GIiIiiXBIgoiIiDTikAQRERFVauxhICIikkhF7mFgwkBERCQRzmEgIiIijSpyDwPnMBAREZFG7GEgIiKSCIckiIiISCMOSRAREVGlxh4GIiIiicggwZCEJJFIjwkDERGRRPRkMugVM2Mo7vNLCockiIiISCP2MBAREUmEqySIiIhIo4q8SoIJAxERkUT0ZC+34tahiziHgYiIiDRiDwMREZFUZBIMKehoDwMTBiIiIolU5EmPHJIgIiIijdjDQEREJBHZf/8rbh26iAkDERGRRLhKgoiIiCo19jAQERFJpNJfuGnnzp2FrvC9994rcjBERETlWUVeJVGohKF3796FqkwmkyEnJ6c48RAREZEOKlTCoFQqSzoOIiKicq8i3966WHMY0tPTYWRkJFUsRERE5VpFHpLQepVETk4OZs2ahVq1asHU1BQ3b94EAEydOhWrV6+WPEAiIqLyInfSY3E3XaR1wvDNN99gzZo1mDdvHgwNDVXlDRs2xKpVqyQNjoiIiHSD1gnDunXrsGLFCgwcOBD6+vqq8saNG+P69euSBkdERFSe5A5JFHfTRVrPYbh37x5cXFzylCuVSmRlZUkSFBERUXlUkSc9at3D4Obmhj///DNPeUREBJo2bSpJUERERKRbtO5h+Prrr+Hv74979+5BqVRi27ZtiImJwbp167B79+6SiJGIiKhckP13K24dukjrHoZevXph165dOHjwIExMTPD1118jOjoau3btQufOnUsiRiIionKBqyRe07ZtWxw4cAAPHz7E8+fPcfz4cfj4+EgdGxEREb3B9OnT8yQbDRo0UO1PT09HUFAQqlWrBlNTU/Tp0weJiYlFaqvIF246e/YsoqOjAbyc19C8efOiVkVERFQhlMXtrd9++20cPHhQ9bhKlf/9aQ8ODsaePXuwZcsWmJubY9SoUfDz88OJEye0jkvrhOGff/7BgAEDcOLECVhYWAAAkpOT0bp1a2zatAm1a9fWOggiIqKKoCzuVlmlShXY2trmKU9JScHq1auxceNGdOzYEQAQHh4OV1dXnDp1Cu+++65W7Wg9JDFs2DBkZWUhOjoaT548wZMnTxAdHQ2lUolhw4ZpWx0REREVw40bN2BnZ4e6deti4MCBiI+PBwCcO3cOWVlZ8Pb2Vh3boEEDODg4ICoqSut2tO5hOHr0KE6ePIn69euryurXr4/Fixejbdu2WgdARERUkUg1ZzE1NVXtsVwuh1wuVytr1aoV1qxZg/r16+PBgweYMWMG2rZtiytXriAhIQGGhoaq0YBcNjY2SEhI0DoerRMGe3v7fC/QlJOTAzs7O60DICIiqiikHJKwt7dXK582bRqmT5+uVta1a1fVvxs1aoRWrVrB0dERv/32G4yNjYsVx+u0HpL47rvvMHr0aJw9e1ZVdvbsWYwdOxbff/+9pMERERGVJ7mTHou7AcDdu3eRkpKi2kJCQjS2b2FhgXr16iE2Nha2trbIzMxEcnKy2jGJiYn5znnQpFA9DJaWlmoZ07Nnz9CqVSvVTMzs7GxUqVIFQ4cORe/evbUOgoiIiNQpFAooFAqtnpOWloa4uDh8/PHHaN68OQwMDHDo0CH06dMHABATE4P4+Hh4eHhoHU+hEoaFCxdqXTEREVFlU9qrJCZMmICePXvC0dER9+/fx7Rp06Cvr48BAwbA3NwcgYGBGD9+PKysrKBQKDB69Gh4eHhovUICKGTC4O/vr3XFRERElU1pXxo691IHSUlJqFGjBtq0aYNTp06hRo0aAIAFCxZAT08Pffr0QUZGBnx9fbFkyZIixVXkCzcBL68glZmZqVambfcJERERFc2mTZveuN/IyAhhYWEICwsrdltaJwzPnj3D5MmT8dtvvyEpKSnP/pycnGIHRUREVB7x9tavmDRpEg4fPoylS5dCLpdj1apVmDFjBuzs7LBu3bqSiJGIiKhckMmk2XSR1j0Mu3btwrp169C+fXsMGTIEbdu2hYuLCxwdHbFhwwYMHDiwJOIkIiKiMqR1D8OTJ09Qt25dAC/nKzx58gQA0KZNGxw7dkza6IiIiMoR3t76FXXr1sWtW7cAvLwm9W+//QbgZc/D65efJCIiqkwq8pCE1gnDkCFDcOnSJQDAlClTEBYWBiMjIwQHB2PixImSB0hERERlT+s5DMHBwap/e3t74/r16zh37hxcXFzQqFEjSYMjIiIqTyryKoliXYcBABwdHeHo6ChFLEREROWaFEMKOpovFC5hWLRoUaErHDNmTJGDISIiKs9K+9LQpalQCcOCBQsKVZlMJmPCQEREVAEVKmHIXRVR2aWc+xMyfcOyDoOoRMgN+pR1CEQlQm6gX2pt6aEIqwnyqUMXFXsOAxEREb1UkYckdDWRISIiIh3CHgYiIiKJyGSAXmVeJUFERESa6UmQMBT3+SWFQxJERESkUZEShj///BODBg2Ch4cH7t27BwBYv349jh8/LmlwRERE5QlvPvWKrVu3wtfXF8bGxrhw4QIyMjIAACkpKZgzZ47kARIREZUXuUMSxd10kdYJw+zZs7Fs2TKsXLkSBgYGqnJPT0+cP39e0uCIiIhIN2g96TEmJgbt2rXLU25ubo7k5GQpYiIiIiqXKvK9JLTuYbC1tUVsbGye8uPHj6Nu3bqSBEVERFQe5d6tsribLtI6YRg+fDjGjh2L06dPQyaT4f79+9iwYQMmTJiATz/9tCRiJCIiKhf0JNp0kdZDElOmTIFSqUSnTp3w/PlztGvXDnK5HBMmTMDo0aNLIkYiIiIqY1onDDKZDF9++SUmTpyI2NhYpKWlwc3NDaampiURHxERUblRkecwFPlKj4aGhnBzc5MyFiIionJND8Wfg6AH3cwYtE4YOnTo8MaLShw+fLhYAREREZHu0TphaNKkidrjrKwsXLx4EVeuXIG/v79UcREREZU7HJJ4xYIFC/Itnz59OtLS0oodEBERUXnFm08VwqBBg/Dzzz9LVR0RERHpEMlubx0VFQUjIyOpqiMiIip3ZDIUe9JjhRmS8PPzU3sshMCDBw9w9uxZTJ06VbLAiIiIyhvOYXiFubm52mM9PT3Ur18fM2fOhI+Pj2SBERERke7QKmHIycnBkCFD4O7uDktLy5KKiYiIqFzipMf/0tfXh4+PD+9KSURElA+ZRP/pIq1XSTRs2BA3b94siViIiIjKtdwehuJuukjrhGH27NmYMGECdu/ejQcPHiA1NVVtIyIiooqn0HMYZs6cic8//xzdunUDALz33ntql4gWQkAmkyEnJ0f6KImIiMqBijyHodAJw4wZMzBy5EgcOXKkJOMhIiIqt2Qy2Rvvt1TYOnRRoRMGIQQAwMvLq8SCISIiIt2k1bJKXc16iIiIdAGHJP6rXr16GpOGJ0+eFCsgIiKi8opXevyvGTNm5LnSIxEREVV8WiUM/fv3h7W1dUnFQkREVK7pyWTFvvlUcZ9fUgqdMHD+AhER0ZtV5DkMhb5wU+4qCSIiIqp8Ct3DoFQqSzIOIiKi8k+CSY86eisJ7W9vTURERPnTgwx6xfyLX9znlxQmDERERBKpyMsqtb75FBEREVU+7GEgIiKSSEVeJcGEgYiISCIV+ToMHJIgIiIijdjDQEREJJGKPOmRCQMREZFE9CDBkISOLqvkkAQREVEFMXfuXMhkMowbN05Vlp6ejqCgIFSrVg2mpqbo06cPEhMTta6bCQMREZFEcockirsVxZkzZ7B8+XI0atRIrTw4OBi7du3Cli1bcPToUdy/fx9+fn5a18+EgYiISCJ6Em3aSktLw8CBA7Fy5UpYWlqqylNSUrB69Wr88MMP6NixI5o3b47w8HCcPHkSp06d0vrciIiIqBwLCgpC9+7d4e3trVZ+7tw5ZGVlqZU3aNAADg4OiIqK0qoNTnokIiKSiEwmg6yYkx5zn5+amqpWLpfLIZfL8xy/adMmnD9/HmfOnMmzLyEhAYaGhrCwsFArt7GxQUJCglZxsYeBiIhIIjKJNgCwt7eHubm5agsNDc3T3t27dzF27Fhs2LABRkZGJXpu7GEgIiKSiJRXerx79y4UCoWqPL/ehXPnzuHhw4do1qyZqiwnJwfHjh3DTz/9hP379yMzMxPJyclqvQyJiYmwtbXVKi4mDERERDpIoVCoJQz56dSpEy5fvqxWNmTIEDRo0ACTJ0+Gvb09DAwMcOjQIfTp0wcAEBMTg/j4eHh4eGgVDxMGIiIiCZXmZZfMzMzQsGFDtTITExNUq1ZNVR4YGIjx48fDysoKCoUCo0ePhoeHB959912t2mLCQEREJBFdvDT0ggULoKenhz59+iAjIwO+vr5YsmSJ1vUwYSAiIqpAIiMj1R4bGRkhLCwMYWFhxaqXCQMREZFEpFxWqWuYMBAREUmkqFdqfL0OXaSrcREREZEOYQ8DERGRRDgkQURERBq9eqXG4tShizgkQURERBqxh4GIiEgiHJIgIiIijSryKgkmDERERBKpyD0MuprIEBERkQ5hDwMREZFEKvIqCSYMREREEtHFm09JhUMSREREpBF7GIiIiCSiBxn0ijmoUNznlxQmDERERBLhkAQRERFVauxhICIikojsv/8Vtw5dxISBiIhIIhySICIiokqNPQxEREQSkUmwSoJDEkRERBVcRR6SYMJAREQkkYqcMHAOAxEREWnEHgYiIiKJcFklERERaaQne7kVtw5dxCEJIiIi0og9DERERBLhkAQRERFpxFUSREREVKmxh4GIiEgiMhR/SEFHOxiYMBAREUmFqySIiIioUmMPA5WJS7/PgINdtTzlq7Ycw8R5vwEA3nF3wlef9kDzhnWQk6PElb/voc+YMKRnZJV2uERFcuJ8LBavP4hL1+OR8DgVv3w3HN3bN1btf5iUiumLf8eR09FIefoCrZu64NuJH8DZwboMo6biqMirJMq0hyEgIAAymQwjR47Msy8oKAgymQwBAQGlHxiVuI7+36F+lxDV1jtoMQBgx8ELAF4mCxGLPsOR09fhHfAdOgV8h5VbjkKpFGUZNpFWnr/IQMN6tfDdpA/z7BNCYNDEFbh9/zE2fP8Jjv4yBbVrWqF30GI8e5FRBtGSFHJXSRR300Vl3sNgb2+PTZs2YcGCBTA2NgYApKenY+PGjXBwcChyvUII5OTkoEqVMj9FykdScpra43H+DXHz7iOcOH8DAPBNsB+Wb47EwrUHVMfE3nlYqjESFVdnz7fR2fPtfPfFxT/Emcu3cXLTl3B1rgkA+GHKh6jf5Qts3X8Og3u3Ls1QSSIyFH/Soo7mC2U/h6FZs2awt7fHtm3bVGXbtm2Dg4MDmjZtqirLyMjAmDFjYG1tDSMjI7Rp0wZnzpxR7Y+MjIRMJsPevXvRvHlzyOVyHD9+HEqlEqGhoXBycoKxsTEaN26MiIiIUj1HejODKvro1/UdbNgZBQCobmmKd9yd8OhJGvavHo+YfXOwe/lYvNu4bhlHSiSdjKxsAICR/H9favT09GBoUAWnLsaVVVhEBSrzhAEAhg4divDwcNXjn3/+GUOGDFE7ZtKkSdi6dSvWrl2L8+fPw8XFBb6+vnjy5InacVOmTMHcuXMRHR2NRo0aITQ0FOvWrcOyZctw9epVBAcHY9CgQTh69GiB8WRkZCA1NVVto5LTvX0jmJsaY+Pu0wCAOrWqAwCmDO+GtTtOou+YJbh0/S52LBmNuvY1yjJUIsnUq2OL2raWmBm2E8mpz5GZlY2Faw/g/sNkJCallHV4VER6kEFPVsxNR/sYdCJhGDRoEI4fP447d+7gzp07OHHiBAYNGqTa/+zZMyxduhTfffcdunbtCjc3N6xcuRLGxsZYvXq1Wl0zZ85E586d4ezsDBMTE8yZMwc///wzfH19UbduXQQEBGDQoEFYvnx5gfGEhobC3Nxctdnb25fYuRMw6L3WOBh1DQmPX35I6v13TdGa7cexcdcpXP77H3y5YBti7zzEoPc8yjJUIskYVNHH+nnDEXvnIZw6TYJd2/E4fvZveLd2g0ymEx/NVAQyiTZdpBMD/DVq1ED37t2xZs0aCCHQvXt3VK9eXbU/Li4OWVlZ8PT0VJUZGBigZcuWiI6OVqurRYsWqn/Hxsbi+fPn6Ny5s9oxmZmZasMdrwsJCcH48eNVj1NTU5k0lBB7W0u0b1kfH09aqSpLePyyRyfmVoLasTG3E1Db1rJU4yMqSU1cHfDnxhCkpL1AVlY2qluawTvgOzRxLfr8LaKSohMJA/ByWGLUqFEAgLCwsCLXY2Jiovp3WtrLiXV79uxBrVq11I6Ty+UF1iGXy9+4n6TzUU8PPPr3Kf44cVVVFn8/CfcfJsPFUX1pmYuDNQ6evFbaIRKVOHPTlxO+4+If4kJ0PL4Y2aOMI6Iiq8CzHnUmYejSpQsyMzMhk8ng6+urts/Z2RmGhoY4ceIEHB0dAQBZWVk4c+YMxo0bV2Cdbm5ukMvliI+Ph5eXV0mGT0Ugk8kwsOe72LTnNHJylGr7Fv9yECEjuuPK3/dw+e9/MKBHK7zlaAP/yasLqI1I96Q9z8Ctu49Uj+/cT8LlmH9gYV4V9rZW2HHwPKpbmqK2jRWuxd3HlPkR6O7VCB3fdS3DqKk4KvJ1GHQmYdDX11cNL+jr66vtMzExwaeffoqJEyfCysoKDg4OmDdvHp4/f47AwMAC6zQzM8OECRMQHBwMpVKJNm3aICUlBSdOnIBCoYC/v3+JnhO9WfuW9WFf0wq/7DyVZ9+yXyNhZGiAOeP7wEJRFVdv3IPfqJ9w+97jMoiUqGguRt9Bz5GLVI+/XPByNdiA7q2wZPrHSHycii8XbMOjJ09hU12B/t1aYeKwLmUVLtEb6UzCAAAKhaLAfXPnzoVSqcTHH3+Mp0+fokWLFti/fz8sLd88pj1r1izUqFEDoaGhuHnzJiwsLNCsWTN88cUXUodPWjpy+jos3xlV4P6Faw+oXYeBqLxp07we/j3zU4H7P+nfHp/0b196AVHJk+LCS7rZwQCZEIKXztMgNTUV5ubmkLsPh0zfsKzDISoRb/rDRlSepaamwqaaOVJSUt74xbS4bZibm+PwxXiYmhWvjbSnqejYxKFE4y0Krt0hIiIijXRqSIKIiKhc4yoJIiIi0oSrJIiIiEgjKe42qat3q+QcBiIiItKIPQxEREQSqcBTGJgwEBERSaYCZwwckiAiIiKN2MNAREQkEa6SICIiIo24SoKIiIh0ztKlS9GoUSMoFAooFAp4eHhg7969qv3p6ekICgpCtWrVYGpqij59+iAxMbFIbTFhICIikohMoq2wateujblz5+LcuXM4e/YsOnbsiF69euHq1asAgODgYOzatQtbtmzB0aNHcf/+ffj5+RXp3DgkQUREJJVSXiXRs2dPtcfffPMNli5dilOnTqF27dpYvXo1Nm7ciI4dOwIAwsPD4erqilOnTuHdd9/VKiz2MBAREemg1NRUtS0jI+ONx+fk5GDTpk149uwZPDw8cO7cOWRlZcHb21t1TIMGDeDg4ICoqCit42HCQEREJBGZRP8BgL29PczNzVVbaGhovm1evnwZpqamkMvlGDlyJLZv3w43NzckJCTA0NAQFhYWasfb2NggISFB63PjkAQREZFEpFwlcffuXSgUClW5XC7P9/j69evj4sWLSElJQUREBPz9/XH06NHiBZEPJgxEREQSkXIKQ+7KB00MDQ3h4uICAGjevDnOnDmDH3/8ER9++CEyMzORnJys1suQmJgIW1tbrePikAQREVEFolQqkZGRgebNm8PAwACHDh1S7YuJiUF8fDw8PDy0rpc9DERERFIp5VUSISEh6Nq1KxwcHPD06VNs3LgRkZGR2L9/P8zNzREYGIjx48fDysoKCoUCo0ePhoeHh9YrJAAmDERERJIp7UtDP3z4EIMHD8aDBw9gbm6ORo0aYf/+/ejcuTMAYMGCBdDT00OfPn2QkZEBX19fLFmypEhxMWEgIiIqp1avXv3G/UZGRggLC0NYWFix22LCQEREJJGKfC8JJgxEREQSKeUpDKWKqySIiIhII/YwEBERSaUCdzEwYSAiIpJIaa+SKE0ckiAiIiKN2MNAREQkEa6SICIiIo0q8BQGJgxERESSqcAZA+cwEBERkUbsYSAiIpJIRV4lwYSBiIhIKhJMetTRfIFDEkRERKQZexiIiIgkUoHnPDJhICIikkwFzhg4JEFEREQasYeBiIhIIlwlQURERBpV5EtDc0iCiIiINGIPAxERkUQq8JxHJgxERESSqcAZAxMGIiIiiVTkSY+cw0BEREQasYeBiIhIIjJIsEpCkkikx4SBiIhIIhV4CgOHJIiIiEgz9jAQERFJpCJfuIkJAxERkWQq7qAEhySIiIhII/YwEBERSYRDEkRERKRRxR2Q4JAEERERFQJ7GIiIiCTCIQkiIiLSqCLfS4IJAxERkVQq8CQGzmEgIiIijdjDQEREJJEK3MHAhIGIiEgqFXnSI4ckiIiISCP2MBAREUmEqySIiIhIswo8iYFDEkRERKQRexiIiIgkUoE7GJgwEBERSYWrJIiIiKhSYw8DERGRZIq/SkJXByWYMBAREUmEQxJERERUqTFhICIiIo04JEFERCSRijwkwYSBiIhIIhX50tAckiAiIiKN2MNAREQkEQ5JEBERkUYV+dLQHJIgIiIqp0JDQ/HOO+/AzMwM1tbW6N27N2JiYtSOSU9PR1BQEKpVqwZTU1P06dMHiYmJWrfFhIGIiEgqMom2Qjp69CiCgoJw6tQpHDhwAFlZWfDx8cGzZ89UxwQHB2PXrl3YsmULjh49ivv378PPz0/rU+OQBBERkURKe5XEvn371B6vWbMG1tbWOHfuHNq1a4eUlBSsXr0aGzduRMeOHQEA4eHhcHV1xalTp/Duu+8Wui32MBAREemg1NRUtS0jI0Pjc1JSUgAAVlZWAIBz584hKysL3t7eqmMaNGgABwcHREVFaRUPEwYiIiKJ5K6SKO4GAPb29jA3N1dtoaGhb2xbqVRi3Lhx8PT0RMOGDQEACQkJMDQ0hIWFhdqxNjY2SEhI0OrcOCRBREQkESlXSdy9excKhUJVLpfL3/i8oKAgXLlyBcePHy9mBPljwkBERCQVCTMGhUKhljC8yahRo7B7924cO3YMtWvXVpXb2toiMzMTycnJar0MiYmJsLW11SosDkkQERGVU0IIjBo1Ctu3b8fhw4fh5OSktr958+YwMDDAoUOHVGUxMTGIj4+Hh4eHVm2xh4GIiEgipb1KIigoCBs3bsTvv/8OMzMz1bwEc3NzGBsbw9zcHIGBgRg/fjysrKygUCgwevRoeHh4aLVCAmDCQEREJJnSvjT00qVLAQDt27dXKw8PD0dAQAAAYMGCBdDT00OfPn2QkZEBX19fLFmyROu4mDAUghDi5f9zMss4EqKSk5qaWtYhEJWIp/99b+d+lpckKX6PtKmjMOdkZGSEsLAwhIWFFScsJgyF8fTpUwBA5rW1ZRwJUcmxqbayrEMgKlFPnz6Fubl5idRtaGgIW1tbvOVkL0l9tra2MDQ0lKQuqchEaaRc5ZxSqcT9+/dhZmYGma7eRqwCSU1Nhb29fZ4lRUQVBd/jpUsIgadPn8LOzg56eiU31z89PR2ZmdL0RBsaGsLIyEiSuqTCHoZC0NPTU1umQqVDmyVFROUR3+Olp6R6Fl5lZGSkc3/kpcRllURERKQREwYiIiLSiAkD6Ry5XI5p06ZpvAwqUXnF9ziVR5z0SERERBqxh4GIiIg0YsJAREREGjFhICIiIo2YMBAREZFGTBioRAUEBKB3795lHQaR5AICAiCTyTBy5Mg8+4KCgiCTyVQ3/yGqCJgwEBEVkb29PTZt2oQXL16oytLT07Fx40Y4ODgUuV4hBLKzs6UIkUgyTBiozFy5cgVdu3aFqakpbGxs8PHHH+Px48eq/REREXB3d4exsTGqVasGb29vPHv2DAAQGRmJli1bwsTEBBYWFvD09MSdO3fK6lSokmrWrBns7e2xbds2Vdm2bdvg4OCApk2bqsoyMjIwZswYWFtbw8jICG3atMGZM2dU+yMjIyGTybB37140b94ccrkcx48fh1KpRGhoKJycnGBsbIzGjRsjIiKiVM+RKBcTBioTycnJ6NixI5o2bYqzZ89i3759SExMRL9+/QAADx48wIABAzB06FBER0cjMjISfn5+qm9evXv3hpeXF/766y9ERUVhxIgRvDEYlYmhQ4ciPDxc9fjnn3/GkCFD1I6ZNGkStm7dirVr1+L8+fNwcXGBr68vnjx5onbclClTMHfuXERHR6NRo0YIDQ3FunXrsGzZMly9ehXBwcEYNGgQjh49WirnRqRGEJUgf39/0atXrzzls2bNEj4+Pmpld+/eFQBETEyMOHfunAAgbt++nee5SUlJAoCIjIwsqbCJNMp9bz98+FDI5XJx+/Ztcfv2bWFkZCQePXokevXqJfz9/UVaWpowMDAQGzZsUD03MzNT2NnZiXnz5gkhhDhy5IgAIHbs2KE6Jj09XVStWlWcPHlSrd3AwEAxYMCA0jlJolfwbpVUJi5duoQjR47A1NQ0z764uDj4+PigU6dOcHd3h6+vL3x8fNC3b19YWlrCysoKAQEB8PX1RefOneHt7Y1+/fqhZs2aZXAmVNnVqFED3bt3x5o1ayCEQPfu3VG9enXV/ri4OGRlZcHT01NVZmBggJYtWyI6OlqtrhYtWqj+HRsbi+fPn6Nz585qx2RmZqoNdxCVFiYMVCbS0tLQs2dPfPvtt3n21axZE/r6+jhw4ABOnjyJP/74A4sXL8aXX36J06dPw8nJCeHh4RgzZgz27duHzZs346uvvsKBAwfw7rvvlsHZUGU3dOhQjBo1CgAQFhZW5HpMTExU/05LSwMA7NmzB7Vq1VI7jvegoLLAOQxUJpo1a4arV6+iTp06cHFxUdtyPzRlMhk8PT0xY8YMXLhwAYaGhti+fbuqjqZNmyIkJAQnT55Ew4YNsXHjxrI6HarkunTpgszMTGRlZcHX11dtn7OzMwwNDXHixAlVWVZWFs6cOQM3N7cC63Rzc4NcLkd8fHye3xF7e/sSOxeigrCHgUpcSkoKLl68qFY2YsQIrFy5EgMGDMCkSZNgZWWF2NhYbNq0CatWrcLZs2dx6NAh+Pj4wNraGqdPn8ajR4/g6uqKW7duYcWKFXjvvfdgZ2eHmJgY3LhxA4MHDy6bE6RKT19fXzW8oK+vr7bPxMQEn376KSZOnAgrKys4ODhg3rx5eP78OQIDAwus08zMDBMmTEBwcDCUSiXatGmDlJQUnDhxAgqFAv7+/iV6TkSvY8JAJS4yMjLPmGtgYCBOnDiByZMnw8fHBxkZGXB0dESXLl2gp6cHhUKBY8eOYeHChUhNTYWjoyPmz5+Prl27IjExEdevX8fatWuRlJSEmjVrIigoCJ988kkZnSERoFAoCtw3d+5cKJVKfPzxx3j69ClatGiB/fv3w9LS8o11zpo1CzVq1EBoaChu3rwJCwsLNGvWDF988YXU4RNpxNtbExERkUacw0BEREQaMWEgIiIijZgwEBERkUZMGIiIiEgjJgxERESkERMGIiIi0ogJAxEREWnEhIGonAgICEDv3r1Vj9u3b49x48aVehyRkZGQyWRITk4u8BiZTIYdO3YUus7p06ejSZMmxYrr9u3bkMlkea4qSkTSYMJAVAwBAQGQyWSQyWQwNDSEi4sLZs6ciezs7BJve9u2bZg1a1ahji3MH3kiojfhpaGJiqlLly4IDw9HRkYG/vOf/yAoKAgGBgYICQnJc2xmZiYMDQ0ladfKykqSeoiICoM9DETFJJfLYWtrC0dHR3z66afw9vbGzp07AfxvGOGbb76BnZ0d6tevDwC4e/cu+vXrBwsLC1hZWaFXr164ffu2qs6cnByMHz8eFhYWqFatGiZNmoTXr+L++pBERkYGJk+eDHt7e8jlcri4uGD16tW4ffs2OnToAACwtLSETCZDQEAAAECpVCI0NBROTk4wNjZG48aNERERodbOf/7zH9SrVw/Gxsbo0KGDWpyFNXnyZNSrVw9Vq1ZF3bp1MXXqVGRlZeU5bvny5bC3t0fVqlXRr18/pKSkqO1ftWoVXF1dYWRkhAYNGmDJkiVax0JERcOEgUhixsbGyMzMVD0+dOgQYmJicODAAezevVt1C2QzMzP8+eefOHHiBExNTVW3SAaA+fPnY82aNfj5559x/PhxPHnyRO3W3vkZPHgwfv31VyxatAjR0dFYvnw5TE1NYW9vj61btwIAYmJi8ODBA/z4448AgNDQUKxbtw7Lli3D1atXERwcjEGDBuHo0aMAXiY2fn5+6NmzJy5evIhhw4ZhypQpWr8mZmZmWLNmDa5du4Yff/wRK1euxIIFC9SOiY2NxW+//YZdu3Zh3759uHDhAj777DPV/g0bNuDrr7/GN998g+joaMyZMwdTp07F2rVrtY6HiIpAEFGR+fv7i169egkhhFAqleLAgQNCLpeLCRMmqPbb2NiIjIwM1XPWr18v6tevL5RKpaosIyNDGBsbi/379wshhKhZs6aYN2+ean9WVpaoXbu2qi0hhPDy8hJjx44VQggRExMjAIgDBw7kG+eRI0cEAPHvv/+qytLT00XVqlXFyZMn1Y4NDAwUAwYMEEIIERISItzc3NT2T548OU9drwMgtm/fXuD+7777TjRv3lz1eNq0aUJfX1/8888/qrK9e/cKPT098eDBAyGEEM7OzmLjxo1q9cyaNUt4eHgIIYS4deuWACAuXLhQYLtEVHScw0BUTLt374apqSmysrKgVCrx0UcfYfr06ar97u7uavMWLl26hNjYWJiZmanVk56ejri4OKSkpODBgwdo1aqVal+VKlXQokWLPMMSuS5evAh9fX14eXkVOu7Y2Fg8f/4cnTt3VivPzMxU3Y48OjpaLQ4A8PDwKHQbuTZv3oxFixYhLi4OaWlpyM7OznM7aAcHB9SqVUutHaVSiZiYGJiZmSEuLg6BgYEYPny46pjs7GyYm5trHQ8RaY8JA1ExdejQAUuXLoWhoSHs7OxQpYr6r5WJiYna47S0NDRv3hwbNmzIU1eNGjWKFIOxsbHWz0lLSwMA7NmzR+0PNfByXoZUoqKiMHDgQMyYMQO+vr4wNzfHpk2bMH/+fK1jXblyZZ4ERl9fX7JYiahgTBiIisnExAQuLi6FPr5Zs2bYvHkzrK2t83zLzlWzZk2cPn0a7dq1A/Dym/S5c+fQrFmzfI93d3eHUqnE0aNH4e3tnWd/bg9HTk6OqszNzQ1yuRzx8fEF9ky4urqqJnDmOnXqlOaTfMXJkyfh6OiIL7/8UlV2586dPMfFx8fj/v37sLOzU7Wjp6eH+vXrw8bGBnZ2drh58yYGDhyoVftEJA1OeiQqZQMHDkT16tXRq1cv/Pnnn7h16xYiIyMxZswY/PPPPwCAsWPHYu7cudixYweuX7+Ozz777I3XUKhTpw78/f0xdOhQ7NixQ1Xnb7/9BgBwdHSETCbD7t278ejRI6SlpcHMzAwTJkxAcHAw1q5di7i4OJw/fx6LFy9WTSQcOXIkbty4gYkTJyImJgYbN27EmjVrtDrft956C/Hx8di0aRPi4uKwaNGifCdwGhkZwd/fH5cuXcKff/6JMWPGoF+/frC1tQUAzJgxA6GhoVi0aBH+/vtvXL58GeHh4fjhhx+0ioeIioYJA1Epq1q1Ko4dOwYHBwf4+fnB1dUVgYGBSE9PV/U4fP755/j444/h7+8PDw8PmJmZ4f33339jvUuXLkXfvn3x2WefoUGDBhg+fDiePXsGAKhVqxZmzJiBKVOmwMbGBqNGjQIAzJo1C1OnTkVoaChcXV3RpUsX7NmzB05OTgBezivYunUrduzYgcaNG2PZsmWYM2eOVuf73nvvITg4GKNGjUKTJk1w8uRJTJ06Nc9xLi4u8PPzQ7du3eDj44NGjRqpLZscNmwYVq1ahfDwcLi7u8PLywtr1qxRxUpEJUsmCppFRURERPRf7GEgIiIijZgwEBERkUZMGIiIiEgjJgxERESkERMGIiIi0ogJAxEREWnEhIGIiIg0YsJAREREGjFhICIiIo2YMBAREZFGTBiIiIhIIyYMREREpNH/A2KekGTukmbcAAAAAElFTkSuQmCC", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Classification\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 200}\n", + "Accuracy: 0.4888888888888889\n", + "Precision: 0.5211267605633803\n", + "Recall: 0.3894736842105263\n", + "F1-score: 0.4457831325301205\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Gradient Boosting Classification\n", + "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "Accuracy: 0.4722222222222222\n", + "Precision: 0.5\n", + "Recall: 0.42105263157894735\n", + "F1-score: 0.45714285714285713\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, ConfusionMatrixDisplay\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": (LinearRegression(), {}),\n", + " \"Random Forest Regression\": (RandomForestRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, (model, params) in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", + " grid_search.fit(X_train_reg, y_train_reg)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_reg = best_model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()\n", + "\n", + "# Список моделей и их гиперпараметров для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": (LogisticRegression(), {\n", + " 'model__C': [0.1, 1, 10],\n", + " 'model__solver': ['liblinear', 'lbfgs']\n", + " }),\n", + " \"Random Forest Classification\": (RandomForestClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, (model, params) in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", + " grid_search.fit(X_train_class, y_train_class)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_class = best_model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " precision = precision_score(y_test_class, y_pred_class)\n", + " recall = recall_score(y_test_class, y_pred_class)\n", + " f1 = f1_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print(f\"Precision: {precision}\")\n", + " print(f\"Recall: {recall}\")\n", + " print(f\"F1-score: {f1}\")\n", + " print()\n", + "\n", + " # Визуализация матрицы ошибок\n", + " cm = confusion_matrix(y_test_class, y_pred_class)\n", + " disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Less', 'More'])\n", + " disp.plot(cmap=plt.cm.Blues)\n", + " plt.title(f'Confusion Matrix for {name}')\n", + " plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Давайте проанализируем полученные значения метрик и определим, являются ли они нормальными или их можно улучшить.\n", + "\n", + "### Оценка смещения и дисперсии для задачи регрессии:\n", + "\n", + "### Вывод для задачи регрессии:\n", + "\n", + "- **Random Forest Regression** демонстрирует наилучшие результаты по метрикам MAE и R², что указывает на высокую точность и стабильность модели.\n", + "- **Linear Regression** и **Gradient Boosting Regression** также показывают хорошие результаты, но уступают случайному лесу.\n", + "\n", + "### Вывод для задачи классификации:\n", + "\n", + "- **Random Forest Classification** демонстрирует наилучшие результаты по всем метрикам (Accuracy, Precision, Recall, F1-score), что указывает на высокую точность и стабильность модели.\n", + "- **Logistic Regression** и **Gradient Boosting Classification** также показывают хорошие результаты, но уступают случайному лесу.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Для оценки смещения (bias) и дисперсии (variance) моделей можно использовать метод перекрестной проверки (cross-validation). Этот метод позволяет оценить, насколько хорошо модель обобщается на новых данных.\n", + "\n", + "Оценка смещения и дисперсии для задачи регрессии:\n", + "Для задачи регрессии мы будем использовать метрики MAE (Mean Absolute Error) и R² (R-squared) для оценки смещения и дисперсии.\n", + "\n", + "Оценка смещения и дисперсии для задачи классификации:\n", + "Для задачи классификации мы будем использовать метрики Accuracy, Precision, Recall и F1-score для оценки смещения и дисперсии.\n", + "\n", + "Пример кода для оценки смещения и дисперсии:" + ] + }, + { + "cell_type": "code", + "execution_count": 77, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Оценка смещения и дисперсии для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE (Cross-Validation): Mean = 214.80552977981765, Std = 10.606512171542404\n", + "R² (Cross-Validation): Mean = -0.013983192308878256, Std = 0.013712813782736416\n", + "\n", + "Model: Random Forest Regression\n", + "MAE (Cross-Validation): Mean = 228.04118684047177, Std = 8.752812633688961\n", + "R² (Cross-Validation): Mean = -0.16773777274246124, Std = 0.07089525362334798\n", + "\n", + "Model: Gradient Boosting Regression\n", + "MAE (Cross-Validation): Mean = 223.01691070195233, Std = 7.525579341977898\n", + "R² (Cross-Validation): Mean = -0.1007213971850566, Std = 0.039722456407795335\n", + "\n", + "Оценка смещения и дисперсии для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy (Cross-Validation): Mean = 0.5055307262569833, Std = 0.03499561917769727\n", + "Precision (Cross-Validation): Mean = 0.5065468552510806, Std = 0.054654647753909255\n", + "Recall (Cross-Validation): Mean = 0.36069969356486214, Std = 0.041986149284426406\n", + "F1-score (Cross-Validation): Mean = 0.41699563277139867, Std = 0.022647838103859376\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy (Cross-Validation): Mean = 0.47995654872749843, Std = 0.02347679112801281\n", + "Precision (Cross-Validation): Mean = 0.4767585025913199, Std = 0.027370716762614142\n", + "Recall (Cross-Validation): Mean = 0.44468845760980596, Std = 0.05499181588361489\n", + "F1-score (Cross-Validation): Mean = 0.47024453023626417, Std = 0.04502303274822186\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy (Cross-Validation): Mean = 0.5178895096213532, Std = 0.027332603426564073\n", + "Precision (Cross-Validation): Mean = 0.5084858601973745, Std = 0.022621295137266188\n", + "Recall (Cross-Validation): Mean = 0.49668028600612874, Std = 0.04700469023993552\n", + "F1-score (Cross-Validation): Mean = 0.5055891495803455, Std = 0.03687694960165771\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import cross_val_score\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи регрессии\n", + "print(\"Оценка смещения и дисперсии для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", + " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE (Cross-Validation): Mean = {mae_scores.mean()}, Std = {mae_scores.std()}\")\n", + " print(f\"R² (Cross-Validation): Mean = {r2_scores.mean()}, Std = {r2_scores.std()}\")\n", + " print()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи классификации\n", + "print(\"Оценка смещения и дисперсии для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", + " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", + " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", + " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy (Cross-Validation): Mean = {accuracy_scores.mean()}, Std = {accuracy_scores.std()}\")\n", + " print(f\"Precision (Cross-Validation): Mean = {precision_scores.mean()}, Std = {precision_scores.std()}\")\n", + " print(f\"Recall (Cross-Validation): Mean = {recall_scores.mean()}, Std = {recall_scores.std()}\")\n", + " print(f\"F1-score (Cross-Validation): Mean = {f1_scores.mean()}, Std = {f1_scores.std()}\")\n", + " print()" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "from sklearn.model_selection import cross_val_score\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи регрессии\n", + "mae_means = []\n", + "mae_stds = []\n", + "r2_means = []\n", + "r2_stds = []\n", + "\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", + " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", + " mae_means.append(mae_scores.mean())\n", + " mae_stds.append(mae_scores.std())\n", + " r2_means.append(r2_scores.mean())\n", + " r2_stds.append(r2_scores.std())\n", + "\n", + "# Визуализация результатов для задачи регрессии\n", + "fig, ax = plt.subplots(1, 2, figsize=(12, 6))\n", + "\n", + "ax[0].bar(models_reg.keys(), mae_means, yerr=mae_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0].set_ylabel('MAE')\n", + "ax[0].set_title('Mean Absolute Error (MAE) for Regression Models')\n", + "ax[0].yaxis.grid(True)\n", + "\n", + "ax[1].bar(models_reg.keys(), r2_means, yerr=r2_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1].set_ylabel('R²')\n", + "ax[1].set_title('R-squared (R²) for Regression Models')\n", + "ax[1].yaxis.grid(True)\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи классификации\n", + "accuracy_means = []\n", + "accuracy_stds = []\n", + "precision_means = []\n", + "precision_stds = []\n", + "recall_means = []\n", + "recall_stds = []\n", + "f1_means = []\n", + "f1_stds = []\n", + "\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", + " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", + " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", + " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", + " accuracy_means.append(accuracy_scores.mean())\n", + " accuracy_stds.append(accuracy_scores.std())\n", + " precision_means.append(precision_scores.mean())\n", + " precision_stds.append(precision_scores.std())\n", + " recall_means.append(recall_scores.mean())\n", + " recall_stds.append(recall_scores.std())\n", + " f1_means.append(f1_scores.mean())\n", + " f1_stds.append(f1_scores.std())\n", + "\n", + "# Визуализация результатов для задачи классификации\n", + "fig, ax = plt.subplots(2, 2, figsize=(12, 12))\n", + "\n", + "ax[0, 0].bar(models_class.keys(), accuracy_means, yerr=accuracy_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0, 0].set_ylabel('Accuracy')\n", + "ax[0, 0].set_title('Accuracy for Classification Models')\n", + "ax[0, 0].yaxis.grid(True)\n", + "\n", + "ax[0, 1].bar(models_class.keys(), precision_means, yerr=precision_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0, 1].set_ylabel('Precision')\n", + "ax[0, 1].set_title('Precision for Classification Models')\n", + "ax[0, 1].yaxis.grid(True)\n", + "\n", + "ax[1, 0].bar(models_class.keys(), recall_means, yerr=recall_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1, 0].set_ylabel('Recall')\n", + "ax[1, 0].set_title('Recall for Classification Models')\n", + "ax[1, 0].yaxis.grid(True)\n", + "\n", + "ax[1, 1].bar(models_class.keys(), f1_means, yerr=f1_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1, 1].set_ylabel('F1-score')\n", + "ax[1, 1].set_title('F1-score for Classification Models')\n", + "ax[1, 1].yaxis.grid(True)\n", + "\n", + "plt.tight_layout()\n", + "plt.show()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aisenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.6" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} From f37a0437ed0e0c7474c3f5ac1249575bf105d627 Mon Sep 17 00:00:00 2001 From: mayday Date: Thu, 28 Nov 2024 22:00:12 +0400 Subject: [PATCH 2/3] 1 --- lab_4/lab4.ipynb | 2221 +++++++++++++--------------------------------- 1 file changed, 639 insertions(+), 1582 deletions(-) diff --git a/lab_4/lab4.ipynb b/lab_4/lab4.ipynb index 9b7c97e..cc304b7 100644 --- a/lab_4/lab4.ipynb +++ b/lab_4/lab4.ipynb @@ -4,12 +4,21 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## Начало лабораторной работы" + "# Вариант задания: Прогнозирование выпучки в магазинах\n", + "### Бизнес-цели:\n", + "Цель: Разработать модель машинного обучения, которая позволит прогнозировать распродажи магазина в зависимоси от его ассортимента.\n", + "\n", + "### Цели технического проекта:\n", + "\n", + "Сбор и подготовка данных:\n", + "Очистка данных от пропусков, выбросов и дубликатов.\n", + "Преобразование категориальных переменных в числовые.\n", + "Разделение данных на обучающую и тестовую выборки.\n" ] }, { "cell_type": "code", - "execution_count": 67, + "execution_count": 62, "metadata": {}, "outputs": [ { @@ -23,8 +32,11 @@ } ], "source": [ - "import pandas as pd\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "import pandas as pn\n", + "import matplotlib.pyplot as plt\n", + "import matplotlib\n", + "import matplotlib.ticker as ticker\n", + "df = pn.read_csv(\".//static//csv//Stores.csv\")\n", "print(df.columns)" ] }, @@ -32,241 +44,539 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Бизнес-цели" + "Разделим на 3 выборки\n" + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: 572\n", + "Размер контрольной выборки: 144\n", + "Размер тестовой выборки: 180\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import train_test_split\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тест)\n", + "train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)\n", + "\n", + "# Разделение обучающей выборки на обучающую и контрольную (80% - обучение, 20% - контроль)\n", + "train_data, val_data = train_test_split(train_data, test_size=0.2, random_state=42)\n", + "\n", + "print(\"Размер обучающей выборки:\", len(train_data))\n", + "print(\"Размер контрольной выборки:\", len(val_data))\n", + "print(\"Размер тестовой выборки:\", len(test_data))" + ] + }, + { + "cell_type": "code", + "execution_count": 64, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "\n", + "import seaborn as sns\n", + "import matplotlib.pyplot as plt\n", + "\n", + "# Гистограмма распределения цены в обучающей выборке\n", + "sns.histplot(train_data[\"Store_Sales\"], kde=True)\n", + "plt.title('Распределение цены в обучающей выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения цены в контрольной выборке\n", + "sns.histplot(val_data[\"Store_Sales\"], kde=True)\n", + "plt.title('Распределение цены в контрольной выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения цены в тестовой выборке\n", + "sns.histplot(test_data[\"Store_Sales\"], kde=True)\n", + "plt.title('Распределение цены в тестовой выборке')\n", + "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "1. Прогнозирование посетителей в магазине:\n", + "## Процесс конструирования признаков\n", "\n", - "Цель: Разработать модель, которая будет предсказывать посещение клиентами магазина на основе его характеристик (размер, распродажи, количество ассортимента).\n", "\n", - "Применение:\n", - "Предсказывание посещения магазинов клиентами.\n", "\n", - "2. Оптимизация параметров магазина:\n", + "### Унитарное кодирование категориальных признаков (one-hot encoding)\n", "\n", - "Цель: Определить оптимальные коэффициенты для различных факторов, влияющих на посещаемость магазина чтобы максимизировать прибыль компании при наименьших затратах на пространство магазина и его ассортиментт.\n", + "One-hot encoding: Преобразование категориальных признаков в бинарные векторы." + ] + }, + { + "cell_type": "code", + "execution_count": 65, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", "\n", - "Применение:\n", - "Создавать магазин с максимальной посещаемостью." + "# Пример категориальных признаков\n", + "categorical_features = [\n", + " \"Store ID \",\n", + " \"Store_Area\"\n", + "]\n", + "\n", + "# Применение one-hot encoding\n", + "train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)\n", + "val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)\n", + "test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "1. Прогнозирование посетителей в магазине" + "### Дискретизация числовых признаков " + ] + }, + { + "cell_type": "code", + "execution_count": 66, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
Store_AreaStore_Area
01659(1259.667, 1744.333]
11461(1259.667, 1744.333]
21340(1259.667, 1744.333]
31451(1259.667, 1744.333]
41770(1744.333, 2229.0]
51442(1259.667, 1744.333]
61542(1259.667, 1744.333]
71261(1259.667, 1744.333]
81090(775.0, 1259.667]
91030(775.0, 1259.667]
101187(775.0, 1259.667]
111751(1744.333, 2229.0]
121746(1744.333, 2229.0]
131615(1259.667, 1744.333]
141469(1259.667, 1744.333]
151644(1259.667, 1744.333]
161578(1259.667, 1744.333]
171703(1259.667, 1744.333]
181438(1259.667, 1744.333]
191940(1744.333, 2229.0]
\n", + "
" + ], + "text/plain": [ + " Store_Area Store_Area\n", + "0 1659 (1259.667, 1744.333]\n", + "1 1461 (1259.667, 1744.333]\n", + "2 1340 (1259.667, 1744.333]\n", + "3 1451 (1259.667, 1744.333]\n", + "4 1770 (1744.333, 2229.0]\n", + "5 1442 (1259.667, 1744.333]\n", + "6 1542 (1259.667, 1744.333]\n", + "7 1261 (1259.667, 1744.333]\n", + "8 1090 (775.0, 1259.667]\n", + "9 1030 (775.0, 1259.667]\n", + "10 1187 (775.0, 1259.667]\n", + "11 1751 (1744.333, 2229.0]\n", + "12 1746 (1744.333, 2229.0]\n", + "13 1615 (1259.667, 1744.333]\n", + "14 1469 (1259.667, 1744.333]\n", + "15 1644 (1259.667, 1744.333]\n", + "16 1578 (1259.667, 1744.333]\n", + "17 1703 (1259.667, 1744.333]\n", + "18 1438 (1259.667, 1744.333]\n", + "19 1940 (1744.333, 2229.0]" + ] + }, + "execution_count": 66, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "from sklearn.preprocessing import OneHotEncoder\n", + "import numpy as np\n", + "\n", + "\n", + "labels = [\"small\", \"medium\", \"large\"]\n", + "num_bins = 3\n", + "\n", + "hist1, bins1 = np.histogram(\n", + " df[\"Store_Area\"].fillna(df[\"Store_Area\"].median()), bins=num_bins\n", + ")\n", + "bins1, hist1\n", + "\n", + "pd.concat([df[\"Store_Area\"], pd.cut(df[\"Store_Area\"], list(bins1))], axis=1).head(20)\n" + ] + }, + { + "cell_type": "code", + "execution_count": 67, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
Store_AreaStore_Area
01659medium
11461medium
21340medium
31451medium
41770large
51442medium
61542medium
71261medium
81090small
91030small
101187small
111751large
121746large
131615medium
141469medium
151644medium
161578medium
171703medium
181438medium
191940large
\n", + "
" + ], + "text/plain": [ + " Store_Area Store_Area\n", + "0 1659 medium\n", + "1 1461 medium\n", + "2 1340 medium\n", + "3 1451 medium\n", + "4 1770 large\n", + "5 1442 medium\n", + "6 1542 medium\n", + "7 1261 medium\n", + "8 1090 small\n", + "9 1030 small\n", + "10 1187 small\n", + "11 1751 large\n", + "12 1746 large\n", + "13 1615 medium\n", + "14 1469 medium\n", + "15 1644 medium\n", + "16 1578 medium\n", + "17 1703 medium\n", + "18 1438 medium\n", + "19 1940 large" + ] + }, + "execution_count": 67, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "pd.concat(\n", + " [df[\"Store_Area\"], pd.cut(df[\"Store_Area\"], list(bins1), labels=labels)], axis=1\n", + ").head(20)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Ручной синтез" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Среднее значение поля 'Daily_Customer_Count': 786.3504464285714\n", - " Store ID Store_Area Items_Available Daily_Customer_Count Store_Sales \\\n", - "0 1 1659 1961 530 66490 \n", - "1 2 1461 1752 210 39820 \n", - "2 3 1340 1609 720 54010 \n", - "3 4 1451 1748 620 53730 \n", - "4 5 1770 2111 450 46620 \n", - "\n", - " above_average_count customers_volatility \n", - "0 0 1550 \n", - "1 0 1550 \n", - "2 0 1550 \n", - "3 0 1550 \n", - "4 0 1550 \n" - ] - } - ], + "outputs": [], "source": [ - "import pandas as pd\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "# Устанавливаем случайное состояние\n", - "random_state = 42\n", - "\n", - "# Рассчитываем среднее значение посещаемости\n", - "average_count = df['Daily_Customer_Count'].mean()\n", - "print(f\"Среднее значение поля 'Daily_Customer_Count': {average_count}\")\n", - "\n", - "# Создаем новую переменную, указывающую, превышает ли посещаемость среднюю\n", - "df[\"above_average_count\"] = (df[\"Daily_Customer_Count\"] > average_count).astype(int)\n", - "\n", - "# Рассчитываем волатильность (разницу между максимальной и минимальной посещаемостью)\n", - "df[\"customers_volatility\"] = df[\"Daily_Customer_Count\"].max() - df[\"Daily_Customer_Count\"].min()\n", - "\n", - "# Выводим первые строки измененной таблицы для проверки\n", - "print(df.head())" + "# Пример синтеза признака коэффициента отношения размера ассортимента к его распродажам\n", + "train_data_encoded[\"koeff\"] = (\n", + " train_data_encoded[\"Items_Available\"] / train_data_encoded[\"Store_Sales\"]\n", + ")\n", + "val_data_encoded[\"koeff\"] = (\n", + " val_data_encoded[\"Items_Available\"] / val_data_encoded[\"Store_Sales\"]\n", + ")\n", + "test_data_encoded[\"koeff\"] = (\n", + " test_data_encoded[\"Items_Available\"] / test_data_encoded[\"Store_Sales\"]\n", + ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "2. Оптимизация параметров магазина:" + "Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети." ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Средняя посещаемость для 'Store_Area':\n", - "Store_Area\n", - "775 1090.0\n", - "780 790.0\n", - "854 660.0\n", - "869 850.0\n", - "891 630.0\n", - " ... \n", - "2063 810.0\n", - "2067 790.0\n", - "2169 600.0\n", - "2214 740.0\n", - "2229 660.0\n", - "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", - "\n", - "Средняя посещаемость для 'Items_Available':\n", - "Items_Available\n", - "932 1090.0\n", - "951 790.0\n", - "1018 660.0\n", - "1050 850.0\n", - "1059 870.0\n", - " ... \n", - "2492 790.0\n", - "2493 810.0\n", - "2617 600.0\n", - "2647 740.0\n", - "2667 660.0\n", - "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", - "\n", - "Средняя посещаемость для 'Store_Sales':\n", - "Store_Sales\n", - "14920 990.0\n", - "16370 880.0\n", - "17670 660.0\n", - "20270 870.0\n", - "21300 850.0\n", - " ... \n", - "101820 820.0\n", - "102310 1310.0\n", - "102920 680.0\n", - "105150 980.0\n", - "116320 860.0\n", - "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", - "\n", - "Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\n", - "Store_Area Items_Available\n", - "775 932 1090.0\n", - "780 951 790.0\n", - "854 1018 660.0\n", - "869 1050 850.0\n", - "891 1073 630.0\n", - " ... \n", - "2063 2493 810.0\n", - "2067 2492 790.0\n", - "2169 2617 600.0\n", - "2214 2647 740.0\n", - "2229 2667 660.0\n", - "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", - "\n", - "Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\n", - "Store_Sales Items_Available\n", - "14920 1508 990.0\n", - "16370 1790 880.0\n", - "17670 1877 660.0\n", - "20270 1946 870.0\n", - "21300 1686 850.0\n", - " ... \n", - "101820 1758 820.0\n", - "102310 1587 1310.0\n", - "102920 1638 680.0\n", - "105150 2104 980.0\n", - "116320 2414 860.0\n", - "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", - "\n", - "Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\n", - "Store_Sales Store_Area\n", - "14920 1250 990.0\n", - "16370 1477 880.0\n", - "17670 1537 660.0\n", - "20270 1624 870.0\n", - "21300 1397 850.0\n", - " ... \n", - "101820 1486 820.0\n", - "102310 1303 1310.0\n", - "102920 1365 680.0\n", - "105150 1775 980.0\n", - "116320 1989 860.0\n", - "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", - "\n" - ] - } - ], + "outputs": [], "source": [ - "import pandas as pd\n", + "from sklearn.preprocessing import StandardScaler, MinMaxScaler\n", "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "# Пример масштабирования числовых признаков\n", + "numerical_features = [\"Daily_Customer_Count\", \"Items_Available\"]\n", "\n", - "# Устанавливаем случайное состояние\n", - "random_state = 42\n", - "\n", - "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", - "for column in [\n", - " \"Store_Area\",\n", - " \"Items_Available\",\n", - " \"Store_Sales\"\n", - "]:\n", - " print(f\"Средняя посещаемость для '{column}':\")\n", - " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", - " print()\n", - "\n", - "\n", - "print(\"Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\")\n", - "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", - "print()\n", - "\n", - "\n", - "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\")\n", - "print(df.groupby([\"Store_Sales\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", - "print()\n", - "\n", - "\n", - "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\")\n", - "print(df.groupby([\"Store_Sales\", \"Store_Area\"])[\"Daily_Customer_Count\"].mean())\n", - "print()" + "scaler = StandardScaler()\n", + "train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n", + "val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n", + "test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### Выбор ориентира:\n", - "1. Прогнозирование стоимости страховых взносов:\n", - "Ориентир:\n", - "\n", - "R² (коэффициент детерминации): 0.75 - 0.85\n", - "\n", - "MAE (средняя абсолютная ошибка): 150 - 300 человек\n", - "\n", - "RMSE (среднеквадратичная ошибка): 175 - 315 человек\n" + "### Конструирование признаков с применением фреймворка Featuretools" ] }, { @@ -274,283 +584,62 @@ "execution_count": 70, "metadata": {}, "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "MAE: 241.24369535006045\n", - "MSE: 82946.49105226391\n", - "RMSE: 288.004324711043\n", - "R²: -0.008816097180501359\n", - "Ориентиры для прогнозирования не достигнуты.\n", - "Средняя посещаемость 'Store_Area':\n", - "Store_Area\n", - "775 1090.0\n", - "780 790.0\n", - "854 660.0\n", - "869 850.0\n", - "891 630.0\n", - " ... \n", - "2063 810.0\n", - "2067 790.0\n", - "2169 600.0\n", - "2214 740.0\n", - "2229 660.0\n", - "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", - "\n", - "Средняя посещаемость 'Items_Available':\n", - "Items_Available\n", - "932 1090.0\n", - "951 790.0\n", - "1018 660.0\n", - "1050 850.0\n", - "1059 870.0\n", - " ... \n", - "2492 790.0\n", - "2493 810.0\n", - "2617 600.0\n", - "2647 740.0\n", - "2667 660.0\n", - "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", - "\n", - "Средняя посещаемость 'Store_Sales':\n", - "Store_Sales\n", - "14920 990.0\n", - "16370 880.0\n", - "17670 660.0\n", - "20270 870.0\n", - "21300 850.0\n", - " ... \n", - "101820 820.0\n", - "102310 1310.0\n", - "102920 680.0\n", - "105150 980.0\n", - "116320 860.0\n", - "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", - "\n", - "Средняя стоимость страховых взносов для комбинации 'Store_Area' и 'Items_Available':\n", - "Store_Area Items_Available\n", - "775 932 1090.0\n", - "780 951 790.0\n", - "854 1018 660.0\n", - "869 1050 850.0\n", - "891 1073 630.0\n", - " ... \n", - "2063 2493 810.0\n", - "2067 2492 790.0\n", - "2169 2617 600.0\n", - "2214 2647 740.0\n", - "2229 2667 660.0\n", - "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", - "\n", - "Средняя стоимость страховых взносов для комбинации 'Items_Available' и 'Store_Sales':\n", - "Items_Available Store_Sales\n", - "932 42530 1090.0\n", - "951 25600 790.0\n", - "1018 77740 660.0\n", - "1050 52540 850.0\n", - "1059 75110 870.0\n", - " ... \n", - "2492 70230 790.0\n", - "2493 51480 810.0\n", - "2617 67080 600.0\n", - "2647 65900 740.0\n", - "2667 87410 660.0\n", - "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", - "\n" - ] - }, { "name": "stderr", "output_type": "stream", "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index id not found in dataframe, creating new integer column\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" ] } ], "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression\n", - "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "import featuretools as ft\n", "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='shop_data')\n", + "es = es.add_dataframe(dataframe_name='shops', dataframe=train_data_encoded, index='id')\n", "\n", "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y)\n", - "X = df.drop(\"Daily_Customer_Count\", axis=1)\n", - "y = df[\"Daily_Customer_Count\"]\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='shops', max_depth=2)\n", "\n", - "# Разделяем данные на обучающую и тестовую выборки\n", - "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", - "\n", - "# Стандартизируем признаки\n", - "scaler = StandardScaler()\n", - "X_train = scaler.fit_transform(X_train)\n", - "X_test = scaler.transform(X_test)\n", - "\n", - "# Обучаем модель линейной регрессии\n", - "model = LinearRegression()\n", - "model.fit(X_train, y_train)\n", - "\n", - "# Делаем предсказания на тестовой выборке\n", - "y_pred = model.predict(X_test)\n", - "\n", - "# Оцениваем качество модели\n", - "mae = mean_absolute_error(y_test, y_pred)\n", - "mse = mean_squared_error(y_test, y_pred)\n", - "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", - "r2 = r2_score(y_test, y_pred)\n", - "\n", - "print(f\"MAE: {mae}\")\n", - "print(f\"MSE: {mse}\")\n", - "print(f\"RMSE: {rmse}\")\n", - "print(f\"R²: {r2}\")\n", - "\n", - "# Проверяем, достигнуты ли ориентиры\n", - "if r2 >= 0.75 and mae <= 300 and rmse <= 350:\n", - " print(\"Ориентиры для прогнозирования достигнуты!\")\n", - "else:\n", - " print(\"Ориентиры для прогнозирования не достигнуты.\")\n", - "\n", - "\n", - "columns_to_group = [\n", - " \"Store_Area\",\n", - " \"Items_Available\",\n", - " \"Store_Sales\"\n", - "]\n", - "\n", - "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", - "for column in columns_to_group:\n", - " print(f\"Средняя посещаемость '{column}':\")\n", - " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", - " print()\n", - "\n", - "# Рассчитываем среднюю посещаемость для комбинаций признаков\n", - "\n", - "print(\n", - " \"Средняя стоимость страховых взносов для комбинации 'Store_Area' и 'Items_Available':\"\n", - ")\n", - "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", - "print()\n", - "\n", - "print(\n", - " \"Средняя стоимость страховых взносов для комбинации 'Items_Available' и 'Store_Sales':\"\n", - ")\n", - "print(df.groupby([\"Items_Available\", \"Store_Sales\"])[\"Daily_Customer_Count\"].mean())\n", - "print()" + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### Анализ применимости алгоритмов обучения с учителем для решения поставленных задач:\n", - "1. Прогнозирование посещаемости магазинов:\n", - "Задача: Регрессия\n", + "### Оценка качества каждого набора признаков\n", + "Предсказательная способность\n", + "Метрики: RMSE, MAE, R²\n", "\n", - "Свойства алгоритмов:\n", + "Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.\n", "\n", - "Линейная регрессия:\n", - "Применимость: Хорошо подходит для задач, где зависимость между признаками и целевой переменной линейна.\n", - "Преимущества: Проста в реализации, интерпретируема.\n", - "Недостатки: Может плохо работать, если зависимость нелинейна.\n", + "Скорость вычисления\n", + "Методы: Измерение времени выполнения генерации признаков и обучения модели.\n", "\n", - "Деревья решений (регрессия):\n", - "Применимость: Подходит для задач с нелинейными зависимостями.\n", - "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", - "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", + "Надежность\n", + "Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.\n", "\n", - "Случайный лес (регрессия):\n", - "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", - "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", - "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", + "Корреляция\n", + "Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.\n", "\n", - "Градиентный бустинг (регрессия):\n", - "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", - "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", - "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", - "\n", - "Нейронные сети (регрессия):\n", - "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", - "Преимущества: Может моделировать очень сложные зависимости.\n", - "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", - "\n", - "Вывод:\n", - "\n", - "Линейная регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", - "\n", - "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", - "\n", - "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", - "\n", - "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n", - "\n", - "2. Оптимизация тарифной сетки:\n", - "Задача: Классификация (группировка клиентов по группам риска)\n", - "\n", - "Свойства алгоритмов:\n", - "\n", - "Логистическая регрессия:\n", - "Применимость: Хорошо подходит для задач бинарной классификации, где зависимость между признаками и целевой переменной линейна.\n", - "Преимущества: Проста в реализации, интерпретируема.\n", - "Недостатки: Может плохо работать, если зависимость нелинейна.\n", - "\n", - "Деревья решений (классификация):\n", - "Применимость: Подходит для задач с нелинейными зависимостями.\n", - "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", - "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", - "\n", - "Случайный лес (классификация):\n", - "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", - "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", - "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", - "\n", - "Градиентный бустинг (классификация):\n", - "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", - "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", - "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", - "\n", - "Нейронные сети (классификация):\n", - "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", - "Преимущества: Может моделировать очень сложные зависимости.\n", - "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", - "\n", - "Вывод:\n", - "\n", - "Логистическая регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", - "\n", - "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", - "\n", - "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", - "\n", - "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "1. Прогнозирование стоимости страховых взносов:\n", - "Выбранные модели:\n", - "\n", - "Линейная регрессия\n", - "\n", - "Случайный лес (регрессия)\n", - "\n", - "Градиентный бустинг (регрессия)\n", - "\n", - "2. Оптимизация тарифной сетки:\n", - "Выбранные модели:\n", - "\n", - "Логистическая регрессия\n", - "\n", - "Случайный лес (классификация)\n", - "\n", - "Градиентный бустинг (классификация)" + "Цельность\n", + "Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели." ] }, { @@ -558,156 +647,38 @@ "execution_count": 71, "metadata": {}, "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи регрессии:\n", - "Model: Linear Regression\n", - "MAE: 241.24369535006045\n", - "MSE: 82946.49105226391\n", - "RMSE: 288.004324711043\n", - "R²: -0.008816097180501359\n", - "\n" - ] - }, { "name": "stderr", "output_type": "stream", "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Random Forest Regression\n", - "MAE: 240.68666666666667\n", - "MSE: 85748.043\n", - "RMSE: 292.82766775016324\n", - "R²: -0.042889276963148815\n", - "\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Gradient Boosting Regression\n", - "MAE: 243.53822748120598\n", - "MSE: 86937.70201509264\n", - "RMSE: 294.85200018838714\n", - "R²: -0.05735820927548918\n", - "\n", - "Результаты для задачи классификации:\n", - "Model: Logistic Regression\n", - "Accuracy: 0.43333333333333335\n", - "\n", - "Model: Random Forest Classification\n", - "Accuracy: 0.4777777777777778\n", - "\n", - "Model: Gradient Boosting Classification\n", - "Accuracy: 0.4888888888888889\n", - "\n" + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" ] } ], "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression, LogisticRegression\n", - "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", - "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", - "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score\n", + "import featuretools as ft\n", "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='shop_data')\n", + "es = es.add_dataframe(dataframe_name='shops', dataframe=train_data_encoded, index='id')\n", "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='shops', max_depth=2)\n", "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df.drop(\"Daily_Customer_Count\", axis=1)\n", - "y_reg = df[\"Daily_Customer_Count\"]\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", - "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", - "\n", - "# Стандартизируем признаки для задачи регрессии\n", - "scaler_reg = StandardScaler()\n", - "X_train_reg = scaler_reg.fit_transform(X_train_reg)\n", - "X_test_reg = scaler_reg.transform(X_test_reg)\n", - "\n", - "# Список моделей для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": LinearRegression(),\n", - " \"Random Forest Regression\": RandomForestRegressor(),\n", - " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", - "}\n", - "\n", - "# Обучаем и оцениваем модели для задачи регрессии\n", - "print(\"Результаты для задачи регрессии:\")\n", - "for name, model in models_reg.items():\n", - " model.fit(X_train_reg, y_train_reg)\n", - " y_pred_reg = model.predict(X_test_reg)\n", - " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", - " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", - " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", - " r2 = r2_score(y_test_reg, y_pred_reg)\n", - " print(f\"Model: {name}\")\n", - " print(f\"MAE: {mae}\")\n", - " print(f\"MSE: {mse}\")\n", - " print(f\"RMSE: {rmse}\")\n", - " print(f\"R²: {r2}\")\n", - " print()\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df.drop(\"Daily_Customer_Count\", axis=1)\n", - "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", - "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", - "\n", - "# Стандартизируем признаки для задачи классификации\n", - "scaler_class = StandardScaler()\n", - "X_train_class = scaler_class.fit_transform(X_train_class)\n", - "X_test_class = scaler_class.transform(X_test_class)\n", - "\n", - "# Список моделей для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": LogisticRegression(),\n", - " \"Random Forest Classification\": RandomForestClassifier(),\n", - " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", - "}\n", - "\n", - "# Обучаем и оцениваем модели для задачи классификации\n", - "print(\"Результаты для задачи классификации:\")\n", - "for name, model in models_class.items():\n", - " model.fit(X_train_class, y_train_class)\n", - " y_pred_class = model.predict(X_test_class)\n", - " accuracy = accuracy_score(y_test_class, y_pred_class)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Accuracy: {accuracy}\")\n", - " print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "1. Прогнозирование стоимости страховых взносов:\n", - "Конвейер для задачи регрессии:" + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n" ] }, { @@ -715,19 +686,6 @@ "execution_count": 72, "metadata": {}, "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи регрессии:\n", - "Model: Linear Regression\n", - "MAE: 240.99246411452697\n", - "MSE: 82771.10925011222\n", - "RMSE: 287.6996858707222\n", - "R²: -0.0066830595689202354\n", - "\n" - ] - }, { "name": "stderr", "output_type": "stream", @@ -740,1013 +698,112 @@ "name": "stdout", "output_type": "stream", "text": [ - "Model: Random Forest Regression\n", - "MAE: 247.89333333333335\n", - "MSE: 94993.29455555555\n", - "RMSE: 308.2098222892248\n", - "R²: -0.15533235289568936\n", - "\n", - "Model: Gradient Boosting Regression\n", - "MAE: 251.77123469394226\n", - "MSE: 91978.0886332414\n", - "RMSE: 303.27889579270334\n", - "R²: -0.11866065970944106\n", - "\n" + "RMSE: 935.869473619144\n", + "R²: 0.9976677314259463\n", + "MAE: 563.0765217391303\n", + "Cross-validated RMSE: 2423.8868120485813\n", + "Train RMSE: 871.8955293545159\n", + "Train R²: 0.9975555952641544\n", + "Train MAE: 514.1715034965034\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n", "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", " warnings.warn(\n" ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" } ], "source": [ "import pandas as pd\n", "from sklearn.model_selection import train_test_split\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression\n", - "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Список моделей для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": LinearRegression(),\n", - " \"Random Forest Regression\": RandomForestRegressor(),\n", - " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", - "}\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df[numerical_cols]\n", - "y_reg = df[\"Daily_Customer_Count\"]\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", - "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи регрессии\n", - "print(\"Результаты для задачи регрессии:\")\n", - "for name, model in models_reg.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " pipeline.fit(X_train_reg, y_train_reg)\n", - " y_pred_reg = pipeline.predict(X_test_reg)\n", - " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", - " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", - " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", - " r2 = r2_score(y_test_reg, y_pred_reg)\n", - " print(f\"Model: {name}\")\n", - " print(f\"MAE: {mae}\")\n", - " print(f\"MSE: {mse}\")\n", - " print(f\"RMSE: {rmse}\")\n", - " print(f\"R²: {r2}\")\n", - " print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "2. Оптимизация характеристик магазина:\n", - "Конвейер для задачи классификации:" - ] - }, - { - "cell_type": "code", - "execution_count": 73, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи классификации:\n", - "Model: Logistic Regression\n", - "Accuracy: 0.46111111111111114\n", - "\n", - "Model: Random Forest Classification\n", - "Accuracy: 0.4722222222222222\n", - "\n", - "Model: Gradient Boosting Classification\n", - "Accuracy: 0.4722222222222222\n", - "\n" - ] - } - ], - "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LogisticRegression\n", - "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "from sklearn.metrics import accuracy_score\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Список моделей для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": LogisticRegression(),\n", - " \"Random Forest Classification\": RandomForestClassifier(),\n", - " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", - "}\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df[numerical_cols]\n", - "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", - "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи классификации\n", - "print(\"Результаты для задачи классификации:\")\n", - "for name, model in models_class.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " pipeline.fit(X_train_class, y_train_class)\n", - " y_pred_class = pipeline.predict(X_test_class)\n", - " accuracy = accuracy_score(y_test_class, y_pred_class)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Accuracy: {accuracy}\")\n", - " print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "1. Прогнозирование посещения:\n", - "\n", - "Настройка гиперпараметров для задачи регрессии:" - ] - }, - { - "cell_type": "code", - "execution_count": 74, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи регрессии:\n", - "Model: Linear Regression\n", - "Best Parameters: {}\n", - "MAE: 240.99246411452697\n", - "MSE: 82771.10925011222\n", - "RMSE: 287.6996858707222\n", - "R²: -0.0066830595689202354\n", - "\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Random Forest Regression\n", - "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", - "MAE: 242.55834193962204\n", - "MSE: 87591.55194330998\n", - "RMSE: 295.9586997256712\n", - "R²: -0.06531049664000643\n", - "\n", - "Model: Gradient Boosting Regression\n", - "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", - "MAE: 241.05326789654333\n", - "MSE: 82428.16277986151\n", - "RMSE: 287.1030525436146\n", - "R²: -0.0025120582972431027\n", - "\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - } - ], - "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split, GridSearchCV\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression\n", - "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "# Определяем категориальные и числовые столбцы\n", - "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Список моделей и их гиперпараметров для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": (LinearRegression(), {}),\n", - " \"Random Forest Regression\": (RandomForestRegressor(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__max_depth': [None, 10, 20]\n", - " }),\n", - " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__learning_rate': [0.01, 0.1],\n", - " 'model__max_depth': [3, 5]\n", - " })\n", - "}\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df[numerical_cols]\n", - "y_reg = df['Daily_Customer_Count']\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", - "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи регрессии\n", - "print(\"Результаты для задачи регрессии:\")\n", - "for name, (model, params) in models_reg.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", - " grid_search.fit(X_train_reg, y_train_reg)\n", - " best_model = grid_search.best_estimator_\n", - " y_pred_reg = best_model.predict(X_test_reg)\n", - " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", - " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", - " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", - " r2 = r2_score(y_test_reg, y_pred_reg)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Best Parameters: {grid_search.best_params_}\")\n", - " print(f\"MAE: {mae}\")\n", - " print(f\"MSE: {mse}\")\n", - " print(f\"RMSE: {rmse}\")\n", - " print(f\"R²: {r2}\")\n", - " print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "2. Оптимизация характеристик:\n", - "\n", - "Настройка гиперпараметров для задачи классификации:" - ] - }, - { - "cell_type": "code", - "execution_count": 75, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи классификации:\n", - "Model: Logistic Regression\n", - "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", - "Accuracy: 0.46111111111111114\n", - "\n", - "Model: Random Forest Classification\n", - "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", - "Accuracy: 0.49444444444444446\n", - "\n", - "Model: Gradient Boosting Classification\n", - "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", - "Accuracy: 0.4777777777777778\n", - "\n" - ] - } - ], - "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split, GridSearchCV\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LogisticRegression\n", - "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "from sklearn.metrics import accuracy_score\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "# Определяем категориальные и числовые столбцы\n", - "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Список моделей и их гиперпараметров для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": (LogisticRegression(), {\n", - " 'model__C': [0.1, 1, 10],\n", - " 'model__solver': ['liblinear', 'lbfgs']\n", - " }),\n", - " \"Random Forest Classification\": (RandomForestClassifier(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__max_depth': [None, 10, 20]\n", - " }),\n", - " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__learning_rate': [0.01, 0.1],\n", - " 'model__max_depth': [3, 5]\n", - " })\n", - "}\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df[numerical_cols]\n", - "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", - "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи классификации\n", - "print(\"Результаты для задачи классификации:\")\n", - "for name, (model, params) in models_class.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", - " grid_search.fit(X_train_class, y_train_class)\n", - " best_model = grid_search.best_estimator_\n", - " y_pred_class = best_model.predict(X_test_class)\n", - " accuracy = accuracy_score(y_test_class, y_pred_class)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Best Parameters: {grid_search.best_params_}\")\n", - " print(f\"Accuracy: {accuracy}\")\n", - " print()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "1. Прогнозирование посещаемости::\n", - "Задача: Регрессия\n", - "\n", - "Выбор метрик:\n", - "\n", - "MAE (Mean Absolute Error): Средняя абсолютная ошибка. Показывает среднее отклонение предсказанных значений от фактических. Эта метрика легко интерпретируется, так как она измеряется в тех же единицах, что и целевая переменная \n", - "\n", - "MSE (Mean Squared Error): Среднеквадратичная ошибка. Показывает среднее квадратичное отклонение предсказанных значений от фактических. Эта метрика чувствительна к выбросам, так как ошибки возводятся в квадрат.\n", - "\n", - "RMSE (Root Mean Squared Error): Квадратный корень из среднеквадратичной ошибки. Показывает среднее отклонение предсказанных значений от фактических в тех же единицах, что и целевая переменная. Эта метрика также чувствительна к выбросам, но легче интерпретируется, чем MSE.\n", - "\n", - "R² (R-squared): Коэффициент детерминации. Показывает, какую долю дисперсии целевой переменной объясняет модель. Значение R² близкое к 1 указывает на хорошее качество модели.\n", - "\n", - "Обоснование:\n", - "\n", - "MAE: Хорошо подходит для задач, где важно понимать среднее отклонение предсказаний от фактических значений.\n", - "\n", - "MSE и RMSE: Полезны для задач, где важно минимизировать влияние выбросов, так как они возводят ошибки в квадрат.\n", - "\n", - "R²: Позволяет оценить, насколько хорошо модель объясняет вариацию целевой переменной.\n", - "\n", - "2. Оптимизация характеристик:\n", - "Задача: Классификация\n", - "\n", - "Выбор метрик:\n", - "\n", - "Accuracy: Доля правильных предсказаний среди всех предсказаний. Эта метрика показывает общую точность модели.\n", - "\n", - "Precision: Доля правильных положительных предсказаний среди всех положительных предсказаний. Эта метрика важна, если важно минимизировать количество ложноположительных результатов.\n", - "\n", - "Recall (Sensitivity): Доля правильных положительных предсказаний среди всех фактических положительных случаев. Эта метрика важна, если важно минимизировать количество ложноотрицательных результатов.\n", - "\n", - "F1-score: Гармоническое среднее между precision и recall. Эта метрика показывает баланс между precision и recall.\n", - "\n", - "Обоснование:\n", - "\n", - "Accuracy: Хорошо подходит для задач, где классы сбалансированы.\n", - "\n", - "Precision и Recall: Важны для задач, где важно минимизировать ошибки определенного типа (ложноположительные или ложноотрицательные).\n", - "\n", - "F1-score: Позволяет оценить баланс между precision и recall." - ] - }, - { - "cell_type": "code", - "execution_count": 76, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Результаты для задачи регрессии:\n", - "Model: Linear Regression\n", - "Best Parameters: {}\n", - "MAE: 240.99246411452697\n", - "MSE: 82771.10925011222\n", - "RMSE: 287.6996858707222\n", - "R²: -0.0066830595689202354\n", - "\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Random Forest Regression\n", - "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 200}\n", - "MAE: 244.5229418633195\n", - "MSE: 87788.51054250356\n", - "RMSE: 296.29125964581465\n", - "R²: -0.06770595668688673\n", - "\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Gradient Boosting Regression\n", - "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", - "MAE: 240.99176421026533\n", - "MSE: 82412.10586641222\n", - "RMSE: 287.075087505712\n", - "R²: -0.002316770075243779\n", - "\n", - "Результаты для задачи классификации:\n", - "Model: Logistic Regression\n", - "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", - "Accuracy: 0.46111111111111114\n", - "Precision: 0.475\n", - "Recall: 0.2\n", - "F1-score: 0.2814814814814815\n", - "\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Random Forest Classification\n", - "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 200}\n", - "Accuracy: 0.4888888888888889\n", - "Precision: 0.5211267605633803\n", - "Recall: 0.3894736842105263\n", - "F1-score: 0.4457831325301205\n", - "\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Model: Gradient Boosting Classification\n", - "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", - "Accuracy: 0.4722222222222222\n", - "Precision: 0.5\n", - "Recall: 0.42105263157894735\n", - "F1-score: 0.45714285714285713\n", - "\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "import pandas as pd\n", + "from sklearn.ensemble import RandomForestRegressor\n", + "from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error\n", + "from sklearn.model_selection import cross_val_score\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", - "from sklearn.model_selection import train_test_split, GridSearchCV\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression, LogisticRegression\n", - "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", - "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, ConfusionMatrixDisplay\n", "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "# Удаление строк с NaN\n", + "feature_matrix = feature_matrix.dropna()\n", + "val_feature_matrix = val_feature_matrix.dropna()\n", + "test_feature_matrix = test_feature_matrix.dropna()\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "X_train = feature_matrix.drop(\"Store_Sales\", axis=1)\n", + "y_train = feature_matrix[\"Store_Sales\"]\n", + "X_val = val_feature_matrix.drop(\"Store_Sales\", axis=1)\n", + "y_val = val_feature_matrix[\"Store_Sales\"]\n", + "X_test = test_feature_matrix.drop(\"Store_Sales\", axis=1)\n", + "y_test = test_feature_matrix[\"Store_Sales\"]\n", + "\n", + "# Выбор модели\n", + "model = RandomForestRegressor(random_state=42)\n", + "\n", + "# Обучение модели\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Предсказание и оценка\n", + "y_pred = model.predict(X_test)\n", + "\n", + "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", + "r2 = r2_score(y_test, y_pred)\n", + "mae = mean_absolute_error(y_test, y_pred)\n", + "\n", + "print(f\"RMSE: {rmse}\")\n", + "print(f\"R²: {r2}\")\n", + "print(f\"MAE: {mae}\")\n", + "\n", + "# Кросс-валидация\n", + "scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n", + "rmse_cv = (-scores.mean())**0.5\n", + "print(f\"Cross-validated RMSE: {rmse_cv}\")\n", + "\n", + "# Анализ важности признаков\n", + "feature_importances = model.feature_importances_\n", + "feature_names = X_train.columns\n", "\n", "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "# Проверка на переобучение\n", + "y_train_pred = model.predict(X_train)\n", "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", + "rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n", + "r2_train = r2_score(y_train, y_train_pred)\n", + "mae_train = mean_absolute_error(y_train, y_train_pred)\n", "\n", - "# Список моделей и их гиперпараметров для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": (LinearRegression(), {}),\n", - " \"Random Forest Regression\": (RandomForestRegressor(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__max_depth': [None, 10, 20]\n", - " }),\n", - " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__learning_rate': [0.01, 0.1],\n", - " 'model__max_depth': [3, 5]\n", - " })\n", - "}\n", + "print(f\"Train RMSE: {rmse_train}\")\n", + "print(f\"Train R²: {r2_train}\")\n", + "print(f\"Train MAE: {mae_train}\")\n", "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df[numerical_cols]\n", - "y_reg = df['Daily_Customer_Count']\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", - "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи регрессии\n", - "print(\"Результаты для задачи регрессии:\")\n", - "for name, (model, params) in models_reg.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", - " grid_search.fit(X_train_reg, y_train_reg)\n", - " best_model = grid_search.best_estimator_\n", - " y_pred_reg = best_model.predict(X_test_reg)\n", - " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", - " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", - " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", - " r2 = r2_score(y_test_reg, y_pred_reg)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Best Parameters: {grid_search.best_params_}\")\n", - " print(f\"MAE: {mae}\")\n", - " print(f\"MSE: {mse}\")\n", - " print(f\"RMSE: {rmse}\")\n", - " print(f\"R²: {r2}\")\n", - " print()\n", - "\n", - "# Список моделей и их гиперпараметров для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": (LogisticRegression(), {\n", - " 'model__C': [0.1, 1, 10],\n", - " 'model__solver': ['liblinear', 'lbfgs']\n", - " }),\n", - " \"Random Forest Classification\": (RandomForestClassifier(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__max_depth': [None, 10, 20]\n", - " }),\n", - " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", - " 'model__n_estimators': [100, 200],\n", - " 'model__learning_rate': [0.01, 0.1],\n", - " 'model__max_depth': [3, 5]\n", - " })\n", - "}\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df[numerical_cols]\n", - "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", - "\n", - "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", - "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", - "\n", - "# Обучаем и оцениваем модели для задачи классификации\n", - "print(\"Результаты для задачи классификации:\")\n", - "for name, (model, params) in models_class.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", - " grid_search.fit(X_train_class, y_train_class)\n", - " best_model = grid_search.best_estimator_\n", - " y_pred_class = best_model.predict(X_test_class)\n", - " accuracy = accuracy_score(y_test_class, y_pred_class)\n", - " precision = precision_score(y_test_class, y_pred_class)\n", - " recall = recall_score(y_test_class, y_pred_class)\n", - " f1 = f1_score(y_test_class, y_pred_class)\n", - " print(f\"Model: {name}\")\n", - " print(f\"Best Parameters: {grid_search.best_params_}\")\n", - " print(f\"Accuracy: {accuracy}\")\n", - " print(f\"Precision: {precision}\")\n", - " print(f\"Recall: {recall}\")\n", - " print(f\"F1-score: {f1}\")\n", - " print()\n", - "\n", - " # Визуализация матрицы ошибок\n", - " cm = confusion_matrix(y_test_class, y_pred_class)\n", - " disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Less', 'More'])\n", - " disp.plot(cmap=plt.cm.Blues)\n", - " plt.title(f'Confusion Matrix for {name}')\n", - " plt.show()" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Давайте проанализируем полученные значения метрик и определим, являются ли они нормальными или их можно улучшить.\n", - "\n", - "### Оценка смещения и дисперсии для задачи регрессии:\n", - "\n", - "### Вывод для задачи регрессии:\n", - "\n", - "- **Random Forest Regression** демонстрирует наилучшие результаты по метрикам MAE и R², что указывает на высокую точность и стабильность модели.\n", - "- **Linear Regression** и **Gradient Boosting Regression** также показывают хорошие результаты, но уступают случайному лесу.\n", - "\n", - "### Вывод для задачи классификации:\n", - "\n", - "- **Random Forest Classification** демонстрирует наилучшие результаты по всем метрикам (Accuracy, Precision, Recall, F1-score), что указывает на высокую точность и стабильность модели.\n", - "- **Logistic Regression** и **Gradient Boosting Classification** также показывают хорошие результаты, но уступают случайному лесу.\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Для оценки смещения (bias) и дисперсии (variance) моделей можно использовать метод перекрестной проверки (cross-validation). Этот метод позволяет оценить, насколько хорошо модель обобщается на новых данных.\n", - "\n", - "Оценка смещения и дисперсии для задачи регрессии:\n", - "Для задачи регрессии мы будем использовать метрики MAE (Mean Absolute Error) и R² (R-squared) для оценки смещения и дисперсии.\n", - "\n", - "Оценка смещения и дисперсии для задачи классификации:\n", - "Для задачи классификации мы будем использовать метрики Accuracy, Precision, Recall и F1-score для оценки смещения и дисперсии.\n", - "\n", - "Пример кода для оценки смещения и дисперсии:" - ] - }, - { - "cell_type": "code", - "execution_count": 77, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Оценка смещения и дисперсии для задачи регрессии:\n", - "Model: Linear Regression\n", - "MAE (Cross-Validation): Mean = 214.80552977981765, Std = 10.606512171542404\n", - "R² (Cross-Validation): Mean = -0.013983192308878256, Std = 0.013712813782736416\n", - "\n", - "Model: Random Forest Regression\n", - "MAE (Cross-Validation): Mean = 228.04118684047177, Std = 8.752812633688961\n", - "R² (Cross-Validation): Mean = -0.16773777274246124, Std = 0.07089525362334798\n", - "\n", - "Model: Gradient Boosting Regression\n", - "MAE (Cross-Validation): Mean = 223.01691070195233, Std = 7.525579341977898\n", - "R² (Cross-Validation): Mean = -0.1007213971850566, Std = 0.039722456407795335\n", - "\n", - "Оценка смещения и дисперсии для задачи классификации:\n", - "Model: Logistic Regression\n", - "Accuracy (Cross-Validation): Mean = 0.5055307262569833, Std = 0.03499561917769727\n", - "Precision (Cross-Validation): Mean = 0.5065468552510806, Std = 0.054654647753909255\n", - "Recall (Cross-Validation): Mean = 0.36069969356486214, Std = 0.041986149284426406\n", - "F1-score (Cross-Validation): Mean = 0.41699563277139867, Std = 0.022647838103859376\n", - "\n", - "Model: Random Forest Classification\n", - "Accuracy (Cross-Validation): Mean = 0.47995654872749843, Std = 0.02347679112801281\n", - "Precision (Cross-Validation): Mean = 0.4767585025913199, Std = 0.027370716762614142\n", - "Recall (Cross-Validation): Mean = 0.44468845760980596, Std = 0.05499181588361489\n", - "F1-score (Cross-Validation): Mean = 0.47024453023626417, Std = 0.04502303274822186\n", - "\n", - "Model: Gradient Boosting Classification\n", - "Accuracy (Cross-Validation): Mean = 0.5178895096213532, Std = 0.027332603426564073\n", - "Precision (Cross-Validation): Mean = 0.5084858601973745, Std = 0.022621295137266188\n", - "Recall (Cross-Validation): Mean = 0.49668028600612874, Std = 0.04700469023993552\n", - "F1-score (Cross-Validation): Mean = 0.5055891495803455, Std = 0.03687694960165771\n", - "\n" - ] - } - ], - "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import cross_val_score\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression, LogisticRegression\n", - "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", - "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "# Определяем категориальные и числовые столбцы\n", - "\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df[numerical_cols]\n", - "y_reg = df['Daily_Customer_Count']\n", - "\n", - "# Список моделей для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": LinearRegression(),\n", - " \"Random Forest Regression\": RandomForestRegressor(),\n", - " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", - "}\n", - "\n", - "# Оценка смещения и дисперсии для задачи регрессии\n", - "print(\"Оценка смещения и дисперсии для задачи регрессии:\")\n", - "for name, model in models_reg.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", - " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", - " print(f\"Model: {name}\")\n", - " print(f\"MAE (Cross-Validation): Mean = {mae_scores.mean()}, Std = {mae_scores.std()}\")\n", - " print(f\"R² (Cross-Validation): Mean = {r2_scores.mean()}, Std = {r2_scores.std()}\")\n", - " print()\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df[numerical_cols]\n", - "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", - "\n", - "# Список моделей для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": LogisticRegression(),\n", - " \"Random Forest Classification\": RandomForestClassifier(),\n", - " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", - "}\n", - "\n", - "# Оценка смещения и дисперсии для задачи классификации\n", - "print(\"Оценка смещения и дисперсии для задачи классификации:\")\n", - "for name, model in models_class.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", - " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", - " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", - " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", - " print(f\"Model: {name}\")\n", - " print(f\"Accuracy (Cross-Validation): Mean = {accuracy_scores.mean()}, Std = {accuracy_scores.std()}\")\n", - " print(f\"Precision (Cross-Validation): Mean = {precision_scores.mean()}, Std = {precision_scores.std()}\")\n", - " print(f\"Recall (Cross-Validation): Mean = {recall_scores.mean()}, Std = {recall_scores.std()}\")\n", - " print(f\"F1-score (Cross-Validation): Mean = {f1_scores.mean()}, Std = {f1_scores.std()}\")\n", - " print()" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "import pandas as pd\n", - "import matplotlib.pyplot as plt\n", - "from sklearn.model_selection import cross_val_score\n", - "from sklearn.preprocessing import StandardScaler\n", - "from sklearn.linear_model import LinearRegression, LogisticRegression\n", - "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", - "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", - "from sklearn.pipeline import Pipeline\n", - "from sklearn.compose import ColumnTransformer\n", - "from sklearn.preprocessing import OneHotEncoder\n", - "\n", - "# Загружаем набор данных\n", - "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", - "\n", - "# Определяем категориальные и числовые столбцы\n", - "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", - "\n", - "# Создаем преобразователь для категориальных и числовых столбцов\n", - "preprocessor = ColumnTransformer(\n", - " transformers=[\n", - " ('num', StandardScaler(), numerical_cols)\n", - " ])\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", - "X_reg = df[numerical_cols]\n", - "y_reg = df['Daily_Customer_Count']\n", - "\n", - "# Список моделей для задачи регрессии\n", - "models_reg = {\n", - " \"Linear Regression\": LinearRegression(),\n", - " \"Random Forest Regression\": RandomForestRegressor(),\n", - " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", - "}\n", - "\n", - "# Оценка смещения и дисперсии для задачи регрессии\n", - "mae_means = []\n", - "mae_stds = []\n", - "r2_means = []\n", - "r2_stds = []\n", - "\n", - "for name, model in models_reg.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", - " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", - " mae_means.append(mae_scores.mean())\n", - " mae_stds.append(mae_scores.std())\n", - " r2_means.append(r2_scores.mean())\n", - " r2_stds.append(r2_scores.std())\n", - "\n", - "# Визуализация результатов для задачи регрессии\n", - "fig, ax = plt.subplots(1, 2, figsize=(12, 6))\n", - "\n", - "ax[0].bar(models_reg.keys(), mae_means, yerr=mae_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[0].set_ylabel('MAE')\n", - "ax[0].set_title('Mean Absolute Error (MAE) for Regression Models')\n", - "ax[0].yaxis.grid(True)\n", - "\n", - "ax[1].bar(models_reg.keys(), r2_means, yerr=r2_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[1].set_ylabel('R²')\n", - "ax[1].set_title('R-squared (R²) for Regression Models')\n", - "ax[1].yaxis.grid(True)\n", - "\n", - "plt.tight_layout()\n", - "plt.show()\n", - "\n", - "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", - "X_class = df[numerical_cols]\n", - "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", - "\n", - "# Список моделей для задачи классификации\n", - "models_class = {\n", - " \"Logistic Regression\": LogisticRegression(),\n", - " \"Random Forest Classification\": RandomForestClassifier(),\n", - " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", - "}\n", - "\n", - "# Оценка смещения и дисперсии для задачи классификации\n", - "accuracy_means = []\n", - "accuracy_stds = []\n", - "precision_means = []\n", - "precision_stds = []\n", - "recall_means = []\n", - "recall_stds = []\n", - "f1_means = []\n", - "f1_stds = []\n", - "\n", - "for name, model in models_class.items():\n", - " pipeline = Pipeline(steps=[\n", - " ('preprocessor', preprocessor),\n", - " ('model', model)\n", - " ])\n", - " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", - " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", - " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", - " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", - " accuracy_means.append(accuracy_scores.mean())\n", - " accuracy_stds.append(accuracy_scores.std())\n", - " precision_means.append(precision_scores.mean())\n", - " precision_stds.append(precision_scores.std())\n", - " recall_means.append(recall_scores.mean())\n", - " recall_stds.append(recall_scores.std())\n", - " f1_means.append(f1_scores.mean())\n", - " f1_stds.append(f1_scores.std())\n", - "\n", - "# Визуализация результатов для задачи классификации\n", - "fig, ax = plt.subplots(2, 2, figsize=(12, 12))\n", - "\n", - "ax[0, 0].bar(models_class.keys(), accuracy_means, yerr=accuracy_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[0, 0].set_ylabel('Accuracy')\n", - "ax[0, 0].set_title('Accuracy for Classification Models')\n", - "ax[0, 0].yaxis.grid(True)\n", - "\n", - "ax[0, 1].bar(models_class.keys(), precision_means, yerr=precision_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[0, 1].set_ylabel('Precision')\n", - "ax[0, 1].set_title('Precision for Classification Models')\n", - "ax[0, 1].yaxis.grid(True)\n", - "\n", - "ax[1, 0].bar(models_class.keys(), recall_means, yerr=recall_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[1, 0].set_ylabel('Recall')\n", - "ax[1, 0].set_title('Recall for Classification Models')\n", - "ax[1, 0].yaxis.grid(True)\n", - "\n", - "ax[1, 1].bar(models_class.keys(), f1_means, yerr=f1_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", - "ax[1, 1].set_ylabel('F1-score')\n", - "ax[1, 1].set_title('F1-score for Classification Models')\n", - "ax[1, 1].yaxis.grid(True)\n", - "\n", - "plt.tight_layout()\n", + "# Визуализация результатов\n", + "plt.figure(figsize=(10, 6))\n", + "plt.scatter(y_test, y_pred, alpha=0.5)\n", + "plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n", + "plt.xlabel('Actual Sales')\n", + "plt.ylabel('Predicted Sales')\n", + "plt.title(\"Actual vs Predicted Sales\")\n", "plt.show()" ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Точность предсказаний: Модель показывает довольно высокий R² (0.9975), что указывает на хорошее объяснение вариации распродаж. Значения RMSE и MAE довольно низки, что говорит о том, что модель достаточно точно предсказывает цены.\n", + "\n", + "Переобучение: Разница между RMSE на обучающей и тестовой выборках не очень большая, что указывает на то, что переобучение не является критическим. Однако, стоит быть осторожным и продолжать мониторинг этого показателя.\n" + ] } ], "metadata": { From 7260f4e4e9bb72a7e21c75c5d31b14e4d65e1806 Mon Sep 17 00:00:00 2001 From: mayday Date: Thu, 28 Nov 2024 22:07:23 +0400 Subject: [PATCH 3/3] lab4 --- lab_4/lab4.ipynb | 2364 ++++++++++++++++++++++++++++++++-------------- 1 file changed, 1668 insertions(+), 696 deletions(-) diff --git a/lab_4/lab4.ipynb b/lab_4/lab4.ipynb index cc304b7..827e3a6 100644 --- a/lab_4/lab4.ipynb +++ b/lab_4/lab4.ipynb @@ -4,21 +4,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "# Вариант задания: Прогнозирование выпучки в магазинах\n", - "### Бизнес-цели:\n", - "Цель: Разработать модель машинного обучения, которая позволит прогнозировать распродажи магазина в зависимоси от его ассортимента.\n", - "\n", - "### Цели технического проекта:\n", - "\n", - "Сбор и подготовка данных:\n", - "Очистка данных от пропусков, выбросов и дубликатов.\n", - "Преобразование категориальных переменных в числовые.\n", - "Разделение данных на обучающую и тестовую выборки.\n" + "## Начало лабораторной работы" ] }, { "cell_type": "code", - "execution_count": 62, + "execution_count": 23, "metadata": {}, "outputs": [ { @@ -32,11 +23,8 @@ } ], "source": [ - "import pandas as pn\n", - "import matplotlib.pyplot as plt\n", - "import matplotlib\n", - "import matplotlib.ticker as ticker\n", - "df = pn.read_csv(\".//static//csv//Stores.csv\")\n", + "import pandas as pd\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", "print(df.columns)" ] }, @@ -44,755 +32,1430 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Разделим на 3 выборки\n" + "### Бизнес-цели" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посетителей в магазине:\n", + "\n", + "Цель: Разработать модель, которая будет предсказывать посещение клиентами магазина на основе его характеристик (размер, распродажи, количество ассортимента).\n", + "\n", + "Применение:\n", + "Предсказывание посещения магазинов клиентами.\n", + "\n", + "2. Оптимизация параметров магазина:\n", + "\n", + "Цель: Определить оптимальные коэффициенты для различных факторов, влияющих на посещаемость магазина чтобы максимизировать прибыль компании при наименьших затратах на пространство магазина и его ассортиментт.\n", + "\n", + "Применение:\n", + "Создавать магазин с максимальной посещаемостью." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посетителей в магазине" ] }, { "cell_type": "code", - "execution_count": 63, + "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Размер обучающей выборки: 572\n", - "Размер контрольной выборки: 144\n", - "Размер тестовой выборки: 180\n" + "Среднее значение поля 'Daily_Customer_Count': 786.3504464285714\n", + " Store ID Store_Area Items_Available Daily_Customer_Count Store_Sales \\\n", + "0 1 1659 1961 530 66490 \n", + "1 2 1461 1752 210 39820 \n", + "2 3 1340 1609 720 54010 \n", + "3 4 1451 1748 620 53730 \n", + "4 5 1770 2111 450 46620 \n", + "\n", + " above_average_count customers_volatility \n", + "0 0 1550 \n", + "1 0 1550 \n", + "2 0 1550 \n", + "3 0 1550 \n", + "4 0 1550 \n" ] } ], "source": [ - "from sklearn.model_selection import train_test_split\n", + "import pandas as pd\n", "\n", - "# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тест)\n", - "train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", "\n", - "# Разделение обучающей выборки на обучающую и контрольную (80% - обучение, 20% - контроль)\n", - "train_data, val_data = train_test_split(train_data, test_size=0.2, random_state=42)\n", + "# Устанавливаем случайное состояние\n", + "random_state = 42\n", "\n", - "print(\"Размер обучающей выборки:\", len(train_data))\n", - "print(\"Размер контрольной выборки:\", len(val_data))\n", - "print(\"Размер тестовой выборки:\", len(test_data))" - ] - }, - { - "cell_type": "code", - "execution_count": 64, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ + "# Рассчитываем среднее значение посещаемости\n", + "average_count = df['Daily_Customer_Count'].mean()\n", + "print(f\"Среднее значение поля 'Daily_Customer_Count': {average_count}\")\n", "\n", - "import seaborn as sns\n", - "import matplotlib.pyplot as plt\n", + "# Создаем новую переменную, указывающую, превышает ли посещаемость среднюю\n", + "df[\"above_average_count\"] = (df[\"Daily_Customer_Count\"] > average_count).astype(int)\n", "\n", - "# Гистограмма распределения цены в обучающей выборке\n", - "sns.histplot(train_data[\"Store_Sales\"], kde=True)\n", - "plt.title('Распределение цены в обучающей выборке')\n", - "plt.show()\n", + "# Рассчитываем волатильность (разницу между максимальной и минимальной посещаемостью)\n", + "df[\"customers_volatility\"] = df[\"Daily_Customer_Count\"].max() - df[\"Daily_Customer_Count\"].min()\n", "\n", - "# Гистограмма распределения цены в контрольной выборке\n", - "sns.histplot(val_data[\"Store_Sales\"], kde=True)\n", - "plt.title('Распределение цены в контрольной выборке')\n", - "plt.show()\n", - "\n", - "# Гистограмма распределения цены в тестовой выборке\n", - "sns.histplot(test_data[\"Store_Sales\"], kde=True)\n", - "plt.title('Распределение цены в тестовой выборке')\n", - "plt.show()" + "# Выводим первые строки измененной таблицы для проверки\n", + "print(df.head())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## Процесс конструирования признаков\n", - "\n", - "\n", - "\n", - "### Унитарное кодирование категориальных признаков (one-hot encoding)\n", - "\n", - "One-hot encoding: Преобразование категориальных признаков в бинарные векторы." + "2. Оптимизация параметров магазина:" ] }, { "cell_type": "code", - "execution_count": 65, + "execution_count": 25, "metadata": {}, - "outputs": [], + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Средняя посещаемость для 'Store_Area':\n", + "Store_Area\n", + "775 1090.0\n", + "780 790.0\n", + "854 660.0\n", + "869 850.0\n", + "891 630.0\n", + " ... \n", + "2063 810.0\n", + "2067 790.0\n", + "2169 600.0\n", + "2214 740.0\n", + "2229 660.0\n", + "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", + "\n", + "Средняя посещаемость для 'Items_Available':\n", + "Items_Available\n", + "932 1090.0\n", + "951 790.0\n", + "1018 660.0\n", + "1050 850.0\n", + "1059 870.0\n", + " ... \n", + "2492 790.0\n", + "2493 810.0\n", + "2617 600.0\n", + "2647 740.0\n", + "2667 660.0\n", + "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", + "\n", + "Средняя посещаемость для 'Store_Sales':\n", + "Store_Sales\n", + "14920 990.0\n", + "16370 880.0\n", + "17670 660.0\n", + "20270 870.0\n", + "21300 850.0\n", + " ... \n", + "101820 820.0\n", + "102310 1310.0\n", + "102920 680.0\n", + "105150 980.0\n", + "116320 860.0\n", + "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\n", + "Store_Area Items_Available\n", + "775 932 1090.0\n", + "780 951 790.0\n", + "854 1018 660.0\n", + "869 1050 850.0\n", + "891 1073 630.0\n", + " ... \n", + "2063 2493 810.0\n", + "2067 2492 790.0\n", + "2169 2617 600.0\n", + "2214 2647 740.0\n", + "2229 2667 660.0\n", + "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\n", + "Store_Sales Items_Available\n", + "14920 1508 990.0\n", + "16370 1790 880.0\n", + "17670 1877 660.0\n", + "20270 1946 870.0\n", + "21300 1686 850.0\n", + " ... \n", + "101820 1758 820.0\n", + "102310 1587 1310.0\n", + "102920 1638 680.0\n", + "105150 2104 980.0\n", + "116320 2414 860.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\n", + "Store_Sales Store_Area\n", + "14920 1250 990.0\n", + "16370 1477 880.0\n", + "17670 1537 660.0\n", + "20270 1624 870.0\n", + "21300 1397 850.0\n", + " ... \n", + "101820 1486 820.0\n", + "102310 1303 1310.0\n", + "102920 1365 680.0\n", + "105150 1775 980.0\n", + "116320 1989 860.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n" + ] + } + ], "source": [ "import pandas as pd\n", "\n", - "# Пример категориальных признаков\n", - "categorical_features = [\n", - " \"Store ID \",\n", - " \"Store_Area\"\n", - "]\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", "\n", - "# Применение one-hot encoding\n", - "train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)\n", - "val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)\n", - "test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)" + "# Устанавливаем случайное состояние\n", + "random_state = 42\n", + "\n", + "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", + "for column in [\n", + " \"Store_Area\",\n", + " \"Items_Available\",\n", + " \"Store_Sales\"\n", + "]:\n", + " print(f\"Средняя посещаемость для '{column}':\")\n", + " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", + " print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\")\n", + "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Items_Available':\")\n", + "print(df.groupby([\"Store_Sales\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "\n", + "print(\"Средняя посещаемость для комбинации 'Store_Sales' и 'Store_Area':\")\n", + "print(df.groupby([\"Store_Sales\", \"Store_Area\"])[\"Daily_Customer_Count\"].mean())\n", + "print()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### Дискретизация числовых признаков " + "### Выбор ориентира:\n", + "1. Прогнозирование посещаемости:\n", + "Ориентир:\n", + "\n", + "R² (коэффициент детерминации): 0.75 - 0.85\n", + "\n", + "MAE (средняя абсолютная ошибка): 150 - 300 человек\n", + "\n", + "RMSE (среднеквадратичная ошибка): 175 - 315 человек\n" ] }, { "cell_type": "code", - "execution_count": 66, + "execution_count": 26, "metadata": {}, "outputs": [ { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Store_AreaStore_Area
01659(1259.667, 1744.333]
11461(1259.667, 1744.333]
21340(1259.667, 1744.333]
31451(1259.667, 1744.333]
41770(1744.333, 2229.0]
51442(1259.667, 1744.333]
61542(1259.667, 1744.333]
71261(1259.667, 1744.333]
81090(775.0, 1259.667]
91030(775.0, 1259.667]
101187(775.0, 1259.667]
111751(1744.333, 2229.0]
121746(1744.333, 2229.0]
131615(1259.667, 1744.333]
141469(1259.667, 1744.333]
151644(1259.667, 1744.333]
161578(1259.667, 1744.333]
171703(1259.667, 1744.333]
181438(1259.667, 1744.333]
191940(1744.333, 2229.0]
\n", - "
" - ], - "text/plain": [ - " Store_Area Store_Area\n", - "0 1659 (1259.667, 1744.333]\n", - "1 1461 (1259.667, 1744.333]\n", - "2 1340 (1259.667, 1744.333]\n", - "3 1451 (1259.667, 1744.333]\n", - "4 1770 (1744.333, 2229.0]\n", - "5 1442 (1259.667, 1744.333]\n", - "6 1542 (1259.667, 1744.333]\n", - "7 1261 (1259.667, 1744.333]\n", - "8 1090 (775.0, 1259.667]\n", - "9 1030 (775.0, 1259.667]\n", - "10 1187 (775.0, 1259.667]\n", - "11 1751 (1744.333, 2229.0]\n", - "12 1746 (1744.333, 2229.0]\n", - "13 1615 (1259.667, 1744.333]\n", - "14 1469 (1259.667, 1744.333]\n", - "15 1644 (1259.667, 1744.333]\n", - "16 1578 (1259.667, 1744.333]\n", - "17 1703 (1259.667, 1744.333]\n", - "18 1438 (1259.667, 1744.333]\n", - "19 1940 (1744.333, 2229.0]" - ] - }, - "execution_count": 66, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "from sklearn.preprocessing import OneHotEncoder\n", - "import numpy as np\n", - "\n", - "\n", - "labels = [\"small\", \"medium\", \"large\"]\n", - "num_bins = 3\n", - "\n", - "hist1, bins1 = np.histogram(\n", - " df[\"Store_Area\"].fillna(df[\"Store_Area\"].median()), bins=num_bins\n", - ")\n", - "bins1, hist1\n", - "\n", - "pd.concat([df[\"Store_Area\"], pd.cut(df[\"Store_Area\"], list(bins1))], axis=1).head(20)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 67, - "metadata": {}, - "outputs": [ + "name": "stdout", + "output_type": "stream", + "text": [ + "MAE: 241.24369535006045\n", + "MSE: 82946.49105226391\n", + "RMSE: 288.004324711043\n", + "R²: -0.008816097180501359\n", + "Ориентиры для прогнозирования не достигнуты.\n", + "Средняя посещаемость 'Store_Area':\n", + "Store_Area\n", + "775 1090.0\n", + "780 790.0\n", + "854 660.0\n", + "869 850.0\n", + "891 630.0\n", + " ... \n", + "2063 810.0\n", + "2067 790.0\n", + "2169 600.0\n", + "2214 740.0\n", + "2229 660.0\n", + "Name: Daily_Customer_Count, Length: 583, dtype: float64\n", + "\n", + "Средняя посещаемость 'Items_Available':\n", + "Items_Available\n", + "932 1090.0\n", + "951 790.0\n", + "1018 660.0\n", + "1050 850.0\n", + "1059 870.0\n", + " ... \n", + "2492 790.0\n", + "2493 810.0\n", + "2617 600.0\n", + "2647 740.0\n", + "2667 660.0\n", + "Name: Daily_Customer_Count, Length: 616, dtype: float64\n", + "\n", + "Средняя посещаемость 'Store_Sales':\n", + "Store_Sales\n", + "14920 990.0\n", + "16370 880.0\n", + "17670 660.0\n", + "20270 870.0\n", + "21300 850.0\n", + " ... \n", + "101820 820.0\n", + "102310 1310.0\n", + "102920 680.0\n", + "105150 980.0\n", + "116320 860.0\n", + "Name: Daily_Customer_Count, Length: 816, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\n", + "Store_Area Items_Available\n", + "775 932 1090.0\n", + "780 951 790.0\n", + "854 1018 660.0\n", + "869 1050 850.0\n", + "891 1073 630.0\n", + " ... \n", + "2063 2493 810.0\n", + "2067 2492 790.0\n", + "2169 2617 600.0\n", + "2214 2647 740.0\n", + "2229 2667 660.0\n", + "Name: Daily_Customer_Count, Length: 892, dtype: float64\n", + "\n", + "Средняя посещаемость для комбинации 'Items_Available' и 'Store_Sales':\n", + "Items_Available Store_Sales\n", + "932 42530 1090.0\n", + "951 25600 790.0\n", + "1018 77740 660.0\n", + "1050 52540 850.0\n", + "1059 75110 870.0\n", + " ... \n", + "2492 70230 790.0\n", + "2493 51480 810.0\n", + "2617 67080 600.0\n", + "2647 65900 740.0\n", + "2667 87410 660.0\n", + "Name: Daily_Customer_Count, Length: 896, dtype: float64\n", + "\n" + ] + }, { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Store_AreaStore_Area
01659medium
11461medium
21340medium
31451medium
41770large
51442medium
61542medium
71261medium
81090small
91030small
101187small
111751large
121746large
131615medium
141469medium
151644medium
161578medium
171703medium
181438medium
191940large
\n", - "
" - ], - "text/plain": [ - " Store_Area Store_Area\n", - "0 1659 medium\n", - "1 1461 medium\n", - "2 1340 medium\n", - "3 1451 medium\n", - "4 1770 large\n", - "5 1442 medium\n", - "6 1542 medium\n", - "7 1261 medium\n", - "8 1090 small\n", - "9 1030 small\n", - "10 1187 small\n", - "11 1751 large\n", - "12 1746 large\n", - "13 1615 medium\n", - "14 1469 medium\n", - "15 1644 medium\n", - "16 1578 medium\n", - "17 1703 medium\n", - "18 1438 medium\n", - "19 1940 large" - ] - }, - "execution_count": 67, - "metadata": {}, - "output_type": "execute_result" + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] } ], "source": [ - "pd.concat(\n", - " [df[\"Store_Area\"], pd.cut(df[\"Store_Area\"], list(bins1), labels=labels)], axis=1\n", - ").head(20)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Ручной синтез" - ] - }, - { - "cell_type": "code", - "execution_count": 68, - "metadata": {}, - "outputs": [], - "source": [ - "# Пример синтеза признака коэффициента отношения размера ассортимента к его распродажам\n", - "train_data_encoded[\"koeff\"] = (\n", - " train_data_encoded[\"Items_Available\"] / train_data_encoded[\"Store_Sales\"]\n", - ")\n", - "val_data_encoded[\"koeff\"] = (\n", - " val_data_encoded[\"Items_Available\"] / val_data_encoded[\"Store_Sales\"]\n", - ")\n", - "test_data_encoded[\"koeff\"] = (\n", - " test_data_encoded[\"Items_Available\"] / test_data_encoded[\"Store_Sales\"]\n", - ")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети." - ] - }, - { - "cell_type": "code", - "execution_count": 69, - "metadata": {}, - "outputs": [], - "source": [ - "from sklearn.preprocessing import StandardScaler, MinMaxScaler\n", + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", "\n", - "# Пример масштабирования числовых признаков\n", - "numerical_features = [\"Daily_Customer_Count\", \"Items_Available\"]\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", "\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y)\n", + "X = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки\n", "scaler = StandardScaler()\n", - "train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n", - "val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n", - "test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Конструирование признаков с применением фреймворка Featuretools" - ] - }, - { - "cell_type": "code", - "execution_count": 70, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index id not found in dataframe, creating new integer column\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", - " df = pd.concat([df, default_df], sort=True)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", - " df = pd.concat([df, default_df], sort=True)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" - ] - } - ], - "source": [ - "import featuretools as ft\n", + "X_train = scaler.fit_transform(X_train)\n", + "X_test = scaler.transform(X_test)\n", "\n", - "# Определение сущностей\n", - "es = ft.EntitySet(id='shop_data')\n", - "es = es.add_dataframe(dataframe_name='shops', dataframe=train_data_encoded, index='id')\n", - "\n", - "\n", - "# Генерация признаков\n", - "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='shops', max_depth=2)\n", - "\n", - "# Преобразование признаков для контрольной и тестовой выборок\n", - "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n", - "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "### Оценка качества каждого набора признаков\n", - "Предсказательная способность\n", - "Метрики: RMSE, MAE, R²\n", - "\n", - "Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.\n", - "\n", - "Скорость вычисления\n", - "Методы: Измерение времени выполнения генерации признаков и обучения модели.\n", - "\n", - "Надежность\n", - "Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.\n", - "\n", - "Корреляция\n", - "Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.\n", - "\n", - "Цельность\n", - "Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели." - ] - }, - { - "cell_type": "code", - "execution_count": 71, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", - " warnings.warn(\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", - " df = pd.concat([df, default_df], sort=True)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", - " df = pd.concat([df, default_df], sort=True)\n", - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" - ] - } - ], - "source": [ - "import featuretools as ft\n", - "\n", - "# Определение сущностей\n", - "es = ft.EntitySet(id='shop_data')\n", - "es = es.add_dataframe(dataframe_name='shops', dataframe=train_data_encoded, index='id')\n", - "\n", - "# Генерация признаков\n", - "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='shops', max_depth=2)\n", - "\n", - "# Преобразование признаков для контрольной и тестовой выборок\n", - "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n", - "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 72, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "RMSE: 935.869473619144\n", - "R²: 0.9976677314259463\n", - "MAE: 563.0765217391303\n", - "Cross-validated RMSE: 2423.8868120485813\n", - "Train RMSE: 871.8955293545159\n", - "Train R²: 0.9975555952641544\n", - "Train MAE: 514.1715034965034\n" - ] - }, - { - "name": "stderr", - "output_type": "stream", - "text": [ - "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", - " warnings.warn(\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "import pandas as pd\n", - "from sklearn.model_selection import train_test_split\n", - "from sklearn.ensemble import RandomForestRegressor\n", - "from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error\n", - "from sklearn.model_selection import cross_val_score\n", - "import matplotlib.pyplot as plt\n", - "import seaborn as sns\n", - "\n", - "# Удаление строк с NaN\n", - "feature_matrix = feature_matrix.dropna()\n", - "val_feature_matrix = val_feature_matrix.dropna()\n", - "test_feature_matrix = test_feature_matrix.dropna()\n", - "\n", - "# Разделение данных на обучающую и тестовую выборки\n", - "X_train = feature_matrix.drop(\"Store_Sales\", axis=1)\n", - "y_train = feature_matrix[\"Store_Sales\"]\n", - "X_val = val_feature_matrix.drop(\"Store_Sales\", axis=1)\n", - "y_val = val_feature_matrix[\"Store_Sales\"]\n", - "X_test = test_feature_matrix.drop(\"Store_Sales\", axis=1)\n", - "y_test = test_feature_matrix[\"Store_Sales\"]\n", - "\n", - "# Выбор модели\n", - "model = RandomForestRegressor(random_state=42)\n", - "\n", - "# Обучение модели\n", + "# Обучаем модель линейной регрессии\n", + "model = LinearRegression()\n", "model.fit(X_train, y_train)\n", "\n", - "# Предсказание и оценка\n", + "# Делаем предсказания на тестовой выборке\n", "y_pred = model.predict(X_test)\n", "\n", + "# Оцениваем качество модели\n", + "mae = mean_absolute_error(y_test, y_pred)\n", + "mse = mean_squared_error(y_test, y_pred)\n", "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", "r2 = r2_score(y_test, y_pred)\n", - "mae = mean_absolute_error(y_test, y_pred)\n", "\n", + "print(f\"MAE: {mae}\")\n", + "print(f\"MSE: {mse}\")\n", "print(f\"RMSE: {rmse}\")\n", "print(f\"R²: {r2}\")\n", - "print(f\"MAE: {mae}\")\n", "\n", - "# Кросс-валидация\n", - "scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n", - "rmse_cv = (-scores.mean())**0.5\n", - "print(f\"Cross-validated RMSE: {rmse_cv}\")\n", - "\n", - "# Анализ важности признаков\n", - "feature_importances = model.feature_importances_\n", - "feature_names = X_train.columns\n", + "# Проверяем, достигнуты ли ориентиры\n", + "if r2 >= 0.75 and mae <= 300 and rmse <= 350:\n", + " print(\"Ориентиры для прогнозирования достигнуты!\")\n", + "else:\n", + " print(\"Ориентиры для прогнозирования не достигнуты.\")\n", "\n", "\n", - "# Проверка на переобучение\n", - "y_train_pred = model.predict(X_train)\n", + "columns_to_group = [\n", + " \"Store_Area\",\n", + " \"Items_Available\",\n", + " \"Store_Sales\"\n", + "]\n", "\n", - "rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n", - "r2_train = r2_score(y_train, y_train_pred)\n", - "mae_train = mean_absolute_error(y_train, y_train_pred)\n", + "# Рассчитываем среднюю посещаемость для каждого значения каждого признака\n", + "for column in columns_to_group:\n", + " print(f\"Средняя посещаемость '{column}':\")\n", + " print(df.groupby(column)[\"Daily_Customer_Count\"].mean())\n", + " print()\n", "\n", - "print(f\"Train RMSE: {rmse_train}\")\n", - "print(f\"Train R²: {r2_train}\")\n", - "print(f\"Train MAE: {mae_train}\")\n", + "# Рассчитываем среднюю посещаемость для комбинаций признаков\n", "\n", - "# Визуализация результатов\n", - "plt.figure(figsize=(10, 6))\n", - "plt.scatter(y_test, y_pred, alpha=0.5)\n", - "plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n", - "plt.xlabel('Actual Sales')\n", - "plt.ylabel('Predicted Sales')\n", - "plt.title(\"Actual vs Predicted Sales\")\n", + "print(\n", + " \"Средняя посещаемость для комбинации 'Store_Area' и 'Items_Available':\"\n", + ")\n", + "print(df.groupby([\"Store_Area\", \"Items_Available\"])[\"Daily_Customer_Count\"].mean())\n", + "print()\n", + "\n", + "print(\n", + " \"Средняя посещаемость для комбинации 'Items_Available' и 'Store_Sales':\"\n", + ")\n", + "print(df.groupby([\"Items_Available\", \"Store_Sales\"])[\"Daily_Customer_Count\"].mean())\n", + "print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Анализ применимости алгоритмов обучения с учителем для решения поставленных задач:\n", + "1. Прогнозирование посещаемости магазинов:\n", + "Задача: Регрессия\n", + "\n", + "Свойства алгоритмов:\n", + "\n", + "Линейная регрессия:\n", + "Применимость: Хорошо подходит для задач, где зависимость между признаками и целевой переменной линейна.\n", + "Преимущества: Проста в реализации, интерпретируема.\n", + "Недостатки: Может плохо работать, если зависимость нелинейна.\n", + "\n", + "Деревья решений (регрессия):\n", + "Применимость: Подходит для задач с нелинейными зависимостями.\n", + "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", + "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", + "\n", + "Случайный лес (регрессия):\n", + "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", + "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", + "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", + "\n", + "Градиентный бустинг (регрессия):\n", + "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", + "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", + "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", + "\n", + "Нейронные сети (регрессия):\n", + "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", + "Преимущества: Может моделировать очень сложные зависимости.\n", + "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", + "\n", + "Вывод:\n", + "\n", + "Линейная регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", + "\n", + "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", + "\n", + "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", + "\n", + "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n", + "\n", + "2. Оптимизация тарифной сетки:\n", + "Задача: Классификация (группировка клиентов по группам риска)\n", + "\n", + "Свойства алгоритмов:\n", + "\n", + "Логистическая регрессия:\n", + "Применимость: Хорошо подходит для задач бинарной классификации, где зависимость между признаками и целевой переменной линейна.\n", + "Преимущества: Проста в реализации, интерпретируема.\n", + "Недостатки: Может плохо работать, если зависимость нелинейна.\n", + "\n", + "Деревья решений (классификация):\n", + "Применимость: Подходит для задач с нелинейными зависимостями.\n", + "Преимущества: Может обрабатывать категориальные признаки, не требует масштабирования данных.\n", + "Недостатки: Подвержены переобучению, могут давать нестабильные результаты.\n", + "\n", + "Случайный лес (классификация):\n", + "Применимость: Хорошо подходит для задач с нелинейными зависимостями и большим количеством признаков.\n", + "Преимущества: Устойчив к переобучению, может обрабатывать категориальные признаки.\n", + "Недостатки: Менее интерпретируем, чем линейная регрессия.\n", + "\n", + "Градиентный бустинг (классификация):\n", + "Применимость: Подходит для задач с нелинейными зависимостями и сложными взаимосвязями между признаками.\n", + "Преимущества: Может достигать высокой точности, устойчив к переобучению.\n", + "Недостатки: Сложнее в настройке, чем случайный лес, менее интерпретируем.\n", + "\n", + "Нейронные сети (классификация):\n", + "Применимость: Подходит для задач с очень сложными зависимостями и большим количеством данных.\n", + "Преимущества: Может моделировать очень сложные зависимости.\n", + "Недостатки: Требует большого количества данных, сложнее в настройке и интерпретации.\n", + "\n", + "Вывод:\n", + "\n", + "Логистическая регрессия: Может быть хорошим выбором для начала, особенно если зависимость между признаками и целевой переменной линейна.\n", + "\n", + "Деревья решений и случайный лес: Подходят для задач с нелинейными зависимостями.\n", + "\n", + "Градиентный бустинг: Может давать более высокую точность, чем случайный лес, но требует больше времени на настройку.\n", + "\n", + "Нейронные сети: Могут быть излишними для этой задачи, если данных недостаточно много.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещаемости:\n", + "Выбранные модели:\n", + "\n", + "Линейная регрессия\n", + "\n", + "Случайный лес (регрессия)\n", + "\n", + "Градиентный бустинг (регрессия)\n", + "\n", + "2. Оптимизация тарифной сетки:\n", + "Выбранные модели:\n", + "\n", + "Логистическая регрессия\n", + "\n", + "Случайный лес (классификация)\n", + "\n", + "Градиентный бустинг (классификация)" + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE: 241.24369535006045\n", + "MSE: 82946.49105226391\n", + "RMSE: 288.004324711043\n", + "R²: -0.008816097180501359\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "MAE: 243.23611111111111\n", + "MSE: 87083.23183333334\n", + "RMSE: 295.09868151744314\n", + "R²: -0.05912817954666627\n", + "\n", + "Model: Gradient Boosting Regression\n", + "MAE: 243.32216425180837\n", + "MSE: 86930.93446873281\n", + "RMSE: 294.84052378995125\n", + "R²: -0.057275900673647184\n", + "\n", + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy: 0.43333333333333335\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy: 0.48333333333333334\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y_reg = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки для задачи регрессии\n", + "scaler_reg = StandardScaler()\n", + "X_train_reg = scaler_reg.fit_transform(X_train_reg)\n", + "X_test_reg = scaler_reg.transform(X_test_reg)\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " model.fit(X_train_reg, y_train_reg)\n", + " y_pred_reg = model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df.drop(\"Daily_Customer_Count\", axis=1)\n", + "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Стандартизируем признаки для задачи классификации\n", + "scaler_class = StandardScaler()\n", + "X_train_class = scaler_class.fit_transform(X_train_class)\n", + "X_test_class = scaler_class.transform(X_test_class)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " model.fit(X_train_class, y_train_class)\n", + " y_pred_class = model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещаемости:\n", + "Конвейер для задачи регрессии:" + ] + }, + { + "cell_type": "code", + "execution_count": 28, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "MAE: 252.30722222222215\n", + "MSE: 96910.00272222221\n", + "RMSE: 311.3037145975329\n", + "R²: -0.1786438399471706\n", + "\n", + "Model: Gradient Boosting Regression\n", + "MAE: 251.78234994554563\n", + "MSE: 91989.50216005361\n", + "RMSE: 303.2977120916899\n", + "R²: -0.11879947389467915\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df[\"Daily_Customer_Count\"]\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " pipeline.fit(X_train_reg, y_train_reg)\n", + " y_pred_reg = pipeline.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()\n", + "\n", + "\n", + "\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Оптимизация характеристик магазина:\n", + "Конвейер для задачи классификации:" + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy: 0.45555555555555555\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy: 0.4722222222222222\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df[\"Daily_Customer_Count\"] > df[\"Daily_Customer_Count\"].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " pipeline.fit(X_train_class, y_train_class)\n", + " y_pred_class = pipeline.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещения:\n", + "\n", + "Настройка гиперпараметров для задачи регрессии:" + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "Best Parameters: {}\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", + "MAE: 243.04076811420884\n", + "MSE: 87060.25762210294\n", + "RMSE: 295.05975263004433\n", + "R²: -0.058848761408355266\n", + "\n", + "Model: Gradient Boosting Regression\n", + "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "MAE: 241.05664822292044\n", + "MSE: 82429.08476894222\n", + "RMSE: 287.1046582153313\n", + "R²: -0.0025232717604557475\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": (LinearRegression(), {}),\n", + " \"Random Forest Regression\": (RandomForestRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, (model, params) in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", + " grid_search.fit(X_train_reg, y_train_reg)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_reg = best_model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Оптимизация характеристик:\n", + "\n", + "Настройка гиперпараметров для задачи классификации:" + ] + }, + { + "cell_type": "code", + "execution_count": 31, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Random Forest Classification\n", + "Best Parameters: {'model__max_depth': None, 'model__n_estimators': 100}\n", + "Accuracy: 0.46111111111111114\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "Accuracy: 0.4722222222222222\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": (LogisticRegression(), {\n", + " 'model__C': [0.1, 1, 10],\n", + " 'model__solver': ['liblinear', 'lbfgs']\n", + " }),\n", + " \"Random Forest Classification\": (RandomForestClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, (model, params) in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", + " grid_search.fit(X_train_class, y_train_class)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_class = best_model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Прогнозирование посещаемости::\n", + "Задача: Регрессия\n", + "\n", + "Выбор метрик:\n", + "\n", + "MAE (Mean Absolute Error): Средняя абсолютная ошибка. Показывает среднее отклонение предсказанных значений от фактических. Эта метрика легко интерпретируется, так как она измеряется в тех же единицах, что и целевая переменная \n", + "\n", + "MSE (Mean Squared Error): Среднеквадратичная ошибка. Показывает среднее квадратичное отклонение предсказанных значений от фактических. Эта метрика чувствительна к выбросам, так как ошибки возводятся в квадрат.\n", + "\n", + "RMSE (Root Mean Squared Error): Квадратный корень из среднеквадратичной ошибки. Показывает среднее отклонение предсказанных значений от фактических в тех же единицах, что и целевая переменная. Эта метрика также чувствительна к выбросам, но легче интерпретируется, чем MSE.\n", + "\n", + "R² (R-squared): Коэффициент детерминации. Показывает, какую долю дисперсии целевой переменной объясняет модель. Значение R² близкое к 1 указывает на хорошее качество модели.\n", + "\n", + "Обоснование:\n", + "\n", + "MAE: Хорошо подходит для задач, где важно понимать среднее отклонение предсказаний от фактических значений.\n", + "\n", + "MSE и RMSE: Полезны для задач, где важно минимизировать влияние выбросов, так как они возводят ошибки в квадрат.\n", + "\n", + "R²: Позволяет оценить, насколько хорошо модель объясняет вариацию целевой переменной.\n", + "\n", + "2. Оптимизация характеристик:\n", + "Задача: Классификация\n", + "\n", + "Выбор метрик:\n", + "\n", + "Accuracy: Доля правильных предсказаний среди всех предсказаний. Эта метрика показывает общую точность модели.\n", + "\n", + "Precision: Доля правильных положительных предсказаний среди всех положительных предсказаний. Эта метрика важна, если важно минимизировать количество ложноположительных результатов.\n", + "\n", + "Recall (Sensitivity): Доля правильных положительных предсказаний среди всех фактических положительных случаев. Эта метрика важна, если важно минимизировать количество ложноотрицательных результатов.\n", + "\n", + "F1-score: Гармоническое среднее между precision и recall. Эта метрика показывает баланс между precision и recall.\n", + "\n", + "Обоснование:\n", + "\n", + "Accuracy: Хорошо подходит для задач, где классы сбалансированы.\n", + "\n", + "Precision и Recall: Важны для задач, где важно минимизировать ошибки определенного типа (ложноположительные или ложноотрицательные).\n", + "\n", + "F1-score: Позволяет оценить баланс между precision и recall." + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Результаты для задачи регрессии:\n", + "Model: Linear Regression\n", + "Best Parameters: {}\n", + "MAE: 240.99246411452697\n", + "MSE: 82771.10925011222\n", + "RMSE: 287.6996858707222\n", + "R²: -0.0066830595689202354\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n", + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Regression\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 200}\n", + "MAE: 244.0836083882561\n", + "MSE: 87586.19307186974\n", + "RMSE: 295.94964617628744\n", + "R²: -0.06524532069702138\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\3_КУРС_ПИ\\МИИ\\aisenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Gradient Boosting Regression\n", + "Best Parameters: {'model__learning_rate': 0.01, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "MAE: 241.03600026936337\n", + "MSE: 82423.51718610286\n", + "RMSE: 287.0949619657281\n", + "R²: -0.002455557416913612\n", + "\n", + "Результаты для задачи классификации:\n", + "Model: Logistic Regression\n", + "Best Parameters: {'model__C': 10, 'model__solver': 'lbfgs'}\n", + "Accuracy: 0.46111111111111114\n", + "Precision: 0.475\n", + "Recall: 0.2\n", + "F1-score: 0.2814814814814815\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Random Forest Classification\n", + "Best Parameters: {'model__max_depth': 10, 'model__n_estimators': 100}\n", + "Accuracy: 0.4888888888888889\n", + "Precision: 0.5185185185185185\n", + "Recall: 0.4421052631578947\n", + "F1-score: 0.4772727272727273\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Model: Gradient Boosting Classification\n", + "Best Parameters: {'model__learning_rate': 0.1, 'model__max_depth': 3, 'model__n_estimators': 100}\n", + "Accuracy: 0.4722222222222222\n", + "Precision: 0.5\n", + "Recall: 0.42105263157894735\n", + "F1-score: 0.45714285714285713\n", + "\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split, GridSearchCV\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "from sklearn import metrics\n", + "from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, ConfusionMatrixDisplay\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Список моделей и их гиперпараметров для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": (LinearRegression(), {}),\n", + " \"Random Forest Regression\": (RandomForestRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Regression\": (GradientBoostingRegressor(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи регрессии\n", + "X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи регрессии\n", + "print(\"Результаты для задачи регрессии:\")\n", + "for name, (model, params) in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='neg_mean_absolute_error')\n", + " grid_search.fit(X_train_reg, y_train_reg)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_reg = best_model.predict(X_test_reg)\n", + " mae = mean_absolute_error(y_test_reg, y_pred_reg)\n", + " mse = mean_squared_error(y_test_reg, y_pred_reg)\n", + " rmse = mean_squared_error(y_test_reg, y_pred_reg, squared=False)\n", + " r2 = r2_score(y_test_reg, y_pred_reg)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"MAE: {mae}\")\n", + " print(f\"MSE: {mse}\")\n", + " print(f\"RMSE: {rmse}\")\n", + " print(f\"R²: {r2}\")\n", + " print()\n", + "\n", + "# Список моделей и их гиперпараметров для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": (LogisticRegression(), {\n", + " 'model__C': [0.1, 1, 10],\n", + " 'model__solver': ['liblinear', 'lbfgs']\n", + " }),\n", + " \"Random Forest Classification\": (RandomForestClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__max_depth': [None, 10, 20]\n", + " }),\n", + " \"Gradient Boosting Classification\": (GradientBoostingClassifier(), {\n", + " 'model__n_estimators': [100, 200],\n", + " 'model__learning_rate': [0.01, 0.1],\n", + " 'model__max_depth': [3, 5]\n", + " })\n", + "}\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Разделяем данные на обучающую и тестовую выборки для задачи классификации\n", + "X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2, random_state=42)\n", + "\n", + "# Обучаем и оцениваем модели для задачи классификации\n", + "print(\"Результаты для задачи классификации:\")\n", + "for name, (model, params) in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " grid_search = GridSearchCV(pipeline, params, cv=5, scoring='accuracy')\n", + " grid_search.fit(X_train_class, y_train_class)\n", + " best_model = grid_search.best_estimator_\n", + " y_pred_class = best_model.predict(X_test_class)\n", + " accuracy = accuracy_score(y_test_class, y_pred_class)\n", + " precision = precision_score(y_test_class, y_pred_class)\n", + " recall = recall_score(y_test_class, y_pred_class)\n", + " f1 = f1_score(y_test_class, y_pred_class)\n", + " print(f\"Model: {name}\")\n", + " print(f\"Best Parameters: {grid_search.best_params_}\")\n", + " print(f\"Accuracy: {accuracy}\")\n", + " print(f\"Precision: {precision}\")\n", + " print(f\"Recall: {recall}\")\n", + " print(f\"F1-score: {f1}\")\n", + " print()\n", + "\n", + " # Визуализация матрицы ошибок\n", + " cm = confusion_matrix(y_test_class, y_pred_class)\n", + " disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Less', 'More'])\n", + " disp.plot(cmap=plt.cm.Blues)\n", + " plt.title(f'Confusion Matrix for {name}')\n", + " plt.show()\n", + "\n", + "\n", + "\n", + "fpr, tpr, _ = metrics.roc_curve(y_test_class, y_pred_class)\n", + "# построение ROC кривой\n", + "plt.plot(fpr, tpr)\n", + "plt.ylabel(\"True Positive Rate\")\n", + "plt.xlabel(\"False Positive Rate\")\n", "plt.show()" ] }, @@ -800,9 +1463,318 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Точность предсказаний: Модель показывает довольно высокий R² (0.9975), что указывает на хорошее объяснение вариации распродаж. Значения RMSE и MAE довольно низки, что говорит о том, что модель достаточно точно предсказывает цены.\n", + "Давайте проанализируем полученные значения метрик и определим, являются ли они нормальными или их можно улучшить.\n", "\n", - "Переобучение: Разница между RMSE на обучающей и тестовой выборках не очень большая, что указывает на то, что переобучение не является критическим. Однако, стоит быть осторожным и продолжать мониторинг этого показателя.\n" + "### Оценка смещения и дисперсии для задачи регрессии:\n", + "\n", + "### Вывод для задачи регрессии:\n", + "\n", + "- **Random Forest Regression** демонстрирует наилучшие результаты по метрикам MAE и R², что указывает на высокую точность и стабильность модели.\n", + "- **Linear Regression** и **Gradient Boosting Regression** также показывают хорошие результаты, но уступают случайному лесу.\n", + "\n", + "### Вывод для задачи классификации:\n", + "\n", + "- **Random Forest Classification** демонстрирует наилучшие результаты по всем метрикам (Accuracy, Precision, Recall, F1-score), что указывает на высокую точность и стабильность модели.\n", + "- **Logistic Regression** и **Gradient Boosting Classification** также показывают хорошие результаты, но уступают случайному лесу.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Для оценки смещения (bias) и дисперсии (variance) моделей можно использовать метод перекрестной проверки (cross-validation). Этот метод позволяет оценить, насколько хорошо модель обобщается на новых данных.\n", + "\n", + "Оценка смещения и дисперсии для задачи регрессии:\n", + "Для задачи регрессии мы будем использовать метрики MAE (Mean Absolute Error) и R² (R-squared) для оценки смещения и дисперсии.\n", + "\n", + "Оценка смещения и дисперсии для задачи классификации:\n", + "Для задачи классификации мы будем использовать метрики Accuracy, Precision, Recall и F1-score для оценки смещения и дисперсии.\n", + "\n", + "Пример кода для оценки смещения и дисперсии:" + ] + }, + { + "cell_type": "code", + "execution_count": 33, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Оценка смещения и дисперсии для задачи регрессии:\n", + "Model: Linear Regression\n", + "MAE (Cross-Validation): Mean = 214.80552977981765, Std = 10.606512171542404\n", + "R² (Cross-Validation): Mean = -0.013983192308878256, Std = 0.013712813782736416\n", + "\n", + "Model: Random Forest Regression\n", + "MAE (Cross-Validation): Mean = 229.44898944754814, Std = 8.242031819995562\n", + "R² (Cross-Validation): Mean = -0.15978167427786275, Std = 0.07892578619634859\n", + "\n", + "Model: Gradient Boosting Regression\n", + "MAE (Cross-Validation): Mean = 222.87700909993964, Std = 7.629255219482666\n", + "R² (Cross-Validation): Mean = -0.10304248255845513, Std = 0.03865377667349689\n", + "\n", + "Оценка смещения и дисперсии для задачи классификации:\n", + "Model: Logistic Regression\n", + "Accuracy (Cross-Validation): Mean = 0.5055307262569833, Std = 0.03499561917769727\n", + "Precision (Cross-Validation): Mean = 0.5065468552510806, Std = 0.054654647753909255\n", + "Recall (Cross-Validation): Mean = 0.36069969356486214, Std = 0.041986149284426406\n", + "F1-score (Cross-Validation): Mean = 0.41699563277139867, Std = 0.022647838103859376\n", + "\n", + "Model: Random Forest Classification\n", + "Accuracy (Cross-Validation): Mean = 0.4877653631284916, Std = 0.0253710026415637\n", + "Precision (Cross-Validation): Mean = 0.47855661506678404, Std = 0.019804247650192335\n", + "Recall (Cross-Validation): Mean = 0.46057201225740557, Std = 0.05882472803726689\n", + "F1-score (Cross-Validation): Mean = 0.49477978739978956, Std = 0.0420160832752377\n", + "\n", + "Model: Gradient Boosting Classification\n", + "Accuracy (Cross-Validation): Mean = 0.5190068280571074, Std = 0.023314248614955645\n", + "Precision (Cross-Validation): Mean = 0.5075947729390105, Std = 0.025951320834959594\n", + "Recall (Cross-Validation): Mean = 0.49668028600612874, Std = 0.04700469023993552\n", + "F1-score (Cross-Validation): Mean = 0.5026891374289626, Std = 0.030324896664859893\n", + "\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import cross_val_score\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи регрессии\n", + "print(\"Оценка смещения и дисперсии для задачи регрессии:\")\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", + " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", + " print(f\"Model: {name}\")\n", + " print(f\"MAE (Cross-Validation): Mean = {mae_scores.mean()}, Std = {mae_scores.std()}\")\n", + " print(f\"R² (Cross-Validation): Mean = {r2_scores.mean()}, Std = {r2_scores.std()}\")\n", + " print()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи классификации\n", + "print(\"Оценка смещения и дисперсии для задачи классификации:\")\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", + " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", + " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", + " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", + " print(f\"Model: {name}\")\n", + " print(f\"Accuracy (Cross-Validation): Mean = {accuracy_scores.mean()}, Std = {accuracy_scores.std()}\")\n", + " print(f\"Precision (Cross-Validation): Mean = {precision_scores.mean()}, Std = {precision_scores.std()}\")\n", + " print(f\"Recall (Cross-Validation): Mean = {recall_scores.mean()}, Std = {recall_scores.std()}\")\n", + " print(f\"F1-score (Cross-Validation): Mean = {f1_scores.mean()}, Std = {f1_scores.std()}\")\n", + " print()" + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "from sklearn.model_selection import cross_val_score\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LinearRegression, LogisticRegression\n", + "from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier\n", + "from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier\n", + "from sklearn.pipeline import Pipeline\n", + "from sklearn.compose import ColumnTransformer\n", + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загружаем набор данных\n", + "df = pd.read_csv(\".//static//csv//Stores.csv\")\n", + "\n", + "# Определяем категориальные и числовые столбцы\n", + "numerical_cols = [\"Store_Area\", \"Items_Available\", \"Store_Sales\"]\n", + "\n", + "# Создаем преобразователь для категориальных и числовых столбцов\n", + "preprocessor = ColumnTransformer(\n", + " transformers=[\n", + " ('num', StandardScaler(), numerical_cols)\n", + " ])\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи регрессии\n", + "X_reg = df[numerical_cols]\n", + "y_reg = df['Daily_Customer_Count']\n", + "\n", + "# Список моделей для задачи регрессии\n", + "models_reg = {\n", + " \"Linear Regression\": LinearRegression(),\n", + " \"Random Forest Regression\": RandomForestRegressor(),\n", + " \"Gradient Boosting Regression\": GradientBoostingRegressor()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи регрессии\n", + "mae_means = []\n", + "mae_stds = []\n", + "r2_means = []\n", + "r2_stds = []\n", + "\n", + "for name, model in models_reg.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " mae_scores = -cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='neg_mean_absolute_error')\n", + " r2_scores = cross_val_score(pipeline, X_reg, y_reg, cv=5, scoring='r2')\n", + " mae_means.append(mae_scores.mean())\n", + " mae_stds.append(mae_scores.std())\n", + " r2_means.append(r2_scores.mean())\n", + " r2_stds.append(r2_scores.std())\n", + "\n", + "# Визуализация результатов для задачи регрессии\n", + "fig, ax = plt.subplots(1, 2, figsize=(12, 6))\n", + "\n", + "ax[0].bar(models_reg.keys(), mae_means, yerr=mae_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0].set_ylabel('MAE')\n", + "ax[0].set_title('Mean Absolute Error (MAE) for Regression Models')\n", + "ax[0].yaxis.grid(True)\n", + "\n", + "ax[1].bar(models_reg.keys(), r2_means, yerr=r2_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1].set_ylabel('R²')\n", + "ax[1].set_title('R-squared (R²) for Regression Models')\n", + "ax[1].yaxis.grid(True)\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "# Разделяем данные на признаки (X) и целевую переменную (y) для задачи классификации\n", + "X_class = df[numerical_cols]\n", + "y_class = (df['Daily_Customer_Count'] > df['Daily_Customer_Count'].mean()).astype(int)\n", + "\n", + "# Список моделей для задачи классификации\n", + "models_class = {\n", + " \"Logistic Regression\": LogisticRegression(),\n", + " \"Random Forest Classification\": RandomForestClassifier(),\n", + " \"Gradient Boosting Classification\": GradientBoostingClassifier()\n", + "}\n", + "\n", + "# Оценка смещения и дисперсии для задачи классификации\n", + "accuracy_means = []\n", + "accuracy_stds = []\n", + "precision_means = []\n", + "precision_stds = []\n", + "recall_means = []\n", + "recall_stds = []\n", + "f1_means = []\n", + "f1_stds = []\n", + "\n", + "for name, model in models_class.items():\n", + " pipeline = Pipeline(steps=[\n", + " ('preprocessor', preprocessor),\n", + " ('model', model)\n", + " ])\n", + " accuracy_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='accuracy')\n", + " precision_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='precision')\n", + " recall_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='recall')\n", + " f1_scores = cross_val_score(pipeline, X_class, y_class, cv=5, scoring='f1')\n", + " accuracy_means.append(accuracy_scores.mean())\n", + " accuracy_stds.append(accuracy_scores.std())\n", + " precision_means.append(precision_scores.mean())\n", + " precision_stds.append(precision_scores.std())\n", + " recall_means.append(recall_scores.mean())\n", + " recall_stds.append(recall_scores.std())\n", + " f1_means.append(f1_scores.mean())\n", + " f1_stds.append(f1_scores.std())\n", + "\n", + "# Визуализация результатов для задачи классификации\n", + "fig, ax = plt.subplots(2, 2, figsize=(12, 12))\n", + "\n", + "ax[0, 0].bar(models_class.keys(), accuracy_means, yerr=accuracy_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0, 0].set_ylabel('Accuracy')\n", + "ax[0, 0].set_title('Accuracy for Classification Models')\n", + "ax[0, 0].yaxis.grid(True)\n", + "\n", + "ax[0, 1].bar(models_class.keys(), precision_means, yerr=precision_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[0, 1].set_ylabel('Precision')\n", + "ax[0, 1].set_title('Precision for Classification Models')\n", + "ax[0, 1].yaxis.grid(True)\n", + "\n", + "ax[1, 0].bar(models_class.keys(), recall_means, yerr=recall_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1, 0].set_ylabel('Recall')\n", + "ax[1, 0].set_title('Recall for Classification Models')\n", + "ax[1, 0].yaxis.grid(True)\n", + "\n", + "ax[1, 1].bar(models_class.keys(), f1_means, yerr=f1_stds, align='center', alpha=0.5, ecolor='black', capsize=10)\n", + "ax[1, 1].set_ylabel('F1-score')\n", + "ax[1, 1].set_title('F1-score for Classification Models')\n", + "ax[1, 1].yaxis.grid(True)\n", + "\n", + "plt.tight_layout()\n", + "plt.show()" ] } ],