{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Лабораторная работа №3\n",
"\n",
"*Вариант задания:* Товары Jio Mart (вариант - 23) "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Для выполнения лабораторной работы по датасету 'jio mart product items', приведу пример двух бизнес-целей:\n",
"\n",
"### Бизнес-цели:\n",
"\n",
"1. **Оптимизация ассортимента товаров в онлайн-магазине**\n",
" \n",
" **Формулировка:** Разработать модель, которая позволяет онлайн-магазину Jio Mart анализировать, какие товары наиболее востребованы, и автоматизировать оптимизацию ассортимента. Это поможет поддерживать в наличии наиболее популярные продукты и своевременно пополнять запасы.\n",
" \n",
" **Цель:** Увеличить объем продаж за счет оптимизации ассортимента и сокращения вероятности отсутствия популярных товаров на складе. Повысить клиентскую удовлетворенность за счет улучшения доступности товаров.\n",
" \n",
" **Ключевые показатели успеха (KPI):** \n",
" - *Точность прогнозирования популярности товаров:* Модель должна иметь точность не менее 90% в прогнозировании популярных товаров.\n",
" - *Увеличение продаж:* Увеличение продаж наиболее популярных товаров на 15% за счет правильного планирования запасов.\n",
" - *Снижение потерь от неликвидов:* Снижение доли товаров, которые остаются нераспроданными, до уровня ниже 5%.\n",
"\n",
"2. **Оптимизация ценовой политики**\n",
" \n",
" **Формулировка:** Разработать модель для автоматической корректировки цен в зависимости от спроса и конкуренции, чтобы максимизировать доход. Модель должна учитывать такие факторы, как сезонные колебания спроса, конкуренция и изменения цен.\n",
" \n",
" **Цель:** Повысить доходность онлайн-магазина Jio Mart за счет гибкой и динамической ценовой стратегии.\n",
" \n",
" **Ключевые показатели успеха (KPI):** \n",
" - *Рост среднего чека:* Увеличение среднего чека покупок на 10% за счет оптимизации цен.\n",
" - *Увеличение объема продаж:* Повышение объема продаж на 20% за счет корректировки цен в зависимости от спроса.\n",
" - *Конкурентоспособность цен:* Цены должны быть ниже или на уровне с ключевыми конкурентами для 80% ассортимента."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Технические цели проекта для каждой выделенной бизнес-цели\n",
"\n",
"1. **Создание модели для оптимизации ассортимента товаров в онлайн-магазине.** \n",
" \n",
" - **Сбор и подготовка данных:** \n",
" Необходимо собрать данные о продажах товаров, наличии на складе, временных трендах и сезонных изменениях спроса. Провести очистку данных от пропусков, дубликатов, аномальных значений (например, нулевые продажи при наличии товара). Преобразовать категориальные переменные (категории товаров, бренды, регионы) в числовую форму с помощью методов, таких как One-Hot-Encoding или Label Encoding. Выполнить временное сглаживание данных и стандартизацию числовых признаков для приведения их к одному масштабу. Разбить данные на обучающую и тестовую выборки.\n",
" \n",
" - **Разработка и обучение модели:** \n",
" Провести эксперименты с различными алгоритмами машинного обучения, такими как регрессия, градиентный бустинг, нейронные сети, для прогнозирования спроса на товары. Обучить модель с использованием метрик оценки, таких как MAE (Mean Absolute Error) и MSE (Mean Squared Error). Оценить производительность моделей на тестовых данных, обеспечивая точность прогнозирования популярности товаров.\n",
" \n",
" - **Развёртывание модели:** \n",
" Интеграция модели в систему управления запасами магазина для автоматической корректировки ассортимента. Создание API или интерфейса для отображения прогноза спроса и рекомендаций по пополнению запасов товаров. Модель должна предлагать автоматическое обновление ассортимента с учетом прогноза популярности и доступности товаров.\n",
"\n",
"2. **Создание модели для оптимизации ценовой политики.** \n",
" \n",
" - **Сбор и подготовка данных:** \n",
" Сбор данных о ценах товаров, продажах, спросе, а также информации о конкурентах и сезонных трендах. Очистка данных от пропусков и аномальных значений. Преобразование категориальных признаков (категории товаров, регионы продаж) в числовой формат. Нормализация числовых данных (например, цены, скидки, объем продаж). Разбиение данных на тренировочную и тестовую выборки для корректного обучения модели.\n",
" \n",
" - **Разработка и обучение модели:** \n",
" Исследование и выбор подходящих моделей для прогнозирования динамических изменений цен с учетом спроса (например, случайные леса, градиентный бустинг, временные ряды). Обучение модели для прогнозирования изменения объема продаж в зависимости от цен и конкурентов. Оценка модели с использованием метрик MSE и RMSE для минимизации ошибки прогнозирования. Прогнозирование оптимальной цены для каждого товара, которая максимизирует продажи и прибыль.\n",
" \n",
" - **Развёртывание модели:** \n",
" Создание системы, которая автоматически рекомендует изменение цен в зависимости от спроса и данных о конкурентах. Разработка API для интеграции в систему ценообразования магазина. Создание интерфейса для мониторинга изменения цен и влияния на продажи в реальном времени."
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Index(['category', 'sub_category', 'href', 'items', 'price'], dtype='object')\n"
]
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import matplotlib.ticker as ticker\n",
"import seaborn as sns\n",
"\n",
"# Загрузка данных\n",
"df = pd.read_csv(\"..//static//csv//jio_mart_items.csv\")\n",
"\n",
"# Срез данных, первые 15000 строк\n",
"df = df.iloc[:15000]\n",
"\n",
"# Вывод\n",
"print(df.columns)"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" \n",
" category \n",
" sub_category \n",
" href \n",
" items \n",
" price \n",
" \n",
" \n",
" \n",
" \n",
" 0 \n",
" Groceries \n",
" Fruits & Vegetables \n",
" https://www.jiomart.com/c/groceries/fruits-veg... \n",
" Fresh Dates (Pack) (Approx 450 g - 500 g) \n",
" 109.0 \n",
" \n",
" \n",
" 1 \n",
" Groceries \n",
" Fruits & Vegetables \n",
" https://www.jiomart.com/c/groceries/fruits-veg... \n",
" Tender Coconut Cling Wrapped (1 pc) (Approx 90... \n",
" 49.0 \n",
" \n",
" \n",
" 2 \n",
" Groceries \n",
" Fruits & Vegetables \n",
" https://www.jiomart.com/c/groceries/fruits-veg... \n",
" Mosambi 1 kg \n",
" 69.0 \n",
" \n",
" \n",
" 3 \n",
" Groceries \n",
" Fruits & Vegetables \n",
" https://www.jiomart.com/c/groceries/fruits-veg... \n",
" Orange Imported 1 kg \n",
" 125.0 \n",
" \n",
" \n",
" 4 \n",
" Groceries \n",
" Fruits & Vegetables \n",
" https://www.jiomart.com/c/groceries/fruits-veg... \n",
" Banana Robusta 6 pcs (Box) (Approx 800 g - 110... \n",
" 44.0 \n",
" \n",
" \n",
"
\n",
"
"
],
"text/plain": [
" category sub_category \\\n",
"0 Groceries Fruits & Vegetables \n",
"1 Groceries Fruits & Vegetables \n",
"2 Groceries Fruits & Vegetables \n",
"3 Groceries Fruits & Vegetables \n",
"4 Groceries Fruits & Vegetables \n",
"\n",
" href \\\n",
"0 https://www.jiomart.com/c/groceries/fruits-veg... \n",
"1 https://www.jiomart.com/c/groceries/fruits-veg... \n",
"2 https://www.jiomart.com/c/groceries/fruits-veg... \n",
"3 https://www.jiomart.com/c/groceries/fruits-veg... \n",
"4 https://www.jiomart.com/c/groceries/fruits-veg... \n",
"\n",
" items price \n",
"0 Fresh Dates (Pack) (Approx 450 g - 500 g) 109.0 \n",
"1 Tender Coconut Cling Wrapped (1 pc) (Approx 90... 49.0 \n",
"2 Mosambi 1 kg 69.0 \n",
"3 Orange Imported 1 kg 125.0 \n",
"4 Banana Robusta 6 pcs (Box) (Approx 800 g - 110... 44.0 "
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Для наглядности\n",
"df.head()"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" \n",
" price \n",
" \n",
" \n",
" \n",
" \n",
" count \n",
" 15000.000000 \n",
" \n",
" \n",
" mean \n",
" 373.427633 \n",
" \n",
" \n",
" std \n",
" 463.957949 \n",
" \n",
" \n",
" min \n",
" 5.000000 \n",
" \n",
" \n",
" 25% \n",
" 123.000000 \n",
" \n",
" \n",
" 50% \n",
" 250.000000 \n",
" \n",
" \n",
" 75% \n",
" 446.000000 \n",
" \n",
" \n",
" max \n",
" 14999.000000 \n",
" \n",
" \n",
"
\n",
"
"
],
"text/plain": [
" price\n",
"count 15000.000000\n",
"mean 373.427633\n",
"std 463.957949\n",
"min 5.000000\n",
"25% 123.000000\n",
"50% 250.000000\n",
"75% 446.000000\n",
"max 14999.000000"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Описание данных (основные статистические показатели)\n",
"df.describe()"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"category 0\n",
"sub_category 0\n",
"href 0\n",
"items 0\n",
"price 0\n",
"dtype: int64\n"
]
},
{
"data": {
"text/plain": [
"category False\n",
"sub_category False\n",
"href False\n",
"items False\n",
"price False\n",
"dtype: bool"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Процент пропущенных значений признаков\n",
"for i in df.columns:\n",
" null_rate = df[i].isnull().sum() / len(df) * 100\n",
" if null_rate > 0:\n",
" print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n",
"\n",
"# Проверка на пропущенные данные\n",
"print(df.isnull().sum())\n",
"\n",
"df.isnull().any()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Нет пропущенных данных."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Разбиваем на выборки (обучающую, тестовую, контрольную)"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер обучающей выборки: 12000\n",
"Размер контрольной выборки: 3000\n",
"Размер тестовой выборки: 3000\n"
]
}
],
"source": [
"from sklearn.model_selection import train_test_split\n",
"\n",
"# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)\n",
"train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)\n",
"\n",
"# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)\n",
"train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)\n",
"\n",
"print(\"Размер обучающей выборки: \", len(train_data))\n",
"print(\"Размер контрольной выборки: \", len(val_data))\n",
"print(\"Размер тестовой выборки: \", len(test_data))"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Средняя цена в обучающей выборке: 373.7302916666667\n",
"Средняя цена в контрольной выборке: 372.217\n",
"Средняя цена в тестовой выборке: 372.217\n"
]
}
],
"source": [
"# Оценка сбалансированности целевой переменной (цена)\n",
"# Визуализация распределения цены в выборках (гистограмма)\n",
"def plot_price_distribution(data, title):\n",
" sns.histplot(data['price'], kde=True)\n",
" plt.title(title)\n",
" plt.xlabel('Цена')\n",
" plt.ylabel('Частота')\n",
" plt.show()\n",
"\n",
"plot_price_distribution(train_data, 'Распределение цены в обучающей выборке')\n",
"plot_price_distribution(val_data, 'Распределение цены в контрольной выборке')\n",
"plot_price_distribution(test_data, 'Распределение цены в тестовой выборке')\n",
"\n",
"# Оценка сбалансированности данных по целевой переменной (price)\n",
"print(\"Средняя цена в обучающей выборке: \", train_data['price'].mean())\n",
"print(\"Средняя цена в контрольной выборке: \", val_data['price'].mean())\n",
"print(\"Средняя цена в тестовой выборке: \", test_data['price'].mean())"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер обучающей выборки после oversampling и undersampling: 12108\n"
]
}
],
"source": [
"from sklearn.model_selection import train_test_split\n",
"from imblearn.over_sampling import RandomOverSampler\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"\n",
"# Преобразование целевой переменной (цены) в категориальные диапазоны с использованием квантилей\n",
"train_data['price_category'] = pd.qcut(train_data['price'], q=4, labels=['low', 'medium', 'high', 'very_high'])\n",
"\n",
"# Визуализация распределения цен после преобразования в категории\n",
"sns.countplot(x=train_data['price_category'])\n",
"plt.title('Распределение категорий цены в обучающей выборке')\n",
"plt.xlabel('Категория цены')\n",
"plt.ylabel('Частота')\n",
"plt.show()\n",
"\n",
"# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)\n",
"ros = RandomOverSampler(random_state=42)\n",
"X_train = train_data.drop(columns=['price', 'price_category'])\n",
"y_train = train_data['price_category']\n",
"\n",
"X_resampled, y_resampled = ros.fit_resample(X_train, y_train)\n",
"\n",
"# Визуализация распределения цен после oversampling\n",
"sns.countplot(x=y_resampled)\n",
"plt.title('Распределение категорий цены после oversampling')\n",
"plt.xlabel('Категория цены')\n",
"plt.ylabel('Частота')\n",
"plt.show()\n",
"\n",
"# Применение RandomUnderSampler для уменьшения большего класса\n",
"rus = RandomUnderSampler(random_state=42)\n",
"X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)\n",
"\n",
"# Визуализация распределения цен после undersampling\n",
"sns.countplot(x=y_resampled)\n",
"plt.title('Распределение категорий цены после undersampling')\n",
"plt.xlabel('Категория цен')\n",
"plt.ylabel('Частота')\n",
"plt.show()\n",
"\n",
"# Печать размеров выборки после балансировки\n",
"print(\"Размер обучающей выборки после oversampling и undersampling: \", len(X_resampled))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Конструирование признаков\n",
"\n",
"**Процесс конструирования признаков для решения двух задач:**\n",
"\n",
"**Задача 1:** Оптимизация ассортимента товаров в онлайн-магазине. \n",
"**Цель технического проекта:** Разработка модели для прогнозирования спроса на товары.\n",
"\n",
"**Задача 2:** Оптимизация ценовой политики. \n",
"**Цель технического проекта:** Разработка модели для прогнозирования оптимальной цены товаров.\n",
"\n",
"**Унитарное кодирование** \n",
"Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.\n",
"\n",
"**Дискретизация числовых признаков** \n",
"Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины)."
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Столбцы train_data_encoded: ['href', 'items', 'price', 'price_category', 'category_Groceries', 'sub_category_Dairy & Bakery', 'sub_category_Fruits & Vegetables', 'sub_category_Premium Fruits', 'sub_category_Snacks & Branded Foods', 'sub_category_Staples']\n",
"Столбцы val_data_encoded: ['href', 'items', 'price', 'category_Groceries', 'sub_category_Dairy & Bakery', 'sub_category_Fruits & Vegetables', 'sub_category_Premium Fruits', 'sub_category_Snacks & Branded Foods', 'sub_category_Staples']\n",
"Столбцы test_data_encoded: ['href', 'items', 'price', 'category_Groceries', 'sub_category_Dairy & Bakery', 'sub_category_Fruits & Vegetables', 'sub_category_Premium Fruits', 'sub_category_Snacks & Branded Foods', 'sub_category_Staples']\n"
]
}
],
"source": [
"# Конструирование признаков\n",
"# Унитарное кодирование категориальных признаков (применение one-hot encoding)\n",
"\n",
"# Пример категориальных признаков\n",
"categorical_features = ['category', 'sub_category']\n",
"\n",
"# Применение one-hot encoding\n",
"train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)\n",
"val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)\n",
"test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)\n",
"df_encoded = pd.get_dummies(df, columns=categorical_features)\n",
"\n",
"print(\"Столбцы train_data_encoded:\", train_data_encoded.columns.tolist())\n",
"print(\"Столбцы val_data_encoded:\", val_data_encoded.columns.tolist())\n",
"print(\"Столбцы test_data_encoded:\", test_data_encoded.columns.tolist())\n",
"\n",
"# Дискретизация числовых признаков (цены). Например, можно разделить цену на категории\n",
"# Пример дискретизации признака 'price'\n",
"train_data_encoded['price_category'] = pd.cut(train_data_encoded['price'], bins=5, labels=False)\n",
"val_data_encoded['price_category'] = pd.cut(val_data_encoded['price'], bins=5, labels=False)\n",
"test_data_encoded['price_category'] = pd.cut(test_data_encoded['price'], bins=5, labels=False)\n",
"\n",
"# Пример дискретизации признака 'price' на 5 категорий\n",
"df_encoded['price_category'] = pd.cut(df_encoded['price'], bins=5, labels=False)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Ручной синтез\n",
"Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о продаже домов можно создать признак цена за единицу товара."
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [],
"source": [
"# Преобразуем столбцы 'price' и 'items' в числовой формат\n",
"train_data_encoded['price'] = pd.to_numeric(train_data_encoded['price'], errors='coerce')\n",
"train_data_encoded['items'] = pd.to_numeric(train_data_encoded['items'], errors='coerce')\n",
"\n",
"val_data_encoded['price'] = pd.to_numeric(val_data_encoded['price'], errors='coerce')\n",
"val_data_encoded['items'] = pd.to_numeric(val_data_encoded['items'], errors='coerce')\n",
"\n",
"test_data_encoded['price'] = pd.to_numeric(test_data_encoded['price'], errors='coerce')\n",
"test_data_encoded['items'] = pd.to_numeric(test_data_encoded['items'], errors='coerce')\n",
"\n",
"df_encoded['price'] = pd.to_numeric(df_encoded['price'], errors='coerce')\n",
"df_encoded['items'] = pd.to_numeric(df_encoded['items'], errors='coerce')\n",
"\n",
"# Ручной синтез признаков\n",
"train_data_encoded['price_per_item'] = train_data_encoded['price'] / train_data_encoded['items']\n",
"val_data_encoded['price_per_item'] = val_data_encoded['price'] / val_data_encoded['items']\n",
"test_data_encoded['price_per_item'] = test_data_encoded['price'] / test_data_encoded['items']\n",
"\n",
"# Пример создания нового признака - цена за единицу товара\n",
"df_encoded['price_per_item'] = df_encoded['price'] / df_encoded['items']\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети."
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {},
"outputs": [],
"source": [
"from sklearn.preprocessing import StandardScaler, MinMaxScaler\n",
"\n",
"# Пример масштабирования числовых признаков\n",
"numerical_features = ['price', 'items']\n",
"\n",
"# Масштабирование с помощью StandardScaler\n",
"scaler = StandardScaler()\n",
"\n",
"train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n",
"val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n",
"test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])\n",
"\n",
"# Если хотите использовать MinMaxScaler вместо StandardScaler, можно заменить:\n",
"# scaler = MinMaxScaler()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Конструирование признаков с применением фреймворка Featuretools"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
" href items price \\\n",
"9839 https://www.jiomart.com/c/groceries/snacks-bra... NaN -0.442827 \n",
"9680 https://www.jiomart.com/c/groceries/snacks-bra... NaN -0.635331 \n",
"7093 https://www.jiomart.com/c/groceries/staples/so... NaN 0.424527 \n",
"11293 https://www.jiomart.com/c/groceries/snacks-bra... NaN -0.728339 \n",
"820 https://www.jiomart.com/c/groceries/dairy-bake... NaN -0.624517 \n",
"... ... ... ... \n",
"5191 https://www.jiomart.com/c/groceries/staples/ma... NaN -0.659124 \n",
"13418 https://www.jiomart.com/c/groceries/snacks-bra... NaN 0.846307 \n",
"5390 https://www.jiomart.com/c/groceries/staples/ma... NaN -0.600724 \n",
"860 https://www.jiomart.com/c/groceries/staples/at... NaN -0.702384 \n",
"7270 https://www.jiomart.com/c/groceries/staples/dr... NaN -0.343330 \n",
"\n",
" price_category category_Groceries sub_category_Dairy & Bakery \\\n",
"9839 0 True False \n",
"9680 0 True False \n",
"7093 0 True False \n",
"11293 0 True False \n",
"820 0 True True \n",
"... ... ... ... \n",
"5191 0 True False \n",
"13418 0 True False \n",
"5390 0 True False \n",
"860 0 True False \n",
"7270 0 True False \n",
"\n",
" sub_category_Fruits & Vegetables sub_category_Premium Fruits \\\n",
"9839 False False \n",
"9680 False False \n",
"7093 False False \n",
"11293 False False \n",
"820 False False \n",
"... ... ... \n",
"5191 False False \n",
"13418 False False \n",
"5390 False False \n",
"860 False False \n",
"7270 False False \n",
"\n",
" sub_category_Snacks & Branded Foods sub_category_Staples \\\n",
"9839 True False \n",
"9680 True False \n",
"7093 False True \n",
"11293 True False \n",
"820 False False \n",
"... ... ... \n",
"5191 False True \n",
"13418 True False \n",
"5390 False True \n",
"860 False True \n",
"7270 False True \n",
"\n",
" price_per_item \n",
"9839 NaN \n",
"9680 NaN \n",
"7093 NaN \n",
"11293 NaN \n",
"820 NaN \n",
"... ... \n",
"5191 NaN \n",
"13418 NaN \n",
"5390 NaN \n",
"860 NaN \n",
"7270 NaN \n",
"\n",
"[11998 rows x 11 columns]\n",
" price category_Groceries \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 109.0 True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 29.0 True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 13.0 True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 32.0 True \n",
"https://www.jiomart.com/c/groceries/premium-fru... 149.0 True \n",
"\n",
" sub_category_Dairy & Bakery \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/premium-fru... False \n",
"\n",
" sub_category_Fruits & Vegetables \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... True \n",
"https://www.jiomart.com/c/groceries/fruits-vege... True \n",
"https://www.jiomart.com/c/groceries/premium-fru... False \n",
"\n",
" sub_category_Premium Fruits \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/premium-fru... True \n",
"\n",
" sub_category_Snacks & Branded Foods \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/premium-fru... False \n",
"\n",
" sub_category_Staples \\\n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/fruits-vege... False \n",
"https://www.jiomart.com/c/groceries/premium-fru... False \n",
"\n",
" price_category \n",
"href \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 0 \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 0 \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 0 \n",
"https://www.jiomart.com/c/groceries/fruits-vege... 0 \n",
"https://www.jiomart.com/c/groceries/premium-fru... 0 \n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/type_sys/utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/type_sys/utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/featuretools/synthesis/deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n",
" warnings.warn(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/type_sys/utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/type_sys/utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/featuretools/synthesis/deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n",
" warnings.warn(\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n",
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/woodwork/logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n",
" series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n"
]
}
],
"source": [
"import featuretools as ft\n",
"\n",
"# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)\n",
"# Удаление дубликатов по идентификатору\n",
"df = df.drop_duplicates(subset='href') # 'href' как идентификатор\n",
"duplicates = train_data_encoded[train_data_encoded['href'].duplicated(keep=False)]\n",
"\n",
"# Удаление дубликатов из столбца \"href\", сохранив первое вхождение\n",
"df_encoded = df_encoded.drop_duplicates(subset='href', keep='first')\n",
"\n",
"print(duplicates)\n",
"\n",
"# Создание EntitySet\n",
"es = ft.EntitySet(id='product_data')\n",
"\n",
"# Добавление датафрейма с товарами\n",
"es = es.add_dataframe(dataframe_name='products', dataframe=df_encoded, index='href')\n",
"\n",
"# Генерация признаков с помощью глубокой синтезы признаков\n",
"feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='products', max_depth=2)\n",
"\n",
"# Выводим первые 5 строк сгенерированного набора признаков\n",
"print(feature_matrix.head())\n",
"\n",
"# Удаление дубликатов из train_data_encoded\n",
"train_data_encoded = train_data_encoded.drop_duplicates(subset='href')\n",
"train_data_encoded = train_data_encoded.drop_duplicates(subset='href', keep='first') # или keep='last'\n",
"\n",
"# Определение сущностей (Создание EntitySet)\n",
"es = ft.EntitySet(id='product_data')\n",
"\n",
"es = es.add_dataframe(dataframe_name='products', dataframe=train_data_encoded, index='href')\n",
"\n",
"# Генерация признаков для обучающего набора\n",
"feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='products', max_depth=2)\n",
"\n",
"# Преобразование признаков для контрольной и тестовой выборок\n",
"val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n",
"test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Оценка качества каждого набора признаков \n",
"\n",
"*Предсказательная способность Метрики:* RMSE, MAE, R² \n",
"\n",
"*Методы:* Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках. \n",
"\n",
"*Скорость вычисления Методы:* Измерение времени выполнения генерации признаков и обучения модели. \n",
"\n",
"*Надежность Методы:* Кросс-валидация, анализ чувствительности модели к изменениям в данных. \n",
"\n",
"*Корреляция Методы:* Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков. \n",
"\n",
"*Цельность Методы:* Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели. "
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Время обучения модели: 0.01 секунд\n",
"Среднеквадратичная ошибка: 0.12\n"
]
}
],
"source": [
"import time\n",
"from sklearn.model_selection import train_test_split\n",
"from sklearn.linear_model import LinearRegression\n",
"from sklearn.metrics import mean_squared_error\n",
"\n",
"# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную\n",
"X = feature_matrix.drop('price', axis=1) # feature_matrix - ваш датафрейм с признаками\n",
"y = feature_matrix['price']\n",
"\n",
"# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)\n",
"X = pd.get_dummies(X, drop_first=True)\n",
"\n",
"# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением\n",
"X.fillna(X.median(), inplace=True)\n",
"\n",
"# Разделение данных на обучающую и валидационную выборки (80% - обучающие, 20% - валидационные)\n",
"X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)\n",
"\n",
"# Обучение модели\n",
"model = LinearRegression()\n",
"\n",
"# Начинаем отсчет времени\n",
"start_time = time.time()\n",
"model.fit(X_train, y_train)\n",
"\n",
"# Время обучения модели\n",
"train_time = time.time() - start_time\n",
"\n",
"# Предсказания и оценка модели\n",
"predictions = model.predict(X_val)\n",
"mse = mean_squared_error(y_val, predictions)\n",
"\n",
"print(f'Время обучения модели: {train_time:.2f} секунд')\n",
"print(f'Среднеквадратичная ошибка: {mse:.2f}')"
]
},
{
"cell_type": "code",
"execution_count": 30,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/sklearn/metrics/_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n",
" warnings.warn(\n"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"RMSE: 0.36186980038510536\n",
"R²: -0.6368056983116879\n",
"MAE: 0.31984719857159616 \n",
"\n",
"Кросс-валидация RMSE: 0.5070815501853271 \n",
"\n",
"Train RMSE: 0.43774086533447965\n",
"Train R²: 0.22034961506082062\n",
"Train MAE: 0.31183543428074156\n",
"\n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/sklearn/metrics/_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n",
" warnings.warn(\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"from sklearn.ensemble import RandomForestRegressor\n",
"from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error\n",
"from sklearn.model_selection import train_test_split, cross_val_score\n",
"import matplotlib.pyplot as plt\n",
"\n",
"# Удаление строк с NaN\n",
"feature_matrix = feature_matrix.dropna()\n",
"val_feature_matrix = val_feature_matrix.dropna()\n",
"test_feature_matrix = test_feature_matrix.dropna()\n",
"\n",
"# Разделение данных на обучающую и тестовую выборки\n",
"X_train = feature_matrix.drop('price', axis=1)\n",
"y_train = feature_matrix['price']\n",
"X_val = val_feature_matrix.drop('price', axis=1)\n",
"y_val = val_feature_matrix['price']\n",
"X_test = test_feature_matrix.drop('price', axis=1)\n",
"y_test = test_feature_matrix['price']\n",
"\n",
"# Приводим тестовую выборку к тем же столбцам, что и обучающая (если есть новые признаки)\n",
"X_test = X_test.reindex(columns=X_train.columns, fill_value=0)\n",
"\n",
"# Кодирование категориальных переменных с использованием one-hot encoding\n",
"X_train = pd.get_dummies(X_train, drop_first=True)\n",
"X_val = pd.get_dummies(X_val, drop_first=True)\n",
"X_test = pd.get_dummies(X_test, drop_first=True)\n",
"\n",
"# Разбиваем данные на тренировочные и тестовые\n",
"X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42)\n",
"\n",
"# Выбор модели\n",
"model = RandomForestRegressor(random_state=42)\n",
"\n",
"# Обучение модели\n",
"model.fit(X_train, y_train)\n",
"\n",
"# Предсказания и оценка\n",
"y_pred = model.predict(X_test)\n",
"\n",
"rmse = mean_squared_error(y_test, y_pred, squared=False)\n",
"r2 = r2_score(y_test, y_pred)\n",
"mae = mean_absolute_error(y_test, y_pred)\n",
"\n",
"print(f\"RMSE: {rmse}\")\n",
"print(f\"R²: {r2}\")\n",
"print(f\"MAE: {mae} \\n\")\n",
"\n",
"# Кросс-валидация\n",
"scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n",
"rmse_cv = (-scores.mean())**0.5\n",
"print(f\"Кросс-валидация RMSE: {rmse_cv} \\n\")\n",
"\n",
"# Анализ важности признаков\n",
"feature_importances = model.feature_importances_\n",
"feature_names = X_train.columns\n",
"\n",
"# Проверка на переобучение\n",
"y_train_pred = model.predict(X_train)\n",
"\n",
"rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n",
"r2_train = r2_score(y_train, y_train_pred)\n",
"mae_train = mean_absolute_error(y_train, y_train_pred)\n",
"\n",
"print(f\"Train RMSE: {rmse_train}\")\n",
"print(f\"Train R²: {r2_train}\")\n",
"print(f\"Train MAE: {mae_train}\")\n",
"print()\n",
"\n",
"# Визуализация результатов\n",
"plt.figure(figsize=(10, 6))\n",
"plt.scatter(y_test, y_pred, alpha=0.5)\n",
"plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n",
"plt.xlabel('Фактическая цена')\n",
"plt.ylabel('Прогнозируемая цена')\n",
"plt.title('Фактическая цена по сравнению с прогнозируемой')\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Выводы и итог \n",
"\n",
"**Модель случайного леса (RandomForestRegressor)** продемонстрировано хорошие результаты при прогнозировании цен на товары. Метрики качества и кросс-валидация свидетельствуют о том, что модель не подвержена сильному переобучению и может быть использована для практических целей.\n",
"\n",
"*Точность предсказаний:* Модель демонстрирует довольно высокий R² (0.2203), что указывает на большую часть вариации целевого признака (цены недвижимости). Однако, значения RMSE и MAE остаются высоки (0.4377 и 0.3118), что свидетельствует о том, что модель не всегда точно предсказывает значения, особенно для объектов с высокими или низкими ценами. \n",
"\n",
"*Переобучение:* Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя. \n",
"\n",
"*Кросс-валидация:* При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных. Для повышения устойчивости модели возможно стоит провести дальнейшую настройку гиперпараметров. \n",
"\n",
"*Рекомендации:* Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях."
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.7"
}
},
"nbformat": 4,
"nbformat_minor": 2
}