AIM-PIbd-32-Fedorenko-G-Y/lab_3/lab3.ipynb
2024-11-09 11:48:24 +04:00

399 KiB
Raw Blame History

Jio Mart Product Items

In [18]:
import pandas as pd
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
print(df.columns)
Index(['category', 'sub_category', 'href', 'items', 'price'], dtype='object')

Бизнес-цели

Бизнес-цель: Снизить издержки и увеличить продажи за счет оптимизации цен на товары. Техническая цель: Создать модель машинного обучения, которая будет прогнозировать, является ли товар излишне дорогим для свой категории или нет.

Бизнес-цель: Оптимизировать распределение товаров по категориям. Техническая цель: Создать модель машинного обучения, которая будет прогнозировать оптимальные цены на товары на основе их категорий, подкатегорий и текущих цен.

Подготовка данных

In [ ]:
# Проверка на пропущенные значения
missing_data = df.isnull().sum()
print("Пропущенные данные по каждому столбцу:")
print(missing_data)
Пропущенные данные по каждому столбцу:
category        0
sub_category    0
href            0
items           0
price           0
dtype: int64

Разбиение каждого набора данных на обучающую, контрольную и тестовую выборки

In [ ]:
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Разделение признаков (features) и целевой переменной (target)
X = df.drop(columns=['price'])  # Признаки (все столбцы, кроме 'price')
y = df['price']  # Целевая переменная (price)

# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Проверка размеров выборок
print(f"Размеры выборок:")
print(f"Обучающая выборка: {X_train.shape[0]} записей")
print(f"Валидационная выборка: {X_val.shape[0]} записей")
print(f"Тестовая выборка: {X_test.shape[0]} записей")

# Визуализация распределения цен в каждой выборке
plt.figure(figsize=(18, 6))

plt.subplot(1, 3, 1)
plt.hist(y_train, bins=30, color='blue', alpha=0.7)
plt.title('Обучающая выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')

plt.subplot(1, 3, 2)
plt.hist(y_val, bins=30, color='green', alpha=0.7)
plt.title('Валидационная выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')

plt.subplot(1, 3, 3)
plt.hist(y_test, bins=30, color='red', alpha=0.7)
plt.title('Тестовая выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')

plt.show()
Размеры выборок:
Обучающая выборка: 18000 записей
Валидационная выборка: 6000 записей
Тестовая выборка: 6000 записей
No description has been provided for this image

Балансировка выборок

In [ ]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

# Разделение признаков (features) и целевой переменной (target)
X = df.drop(columns=['price'])  # Признаки (все столбцы, кроме 'price')
y = df['price']  # Целевая переменная (цена)

# Применение one-hot encoding для категориальных признаков
X = pd.get_dummies(X, drop_first=True)

# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Проверка размеров выборок
print(f"Размеры выборок:")
print(f"Обучающая выборка: {X_train.shape[0]} записей")
print(f"Валидационная выборка: {X_val.shape[0]} записей")
print(f"Тестовая выборка: {X_test.shape[0]} записей")

# Удаление выбросов (цены выше 95-го процентиля)
upper_limit = y_train.quantile(0.95)
X_train = X_train[y_train <= upper_limit]
y_train = y_train[y_train <= upper_limit]

# Логарифмическое преобразование целевой переменной
y_train_log = np.log1p(y_train)
y_val_log = np.log1p(y_val)
y_test_log = np.log1p(y_test)

# Стандартизация признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

# Визуализация распределения цен в сбалансированной выборке
plt.figure(figsize=(10, 6))
plt.hist(y_train_log, bins=30, color='orange', alpha=0.7)
plt.title('Сбалансированная обучающая выборка (логарифмическое преобразование)')
plt.xlabel('Логарифм цены')
plt.ylabel('Количество')
plt.show()
Размеры выборок:
Обучающая выборка: 18000 записей
Валидационная выборка: 6000 записей
Тестовая выборка: 6000 записей
No description has been provided for this image

Унитарное кодирование категориальных признаков

In [1]:
import pandas as pd
df1 = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

print("Данные до унитарного кодирования:")
print(df1.head())

# Применение унитарного кодирования для категориальных признаков
df_encoded = pd.get_dummies(df1, drop_first=True)

print("\nДанные после унитарного кодирования:")
print(df_encoded.head())
Данные до унитарного кодирования:
    category  ...  price
0  Groceries  ...  109.0
1  Groceries  ...   49.0
2  Groceries  ...   69.0
3  Groceries  ...  125.0
4  Groceries  ...   44.0

[5 rows x 5 columns]

Данные после унитарного кодирования:
   price  ...  items_ Hilife Pantyliners
0  109.0  ...                      False
1   49.0  ...                      False
2   69.0  ...                      False
3  125.0  ...                      False
4   44.0  ...                      False

[5 rows x 28392 columns]

Дискретизация числовых признаков

In [3]:
import pandas as pd

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

print("Данные до дискретизации:")
print(df.head())

# Определение интервалов и меток для дискретизации
bins = [0, 100, 500, 1000, 5000, float('inf')]
labels = ['0-100', '100-500', '500-1000', '1000-5000', '5000+']

# Применение дискретизации
df['price_bins'] = pd.cut(df['price'], bins=bins, labels=labels, right=False)

print("\nДанные после дискретизации:")
print(df[['price', 'price_bins']].head())
Данные до дискретизации:
    category  ...  price
0  Groceries  ...  109.0
1  Groceries  ...   49.0
2  Groceries  ...   69.0
3  Groceries  ...  125.0
4  Groceries  ...   44.0

[5 rows x 5 columns]

Данные после дискретизации:
   price price_bins
0  109.0    100-500
1   49.0      0-100
2   69.0      0-100
3  125.0    100-500
4   44.0      0-100

«Ручной» синтез признаков

In [4]:
import pandas as pd

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

# Проверка первых строк данных
print("Данные до синтеза признака:")
print(df.head())

# Вычисление средней цены по категориям
mean_price_by_category = df.groupby('category')['price'].transform('mean')

# Создание нового признака 'relative_price' (относительная цена)
df['relative_price'] = df['price'] / mean_price_by_category

# Проверка первых строк данных после синтеза признака
print("\nДанные после синтеза признака 'relative_price':")
print(df[['price', 'category', 'relative_price']].head())
Данные до синтеза признака:
    category  ...  price
0  Groceries  ...  109.0
1  Groceries  ...   49.0
2  Groceries  ...   69.0
3  Groceries  ...  125.0
4  Groceries  ...   44.0

[5 rows x 5 columns]

Данные после синтеза признака 'relative_price':
   price   category  relative_price
0  109.0  Groceries        0.247286
1   49.0  Groceries        0.111165
2   69.0  Groceries        0.156539
3  125.0  Groceries        0.283584
4   44.0  Groceries        0.099822

Масштабирование признаков на основе нормировки и стандартизации

In [ ]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

# Создание нового признака 'relative_price' (цена относительно средней цены в категории)
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category

# Проверка первых строк данных до масштабирования
print("Данные до масштабирования:")
print(df[['price', 'relative_price']].head())

# Масштабирование признаков на основе нормировки
min_max_scaler = MinMaxScaler()
df[['price', 'relative_price']] = min_max_scaler.fit_transform(df[['price', 'relative_price']])

# Проверка первых строк данных после нормировки
print("\nДанные после нормировки:")
print(df[['price', 'relative_price']].head())

# Стандартизация признаков
standard_scaler = StandardScaler()
df[['price', 'relative_price']] = standard_scaler.fit_transform(df[['price', 'relative_price']])

# Проверка первых строк данных после стандартизации
print("\nДанные после стандартизации:")
print(df[['price', 'relative_price']].head())
Данные до масштабирования:
   price  relative_price
0  109.0        0.247286
1   49.0        0.111165
2   69.0        0.156539
3  125.0        0.283584
4   44.0        0.099822

Данные после нормировки:
      price  relative_price
0  0.005507        0.005507
1  0.002330        0.002330
2  0.003389        0.003389
3  0.006354        0.006354
4  0.002065        0.002065

Данные после стандартизации:
      price  relative_price
0 -0.483613       -0.483613
1 -0.571070       -0.571070
2 -0.541918       -0.541918
3 -0.460292       -0.460292
4 -0.578358       -0.578358

Конструирование признаков с применением фреймворка Featuretools

In [8]:
import pandas as pd
import featuretools as ft

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)

# Создание нового признака 'relative_price'
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category

# Создание EntitySet
es = ft.EntitySet(id='jio_mart_items')

# Добавление данных с явным указанием индексного столбца
es = es.add_dataframe(dataframe_name='items_data', dataframe=df, index='index', make_index=True)

# Конструирование признаков
features, feature_defs = ft.dfs(entityset=es, target_dataframe_name='items_data', verbose=True)

# Проверка первых строк новых признаков
print("Новые признаки, созданные с помощью Featuretools:")
print(features.head())
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\featuretools\synthesis\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created
  warnings.warn(
Built 6 features
Elapsed: 00:00 | Progress: 100%|██████████
Новые признаки, созданные с помощью Featuretools:
        category         sub_category  ...  NUM_CHARACTERS(items)  NUM_WORDS(items)
index                                  ...                                         
0      Groceries  Fruits & Vegetables  ...                     41                 8
1      Groceries  Fruits & Vegetables  ...                     59                11
2      Groceries  Fruits & Vegetables  ...                     12                 3
3      Groceries  Fruits & Vegetables  ...                     20                 4
4      Groceries  Fruits & Vegetables  ...                     50                10

[5 rows x 6 columns]

Оценка качества

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import seaborn as sns
import time
import numpy as np

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(2000)

# Создание нового признака 'relative_price'
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category

# Предобработка данных
# Преобразуем категориальные переменные в числовые
df = pd.get_dummies(df, drop_first=True)

# Разделение данных на признаки и целевую переменную
X = df.drop('price', axis=1)
y = df['price']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = RandomForestRegressor(random_state=42)

# Измерение времени обучения и предсказания
start_time = time.time()

# Обучение модели
model.fit(X_train, y_train)

# Предсказание и оценка
y_pred = model.predict(X_test)

end_time = time.time()
training_time = end_time - start_time

rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae}")
print(f"Training Time: {training_time} seconds")

# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Cross-validated RMSE: {rmse_cv}")

# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns

importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})
importance_df = importance_df.sort_values(by='Importance', ascending=False)

# Отобразим только топ-20 признаков
top_n = 20
importance_df_top = importance_df.head(top_n)

plt.figure(figsize=(10, 8))
sns.barplot(x='Importance', y='Feature', data=importance_df_top, palette='viridis')
plt.title(f'Top {top_n} Feature Importance')
plt.xlabel('Importance')
plt.ylabel('Feature')
plt.show()

# Проверка на переобучение
y_train_pred = model.predict(X_train)

rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)

print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")

correlation = np.corrcoef(y_test, y_pred)[0, 1]
print(f"Корреляция: {correlation:.2f}")

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Actual Price')
plt.ylabel('Predicted Price')
plt.title('Actual vs Predicted Price')
plt.show()
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(
RMSE: 534.0885949291326
R²: 0.6087611252156747
MAE: 28.697400000000002
Training Time: 4.757523536682129 seconds
Cross-validated RMSE: 133.74731704254154
C:\Users\halina\AppData\Local\Temp\ipykernel_13300\3211138617.py:70: FutureWarning: 

Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x='Importance', y='Feature', data=importance_df_top, palette='viridis')
No description has been provided for this image
c:\Users\halina\repos\mii\AIM-PIbd-32-Fedorenko-G-Y\miienv\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(
Train RMSE: 50.92770420271637
Train R²: 0.9845578370650323
Train MAE: 1.9114281249999987
Корреляция: 0.82
No description has been provided for this image

Вывод:

Время обучения:

Время обучения модели составляет 4.76 секунды, что является средним. Это указывает на то, что модель обучается быстро и может эффективно обрабатывать данные.

Предсказательная способность:

MAE (Mean Absolute Error): 28.6974 — это средняя абсолютная ошибка предсказаний модели. Значение MAE невелико, что означает, что предсказанные значения в среднем отклоняются от реальных на 28.6974. Это может быть приемлемым уровнем ошибки.

RMSE (Mean Squared Error): 534.088 — это среднее значение квадратов ошибок. Хотя MSE высокое, оно также может быть связано с большими значениями целевой переменной (цен).

R² (коэффициент детерминации): 0.609 — это средний уровень, указывающий на то, что модель объясняет 60,9% вариации целевой переменной. Это свидетельствует о средней предсказательной способности модели.

Корреляция:

Корреляция (0.82) между предсказанными и реальными значениями говорит о том, что предсказания модели имеют сильную линейную зависимость с реальными значениями. Это подтверждает, что модель хорошо обучена и делает точные прогнозы.

Надежность (кросс-валидация):

Среднее RMSE (кросс-валидация): 133.75 — это значительно ниже, чем обычное RMSE, что указывает на отсутствие проблем с переобучением - что и подтверждается тестом переобучением.

Результаты визуализации важности признаков, полученные из линейной регрессии, помогают понять, какие из входных переменных наибольшим образом влияют на целевую переменную (price). Это может быть полезным для дальнейшего анализа и при принятии бизнес-решений, связанных с управлением и ценообразованием в Jio Mart.