399 KiB
Jio Mart Product Items¶
import pandas as pd
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
print(df.columns)
Бизнес-цели
Бизнес-цель: Снизить издержки и увеличить продажи за счет оптимизации цен на товары. Техническая цель: Создать модель машинного обучения, которая будет прогнозировать, является ли товар излишне дорогим для свой категории или нет.
Бизнес-цель: Оптимизировать распределение товаров по категориям. Техническая цель: Создать модель машинного обучения, которая будет прогнозировать оптимальные цены на товары на основе их категорий, подкатегорий и текущих цен.
Подготовка данных
# Проверка на пропущенные значения
missing_data = df.isnull().sum()
print("Пропущенные данные по каждому столбцу:")
print(missing_data)
Разбиение каждого набора данных на обучающую, контрольную и тестовую выборки
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
# Разделение признаков (features) и целевой переменной (target)
X = df.drop(columns=['price']) # Признаки (все столбцы, кроме 'price')
y = df['price'] # Целевая переменная (price)
# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
# Проверка размеров выборок
print(f"Размеры выборок:")
print(f"Обучающая выборка: {X_train.shape[0]} записей")
print(f"Валидационная выборка: {X_val.shape[0]} записей")
print(f"Тестовая выборка: {X_test.shape[0]} записей")
# Визуализация распределения цен в каждой выборке
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
plt.hist(y_train, bins=30, color='blue', alpha=0.7)
plt.title('Обучающая выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')
plt.subplot(1, 3, 2)
plt.hist(y_val, bins=30, color='green', alpha=0.7)
plt.title('Валидационная выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')
plt.subplot(1, 3, 3)
plt.hist(y_test, bins=30, color='red', alpha=0.7)
plt.title('Тестовая выборка')
plt.xlabel('Цена')
plt.ylabel('Количество')
plt.show()
Балансировка выборок
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
# Разделение признаков (features) и целевой переменной (target)
X = df.drop(columns=['price']) # Признаки (все столбцы, кроме 'price')
y = df['price'] # Целевая переменная (цена)
# Применение one-hot encoding для категориальных признаков
X = pd.get_dummies(X, drop_first=True)
# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)
# Проверка размеров выборок
print(f"Размеры выборок:")
print(f"Обучающая выборка: {X_train.shape[0]} записей")
print(f"Валидационная выборка: {X_val.shape[0]} записей")
print(f"Тестовая выборка: {X_test.shape[0]} записей")
# Удаление выбросов (цены выше 95-го процентиля)
upper_limit = y_train.quantile(0.95)
X_train = X_train[y_train <= upper_limit]
y_train = y_train[y_train <= upper_limit]
# Логарифмическое преобразование целевой переменной
y_train_log = np.log1p(y_train)
y_val_log = np.log1p(y_val)
y_test_log = np.log1p(y_test)
# Стандартизация признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)
# Визуализация распределения цен в сбалансированной выборке
plt.figure(figsize=(10, 6))
plt.hist(y_train_log, bins=30, color='orange', alpha=0.7)
plt.title('Сбалансированная обучающая выборка (логарифмическое преобразование)')
plt.xlabel('Логарифм цены')
plt.ylabel('Количество')
plt.show()
Унитарное кодирование категориальных признаков
import pandas as pd
df1 = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
print("Данные до унитарного кодирования:")
print(df1.head())
# Применение унитарного кодирования для категориальных признаков
df_encoded = pd.get_dummies(df1, drop_first=True)
print("\nДанные после унитарного кодирования:")
print(df_encoded.head())
Дискретизация числовых признаков
import pandas as pd
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
print("Данные до дискретизации:")
print(df.head())
# Определение интервалов и меток для дискретизации
bins = [0, 100, 500, 1000, 5000, float('inf')]
labels = ['0-100', '100-500', '500-1000', '1000-5000', '5000+']
# Применение дискретизации
df['price_bins'] = pd.cut(df['price'], bins=bins, labels=labels, right=False)
print("\nДанные после дискретизации:")
print(df[['price', 'price_bins']].head())
«Ручной» синтез признаков
import pandas as pd
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
# Проверка первых строк данных
print("Данные до синтеза признака:")
print(df.head())
# Вычисление средней цены по категориям
mean_price_by_category = df.groupby('category')['price'].transform('mean')
# Создание нового признака 'relative_price' (относительная цена)
df['relative_price'] = df['price'] / mean_price_by_category
# Проверка первых строк данных после синтеза признака
print("\nДанные после синтеза признака 'relative_price':")
print(df[['price', 'category', 'relative_price']].head())
Масштабирование признаков на основе нормировки и стандартизации
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
# Создание нового признака 'relative_price' (цена относительно средней цены в категории)
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category
# Проверка первых строк данных до масштабирования
print("Данные до масштабирования:")
print(df[['price', 'relative_price']].head())
# Масштабирование признаков на основе нормировки
min_max_scaler = MinMaxScaler()
df[['price', 'relative_price']] = min_max_scaler.fit_transform(df[['price', 'relative_price']])
# Проверка первых строк данных после нормировки
print("\nДанные после нормировки:")
print(df[['price', 'relative_price']].head())
# Стандартизация признаков
standard_scaler = StandardScaler()
df[['price', 'relative_price']] = standard_scaler.fit_transform(df[['price', 'relative_price']])
# Проверка первых строк данных после стандартизации
print("\nДанные после стандартизации:")
print(df[['price', 'relative_price']].head())
Конструирование признаков с применением фреймворка Featuretools
import pandas as pd
import featuretools as ft
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(30000)
# Создание нового признака 'relative_price'
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category
# Создание EntitySet
es = ft.EntitySet(id='jio_mart_items')
# Добавление данных с явным указанием индексного столбца
es = es.add_dataframe(dataframe_name='items_data', dataframe=df, index='index', make_index=True)
# Конструирование признаков
features, feature_defs = ft.dfs(entityset=es, target_dataframe_name='items_data', verbose=True)
# Проверка первых строк новых признаков
print("Новые признаки, созданные с помощью Featuretools:")
print(features.head())
Оценка качества
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import seaborn as sns
import time
import numpy as np
# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv").head(2000)
# Создание нового признака 'relative_price'
mean_price_by_category = df.groupby('category')['price'].transform('mean')
df['relative_price'] = df['price'] / mean_price_by_category
# Предобработка данных
# Преобразуем категориальные переменные в числовые
df = pd.get_dummies(df, drop_first=True)
# Разделение данных на признаки и целевую переменную
X = df.drop('price', axis=1)
y = df['price']
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Выбор модели
model = RandomForestRegressor(random_state=42)
# Измерение времени обучения и предсказания
start_time = time.time()
# Обучение модели
model.fit(X_train, y_train)
# Предсказание и оценка
y_pred = model.predict(X_test)
end_time = time.time()
training_time = end_time - start_time
rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae}")
print(f"Training Time: {training_time} seconds")
# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Cross-validated RMSE: {rmse_cv}")
# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns
importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})
importance_df = importance_df.sort_values(by='Importance', ascending=False)
# Отобразим только топ-20 признаков
top_n = 20
importance_df_top = importance_df.head(top_n)
plt.figure(figsize=(10, 8))
sns.barplot(x='Importance', y='Feature', data=importance_df_top, palette='viridis')
plt.title(f'Top {top_n} Feature Importance')
plt.xlabel('Importance')
plt.ylabel('Feature')
plt.show()
# Проверка на переобучение
y_train_pred = model.predict(X_train)
rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)
print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")
correlation = np.corrcoef(y_test, y_pred)[0, 1]
print(f"Корреляция: {correlation:.2f}")
# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Actual Price')
plt.ylabel('Predicted Price')
plt.title('Actual vs Predicted Price')
plt.show()
Вывод:
Время обучения:
Время обучения модели составляет 4.76 секунды, что является средним. Это указывает на то, что модель обучается быстро и может эффективно обрабатывать данные.
Предсказательная способность:
MAE (Mean Absolute Error): 28.6974 — это средняя абсолютная ошибка предсказаний модели. Значение MAE невелико, что означает, что предсказанные значения в среднем отклоняются от реальных на 28.6974. Это может быть приемлемым уровнем ошибки.
RMSE (Mean Squared Error): 534.088 — это среднее значение квадратов ошибок. Хотя MSE высокое, оно также может быть связано с большими значениями целевой переменной (цен).
R² (коэффициент детерминации): 0.609 — это средний уровень, указывающий на то, что модель объясняет 60,9% вариации целевой переменной. Это свидетельствует о средней предсказательной способности модели.
Корреляция:
Корреляция (0.82) между предсказанными и реальными значениями говорит о том, что предсказания модели имеют сильную линейную зависимость с реальными значениями. Это подтверждает, что модель хорошо обучена и делает точные прогнозы.
Надежность (кросс-валидация):
Среднее RMSE (кросс-валидация): 133.75 — это значительно ниже, чем обычное RMSE, что указывает на отсутствие проблем с переобучением - что и подтверждается тестом переобучением.
Результаты визуализации важности признаков, полученные из линейной регрессии, помогают понять, какие из входных переменных наибольшим образом влияют на целевую переменную (price). Это может быть полезным для дальнейшего анализа и при принятии бизнес-решений, связанных с управлением и ценообразованием в Jio Mart.