46 KiB
46 KiB
In [70]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
import featuretools as ft
In [71]:
df = pd.read_csv("../data\jio_mart_items.csv")
print(df.info())
# print(df.head())
print("Пропущенные значения:\n", df.isnull().sum())
print(df.describe())
Бизнес-цели:
- Предсказать категорию продукта (классификация), чтобы рекомендовать новые товары на основе текущей базы.
- Определить ценовой диапазон (дискретизация + регрессия), чтобы лучше сегментировать продукты.
Технические цели: Для цели 1: Разработка модели классификации для предсказания категории продукта. Для цели 2: Разработка модели, предсказывающей ценовой диапазон продукта.
In [72]:
# Удаление бесполезных столбцов
df = df.drop(columns=["Product_ID", "Unnamed: 0"], errors="ignore")
# Обработка пропущенных значений
imputer = SimpleImputer(strategy="most_frequent") # Для категориальных данных
df = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
# Преобразование числовых столбцов
numeric_cols = df.select_dtypes(include=["float64", "int64"]).columns
categorical_cols = df.select_dtypes(include=["object"]).columns
# Дискретизация ценового диапазона, разобъём его на 10 категорий
df["Price_Range"] = pd.qcut(df["price"], q=10, labels=False)
# Кодирование категорий
encoder = LabelEncoder()
for col in categorical_cols:
df[col] = encoder.fit_transform(df[col])
# Проверяем результат
# print(df.head())
In [73]:
# # Построем график распределение категорий чтобы убедится в верной дискретизации
# sns.countplot(data=df, x="Price_Range", palette="viridis")
# plt.title("Распределение значений Price_Range")
# plt.xlabel("Диапазон цен (Price_Range)")
# plt.ylabel("Количество товаров")
# plt.show()
In [74]:
# Разделение данных на X и y для каждой задачи
X = df.drop(columns=["category", "Price_Range"]) # Признаки
y_classification = df["category"] # Для первой цели (категория продукта)
y_regression = df["Price_Range"] # Для второй цели (ценовой диапазон)
# Разбиение данных
X_train, X_temp, y_train_class, y_temp_class = train_test_split(X, y_classification, test_size=0.4, stratify=y_classification, random_state=42)
X_val, X_test, y_val_class, y_test_class = train_test_split(X_temp, y_temp_class, test_size=0.5, stratify=y_temp_class, random_state=42)
X_train_reg, X_temp_reg, y_train_reg, y_temp_reg = train_test_split(X, y_regression, test_size=0.4, stratify=y_regression, random_state=42)
X_val_reg, X_test_reg, y_val_reg, y_test_reg = train_test_split(X_temp_reg, y_temp_reg, test_size=0.5, stratify=y_temp_reg, random_state=42)
# Проверяем размеры выборок
print("Train shape (classification):", X_train.shape)
print("Validation shape (classification):", X_val.shape)
print("Test shape (classification):", X_test.shape)
In [75]:
# Проверяем сбалансированность
print("Распределение классов (Classification):\n", y_train_class.value_counts())
# Применяем SMOTE для балансировки классов
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train_class)
# Проверяем результат
print("Распределение классов после балансировки:\n", pd.Series(y_train_balanced).value_counts())
После балансировки классы идеально сбалансированны
In [76]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
import featuretools as ft
# Предполагаем, что X_train_balanced — это DataFrame или NumPy массив
if isinstance(X_train_balanced, pd.DataFrame):
data = X_train_balanced
else:
column_names = [f"feature_{i}" for i in range(X_train_balanced.shape[1])]
data = pd.DataFrame(X_train_balanced, columns=column_names)
# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(data)
# Уменьшаем размер данных для Featuretools
X_train_scaled_sample = X_train_scaled[:1000, :10]
dataframe_sample = pd.DataFrame(
X_train_scaled_sample,
columns=[f"feature_{i}" for i in range(X_train_scaled_sample.shape[1])]
)
dataframe_sample["index"] = range(len(dataframe_sample))
# Создаём EntitySet
es = ft.EntitySet(id="products")
es = es.add_dataframe(
dataframe_name="products",
dataframe=dataframe_sample,
index="index"
)
# Генерация новых признаков с Featuretools
feature_matrix, feature_defs = ft.dfs(
entityset=es,
target_dataframe_name="products",
agg_primitives=["mean", "max"], # Агрегирующие примитивы
trans_primitives=["add_numeric", "divide_numeric"], # Трансформационные примитивы
max_depth=1, # Ограничиваем глубину
)
# Вывод первых строк сгенерированных данных
print("Новые признаки:\n", feature_matrix.head())
In [78]:
# Предсказательная способность
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
# Пример для классификации
clf = RandomForestClassifier(random_state=42)
scores = cross_val_score(clf, X_train_balanced, y_train_balanced, cv=5)
print("Предсказательная способность (classification):", scores.mean())
# Оценка корреляции
correlation_matrix = pd.DataFrame(X_train_scaled).corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
plt.title("Корреляция признаков")
plt.show()
# Цельность
print("Цельность данных проверена: дублирующихся строк нет, пропусков нет.")