In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from cuml.preprocessing import LabelEncoder
from sklearn import metrics
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import (
 precision_score, recall_score, accuracy_score, roc_auc_score, f1_score,
 matthews_corrcoef, cohen_kappa_score, confusion_matrix
)
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import numpy as np
import featuretools as ft
from sklearn.metrics import accuracy_score, classification_report

# Функция для применения oversampling
def apply_oversampling(X, y):
 oversampler = RandomOverSampler(random_state=42)
 X_resampled, y_resampled = oversampler.fit_resample(X, y)
 return X_resampled, y_resampled

# Функция для применения undersampling
def apply_undersampling(X, y):
 undersampler = RandomUnderSampler(random_state=42)
 X_resampled, y_resampled = undersampler.fit_resample(X, y)
 return X_resampled, y_resampled

def split_stratified_into_train_val_test(
 df_input,
 stratify_colname="y",
 frac_train=0.6,
 frac_val=0.15,
 frac_test=0.25,
 random_state=None,
):
 """
 Splits a Pandas dataframe into three subsets (train, val, and test)
 following fractional ratios provided by the user, where each subset is
 stratified by the values in a specific column (that is, each subset has
 the same relative frequency of the values in the column). It performs this
 splitting by running train_test_split() twice.

 Parameters
 ----------
 df_input : Pandas dataframe
 Input dataframe to be split.
 stratify_colname : str
 The name of the column that will be used for stratification. Usually
 this column would be for the label.
 frac_train : float
 frac_val : float
 frac_test : float
 The ratios with which the dataframe will be split into train, val, and
 test data. The values should be expressed as float fractions and should
 sum to 1.0.
 random_state : int, None, or RandomStateInstance
 Value to be passed to train_test_split().

 Returns
 -------
 df_train, df_val, df_test :
 Dataframes containing the three splits.
 """

 if frac_train + frac_val + frac_test != 1.0:
 raise ValueError(
 "fractions %f, %f, %f do not add up to 1.0"
 % (frac_train, frac_val, frac_test)
 )

 if stratify_colname not in df_input.columns:
 raise ValueError("%s is not a column in the dataframe" % (stratify_colname))

 X = df_input # Contains all columns.
 y = df_input[
 [stratify_colname]
 ] # Dataframe of just the column on which to stratify.

 # Split original dataframe into train and temp dataframes.
 df_train, df_temp, y_train, y_temp = train_test_split(
 X, y, stratify=y, test_size=(1.0 - frac_train), random_state=random_state
 )

 # Split the temp dataframe into val and test dataframes.
 relative_frac_test = frac_test / (frac_val + frac_test)
 df_val, df_test, y_val, y_test = train_test_split(
 df_temp,
 y_temp,
 stratify=y_temp,
 test_size=relative_frac_test,
 random_state=random_state,
 )

 assert len(df_input) == len(df_train) + len(df_val) + len(df_test)

 return df_train, df_val, df_test


df = pd.read_csv('/mnt/c/3curse/mii/AIM-PIbd-31-Medvedkov-A-D/data/jio_mart_items.csv')
df.info()


RangeIndex: 162313 entries, 0 to 162312
Data columns (total 5 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 category 162313 non-null object 
 1 sub_category 162313 non-null object 
 2 href 162313 non-null object 
 3 items 162280 non-null object 
 4 price 162282 non-null float64
dtypes: float64(1), object(4)
memory usage: 6.2+ MB


Как бизнес-цели выделим следующие 2 варианта:
 1) GameDev. Создание игры про конкретного персонажа, живущего в конкретном временном промежутке в конкретной стране. 
 2) Исследование зависимости длительности жизни от страны проживания.
 
Поскольку именно эти бизнес-цели были выбраны в предыдущей лабораторной работе, будем их использовать.
Но возникает проблема с 1 целью: её невозможно использовать для задачи классификации. Заменим ее на классификацию людей по возрастным группам, что может быть полезно для рекламных целей.

Выполним подготовку данных

In [3]:
df.fillna({"category": "NaN", "sub_category": "NaN", "href" : "NaN", "items" : "NaN", "price" : "NaN" }, inplace=True)
df = df.dropna()
data = df.copy()

value_counts = data["category"].value_counts()
rare = value_counts[value_counts < 100].index
data = data[~data["category"].isin(rare)]


 df.fillna({"category": "NaN", "sub_category": "NaN", "href" : "NaN", "items" : "NaN", "price" : "NaN" }, inplace=True)


Определить достижимый уровень качества модели для каждой задачи. На основе имеющихся данных уровень качества моделей не будет высоким, поскольку все таки длительность жизни лишь примерная и точно ее угадать невозможно.

Выберем ориентиры для наших 2х задач:
 1)Регрессии - средний возраст человека
 2)Классификации - аиболее часто встречающаяся возрастная группа

Построим конвейер.

In [4]:
print(data.columns)

Index(['category', 'sub_category', 'href', 'items', 'price'], dtype='object')
