AIM-PIbd-31-Izotov-A-P/lab4.ipynb at main

okutagawa/AIM-PIbd-31-Izotov-A-P

Fork 0

Aleksandr Izotov 3e834d9ec3 lab4

2024-11-10 20:46:11 +04:00

385 KiB

Raw Permalink Blame History

Лабораторная работа №4¶

Определение бизнес-целей для решения задач регрессии и классификации¶

Вариант задания: Набор данных о ценах на акции Starbucks.

Бизнес-цели:

Регрессия: Предсказание цены закрытия акции (Close) на основе исторических данных.
Классификация: Определение направления изменения цены (повышение или понижение) на следующий день, что можно выразить в бинарной метке (например, 1 — цена повысилась, 0 — снизилась). Метка будет рассчитываться как разница между Close сегодняшнего и завтрашнего дня.

Столбцы датасета и их пояснение:

Date - Дата, на которую относятся данные. Эта характеристика указывает конкретный день, в который происходила торговля акциями Starbucks.

Open - Цена открытия. Стоимость акций Starbucks в начале торгового дня. Это важный показатель, который показывает, по какой цене начались торги в конкретный день, и часто используется для сравнения с ценой закрытия для определения дневного тренда.

High - Максимальная цена за день. Наибольшая цена, достигнутая акциями Starbucks в течение торгового дня. Эта характеристика указывает, какой была самая высокая стоимость акций за день.

Low - Минимальная цена за день. Наименьшая цена, по которой торговались акции Starbucks в течение дня.

Close - Цена закрытия. Стоимость акций Starbucks в конце торгового дня. Цена закрытия — один из основных показателей, используемых для анализа акций, так как она отображает итоговую стоимость акций за день и часто используется для расчета дневных изменений и трендов на длительных временных периодах.

Adj Close - Скорректированная цена закрытия. Цена закрытия, скорректированная с учетом всех корпоративных действий.

Volume - Объем торгов. Количество акций Starbucks, проданных и купленных в течение дня.

Подготовим рабочее окружение для анализа и построения моделей, а так же проверим на пустые значения

In [6]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.metrics import mean_squared_error, f1_score, accuracy_score, roc_auc_score, confusion_matrix, classification_report
df = pd.read_csv("..//static//csv//StarbucksDataset.csv")
print(df.head())
print(df.columns)

display(df.head(15))

print(df.isnull().sum())

         Date      Open      High       Low     Close  Adj Close     Volume
0  1992-06-26  0.328125  0.347656  0.320313  0.335938   0.260703  224358400
1  1992-06-29  0.339844  0.367188  0.332031  0.359375   0.278891   58732800
2  1992-06-30  0.367188  0.371094  0.343750  0.347656   0.269797   34777600
3  1992-07-01  0.351563  0.359375  0.339844  0.355469   0.275860   18316800
4  1992-07-02  0.359375  0.359375  0.347656  0.355469   0.275860   13996800
Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')

	Date	Open	High	Low	Close	Adj Close	Volume
0	1992-06-26	0.328125	0.347656	0.320313	0.335938	0.260703	224358400
1	1992-06-29	0.339844	0.367188	0.332031	0.359375	0.278891	58732800
2	1992-06-30	0.367188	0.371094	0.343750	0.347656	0.269797	34777600
3	1992-07-01	0.351563	0.359375	0.339844	0.355469	0.275860	18316800
4	1992-07-02	0.359375	0.359375	0.347656	0.355469	0.275860	13996800
5	1992-07-06	0.351563	0.355469	0.347656	0.355469	0.275860	5753600
6	1992-07-07	0.355469	0.355469	0.347656	0.355469	0.275860	10662400
7	1992-07-08	0.355469	0.355469	0.343750	0.347656	0.269797	15500800
8	1992-07-09	0.351563	0.359375	0.347656	0.359375	0.278891	3923200
9	1992-07-10	0.359375	0.367188	0.351563	0.363281	0.281923	11040000
10	1992-07-13	0.363281	0.371094	0.359375	0.371094	0.287986	5996800
11	1992-07-14	0.371094	0.382813	0.367188	0.371094	0.287986	17062400
12	1992-07-15	0.375000	0.382813	0.371094	0.382813	0.297080	4992000
13	1992-07-16	0.382813	0.414063	0.378906	0.408203	0.316784	17062400
14	1992-07-17	0.410156	0.437500	0.398438	0.429688	0.333458	15667200

Date         0
Open         0
High         0
Low          0
Close        0
Adj Close    0
Volume       0
dtype: int64

Выберем три модели для задач регрессии и классификации¶

Сделаем выбор подходящих моделей для решения задач классификации и регрессии на основе анализа данных и целей.

Для регрессии выберем:

LinearRegression
DecisionTreeRegressor
GradientBoostingRegressor

Для классификации выберем:

LogisticRegression
RandomForestClassifier
GradientBoostingClassifier

Разбиение на выборки и создание ориентира для задач регрессии¶

Мы будем использовать подход к задаче регрессии, где целевой переменной будет выступать цена закрытия акции, а другие характеристики выбраны в качестве признаков.

In [11]:

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Определяем признаки и целевой признак для задачи регрессии
features = ['Date', 'Open', 'High', 'Low', 'Adj Close', 'Volume'] 
target = 'Close'  # Целевая переменная

X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=42)

print("Размер обучающей выборки:", X_train.shape)
print("Размер тестовой выборки:", X_test.shape)

baseline_predictions = [y_train.mean()] * len(y_test)

print('Baseline MAE:', mean_absolute_error(y_test, baseline_predictions))
print('Baseline MSE:', mean_squared_error(y_test, baseline_predictions))
print('Baseline R²:', r2_score(y_test, baseline_predictions))

Размер обучающей выборки: (6428, 6)
Размер тестовой выборки: (1608, 6)
Baseline MAE: 28.47632651321604
Baseline MSE: 1124.2882179711
Baseline R²: -3.372086434416666e-05

Построение конвейера и обучение моделей для задач регрессии¶

Построим конвейер где проведем обучение моделей, а так же переделаем характеристику 'Date' под числовые данные.

In [19]:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

df['Date'] = pd.to_datetime(df['Date'], errors='coerce')

# Извлечение признаков из даты
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day

categorical_features = [] 
numeric_features = ['Year', 'Month', 'Day', 'Open', 'High', 'Low', 'Adj Close', 'Volume']

target = 'Close'
features = numeric_features + categorical_features

X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=42)

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)], 
    remainder='passthrough')

pipeline_linear_regression = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

pipeline_decision_tree = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', DecisionTreeRegressor(random_state=42))
])

pipeline_gradient_boosting = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', GradientBoostingRegressor(random_state=42))
])

pipelines = [
    ('Linear Regression', pipeline_linear_regression),
    ('Decision Tree', pipeline_decision_tree),
    ('Gradient Boosting', pipeline_gradient_boosting)
]

for name, pipeline in pipelines:
    pipeline.fit(X_train, y_train)
    print(f"Model: {name} trained.")

Model: Linear Regression trained.
Model: Decision Tree trained.
Model: Gradient Boosting trained.

Оценка качества моделей для регрессии¶

Оценим качество моделей для решения задач регресси и обоснуем выбор метрик.

In [20]:

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

for name, pipeline in pipelines:
    y_pred = pipeline.predict(X_test)
    print(f"Model: {name}")
    print('MAE:', mean_absolute_error(y_test, y_pred))
    print('MSE:', mean_squared_error(y_test, y_pred))
    print('R²:', r2_score(y_test, y_pred))
    print()

Model: Linear Regression
MAE: 0.1281297170692111
MSE: 0.05669059396494051
R²: 0.999949574757865

Model: Decision Tree
MAE: 0.15318700746268657
MSE: 0.12959596917987073
R²: 0.9998847267656137

Model: Gradient Boosting
MAE: 0.20665879042876864
MSE: 0.1305083114366548
R²: 0.9998839152539326

В качестве метрик для оценки качества регрессионных моделей выбраны:

MAE (Mean Absolute Error) — средняя абсолютная ошибка. Она измеряет среднюю величину отклонений предсказанных значений от фактических, что позволяет понять, насколько в среднем модель ошибается. MAE удобна для интерпретации, так как измеряется в тех же единицах, что и целевая переменная.
MSE (Mean Squared Error) — среднеквадратичная ошибка, которая учитывает квадраты ошибок, что увеличивает вес больших ошибок по сравнению с MAE. Это полезно, когда нам нужно сильнее штрафовать крупные отклонения.
R² (коэффициент детерминации) — доля объясненной дисперсии, которая показывает, насколько хорошо модель объясняет изменчивость целевой переменной. Значение R² близкое к 1 указывает на высокую точность модели, а отрицательные значения — на низкое качество, когда модель хуже, чем простое усреднение.

Анализ метрик для моделей:

Линейная регрессия: MAE и MSE близки к нулю, а R² почти 1 (0.9999), что указывает на высокое качество предсказаний и низкое смещение. Это значит, что линейная регрессия хорошо подходит для данной задачи, объясняя почти всю дисперсию данных.
Дерево решений: MAE и MSE немного выше, чем у линейной регрессии, а R² всё ещё очень высок (0.9998). Хотя дерево решений немного уступает линейной модели в точности, оно способно находить нелинейные зависимости, которые могут улучшить результат в более сложных сценариях.
Градиентный бустинг: MAE и MSE также несколько выше, чем у линейной регрессии, но R² (0.9998) остаётся на высоком уровне. Градиентный бустинг обычно справляется лучше в задачах с более сложными нелинейными зависимостями. В данном случае его результаты аналогичны дереву решений, но не превосходят линейную регрессию.

Вывод

Поскольку R² для всех моделей близок к 1, каждая модель справляется с задачей на высоком уровне. Тем не менее, линейная регрессия имеет наименьшие значения MAE и MSE, что указывает на её лучшее соответствие данным.

Разбиение на выборки и создание ориентира для задач классификации¶

In [5]:

import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv("..//static//csv//StarbucksDataset.csv")
# Создание целевой переменной для классификации направления изменения цены
# Если цена закрытия следующего дня выше текущего дня — 1 (повышение), иначе — 0 (снижение)
df['Price_Up'] = (df['Close'].shift(-1) > df['Close']).astype(int)

features = ['Open', 'High', 'Low', 'Volume'] 
target = 'Price_Up'

# Удаление последней строки, так как для неё нет значения следующего дня
df = df.dropna()

X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=42)

print("Размер обучающей выборки:", X_train.shape)
print("Размер тестовой выборки:", X_test.shape)

Размер обучающей выборки: (6428, 4)
Размер тестовой выборки: (1608, 4)

Построение конвейера и обучение моделей для задач классификации¶

Построим конвейер где проведем обучение моделей, а так же создадим отдельную переменную 'Price_Up' для точного подсчета направления изменения цены (повышение или понижение) на следующий день.