AIM-PIbd-32-Kozlova-A-A/lab_3/laba3.ipynb
2024-10-25 21:38:40 +04:00

758 lines
90 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## **Diamonds Prices**"
]
},
{
"cell_type": "code",
"execution_count": 81,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Unnamed: 0\n",
"carat\n",
"cut\n",
"color\n",
"clarity\n",
"depth\n",
"table\n",
"price\n",
"x\n",
"y\n",
"z\n"
]
}
],
"source": [
"import pandas as pd\n",
"df = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"attributes = df.columns\n",
"for attribute in attributes:\n",
" print(attribute)\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### **Бизнес-цели**"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**1. Определение цены алмаза на основе его характеристик**\n",
"\n",
"**Бизнес-цель:** Разработать модель, которая позволяет прогнозировать цену алмаза на основе его характеристик (таких как карат, чистота, цвет и огранка).\n",
"\n",
"**Техническая цель:** Создать и обучить модель машинного обучения, которая принимает на вход параметры алмаза и выдает предсказанную цену. Цель — минимизация ошибки предсказания.\n",
"\n",
"**2. Классификация качества алмаза на основе характеристик**\n",
"\n",
"**Бизнес-цель:** Определить качество алмаза (например, высокая, средняя, низкая) на основе его характеристик для автоматической сортировки.\n",
"\n",
"**Техническая цель:** Создать модель классификации, которая принимает на вход характеристики алмаза и присваивает ему категорию качества. Цель — максимизация точности классификации."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### **Подготовка данных**"
]
},
{
"cell_type": "code",
"execution_count": 68,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Пропущенные данные по каждому столбцу:\n",
"Unnamed: 0 0\n",
"carat 0\n",
"cut 0\n",
"color 0\n",
"clarity 0\n",
"depth 0\n",
"table 0\n",
"price 0\n",
"x 0\n",
"y 0\n",
"z 0\n",
"dtype: int64\n"
]
}
],
"source": [
"import numpy as np\n",
"\n",
"# Проверка на пропущенные значения\n",
"missing_data = df.isnull().sum()\n",
"print(\"Пропущенные данные по каждому столбцу:\")\n",
"print(missing_data)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Пропущенных значений не найдено"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### **Разбиение каждого набора данных на обучающую, контрольную и тестовую выборки**"
]
},
{
"cell_type": "code",
"execution_count": 82,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размеры выборок:\n",
"Обучающая выборка: 32365 записей\n",
"Валидационная выборка: 10789 записей\n",
"Тестовая выборка: 10789 записей\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 1200x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"from sklearn.model_selection import train_test_split\n",
"import matplotlib.pyplot as plt\n",
"\n",
"# Разделение признаков (features) и целевой переменной (target)\n",
"X = df.drop(columns=['price']) # Признаки (все столбцы, кроме 'price')\n",
"y = df['price'] # Целевая переменная (цена)\n",
"\n",
"# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки\n",
"X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)\n",
"X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n",
"\n",
"# Проверка размеров выборок\n",
"print(f\"Размеры выборок:\")\n",
"print(f\"Обучающая выборка: {X_train.shape[0]} записей\")\n",
"print(f\"Валидационная выборка: {X_val.shape[0]} записей\")\n",
"print(f\"Тестовая выборка: {X_test.shape[0]} записей\")\n",
"\n",
"# Визуализация распределения цен в каждой выборке\n",
"plt.figure(figsize=(12, 6))\n",
"plt.subplot(1, 3, 1)\n",
"plt.hist(y_train, bins=30, color='blue', alpha=0.7)\n",
"plt.title('Обучающая выборка')\n",
"plt.xlabel('Цена')\n",
"plt.ylabel('Количество')\n",
"\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Данные не сбалансированы, так как существует большая разница в количестве наблюдений для разных диапазонов цен. Это может привести к тому, что модель будет хуже предсказывать цены для более дорогих алмазов, так как таких данных меньше. Применим методы приращения."
]
},
{
"cell_type": "code",
"execution_count": 83,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размеры выборок:\n",
"Обучающая выборка: 32365 записей\n",
"Валидационная выборка: 10789 записей\n",
"Тестовая выборка: 10789 записей\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 1000x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"from sklearn.model_selection import train_test_split\n",
"import matplotlib.pyplot as plt\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"from imblearn.over_sampling import SMOTE\n",
"\n",
"# Разделение признаков (features) и целевой переменной (target)\n",
"X = df.drop(columns=['price']) # Признаки (все столбцы, кроме 'price')\n",
"y = df['price'] # Целевая переменная (цена)\n",
"\n",
"# Применение one-hot encoding для категориальных признаков\n",
"X = pd.get_dummies(X, drop_first=True)\n",
"\n",
"# Разбиение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки\n",
"X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)\n",
"X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n",
"\n",
"# Проверка размеров выборок\n",
"print(f\"Размеры выборок:\")\n",
"print(f\"Обучающая выборка: {X_train.shape[0]} записей\")\n",
"print(f\"Валидационная выборка: {X_val.shape[0]} записей\")\n",
"print(f\"Тестовая выборка: {X_test.shape[0]} записей\")\n",
"\n",
"# Применение RandomUnderSampler для уменьшения размеров больших классов\n",
"undersampler = RandomUnderSampler(random_state=42)\n",
"X_undersampled, y_undersampled = undersampler.fit_resample(X_train, y_train)\n",
"\n",
"# Применение SMOTE для увеличения сбалансированности\n",
"smote = SMOTE(random_state=42)\n",
"X_resampled, y_resampled = smote.fit_resample(X_undersampled, y_undersampled)\n",
"\n",
"# Визуализация распределения цен в сбалансированной выборке\n",
"plt.figure(figsize=(10, 6))\n",
"plt.hist(y_resampled, bins=30, color='orange', alpha=0.7)\n",
"plt.title('Сбалансированная обучающая выборка')\n",
"plt.xlabel('Цена')\n",
"plt.ylabel('Количество')\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Теперь данные намного более сбаланчированные."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### **Конструировании признаков**"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"1. Унитарное кодирование категориальных признаков (One-Hot Encoding)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Унитарное кодирование уже было пременено. Выведем имеющиеся столбцы"
]
},
{
"cell_type": "code",
"execution_count": 84,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Данные до унитарного кодирования:\n",
" Unnamed: 0 carat cut color clarity depth table price x y \\\n",
"0 1 0.23 Ideal E SI2 61.5 55.0 326 3.95 3.98 \n",
"1 2 0.21 Premium E SI1 59.8 61.0 326 3.89 3.84 \n",
"2 3 0.23 Good E VS1 56.9 65.0 327 4.05 4.07 \n",
"3 4 0.29 Premium I VS2 62.4 58.0 334 4.20 4.23 \n",
"4 5 0.31 Good J SI2 63.3 58.0 335 4.34 4.35 \n",
"\n",
" z \n",
"0 2.43 \n",
"1 2.31 \n",
"2 2.31 \n",
"3 2.63 \n",
"4 2.75 \n",
"\n",
"Данные после унитарного кодирования:\n",
" Unnamed: 0 carat depth table price x y z cut_Good \\\n",
"0 1 0.23 61.5 55.0 326 3.95 3.98 2.43 False \n",
"1 2 0.21 59.8 61.0 326 3.89 3.84 2.31 False \n",
"2 3 0.23 56.9 65.0 327 4.05 4.07 2.31 True \n",
"3 4 0.29 62.4 58.0 334 4.20 4.23 2.63 False \n",
"4 5 0.31 63.3 58.0 335 4.34 4.35 2.75 True \n",
"\n",
" cut_Ideal ... color_H color_I color_J clarity_IF clarity_SI1 \\\n",
"0 True ... False False False False False \n",
"1 False ... False False False False True \n",
"2 False ... False False False False False \n",
"3 False ... False True False False False \n",
"4 False ... False False True False False \n",
"\n",
" clarity_SI2 clarity_VS1 clarity_VS2 clarity_VVS1 clarity_VVS2 \n",
"0 True False False False False \n",
"1 False False False False False \n",
"2 False True False False False \n",
"3 False False True False False \n",
"4 True False False False False \n",
"\n",
"[5 rows x 25 columns]\n"
]
}
],
"source": [
"import pandas as pd\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"print(\"Данные до унитарного кодирования:\")\n",
"print(df1.head())\n",
"\n",
"# Применение унитарного кодирования для категориальных признаков\n",
"df_encoded = pd.get_dummies(df1, drop_first=True)\n",
"\n",
"print(\"\\nДанные после унитарного кодирования:\")\n",
"print(df_encoded.head())"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Видим что данные изменились."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"2. Дискретизация числовых признаков\n"
]
},
{
"cell_type": "code",
"execution_count": 86,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Данные до дискретизации:\n",
" Unnamed: 0 carat cut color clarity depth table price x y \\\n",
"0 1 0.23 Ideal E SI2 61.5 55.0 326 3.95 3.98 \n",
"1 2 0.21 Premium E SI1 59.8 61.0 326 3.89 3.84 \n",
"2 3 0.23 Good E VS1 56.9 65.0 327 4.05 4.07 \n",
"3 4 0.29 Premium I VS2 62.4 58.0 334 4.20 4.23 \n",
"4 5 0.31 Good J SI2 63.3 58.0 335 4.34 4.35 \n",
"\n",
" z \n",
"0 2.43 \n",
"1 2.31 \n",
"2 2.31 \n",
"3 2.63 \n",
"4 2.75 \n",
"\n",
"Данные после дискретизации:\n",
" price price_bins\n",
"0 326 0-5k\n",
"1 326 0-5k\n",
"2 327 0-5k\n",
"3 334 0-5k\n",
"4 335 0-5k\n"
]
}
],
"source": [
"import pandas as pd\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"print(\"Данные до дискретизации:\")\n",
"print(df1.head())\n",
"\n",
"bins = [0, 5000, 10000, 15000, 20000]\n",
"labels = ['0-5k', '5k-10k', '10k-15k', '15k-20k']\n",
"df1['price_bins'] = pd.cut(df1['price'], bins=bins, labels=labels, right=False)\n",
"\n",
"print(\"\\nДанные после дискретизации:\")\n",
"print(df1[['price', 'price_bins']].head())\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Видим, что данные изменились."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 3. «Ручной» синтез признаков"
]
},
{
"cell_type": "code",
"execution_count": 89,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Данные до синтеза признака:\n",
" Unnamed: 0 carat cut color clarity depth table price x y \\\n",
"0 1 0.23 Ideal E SI2 61.5 55.0 326 3.95 3.98 \n",
"1 2 0.21 Premium E SI1 59.8 61.0 326 3.89 3.84 \n",
"2 3 0.23 Good E VS1 56.9 65.0 327 4.05 4.07 \n",
"3 4 0.29 Premium I VS2 62.4 58.0 334 4.20 4.23 \n",
"4 5 0.31 Good J SI2 63.3 58.0 335 4.34 4.35 \n",
"\n",
" z \n",
"0 2.43 \n",
"1 2.31 \n",
"2 2.31 \n",
"3 2.63 \n",
"4 2.75 \n",
"\n",
"Данные после синтеза признака 'price_per_carat':\n",
" price carat price_per_carat\n",
"0 326 0.23 1417.391304\n",
"1 326 0.21 1552.380952\n",
"2 327 0.23 1421.739130\n",
"3 334 0.29 1151.724138\n",
"4 335 0.31 1080.645161\n"
]
}
],
"source": [
"import pandas as pd\n",
"\n",
"# Загрузка данных\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"# Проверка первых строк данных\n",
"print(\"Данные до синтеза признака:\")\n",
"print(df1.head())\n",
"\n",
"# Создание нового признака 'price_per_carat' (цена за караты)\n",
"df1['price_per_carat'] = df1['price'] / df1['carat']\n",
"\n",
"# Проверка первых строк данных после синтеза признака\n",
"print(\"\\nДанные после синтеза признака 'price_per_carat':\")\n",
"print(df1[['price', 'carat', 'price_per_carat']].head())\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### 4. масштабирование признаков на основе нормировки и стандартизации.\n"
]
},
{
"cell_type": "code",
"execution_count": 91,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Данные до масштабирования:\n",
" price carat price_per_carat\n",
"0 326 0.23 1417.391304\n",
"1 326 0.21 1552.380952\n",
"2 327 0.23 1421.739130\n",
"3 334 0.29 1151.724138\n",
"4 335 0.31 1080.645161\n",
"\n",
"Данные после нормировки:\n",
" price carat price_per_carat\n",
"0 0.000000 0.006237 0.021828\n",
"1 0.000000 0.002079 0.029874\n",
"2 0.000054 0.006237 0.022087\n",
"3 0.000433 0.018711 0.005994\n",
"4 0.000487 0.022869 0.001757\n",
"\n",
"Данные после стандартизации:\n",
" price carat price_per_carat\n",
"0 -0.904102 -1.198189 -1.287394\n",
"1 -0.904102 -1.240384 -1.220321\n",
"2 -0.903851 -1.198189 -1.285233\n",
"3 -0.902096 -1.071605 -1.419396\n",
"4 -0.901846 -1.029411 -1.454713\n"
]
}
],
"source": [
"import pandas as pd\n",
"from sklearn.preprocessing import MinMaxScaler, StandardScaler\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"# Создание нового признака 'price_per_carat' (цена за караты)\n",
"df1['price_per_carat'] = df1['price'] / df1['carat']\n",
"\n",
"# Проверка первых строк данных до масштабирования\n",
"print(\"Данные до масштабирования:\")\n",
"print(df1[['price', 'carat', 'price_per_carat']].head())\n",
"\n",
"# Масштабирование признаков на основе нормировки\n",
"min_max_scaler = MinMaxScaler()\n",
"df1[['price', 'carat', 'price_per_carat']] = min_max_scaler.fit_transform(df1[['price', 'carat', 'price_per_carat']])\n",
"\n",
"# Проверка первых строк данных после нормировки\n",
"print(\"\\nДанные после нормировки:\")\n",
"print(df1[['price', 'carat', 'price_per_carat']].head())\n",
"\n",
"# Стандартизация признаков\n",
"standard_scaler = StandardScaler()\n",
"df1[['price', 'carat', 'price_per_carat']] = standard_scaler.fit_transform(df1[['price', 'carat', 'price_per_carat']])\n",
"\n",
"# Проверка первых строк данных после стандартизации\n",
"print(\"\\nДанные после стандартизации:\")\n",
"print(df1[['price', 'carat', 'price_per_carat']].head())"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"конструирование признаков с применением фреймворка Featuretools."
]
},
{
"cell_type": "code",
"execution_count": 94,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index index not found in dataframe, creating new integer column\n",
" warnings.warn(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
" pd.to_datetime(\n",
"c:\\D\\semester5\\mii\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n",
" warnings.warn(\n"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Built 12 features\n",
"Elapsed: 00:00 | Progress: 100%|██████████\n",
"Новые признаки, созданные с помощью Featuretools:\n",
" Unnamed: 0 carat cut color clarity depth table price x \\\n",
"index \n",
"0 1 0.23 Ideal E SI2 61.5 55.0 326 3.95 \n",
"1 2 0.21 Premium E SI1 59.8 61.0 326 3.89 \n",
"2 3 0.23 Good E VS1 56.9 65.0 327 4.05 \n",
"3 4 0.29 Premium I VS2 62.4 58.0 334 4.20 \n",
"4 5 0.31 Good J SI2 63.3 58.0 335 4.34 \n",
"\n",
" y z price_per_carat \n",
"index \n",
"0 3.98 2.43 1417.391304 \n",
"1 3.84 2.31 1552.380952 \n",
"2 4.07 2.31 1421.739130 \n",
"3 4.23 2.63 1151.724138 \n",
"4 4.35 2.75 1080.645161 \n"
]
}
],
"source": [
"import pandas as pd\n",
"import featuretools as ft\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"# Создание нового признака 'price_per_carat'\n",
"df1['price_per_carat'] = df1['price'] / df1['carat']\n",
"\n",
"# Создание EntitySet\n",
"es = ft.EntitySet(id='diamonds')\n",
"\n",
"# Добавление данных\n",
"es = es.add_dataframe(dataframe_name='diamonds_data', dataframe=df1, index='index')\n",
"\n",
"# Конструирование признаков\n",
"features, feature_defs = ft.dfs(entityset=es, target_dataframe_name='diamonds_data', verbose=True)\n",
"\n",
"# Проверка первых строк новых признаков\n",
"print(\"Новые признаки, созданные с помощью Featuretools:\")\n",
"print(features.head())"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### **Оценка качества**"
]
},
{
"cell_type": "code",
"execution_count": 95,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Время обучения: 0.0694 секунд\n",
"MAE: 352.05\n",
"MSE: 363100.29\n",
"R^2: 0.98\n",
"Корреляция: 0.99\n",
"Среднее MSE (кросс-валидация): 885042.98\n"
]
}
],
"source": [
"import pandas as pd\n",
"import time\n",
"from sklearn.model_selection import train_test_split\n",
"from sklearn.linear_model import LinearRegression\n",
"from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score\n",
"import numpy as np\n",
"\n",
"# Загрузка данных\n",
"df1 = pd.read_csv(\".//static//csv//Diamonds Prices2022.csv\")\n",
"\n",
"# Создание нового признака 'price_per_carat'\n",
"df1['price_per_carat'] = df1['price'] / df1['carat']\n",
"\n",
"# Унитарное кодирование\n",
"X = pd.get_dummies(df1.drop(columns=['price']), drop_first=True)\n",
"y = df1['price']\n",
"\n",
"# Разделение на обучающую и тестовую выборки\n",
"X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n",
"\n",
"# Оценка качества\n",
"def evaluate_model(X_train, X_test, y_train, y_test):\n",
" model = LinearRegression()\n",
" \n",
" # Измерение времени обучения\n",
" start_time = time.time()\n",
" model.fit(X_train, y_train)\n",
" training_time = time.time() - start_time\n",
" \n",
" # Прогнозирование\n",
" y_pred = model.predict(X_test)\n",
" \n",
" # Оценка метрик\n",
" mae = mean_absolute_error(y_test, y_pred)\n",
" mse = mean_squared_error(y_test, y_pred)\n",
" r2 = r2_score(y_test, y_pred)\n",
" \n",
" # Корреляция\n",
" correlation = np.corrcoef(y_test, y_pred)[0, 1]\n",
" \n",
" print(f\"Время обучения: {training_time:.4f} секунд\")\n",
" print(f\"MAE: {mae:.2f}\")\n",
" print(f\"MSE: {mse:.2f}\")\n",
" print(f\"R^2: {r2:.2f}\")\n",
" print(f\"Корреляция: {correlation:.2f}\")\n",
"\n",
"# Оценка качества набора признаков\n",
"evaluate_model(X_train, X_test, y_train, y_test)\n",
"\n",
"# Дополнительно: оценка надежности с помощью кросс-валидации\n",
"from sklearn.model_selection import cross_val_score\n",
"\n",
"cv_scores = cross_val_score(LinearRegression(), X, y, cv=5, scoring='neg_mean_squared_error')\n",
"print(f\"Среднее MSE (кросс-валидация): {-np.mean(cv_scores):.2f}\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Вывод:**\n",
"\n",
"Время обучения: \n",
"\n",
"Время обучения модели составляет 0.0694 секунды, что является очень коротким. Это указывает на то, что модель обучается быстро и может эффективно обрабатывать данные.\n",
"\n",
"Предсказательная способность: \n",
"\n",
"MAE (Mean Absolute Error): 352.05 — это средняя абсолютная ошибка предсказаний модели. Значение MAE относительно невелико, что означает, что предсказанные значения в среднем отклоняются от реальных на 352.05. Это может быть приемлемым уровнем ошибки.\n",
"\n",
"MSE (Mean Squared Error): 363100.29 — это среднее значение квадратов ошибок. Хотя MSE высокое, оно также может быть связано с большими значениями целевой переменной (цен).\n",
"\n",
"R² (коэффициент детерминации): 0.98 — это очень высокий уровень, указывающий на то, что модель объясняет 98% вариации целевой переменной. Это свидетельствует о высокой предсказательной способности модели.\n",
"\n",
"Корреляция:\n",
"\n",
"Корреляция (0.99) между предсказанными и реальными значениями говорит о том, что предсказания модели имеют очень сильную линейную зависимость с реальными значениями. Это подтверждает, что модель хорошо обучена и делает точные прогнозы.\n",
"\n",
"Надежность (кросс-валидация):\n",
"\n",
"Среднее MSE (кросс-валидация): 885042.98 — это значительно выше, чем обычное MSE, что может указывать на потенциальные проблемы с переобучением. Модель может хорошо работать на обучающих данных, но ее производительность на новых данных (или в реальных условиях) может быть менее стабильной.\n",
" \n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}