diff --git a/lab_3/Lab3.ipynb b/lab_3/Lab3.ipynb new file mode 100644 index 0000000..5b4d797 --- /dev/null +++ b/lab_3/Lab3.ipynb @@ -0,0 +1,843 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## **СТОЛБЦЫ ДАТАСЕТА:**\n", + "\n", + "**Id**\n", + "\n", + "**name**\n", + "\n", + "**est_diameter_min** – минимальный диаметр косм. объекта (астероид, комета) рядом с Землёй (км)\n", + "\n", + "**est_diameter_max** – максимальный диаметр косм. объекта\n", + "\n", + "**relative_velocity** – скорость относительно Земли (км/с)\n", + "\n", + "**miss_distance** – расстояние, на кот. проходит рядом с Землёй (км)\n", + "\n", + "**orbiting_body** – тело, вокруг которого вращается (везде Земля)\n", + "\n", + "**sentry_object** – ведётся ли за ним авто мониторинг (везде false)\n", + "\n", + "**absolute_magnitude** – звёздная величина (яркость)\n", + "\n", + "**hazardous** – опасный для Земли / нет" + ] + }, + { + "cell_type": "code", + "execution_count": 254, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['id', 'name', 'est_diameter_min', 'est_diameter_max',\n", + " 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object',\n", + " 'absolute_magnitude', 'hazardous'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "import pandas as pd\n", + "import numpy as np\n", + "\n", + "df = pd.read_csv(\"..//static//csv//neo.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Бизнес-цели:\n", + "\n", + "1) Увеличение безопасности Земли\n", + "\n", + "2) Увеличение информации о безопасных космических объектах, на поверхности которых можно проводить исследования \n", + "\n", + "\n", + "Цели технического проекта:\n", + "\n", + "1) Построить модель машинного обучения, которая сможет предсказать, нужно ли вести наблюдения за космическим объектом, как за опасным для Земли. Вход: est_diameter_min, est_diameter_max, relative_velocity, miss_distance, absolute_magnitude, hazardous. Целевой признак: hazardous\n", + "\n", + "2) Построить модель машинного обучения, которая сможет предсказать, безопасный ли объект для проведения исследований на его поверхности. Вход: est_diameter_min, est_diameter_max, relative_velocity, miss_distance, absolute_magnitude, hazardous. Целевой признак: hazardous" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**ПОДГОТОВКА ДАННЫХ**\n", + "\n", + "Т.к. hazardous является целевым признаком, то необходимо, чтобы данных об опасных и безопасных объектах было примерно равное количество. Безопасных объектов гораздо больше, поэтому можно произвести undersampling для того, чтобы количество безопасных и опасных объектов стало равным " + ] + }, + { + "cell_type": "code", + "execution_count": 255, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "НАЧАЛЬНОЕ РАСПРЕДЕЛЕНИЕ\n", + "Кол-во объектов с hazardous = true: 8840\n", + "Кол-во объектов с hazardous = false: 81996\n", + "\n", + "СБАЛАНСИРОВАННОЕ РАСПРЕДЕЛЕНИЕ\n", + "Кол-во объектов с hazardous = true: 8840\n", + "Кол-во объектов с hazardous = false: 8840\n" + ] + } + ], + "source": [ + "\n", + "print('НАЧАЛЬНОЕ РАСПРЕДЕЛЕНИЕ')\n", + "true_hazardous = df[df['hazardous'] == True].shape[0]\n", + "print(f'Кол-во объектов с hazardous = true: {true_hazardous}')\n", + "\n", + "false_hazardous = df[df['hazardous'] == False].shape[0]\n", + "print(f'Кол-во объектов с hazardous = false: {false_hazardous}')\n", + "\n", + "\n", + "true_count = df[df['hazardous'] == True].shape[0]\n", + "\n", + "\n", + "false_count = df[df['hazardous'] == False].shape[0]\n", + "\n", + "\n", + "# разделение датасета на 2 части по hazardous\n", + "from sklearn.utils import resample\n", + "df_hazardous_true = df[df['hazardous'] == True]\n", + "df_hazardous_false = df[df['hazardous'] == False]\n", + "\n", + "# undersampling к части с Hazardous=false\n", + "df_hazardous_false_undersampled = resample(df_hazardous_false, \n", + " replace=False, \n", + " n_samples=len(df_hazardous_true), #столько записей, сколько в df_hazardous_true\n", + " random_state=123) \n", + "\n", + "# Объединение 2 частей\n", + "df_balanced = pd.concat([df_hazardous_true, df_hazardous_false_undersampled])\n", + "\n", + "# Перемешивание записей\n", + "df = df_balanced.sample(frac=1, random_state=123).reset_index(drop=True)\n", + "\n", + "\n", + "print('\\nСБАЛАНСИРОВАННОЕ РАСПРЕДЕЛЕНИЕ')\n", + "true_hazardous = df[df['hazardous'] == True].shape[0]\n", + "print(f'Кол-во объектов с hazardous = true: {true_hazardous}')\n", + "\n", + "false_hazardous = df[df['hazardous'] == False].shape[0]\n", + "print(f'Кол-во объектов с hazardous = false: {false_hazardous}')\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "\n", + "Проверка на выбросы. В столбцах est_diameter_min, est_diameter_max, relative_velocity есть единичные выбросы, которые значительно больше основного распределения (est_diameter_min - которые больше примерно 3; est_diameter_max - которые больше примерно 5; relative_velocity - которые больше примерно 175000), и в столбце absolute_magnitude есть выбросы, которые значительно ниже основного распределния (примерно меньше 13). Эти единичные выбросы можно удалить. Остальные же значения, находящиеся за рамками основного распределения стоит оставить, т.к. они представляют из себя полезный шум\n", + "\n", + "После удаления единичных выбросов видно, что количество записей уменьшилось очень незначительно" + ] + }, + { + "cell_type": "code", + "execution_count": 256, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество записей до устранения выбросов: 17680\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество записей после устранения выбросов: 17638\n" + ] + } + ], + "source": [ + "numeric_cols = df.select_dtypes(include=['number']).columns\n", + "\n", + "#все столбцы, кроме id\n", + "numeric_cols = [col for col in numeric_cols if col != 'id']\n", + "\n", + "\n", + "print(f'Количество записей до устранения выбросов: {len(df)}')\n", + "\n", + "plt.figure(figsize=(12, 8))\n", + " \n", + "\n", + "for i, col in enumerate(numeric_cols, 1):\n", + " if col == 'id':\n", + " continue\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " outliers = df[col][(df[col] < lower_bound) | (df[col] > upper_bound)]\n", + " plt.subplot(len(numeric_cols) // 3 + 1, 3, i) \n", + " plt.boxplot(x=df[col])\n", + " plt.title(f'Boxplot for {col}')\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "\n", + "#Удаление единичных выбросов\n", + "plt.figure(figsize=(12, 8))\n", + "for i, col in enumerate(numeric_cols, 1):\n", + " if col == 'id':\n", + " continue\n", + " Q1 = df[col].quantile(0.25)\n", + " Q3 = df[col].quantile(0.75)\n", + " IQR = Q3 - Q1\n", + " lower_bound = Q1 - 1.5 * IQR\n", + " upper_bound = Q3 + 1.5 * IQR\n", + " \n", + " if (col=='est_diameter_min'):\n", + " df = df[~((df[col] > 3))]\n", + " if (col=='est_diameter_max'):\n", + " df = df[~((df[col] > 5.5))]\n", + " if (col=='relative_velocity'):\n", + " df = df[~((df[col] > 175000))]\n", + " if (col=='absolute_magnitude'):\n", + " df = df[~((df[col] < 13))]\n", + " \n", + " plt.subplot(len(numeric_cols) // 3 + 1, 3, i)\n", + " plt.boxplot(x=df[col].dropna()) \n", + " plt.title(f'Boxplot for {col}')\n", + "\n", + "plt.tight_layout()\n", + "plt.show()\n", + "\n", + "print(f'Количество записей после устранения выбросов: {len(df)}')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Пропущенных значений нет, значит решать данную проблему не надо" + ] + }, + { + "cell_type": "code", + "execution_count": 257, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Столбцы с null: []\n" + ] + } + ], + "source": [ + "#проверка на пропущенные значения\n", + "columns_with_nulls = []\n", + "for col in df.columns:\n", + " if df[col].isnull().sum() > 0: \n", + " columns_with_nulls.append(col)\n", + "print(f\"Столбцы с null: {columns_with_nulls}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**РАЗБИЕНИЕ НА ВЫБОРКИ**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "После разбиения в обучающую выборку попало практически равное количество безопасных и опасных объектов, поэтому применять методы аугментации данных нет необходимости" + ] + }, + { + "cell_type": "code", + "execution_count": 258, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: 14110\n", + "Размер контрольной выборки: 1764\n", + "Размер тестовой выборки: 1764\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "hazardous\n", + "True 7094\n", + "False 7016\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import train_test_split\n", + "data=df[['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude', 'hazardous']].copy()\n", + "\n", + "\n", + "# сначала разделение записей на 80% и 20%, где 80% - обучающая выборка\n", + "train_data, temp_data = train_test_split(data, test_size=0.2, random_state=42)\n", + "\n", + "# потом разделение остальных 20% поровну на контрольную и тестовую выборки\n", + "val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)\n", + "\n", + "# Проверка размеров выборок\n", + "print(\"Размер обучающей выборки:\", len(train_data))\n", + "print(\"Размер контрольной выборки:\", len(val_data))\n", + "print(\"Размер тестовой выборки:\", len(test_data))\n", + "\n", + "\n", + "# построение столбчатой диаграммы по столбцу rating_stars (сбалансированность обучающей выборки)\n", + "hazardous_counts = train_data['hazardous'].value_counts()\n", + "\n", + "plt.bar(hazardous_counts.index, hazardous_counts.values)\n", + "plt.xlabel('hazardous')\n", + "plt.ylabel('Count')\n", + "plt.show()\n", + "\n", + "print(train_data[\"hazardous\"].value_counts())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Конструирование признаков" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Унитарное кодирование категориальных признаков (для всех категориальных признаков в датасете)**\n", + "\n", + "т.к. в столбцах orbiting_body и sentry_object есть только 1 различное категориальное значение, то при использовании encoder = OneHotEncoder(sparse_output=False, drop=\"first\") срабатывает условие drop=\"first\", который удаляет первое категориальное значение для предотвращения линейной зависимости между столбцами. Поэтому в случае с hazardous использован OneHotEncoder с параметром drop=\"first\", а для orbiting_body и sentry_object без него.\n", + "\n", + "Для решения обеих задач (бизнес-целей и технических целей) нужен только признак hazardous_True" + ] + }, + { + "cell_type": "code", + "execution_count": 259, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " orbiting_body_Earth sentry_object_False hazardous_True\n", + "0 1.0 1.0 1.0\n", + "1 1.0 1.0 1.0\n", + "2 1.0 1.0 0.0\n", + "3 1.0 1.0 1.0\n", + "4 1.0 1.0 0.0\n", + "... ... ... ...\n", + "17633 1.0 1.0 1.0\n", + "17634 1.0 1.0 0.0\n", + "17635 1.0 1.0 1.0\n", + "17636 1.0 1.0 0.0\n", + "17637 1.0 1.0 0.0\n", + "\n", + "[17638 rows x 3 columns]\n" + ] + } + ], + "source": [ + "from sklearn.preprocessing import OneHotEncoder\n", + "import numpy as np\n", + "\n", + "encoder = OneHotEncoder(sparse_output=False, drop=\"first\")\n", + "encoder1 = OneHotEncoder(sparse_output=False)\n", + "\n", + "encoded_values = encoder.fit_transform(df[[\"hazardous\"]])\n", + "encoded_columns = encoder.get_feature_names_out([\"hazardous\"])\n", + "\n", + "encoded_values1 = encoder1.fit_transform(df[[\"orbiting_body\", \"sentry_object\"]])\n", + "encoded_columns1 = encoder1.get_feature_names_out([\"orbiting_body\", \"sentry_object\"])\n", + "\n", + "\n", + "encoded_values_df1 = pd.DataFrame(encoded_values1, columns=encoded_columns1)\n", + "encoded_values_df2 = pd.DataFrame(encoded_values, columns=encoded_columns)\n", + "\n", + "\n", + "encoded_values_df = pd.concat([encoded_values_df1, encoded_values_df2], axis=1)\n", + "print(encoded_values_df)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Унитарное кодирование для самой обучающей выборки" + ] + }, + { + "cell_type": "code", + "execution_count": 260, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", + "1882 0.056566 0.126485 53181.770308 1.608163e+07 \n", + "10162 0.108282 0.242125 71641.177993 6.633209e+07 \n", + "13664 0.186447 0.416908 72150.829803 7.266875e+07 \n", + "17556 0.003052 0.006824 13472.804594 2.411481e+07 \n", + "13523 0.048368 0.108153 31281.647283 2.217165e+06 \n", + "... ... ... ... ... \n", + "11308 0.069913 0.156329 38271.512861 5.439281e+07 \n", + "11990 0.152249 0.340440 58488.870909 7.232920e+07 \n", + "5402 0.008801 0.019681 20926.865447 2.458771e+07 \n", + "861 0.183889 0.411188 40232.968565 3.188090e+07 \n", + "15832 0.183889 0.411188 89521.116646 5.187941e+07 \n", + "\n", + " absolute_magnitude hazardous_True \n", + "1882 23.36 0.0 \n", + "10162 21.95 0.0 \n", + "13664 20.77 1.0 \n", + "17556 29.70 0.0 \n", + "13523 23.70 0.0 \n", + "... ... ... \n", + "11308 22.90 0.0 \n", + "11990 21.21 1.0 \n", + "5402 27.40 0.0 \n", + "861 20.80 1.0 \n", + "15832 20.80 1.0 \n", + "\n", + "[14110 rows x 6 columns]\n" + ] + } + ], + "source": [ + "#обучающая выборка\n", + "train_data_encoded = pd.get_dummies(train_data, columns=['hazardous'], drop_first=True, dtype=float)\n", + "train_data = train_data_encoded\n", + "\n", + "#валидационная\n", + "val_data_encoded = pd.get_dummies(val_data, columns=['hazardous'], drop_first=True, dtype=float)\n", + "val_data = val_data_encoded\n", + "\n", + "#тестовая\n", + "test_data_encoded = pd.get_dummies(test_data, columns=['hazardous'], drop_first=True, dtype=float)\n", + "test_data = test_data_encoded\n", + "\n", + "print(train_data)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Дискретизация числовых признаков**\n", + "\n", + "дискретизируется скорость relative_velocity\n" + ] + }, + { + "cell_type": "code", + "execution_count": 261, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", + "1882 0.056566 0.126485 Небольшая скорость 1.608163e+07 \n", + "10162 0.108282 0.242125 Средняя скорость 6.633209e+07 \n", + "13664 0.186447 0.416908 Средняя скорость 7.266875e+07 \n", + "17556 0.003052 0.006824 Небольшая скорость 2.411481e+07 \n", + "13523 0.048368 0.108153 Небольшая скорость 2.217165e+06 \n", + "... ... ... ... ... \n", + "11308 0.069913 0.156329 Небольшая скорость 5.439281e+07 \n", + "11990 0.152249 0.340440 Небольшая скорость 7.232920e+07 \n", + "5402 0.008801 0.019681 Небольшая скорость 2.458771e+07 \n", + "861 0.183889 0.411188 Небольшая скорость 3.188090e+07 \n", + "15832 0.183889 0.411188 Средняя скорость 5.187941e+07 \n", + "\n", + " absolute_magnitude hazardous_True \n", + "1882 23.36 0.0 \n", + "10162 21.95 0.0 \n", + "13664 20.77 1.0 \n", + "17556 29.70 0.0 \n", + "13523 23.70 0.0 \n", + "... ... ... \n", + "11308 22.90 0.0 \n", + "11990 21.21 1.0 \n", + "5402 27.40 0.0 \n", + "861 20.80 1.0 \n", + "15832 20.80 1.0 \n", + "\n", + "[14110 rows x 6 columns]\n", + "relative_velocity\n", + "Небольшая скорость 8685\n", + "Средняя скорость 5039\n", + "Большая скорость 386\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "velocity_labels=['Небольшая скорость', 'Средняя скорость', 'Большая скорость']\n", + "\n", + "#обучающая выборка\n", + "train_data_discretized = train_data\n", + "#равномерная группировка (для каждой категории диапазон чисел одинаковой длины)\n", + "train_data_discretized['relative_velocity'] = pd.cut(train_data['relative_velocity'], bins=3, labels=velocity_labels)\n", + "train_data = train_data_discretized\n", + "\n", + "#валидационная выборка\n", + "val_data_discretized = val_data\n", + "val_data_discretized['relative_velocity'] = pd.cut(val_data['relative_velocity'], bins=3, labels=velocity_labels)\n", + "val_data = val_data_discretized\n", + "\n", + "#тестовая выборка\n", + "test_data_discretized = test_data\n", + "test_data_discretized['relative_velocity'] = pd.cut(test_data['relative_velocity'], bins=3, labels=velocity_labels)\n", + "test_data = test_data_discretized\n", + "\n", + "print(train_data_discretized)\n", + "print(train_data[\"relative_velocity\"].value_counts())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Ручной синтез признаков**\n", + "\n", + "На основании максимального и минимального радиуса объекта можно найти среднее значение диаметра" + ] + }, + { + "cell_type": "code", + "execution_count": 262, + "metadata": {}, + "outputs": [], + "source": [ + "train_data['average_diameter'] = (train_data['est_diameter_min'] + train_data['est_diameter_max']) / 2\n", + "val_data['average_diameter'] = (val_data['est_diameter_min'] + val_data['est_diameter_max']) / 2\n", + "test_data['average_diameter'] = (test_data['est_diameter_min'] + test_data['est_diameter_max']) / 2" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Масштабирование признаков**" + ] + }, + { + "cell_type": "code", + "execution_count": 263, + "metadata": {}, + "outputs": [], + "source": [ + "from sklearn.preprocessing import StandardScaler\n", + "\n", + "scaler = StandardScaler()\n", + "\n", + "numeric_cols = train_data.select_dtypes(include=['number']).columns\n", + "\n", + "numeric_cols = numeric_cols.drop('hazardous_True')\n", + "\n", + "train_data[numeric_cols] = scaler.fit_transform(train_data[numeric_cols])\n", + "val_data[numeric_cols] = scaler.fit_transform(val_data[numeric_cols])\n", + "test_data[numeric_cols] = scaler.fit_transform(test_data[numeric_cols])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Featuretools**\n", + "\n", + "Featuretools не смог выявить дополнительных признаков по признакам, которые необходимы для решения поставленных задач" + ] + }, + { + "cell_type": "code", + "execution_count": 264, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", + "id \n", + "0 -0.572328 -0.572328 Небольшая скорость -1.014078 \n", + "1 -0.361244 -0.361244 Средняя скорость 1.278171 \n", + "2 -0.042204 -0.042204 Средняя скорость 1.567227 \n", + "3 -0.790752 -0.790752 Небольшая скорость -0.647632 \n", + "4 -0.605790 -0.605790 Небольшая скорость -1.646526 \n", + "\n", + " absolute_magnitude hazardous_True average_diameter \n", + "id \n", + "0 0.447447 0.0 -0.572328 \n", + "1 -0.051566 0.0 -0.361244 \n", + "2 -0.469179 1.0 -0.042204 \n", + "3 2.691234 0.0 -0.790752 \n", + "4 0.567776 0.0 -0.605790 \n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:1733: UserWarning: index id not found in dataframe, creating new integer column\n", + " warnings.warn(\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\dfs.py:321: UnusedPrimitiveWarning: Some specified primitives were not used during DFS:\n", + " agg_primitives: ['any', 'count', 'mean', 'mode']\n", + "This may be caused by a using a value of max_depth that is too small, not setting interesting values, or it may indicate no compatible columns for the primitive were found in the data. If the DFS call contained multiple instances of a primitive in the list above, none of them were used.\n", + " warnings.warn(warning_msg, UnusedPrimitiveWarning)\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n", + "c:\\AI labs\\aimenv\\Lib\\site-packages\\featuretools\\computational_backends\\feature_set_calculator.py:143: FutureWarning: The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.\n", + " df = pd.concat([df, default_df], sort=True)\n" + ] + } + ], + "source": [ + "import featuretools as ft\n", + "\n", + "es = ft.EntitySet(id='space_objects_data')\n", + "es = es.add_dataframe(dataframe_name='space_objects', dataframe=train_data, index='id')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(\n", + " entityset=es,\n", + " target_dataframe_name=\"space_objects\",\n", + " agg_primitives=[\"mean\", \"count\", \"mode\", \"any\"],\n", + " max_depth=2,\n", + ")\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)\n", + "\n", + "print(feature_matrix.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**Оценка качества наборов признаков**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "\n", + "\n", + "У модели, построенной по логической регрессии, точность (accuracy) составляет почти 85%, что является приемлемым значением. При этом, модель верно относит опасные объекты к опасным примерно в 80% случаев (precision), что может быть недостаточным значением \n", + "\n", + "Модель имеет показатель показатель полноты примерно 93%\n", + "\n", + "Значение метрики f1 примерно 86%, что означает, что между точностью и полнотой модели хороший баланс\n", + "\n", + "Среднее значение точности по кросс-валидации (Cross-Validation Mean) составляет около 85%, что близко к точности на тестовой выборке. Это указывает на то, что модель стабильна\n", + "\n", + "Дисперсия (Cross-Validation Std) составляет меньше 1%, что говорит о том, что модель качественно выполняет предсказания на\n", + "тестовой выборке. Модель можно считать надёжной\n", + "\n", + "У модели очень большая скорость вычислений и очень низкий показатель среднеквадратичной ошибки, что говорит о том, что модель обучилась хорошо\n", + "\n", + "По диаграмме (матрице ошибок) можно увидеть, что модель большинство космических объектов оценила также, как есть на самом деле. Модель очень часто верно определяет опасные объекты, чуть хуже верно определяет неопасные объекты. Однако у неё есть склонность относить неопасные объекты к опасным" + ] + }, + { + "cell_type": "code", + "execution_count": 265, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy: 0.8479801559177887\n", + "Precision: 0.8024464831804281\n", + "Полнота: 0.92524682651622\n", + "F1: 0.859482476252866\n", + "Cross-Validation Mean: 0.8499645641389085\n", + "Cross-Validation Std: 0.0053722448357894316\n", + "Время обучения модели: 0.01 секунд\n", + "Скорость вычисления: 0.00 секунд\n", + "Среднеквадратичная ошибка: 0.15\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import time\n", + "import seaborn as sns\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.metrics import mean_squared_error\n", + "from sklearn.metrics import r2_score, accuracy_score, precision_recall_fscore_support, confusion_matrix\n", + "from sklearn.model_selection import cross_val_score\n", + "\n", + "# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную\n", + "X = feature_matrix.drop('hazardous_True', axis=1)\n", + "y = feature_matrix['hazardous_True']\n", + "\n", + "# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)\n", + "X = pd.get_dummies(X, drop_first=True)\n", + "\n", + "\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Обучение модели\n", + "model = LogisticRegression()\n", + "\n", + "# Начинаем отсчет времени\n", + "start_time = time.time()\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Время обучения модели\n", + "train_time = time.time() - start_time\n", + "\n", + "# Предсказания и оценка модели\n", + "start_time = time.time()\n", + "predictions = model.predict(X_test)\n", + "pred_time = time.time() - start_time\n", + "\n", + "\n", + "\n", + "# Предсказательная способность\n", + "accuracy = accuracy_score(y_test, predictions)\n", + "precision, recall, f1, _ = precision_recall_fscore_support(y_test, predictions, average='binary')\n", + "\n", + "\n", + "print(f\"Accuracy: {accuracy}\")\n", + "print(f\"Precision: {precision}\")\n", + "print(f\"Полнота: {recall}\")\n", + "print(f\"F1: {f1}\")\n", + "\n", + "\n", + "# Надежность\n", + "cv_scores = cross_val_score(model, X, y, cv=5)\n", + "cv_mean = cv_scores.mean()\n", + "cv_std = cv_scores.std()\n", + "\n", + "print(f\"Cross-Validation Mean: {cv_mean}\")\n", + "print(f\"Cross-Validation Std: {cv_std}\")\n", + "\n", + "\n", + "print(f'Время обучения модели: {train_time:.2f} секунд')\n", + "print(f'Скорость вычисления: {pred_time:.2f} секунд')\n", + "\n", + "\n", + "mse = mean_squared_error(y_test, predictions)\n", + "print(f'Среднеквадратичная ошибка: {mse:.2f}')\n", + "\n", + "# Визуализация предсказаний\n", + "confusions = confusion_matrix(y_test, predictions)\n", + "plt.figure(figsize=(8, 6))\n", + "sns.heatmap(confusions, annot=True, fmt='d', cmap='Blues', xticklabels=['Неопасный', 'Опасный'], yticklabels=['Неопасный', 'Опасный'])\n", + "plt.xlabel('Предсказанное значение')\n", + "plt.ylabel('Истинное значение')\n", + "plt.title('Матрица ошибок')\n", + "plt.show()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/lab_3/requirements b/lab_3/requirements new file mode 100644 index 0000000..ea34775 Binary files /dev/null and b/lab_3/requirements differ