{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Начало лабораторной, ухх...\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Бизнес-цели:\n", "\n", "1. Повышение безопасности планеты от потенциальных угроз космических объектов.\n", "2. Оптимизация исследования космических объектов для использования в коммерческих или исследовательских миссиях." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Цели технического проекта:\n", "\n", "Для 1-й бизнес-цели: \n", "* сбор и подготовка данных: очистка данных от пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовые. Разделение данных на обучающую и тестовую выборки. \n", "* разработка и обучение модели: исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.). Обучение моделей на обучающей выборке. Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", "* развертывание модели: \n", " * Создать веб-приложение или API, которое принимает параметры объекта и прогнозирует, опасен ли он для Земли.\n", " * Модель может использоваться в системах мониторинга космических объектов для предоставления оперативных оценок и предупреждений.\n", " * Включение автоматической системы оповещения для НАСА и других космических агентств с обновлениями по объектам, представляющим угрозу.\n", "\n", "Для 2-й бизнес-цели:\n", "* сбор и подготовка данных: очистка данных от пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовые. Разделение данных на обучающую и тестовую выборки. \n", "* разработка и обучение модели: исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.). Обучение моделей на обучающей выборке. Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", "* развертывание модели:\n", " * Разработка модели, которая позволяет астрономам и специалистам по космосу загружать данные о новых объектах и получать предсказания о расстоянии их ближайшего сближения с Землей.\n", " * Создание системы мониторинга с графическим интерфейсом, отображающим траектории движения объектов и предполагаемые даты и расстояния их ближайших подходов.\n", " * Реализация системы оповещений на основе пороговых значений расстояний для идентификации особо опасных сближений." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['id', 'name', 'est_diameter_min', 'est_diameter_max',\n", " 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object',\n", " 'absolute_magnitude', 'hazardous'],\n", " dtype='object')\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
idnameest_diameter_minest_diameter_maxrelative_velocitymiss_distanceorbiting_bodysentry_objectabsolute_magnitudehazardous
02162635162635 (2000 SS164)1.1982712.67941513569.2492245.483974e+07EarthFalse16.73False
12277475277475 (2005 WK4)0.2658000.59434773588.7266636.143813e+07EarthFalse20.00True
22512244512244 (2015 YE18)0.7220301.614507114258.6921294.979872e+07EarthFalse17.83False
33596030(2012 BV13)0.0965060.21579424764.3031382.543497e+07EarthFalse22.20False
43667127(2014 GE35)0.2550090.57021742737.7337654.627557e+07EarthFalse20.09True
\n", "
" ], "text/plain": [ " id name est_diameter_min est_diameter_max \\\n", "0 2162635 162635 (2000 SS164) 1.198271 2.679415 \n", "1 2277475 277475 (2005 WK4) 0.265800 0.594347 \n", "2 2512244 512244 (2015 YE18) 0.722030 1.614507 \n", "3 3596030 (2012 BV13) 0.096506 0.215794 \n", "4 3667127 (2014 GE35) 0.255009 0.570217 \n", "\n", " relative_velocity miss_distance orbiting_body sentry_object \\\n", "0 13569.249224 5.483974e+07 Earth False \n", "1 73588.726663 6.143813e+07 Earth False \n", "2 114258.692129 4.979872e+07 Earth False \n", "3 24764.303138 2.543497e+07 Earth False \n", "4 42737.733765 4.627557e+07 Earth False \n", "\n", " absolute_magnitude hazardous \n", "0 16.73 False \n", "1 20.00 True \n", "2 17.83 False \n", "3 22.20 False \n", "4 20.09 True " ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pandas as pd\n", "df_subset = pd.read_csv(\".//static//csv//neo.csv\")\n", "# Отбор первых 15000 записей\n", "df = df_subset.head(15000)\n", "print(df.columns)\n", "df.head()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Проверим датасет на пропущенные значения:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "id 0\n", "name 0\n", "est_diameter_min 0\n", "est_diameter_max 0\n", "relative_velocity 0\n", "miss_distance 0\n", "orbiting_body 0\n", "sentry_object 0\n", "absolute_magnitude 0\n", "hazardous 0\n", "dtype: int64\n" ] }, { "data": { "text/plain": [ "id False\n", "name False\n", "est_diameter_min False\n", "est_diameter_max False\n", "relative_velocity False\n", "miss_distance False\n", "orbiting_body False\n", "sentry_object False\n", "absolute_magnitude False\n", "hazardous False\n", "dtype: bool" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Процент пропущенных значений признаков\n", "for i in df.columns:\n", " null_rate = df[i].isnull().sum() / len(df) * 100\n", " if null_rate > 0:\n", " print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n", "\n", "# Проверка на пропущенные данные\n", "print(df.isnull().sum())\n", "\n", "df.isnull().any()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Фух, пропущенных значений не имеется \n", "\n", "Разобьём набор на 3 классических выборки: обучающую, тестовую и контрольную" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: (9000, 9)\n", "Размер контрольной выборки: (3000, 9)\n", "Размер тестовой выборки: (3000, 9)\n" ] } ], "source": [ "from sklearn.model_selection import train_test_split\n", "\n", "# Предварительная обработка данных на всякий\n", "# Удаление пропусков и дубликатов\n", "df = df.dropna()\n", "df = df.drop_duplicates()\n", "\n", "# Разделение данных на признаки (X) и целевую переменную (y)\n", "# В данном случае, предположим, что мы хотим предсказать 'absolute_magnitude'\n", "X = df.drop(columns=['absolute_magnitude'])\n", "y = df['absolute_magnitude']\n", "\n", "# Разбиение данных на обучающую и тестовую выборки\n", "# Сначала разделим на обучающую и тестовую\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", "\n", "# Затем разделим обучающую выборку на обучающую и контрольную\n", "X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)\n", "\n", "# Проверка размеров выборок\n", "print(\"Размер обучающей выборки:\", X_train.shape)\n", "print(\"Размер контрольной выборки:\", X_val.shape)\n", "print(\"Размер тестовой выборки:\", X_test.shape)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Построим несколько столбчатых диаграмм для визуализации распределения:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Создание DataFrame для обучающей, контрольной и тестовой выборок\n", "train_data = pd.DataFrame({'absolute_magnitude': y_train})\n", "val_data = pd.DataFrame({'absolute_magnitude': y_val})\n", "test_data = pd.DataFrame({'absolute_magnitude': y_test})\n", "\n", "# Гистограмма распределения absolute_magnitude в обучающей выборке\n", "sns.histplot(train_data['absolute_magnitude'], kde=True)\n", "plt.title('Распределение absolute_magnitude в обучающей выборке')\n", "plt.show()\n", "\n", "# Гистограмма распределения absolute_magnitude в контрольной выборке\n", "sns.histplot(val_data['absolute_magnitude'], kde=True)\n", "plt.title('Распределение absolute_magnitude в контрольной выборке')\n", "plt.show()\n", "\n", "# Гистограмма распределения absolute_magnitude в тестовой выборке\n", "sns.histplot(test_data['absolute_magnitude'], kde=True)\n", "plt.title('Распределение absolute_magnitude в тестовой выборке')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Конструирование признаков\n", "\n", "Задача 1: оценить безопасность планеты относительно потенциальных угроз космических объектов. Цель технического проекта: определить объекты с наиболее высоким риском столкновения на основе их ближайших приближений к Земле.\n", "\n", "Задача 2: оценить возможную оптимизацию исследования космических объектов для использования в коммерческих или исследовательских миссиях. Цель технического проекта: использование системы приоритезации для определения наиболее перспективных объектов для дальнейшего исследования или использования.\n", "\n", "**Унитарное кодирование**\n", "\n", "Унитарное кодирование категориальных признаков (one-hot encoding). Преобразуем категориальные признаки в бинарные векторы.\n", "\n" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " id name est_diameter_min est_diameter_max \\\n", "0 2162635 162635 (2000 SS164) 1.198271 2.679415 \n", "1 2277475 277475 (2005 WK4) 0.265800 0.594347 \n", "2 2512244 512244 (2015 YE18) 0.722030 1.614507 \n", "3 3596030 (2012 BV13) 0.096506 0.215794 \n", "4 3667127 (2014 GE35) 0.255009 0.570217 \n", "\n", " relative_velocity miss_distance absolute_magnitude hazardous \\\n", "0 13569.249224 5.483974e+07 16.73 False \n", "1 73588.726663 6.143813e+07 20.00 True \n", "2 114258.692129 4.979872e+07 17.83 False \n", "3 24764.303138 2.543497e+07 22.20 False \n", "4 42737.733765 4.627557e+07 20.09 True \n", "\n", " orbiting_body_Earth sentry_object_False \n", "0 True True \n", "1 True True \n", "2 True True \n", "3 True True \n", "4 True True \n" ] } ], "source": [ "from sklearn.preprocessing import OneHotEncoder\n", "\n", "# Загрузка данных\n", "df = pd.read_csv(\".//static//csv//neo.csv\")\n", "\n", "# Выбор категориальных признаков, которые нужно закодировать\n", "categorical_columns = ['orbiting_body', 'sentry_object']\n", "\n", "# Применение one-hot encoding с использованием pandas get_dummies()\n", "df_encoded = pd.get_dummies(df, columns=categorical_columns)\n", "\n", "# Проверка результата\n", "print(df_encoded.head())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Дискретизация числовых признаков**\n", "\n", "Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины). Используем переменные, отвечающие за растояние объекта от Земли(miss_distance) и абсолютную звёздную величину объекта, которая отражает его яркость(absolute_magnitude)" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " miss_distance miss_distance_binned\n", "0 5.483974e+07 (44881889.084, 59840270.268]\n", "1 6.143813e+07 (59840270.268, 74798651.452]\n", "2 4.979872e+07 (44881889.084, 59840270.268]\n", "3 2.543497e+07 (14965126.716, 29923507.9]\n", "4 4.627557e+07 (44881889.084, 59840270.268]\n", " absolute_magnitude absolute_magnitude_binned\n", "0 16.73 (9.229000000000001, 21.34]\n", "1 20.00 (9.229000000000001, 21.34]\n", "2 17.83 (9.229000000000001, 21.34]\n", "3 22.20 (21.34, 23.7]\n", "4 20.09 (9.229000000000001, 21.34]\n" ] } ], "source": [ "import pandas as pd\n", "\n", "# Пример: дискретизация признака 'miss_distance' на 5 равных интервалов\n", "df['miss_distance_binned'] = pd.cut(df['miss_distance'], bins=5)\n", "\n", "# Пример: дискретизация признака 'absolute_magnitude' на квантильные интервалы (4 квантиля)\n", "df['absolute_magnitude_binned'] = pd.qcut(df['absolute_magnitude'], q=4)\n", "\n", "# Проверка результата\n", "print(df[['miss_distance', 'miss_distance_binned']].head())\n", "print(df[['absolute_magnitude', 'absolute_magnitude_binned']].head())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Ручной синтез**\n", "\n", "Создание новых признаков на основе экспертных знаний и логики предметной области. В нашем случае можно задействовать расстояния объекта от Земли и скорость движения объекта, синтезировав новый признак - \"скорость в сравнении с расстоянием\". Этот признак показывает, что объект может быть более опасным, если его скорость велика, а расстояние до Земли — маленькое." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# Создание нового признака 'Speed VS Distance'\n", "df['high_risk'] = ((df['miss_distance'] < threshold_distance) & (df['relative_velocity'] > threshold_velocity)).astype(int)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Масштабирование признаков**\n", "\n", "Процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "from sklearn.preprocessing import StandardScaler, MinMaxScaler\n", "\n", "# Пример масштабирования числовых признаков\n", "numerical_features = ['miss_distance', 'absolute_magnitude']\n", "\n", "scaler = StandardScaler()\n", "train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n", "val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n", "test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Конструирование признаков с применением фреймворка Featuretools" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Collecting featuretools\n", " Downloading featuretools-1.31.0-py3-none-any.whl.metadata (15 kB)\n", "Collecting cloudpickle>=1.5.0 (from featuretools)\n", " Downloading cloudpickle-3.1.0-py3-none-any.whl.metadata (7.0 kB)\n", "Collecting holidays>=0.17 (from featuretools)\n", " Downloading holidays-0.59-py3-none-any.whl.metadata (25 kB)\n", "Requirement already satisfied: numpy>=1.25.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from featuretools) (2.1.2)\n", "Requirement already satisfied: packaging>=20.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from featuretools) (24.1)\n", "Requirement already satisfied: pandas>=2.0.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from featuretools) (2.2.3)\n", "Requirement already satisfied: psutil>=5.7.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from featuretools) (6.0.0)\n", "Requirement already satisfied: scipy>=1.10.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from featuretools) (1.14.1)\n", "Collecting tqdm>=4.66.3 (from featuretools)\n", " Downloading tqdm-4.66.5-py3-none-any.whl.metadata (57 kB)\n", "Collecting woodwork>=0.28.0 (from featuretools)\n", " Downloading woodwork-0.31.0-py3-none-any.whl.metadata (10 kB)\n", "Requirement already satisfied: python-dateutil in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from holidays>=0.17->featuretools) (2.9.0.post0)\n", "Requirement already satisfied: pytz>=2020.1 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from pandas>=2.0.0->featuretools) (2024.2)\n", "Requirement already satisfied: tzdata>=2022.7 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from pandas>=2.0.0->featuretools) (2024.2)\n", "Requirement already satisfied: colorama in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from tqdm>=4.66.3->featuretools) (0.4.6)\n", "Requirement already satisfied: scikit-learn>=1.1.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from woodwork>=0.28.0->featuretools) (1.5.2)\n", "Collecting importlib-resources>=5.10.0 (from woodwork>=0.28.0->featuretools)\n", " Downloading importlib_resources-6.4.5-py3-none-any.whl.metadata (4.0 kB)\n", "Requirement already satisfied: six>=1.5 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from python-dateutil->holidays>=0.17->featuretools) (1.16.0)\n", "Requirement already satisfied: joblib>=1.2.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from scikit-learn>=1.1.0->woodwork>=0.28.0->featuretools) (1.4.2)\n", "Requirement already satisfied: threadpoolctl>=3.1.0 in c:\\users\\admin\\studioprojects\\aim-pibd-31-alekseev-i-s\\aimenv\\lib\\site-packages (from scikit-learn>=1.1.0->woodwork>=0.28.0->featuretools) (3.5.0)\n", "Downloading featuretools-1.31.0-py3-none-any.whl (587 kB)\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ---------------------------------------- 0.0/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ----------------- ---------------------- 262.1/587.9 kB ? eta -:--:--\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " ---------------------------------- ---- 524.3/587.9 kB 50.4 kB/s eta 0:00:02\n", " --------------------------------------- 587.9/587.9 kB 47.1 kB/s eta 0:00:00\n", "Downloading cloudpickle-3.1.0-py3-none-any.whl (22 kB)\n", "Downloading holidays-0.59-py3-none-any.whl (1.1 MB)\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " --------- ------------------------------ 0.3/1.1 MB ? eta -:--:--\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ------------------ --------------------- 0.5/1.1 MB 80.7 kB/s eta 0:00:08\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ---------------------------- ----------- 0.8/1.1 MB 73.9 kB/s eta 0:00:05\n", " ------------------------------------- -- 1.0/1.1 MB 71.3 kB/s eta 0:00:01\n", " ------------------------------------- -- 1.0/1.1 MB 71.3 kB/s eta 0:00:01\n", " ------------------------------------- -- 1.0/1.1 MB 71.3 kB/s eta 0:00:01\n", " ------------------------------------- -- 1.0/1.1 MB 71.3 kB/s eta 0:00:01\n", " ---------------------------------------- 1.1/1.1 MB 71.6 kB/s eta 0:00:00\n", "Downloading tqdm-4.66.5-py3-none-any.whl (78 kB)\n", "Downloading woodwork-0.31.0-py3-none-any.whl (215 kB)\n", "Downloading importlib_resources-6.4.5-py3-none-any.whl (36 kB)\n", "Installing collected packages: tqdm, importlib-resources, cloudpickle, holidays, woodwork, featuretools\n", "Successfully installed cloudpickle-3.1.0 featuretools-1.31.0 holidays-0.59 importlib-resources-6.4.5 tqdm-4.66.5 woodwork-0.31.0\n", "Note: you may need to restart the kernel to use updated packages.\n" ] } ], "source": [ "pip install --upgrade featuretools" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Collecting setuptoolsNote: you may need to restart the kernel to use updated packages.\n", "\n", " Downloading setuptools-75.2.0-py3-none-any.whl.metadata (6.9 kB)\n", "Downloading setuptools-75.2.0-py3-none-any.whl (1.2 MB)\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " ---------------------------------------- 0.0/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " -------- ------------------------------- 0.3/1.2 MB ? eta -:--:--\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ---------------- ----------------------- 0.5/1.2 MB 98.1 kB/s eta 0:00:08\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " ------------------------- -------------- 0.8/1.2 MB 126.2 kB/s eta 0:00:04\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " --------------------------------- ------ 1.0/1.2 MB 126.8 kB/s eta 0:00:02\n", " ---------------------------------------- 1.2/1.2 MB 130.3 kB/s eta 0:00:00\n", "Installing collected packages: setuptools\n", "Successfully installed setuptools-75.2.0\n" ] } ], "source": [ "pip install --upgrade setuptools" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "c:\\Users\\Admin\\StudioProjects\\AIM-PIbd-31-Alekseev-I-S\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", " pd.to_datetime(\n", "c:\\Users\\Admin\\StudioProjects\\AIM-PIbd-31-Alekseev-I-S\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", " pd.to_datetime(\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", "id \n", "1 1.198271 2.679415 13569.249224 5.483974e+07 \n", "2 0.265800 0.594347 73588.726663 6.143813e+07 \n", "3 0.722030 1.614507 114258.692129 4.979872e+07 \n", "4 0.096506 0.215794 24764.303138 2.543497e+07 \n", "5 0.255009 0.570217 42737.733765 4.627557e+07 \n", "\n", " orbiting_body sentry_object absolute_magnitude hazardous \n", "id \n", "1 Earth False 16.73 False \n", "2 Earth False 20.00 True \n", "3 Earth False 17.83 False \n", "4 Earth False 22.20 False \n", "5 Earth False 20.09 True \n", " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", "id \n", "17465 0.265800 0.594347 6639.199305 7.248720e+07 \n", "10057 0.023150 0.051765 66065.475247 2.182677e+07 \n", "6905 0.148784 0.332690 35092.567329 6.261058e+07 \n", "40989 0.007321 0.016370 24301.494107 2.765938e+06 \n", "23499 0.044112 0.098637 33502.608133 7.025798e+07 \n", "\n", " orbiting_body sentry_object absolute_magnitude hazardous \n", "id \n", "17465 Earth False 20.00 False \n", "10057 Earth False 25.30 False \n", "6905 Earth False 21.26 False \n", "40989 Earth False 27.80 False \n", "23499 Earth False 23.90 False \n", " est_diameter_min est_diameter_max relative_velocity miss_distance \\\n", "id \n", "66148 0.020163 0.045086 24899.946486 7.427192e+06 \n", "68694 0.175612 0.392681 67322.863166 3.526971e+07 \n", "17013 0.031809 0.071128 20216.336390 5.832689e+07 \n", "69199 0.007321 0.016370 40616.528788 2.591562e+07 \n", "45632 0.199781 0.446725 86281.198262 6.763452e+07 \n", "\n", " orbiting_body sentry_object absolute_magnitude hazardous \n", "id \n", "66148 Earth False 25.60 False \n", "68694 Earth False 20.90 True \n", "17013 Earth False 24.61 False \n", "69199 Earth False 27.80 False \n", "45632 Earth False 20.62 True \n" ] } ], "source": [ "import pandas as pd\n", "import featuretools as ft\n", "from sklearn.model_selection import train_test_split\n", "\n", "# Загрузка данных\n", "df = pd.read_csv(\".//static//csv//neo.csv\")\n", "\n", "# Создание уникального идентификатора для каждой строки\n", "df['id'] = range(1, len(df) + 1)\n", "\n", "# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)\n", "# Удаление дубликатов по всем столбцам\n", "df = df.drop_duplicates()\n", "\n", "# Создание EntitySet\n", "es = ft.EntitySet(id='objects_data')\n", "\n", "# Добавление датафрейма с объектами\n", "es = es.add_dataframe(\n", " dataframe_name='objects',\n", " dataframe=df,\n", " index='id'\n", ")\n", "\n", "# Генерация признаков с помощью глубокой синтезы признаков\n", "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='objects', max_depth=1)\n", "\n", "# Выводим первые 5 строк сгенерированного набора признаков\n", "print(feature_matrix.head())\n", "\n", "# Разделение данных на обучающую и тестовую выборки\n", "train_data, test_data = train_test_split(df, test_size=0.3, random_state=42)\n", "\n", "# Разделение оставшейся части на валидационную и тестовую выборки\n", "val_data, test_data = train_test_split(test_data, test_size=0.5, random_state=42)\n", "\n", "# Преобразование признаков для контрольной и тестовой выборок\n", "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data['id'])\n", "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data['id'])\n", "\n", "# Вывод первых 5 строк сгенерированных признаков для валидационной и тестовой выборок\n", "print(val_feature_matrix.head())\n", "print(test_feature_matrix.head())" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Оценка качества каждого набора признаков\n", "\n", "Представим основные оценки качества наборов признаков: \n", "\n", "* Предсказательная способность Метрики: RMSE, MAE, R²\n", "\n", " Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.\n", "\n", "* Скорость вычисления \n", "\n", " Методы: Измерение времени выполнения генерации признаков и обучения модели.\n", "\n", "* Надежность \n", "\n", " Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.\n", "\n", "* Корреляция \n", "\n", " Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.\n", "\n", "* Цельность \n", "\n", " Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Время обучения модели: 0.04 секунд\n", "Среднеквадратичная ошибка: 5.08\n" ] } ], "source": [ "import time\n", "from sklearn.model_selection import train_test_split\n", "from sklearn.linear_model import LinearRegression\n", "from sklearn.metrics import mean_squared_error\n", "\n", "# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную\n", "X = feature_matrix.drop('absolute_magnitude', axis=1)\n", "y = feature_matrix['absolute_magnitude']\n", "\n", "# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)\n", "X = pd.get_dummies(X, drop_first=True)\n", "\n", "# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением\n", "X.fillna(X.median(), inplace=True)\n", "\n", "X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)\n", "\n", "# Обучение модели\n", "model = LinearRegression()\n", "\n", "# Начинаем отсчет времени\n", "start_time = time.time()\n", "model.fit(X_train, y_train)\n", "\n", "# Время обучения модели\n", "train_time = time.time() - start_time\n", "\n", "# Предсказания и оценка модели и вычисляем среднеквадратичную ошибку\n", "predictions = model.predict(X_val)\n", "mse = mean_squared_error(y_val, predictions)\n", "\n", "print(f'Время обучения модели: {train_time:.2f} секунд')\n", "print(f'Среднеквадратичная ошибка: {mse:.2f}')" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "c:\\Users\\Admin\\StudioProjects\\AIM-PIbd-31-Alekseev-I-S\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", " warnings.warn(\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "\n", "RMSE: 0.007747870644321186\n", "R²: 0.9999928256622078\n", "MAE: 0.00013519980189125583 \n", "\n", "Кросс-валидация RMSE: 0.010153168491376482 \n", "\n", "Train RMSE: 0.004358914935336195\n", "Train R²: 0.999997732046293\n", "Train MAE: 4.508435629289199e-05\n", "\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "c:\\Users\\Admin\\StudioProjects\\AIM-PIbd-31-Alekseev-I-S\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", " warnings.warn(\n" ] } ], "source": [ "from sklearn.ensemble import RandomForestRegressor\n", "from sklearn.metrics import r2_score, mean_absolute_error\n", "from sklearn.model_selection import cross_val_score\n", "\n", "\n", "# Удаление строк с NaN\n", "feature_matrix = feature_matrix.dropna()\n", "val_feature_matrix = val_feature_matrix.dropna()\n", "test_feature_matrix = test_feature_matrix.dropna()\n", "\n", "# Разделение данных на обучающую и тестовую выборки\n", "X_train = feature_matrix.drop('absolute_magnitude', axis=1)\n", "y_train = feature_matrix['absolute_magnitude']\n", "X_val = val_feature_matrix.drop('absolute_magnitude', axis=1)\n", "y_val = val_feature_matrix['absolute_magnitude']\n", "X_test = test_feature_matrix.drop('absolute_magnitude', axis=1)\n", "y_test = test_feature_matrix['absolute_magnitude']\n", "\n", "X_test = X_test.reindex(columns=X_train.columns, fill_value=0) \n", "\n", "# Кодирования категориальных переменных с использованием одноразового кодирования\n", "X = pd.get_dummies(X, drop_first=True)\n", "\n", "# Разобьём тренировочный тест и примерку модели\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", "\n", "# Выбор модели\n", "model = RandomForestRegressor(random_state=42)\n", "\n", "# Обучение модели\n", "model.fit(X_train, y_train)\n", "\n", "# Предсказание и оценка\n", "y_pred = model.predict(X_test)\n", "\n", "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", "r2 = r2_score(y_test, y_pred)\n", "mae = mean_absolute_error(y_test, y_pred)\n", "\n", "print()\n", "print(f\"RMSE: {rmse}\")\n", "print(f\"R²: {r2}\")\n", "print(f\"MAE: {mae} \\n\")\n", "\n", "# Кросс-валидация\n", "scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n", "rmse_cv = (-scores.mean())**0.5\n", "print(f\"Кросс-валидация RMSE: {rmse_cv} \\n\")\n", "\n", "# Анализ важности признаков\n", "feature_importances = model.feature_importances_\n", "feature_names = X_train.columns\n", "\n", "# Проверка на переобучение\n", "y_train_pred = model.predict(X_train)\n", "\n", "rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n", "r2_train = r2_score(y_train, y_train_pred)\n", "mae_train = mean_absolute_error(y_train, y_train_pred)\n", "\n", "print(f\"Train RMSE: {rmse_train}\")\n", "print(f\"Train R²: {r2_train}\")\n", "print(f\"Train MAE: {mae_train}\")\n", "print()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Выводы:\n", "\n", "Выбранная модель, а именно Модель случайного леса, показала неплохие результаты прогнозирования потенциальной опасности различных объектов. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.\n", "\n", "* Точность предсказаний: Модель демонстрирует довольно неплохой(хотя мог бы быть и получше) R² (0.9999) на обучающей выборке и R² (0.9999), что указывает на приемлемую точность предсказания модели. Значения RMSE и MAE не высоки (0.00435 и 4.5084), что свидетельствует о том, что модель достаточно точно предсказывает значения, но есть и небольшой процент ошибок на тестовой.\n", "\n", "* Переобучение: Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя. R² на обучающей выборке ниже, чем на тестовой - еще один признак того, что модель не склонна к прееобучению\n", "\n", "* Кросс-валидация: При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных." ] } ], "metadata": { "kernelspec": { "display_name": "aimenv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.12.6" } }, "nbformat": 4, "nbformat_minor": 2 }