From 6e20df49e5a2b7105f4383693b465312d3520e97 Mon Sep 17 00:00:00 2001 From: kamilia Date: Fri, 25 Oct 2024 18:34:15 +0400 Subject: [PATCH 1/2] lab 3 is done --- lab_3/lab_3.ipynb | 522 ++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 522 insertions(+) create mode 100644 lab_3/lab_3.ipynb diff --git a/lab_3/lab_3.ipynb b/lab_3/lab_3.ipynb new file mode 100644 index 0000000..2d638eb --- /dev/null +++ b/lab_3/lab_3.ipynb @@ -0,0 +1,522 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Вариант 19: Данные о миллионерах\n", + "### Бизнес-цели:\n", + "Цель 1: Исследовать распределение богатства среди миллиардеров и выявить ключевые факторы, которые способствуют их успеху.\n", + "Цель 2: Оценить влияние миллиардеров на экономику и общество, включая их вклад в благотворительность, инновации и социальные проекты.\n", + "### Цели технического проекта:\n", + "Для бизнес-цели 1:\n", + "Сбор и подготовка данных:\n", + "Очистка данных от пропусков, выбросов и дубликатов.\n", + "Преобразование категориальных переменных в числовые.\n", + "Разделение данных на обучающую и тестовую выборки.\n", + "Разработка и обучение модели:\n", + "Исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.).\n", + "Обучение моделей на обучающей выборке.\n", + "Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", + "Развертывание модели:\n", + "Интеграция модели в существующую систему или разработка нового API для доступа к прогнозам.\n", + "Создание веб-интерфейса или мобильного приложения для удобного использования модели.\n", + "Для бизнес-цели 2:\n", + "Сбор и подготовка данных:\n", + "Очистка данных от пропусков, выбросов и дубликатов.\n", + "Преобразование категориальных переменных в числовые.\n", + "Разделение данных на обучающую и тестовую выборки.\n", + "Разработка и обучение модели:\n", + "Исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.).\n", + "Обучение моделей на обучающей выборке.\n", + "Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", + "Развертывание модели:\n", + "Создать интерактивные дашборды для визуализации вклада миллиардеров в разные сферы.\n", + "Применить статистические методы и машинное обучение для анализа влияния миллиардеров на экономику и общество.\n", + "Определить ключевые факторы, влияющие на вклад миллиардеров в благотворительность и инновации." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Rank ', 'Name', 'Networth', 'Age', 'Country', 'Source', 'Industry'], dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import matplotlib\n", + "import matplotlib.ticker as ticker\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "df = pn.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разделим на 3 выборки\n" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (1560, 6)\n", + "Размер контрольной выборки: (520, 6)\n", + "Размер тестовой выборки: (520, 6)\n" + ] + } + ], + "source": [ + "# Предварительная обработка данных \n", + "# Удаление пропусков и дубликатов\n", + "df = df.dropna()\n", + "df = df.drop_duplicates()\n", + "\n", + "# Разделение данных на признаки (X) и целевую переменную (y)\n", + "# В данном случае, предположим, что мы хотим предсказать 'Networth'\n", + "X = df.drop(columns=['Networth'])\n", + "y = df['Networth']\n", + "\n", + "# Разбиение данных на обучающую и тестовую выборки\n", + "# Сначала разделим на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Затем разделим обучающую выборку на обучающую и контрольную выборки\n", + "X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)\n", + "\n", + "# Проверка размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Создание DataFrame для обучающей, контрольной и тестовой выборок\n", + "train_data = pd.DataFrame({'Networth': y_train})\n", + "val_data = pd.DataFrame({'Networth': y_val})\n", + "test_data = pd.DataFrame({'Networth': y_test})\n", + "\n", + "# Гистограмма распределения Networth в обучающей выборке\n", + "sns.histplot(train_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в обучающей выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения Networth в контрольной выборке\n", + "sns.histplot(val_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в контрольной выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения Networth в тестовой выборке\n", + "sns.histplot(test_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в тестовой выборке')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Процесс конструирования признаков\n", + "Задача 1: Исследовать распределение богатства среди миллиардеров и выявить ключевые факторы, которые способствуют их успеху.\n", + "Цель технического проекта: Разработка модели машинного обучения для анализа распределения богатства среди миллиардеров и выявления ключевых факторов их успеха.\n", + "\n", + "Задача 2: Оценить влияние миллиардеров на экономику и общество, включая их вклад в благотворительность, инновации и социальные проекты.\n", + "Цель технического проекта: Использование прогнозов влияния миллиардеров на экономику и общество для оптимизации стратегий благотворительности и инвестиций в инновации.\n", + "\n", + "\n", + "### Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "\n", + "One-hot encoding: Преобразование категориальных признаков в бинарные векторы." + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Rank Name Networth Age Country_Argentina \\\n", + "0 1 Elon Musk 219.0 50 0.0 \n", + "1 2 Jeff Bezos 171.0 58 0.0 \n", + "2 3 Bernard Arnault & family 158.0 73 0.0 \n", + "3 4 Bill Gates 129.0 66 0.0 \n", + "4 5 Warren Buffett 118.0 91 0.0 \n", + "\n", + " Country_Australia Country_Austria Country_Barbados Country_Belgium \\\n", + "0 0.0 0.0 0.0 0.0 \n", + "1 0.0 0.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 0.0 \n", + "3 0.0 0.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 0.0 \n", + "\n", + " Country_Belize ... Industry_Logistics Industry_Manufacturing \\\n", + "0 0.0 ... 0.0 0.0 \n", + "1 0.0 ... 0.0 0.0 \n", + "2 0.0 ... 0.0 0.0 \n", + "3 0.0 ... 0.0 0.0 \n", + "4 0.0 ... 0.0 0.0 \n", + "\n", + " Industry_Media & Entertainment Industry_Metals & Mining \\\n", + "0 0.0 0.0 \n", + "1 0.0 0.0 \n", + "2 0.0 0.0 \n", + "3 0.0 0.0 \n", + "4 0.0 0.0 \n", + "\n", + " Industry_Real Estate Industry_Service Industry_Sports \\\n", + "0 0.0 0.0 0.0 \n", + "1 0.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 \n", + "3 0.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 \n", + "\n", + " Industry_Technology Industry_Telecom Industry_diversified \n", + "0 0.0 0.0 0.0 \n", + "1 1.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 \n", + "3 1.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 \n", + "\n", + "[5 rows x 989 columns]\n" + ] + } + ], + "source": [ + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "\n", + "# Определение категориальных признаков\n", + "categorical_features = ['Country', 'Source', 'Industry']\n", + "\n", + "# Применение one-hot encoding\n", + "encoder = OneHotEncoder(sparse_output=False, drop='first')\n", + "encoded_features = encoder.fit_transform(df[categorical_features])\n", + "\n", + "# Создание DataFrame с закодированными признаками\n", + "encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(categorical_features))\n", + "\n", + "# Объединение закодированных признаков с исходным DataFrame\n", + "df_encoded = pd.concat([df.drop(columns=categorical_features), encoded_df], axis=1)\n", + "\n", + "# Проверка результата\n", + "print(df_encoded.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Ручной синтез\n", + "Создание новых признаков на основе экспертных знаний и логики предметной области. Например, можно создать признак \"квадрат возраста\" или \"возраст в квадрате\", который может помочь учесть нелинейные зависимости в данных." + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [], + "source": [ + "# Создание нового признака 'Age Squared'\n", + "df['Age Squared'] = df['Age'] ** 2" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети." + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.model_selection import train_test_split\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "\n", + "# Определение числовых признаков\n", + "numerical_features = df.select_dtypes(include=['number']).columns.tolist()\n", + "numerical_features.remove('Networth') # Исключаем целевую переменную\n", + "\n", + "# Создание DataFrame для обучающей, контрольной и тестовой выборок\n", + "train_data = pd.DataFrame(X_train, columns=X.columns)\n", + "val_data = pd.DataFrame(X_val, columns=X.columns)\n", + "test_data = pd.DataFrame(X_test, columns=X.columns)\n", + "\n", + "# Пример масштабирования числовых признаков\n", + "scaler = StandardScaler()\n", + "train_data[numerical_features] = scaler.fit_transform(train_data[numerical_features])\n", + "val_data[numerical_features] = scaler.transform(val_data[numerical_features])\n", + "test_data[numerical_features] = scaler.transform(test_data[numerical_features])\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Конструирование признаков с применением фреймворка Featuretools" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" + ] + } + ], + "source": [ + "import featuretools as ft\n", + "\n", + "# Добавление уникального идентификатора 'id'\n", + "# Добавление уникального идентификатора 'id'\n", + "train_data['id'] = train_data.index\n", + "val_data['id'] = val_data.index\n", + "test_data['id'] = test_data.index\n", + "\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='billionaires_data')\n", + "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Оценка качества каждого набора признаков\n", + "Предсказательная способность\n", + "Метрики: RMSE, MAE, R²\n", + "\n", + "Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.\n", + "\n", + "Скорость вычисления\n", + "Методы: Измерение времени выполнения генерации признаков и обучения модели.\n", + "\n", + "Надежность\n", + "Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.\n", + "\n", + "Корреляция\n", + "Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.\n", + "\n", + "Цельность\n", + "Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели." + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" + ] + } + ], + "source": [ + "import featuretools as ft\n", + "\n", + "# Добавление уникального идентификатора 'id'\n", + "train_data['id'] = train_data.index\n", + "val_data['id'] = val_data.index\n", + "test_data['id'] = test_data.index\n", + "\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='billionaires_data')\n", + "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Validation Accuracy: 0.51\n", + "Test Accuracy: 0.48\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.ensemble import RandomForestClassifier\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Предположим, что df - это ваш DataFrame с данными\n", + "# Убедитесь, что у вас есть данные в df\n", + "\n", + "# Разделение данных на признаки (X) и целевую переменную (y)\n", + "# Если у вас нет целевой переменной, просто используйте все столбцы как признаки\n", + "X = df # Все данные без целевого признака\n", + "\n", + "# В этом случае, если у вас нет меток, вы можете использовать случайные метки для обучения\n", + "# Например, создадим случайные метки для примера\n", + "import numpy as np\n", + "\n", + "y = np.random.randint(0, 2, size=len(X)) # Создание бинарной целевой переменной (0 или 1)\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Объединение данных для корректного преобразования категориальных признаков\n", + "X_combined = pd.concat([X_train, X_val, X_test], keys=['train', 'val', 'test'])\n", + "X_combined = pd.get_dummies(X_combined)\n", + "\n", + "# Разделение обратно на обучающую и тестовую выборки\n", + "X_train = X_combined.xs('train')\n", + "X_val = X_combined.xs('val')\n", + "X_test = X_combined.xs('test')\n", + "\n", + "# Обучение модели\n", + "model = RandomForestClassifier(random_state=42)\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Валидация модели\n", + "y_val_pred = model.predict(X_val)\n", + "val_accuracy = accuracy_score(y_val, y_val_pred)\n", + "print(f'Validation Accuracy: {val_accuracy:.2f}')\n", + "\n", + "# Тестирование модели\n", + "y_test_pred = model.predict(X_test)\n", + "test_accuracy = accuracy_score(y_test, y_test_pred)\n", + "print(f'Test Accuracy: {test_accuracy:.2f}')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Точность предсказаний: Модель показывает низкую точность на валидационной и тестовой выборках (0.51 и 0.48 соответственно), что указывает на то, что модель не очень хорошо объясняет вариацию целевой переменной. Это может быть связано с недостаточной информативностью признаков или сложностью задачи классификации.\n", + "\n", + "Переобучение: Разница между точностью на обучающей и тестовой выборках небольшая, что указывает на то, что переобучение не является критическим. Однако, низкая точность на тестовой выборке может свидетельствовать о том, что модель недостаточно хорошо обобщает данные.\n", + "\n", + "Кросс-валидация: Значение точности после кросс-валидации может быть нестабильным, что указывает на необходимость дальнейшего анализа и улучшения модели. Возможно, стоит рассмотреть другие модели или методы предобработки данных для повышения точности." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} From 04af310f79ef71cb88870e0763efb2f6b8e09c48 Mon Sep 17 00:00:00 2001 From: kamilia Date: Fri, 25 Oct 2024 18:37:54 +0400 Subject: [PATCH 2/2] lab 3 done --- lab_3/lab_3.ipynb | 349 ++++++++++++++++++++++++++++++++-------------- 1 file changed, 243 insertions(+), 106 deletions(-) diff --git a/lab_3/lab_3.ipynb b/lab_3/lab_3.ipynb index 2d638eb..f28c9dc 100644 --- a/lab_3/lab_3.ipynb +++ b/lab_3/lab_3.ipynb @@ -38,7 +38,7 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 22, "metadata": {}, "outputs": [ { @@ -56,7 +56,7 @@ "import matplotlib.ticker as ticker\n", "import seaborn as sns\n", "from sklearn.model_selection import train_test_split\n", - "df = pn.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", "print(df.columns)" ] }, @@ -69,7 +69,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 23, "metadata": {}, "outputs": [ { @@ -108,7 +108,7 @@ }, { "cell_type": "code", - "execution_count": null, + "execution_count": 24, "metadata": {}, "outputs": [ { @@ -183,7 +183,7 @@ }, { "cell_type": "code", - "execution_count": 14, + "execution_count": 25, "metadata": {}, "outputs": [ { @@ -269,7 +269,7 @@ }, { "cell_type": "code", - "execution_count": 21, + "execution_count": 26, "metadata": {}, "outputs": [], "source": [ @@ -286,7 +286,7 @@ }, { "cell_type": "code", - "execution_count": 30, + "execution_count": 27, "metadata": {}, "outputs": [], "source": [ @@ -323,43 +323,103 @@ }, { "cell_type": "code", - "execution_count": 35, + "execution_count": 28, "metadata": {}, "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Rank Networth Age Country Industry\n", + "id \n", + "1 1 219.0 50 United States Automotive \n", + "2 2 171.0 58 United States Technology \n", + "3 3 158.0 73 France Fashion & Retail \n", + "4 4 129.0 66 United States Technology \n", + "5 5 118.0 91 United States Finance & Investments \n", + " Rank Networth Age Country Industry\n", + "id \n", + "619 601 4.7 77 United States Logistics \n", + "195 192 10.3 56 Russia Finance & Investments \n", + "1245 1238 2.5 73 Taiwan Fashion & Retail \n", + "2014 1929 1.5 68 Italy Service \n", + "1801 1729 1.7 79 United Kingdom Energy \n", + " Rank Networth Age Country Industry\n", + "id \n", + "473 471 5.6 83 United States Real Estate \n", + "85 85 18.7 71 Germany Fashion & Retail \n", + "1552 1513 2.0 75 Spain Construction & Engineering \n", + "2354 2324 1.2 56 United States Finance & Investments \n", + "2360 2324 1.2 65 China Manufacturing \n" + ] + }, { "name": "stderr", "output_type": "stream", "text": [ - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", - " warnings.warn(\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", - " warnings.warn(\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n", + " pd.to_datetime(\n" ] } ], "source": [ + "import pandas as pd\n", "import featuretools as ft\n", + "from sklearn.model_selection import train_test_split\n", "\n", - "# Добавление уникального идентификатора 'id'\n", - "# Добавление уникального идентификатора 'id'\n", - "train_data['id'] = train_data.index\n", - "val_data['id'] = val_data.index\n", - "test_data['id'] = test_data.index\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", "\n", - "# Определение сущностей\n", + "# Создание уникального идентификатора для каждой строки\n", + "df['id'] = range(1, len(df) + 1)\n", + "\n", + "# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)\n", + "# Удаление дубликатов по всем столбцам\n", + "df = df.drop_duplicates()\n", + "\n", + "# Создание EntitySet\n", "es = ft.EntitySet(id='billionaires_data')\n", - "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", "\n", - "# Генерация признаков\n", - "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", + "# Добавление датафрейма с миллиардерами\n", + "es = es.add_dataframe(\n", + " dataframe_name='billionaires',\n", + " dataframe=df,\n", + " index='id'\n", + ")\n", + "\n", + "# Генерация признаков с помощью глубокой синтезы признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=1)\n", + "\n", + "# Выводим первые 5 строк сгенерированного набора признаков\n", + "print(feature_matrix.head())\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "train_data, test_data = train_test_split(df, test_size=0.3, random_state=42)\n", + "\n", + "# Разделение оставшейся части на валидационную и тестовую выборки\n", + "val_data, test_data = train_test_split(test_data, test_size=0.5, random_state=42)\n", "\n", "# Преобразование признаков для контрольной и тестовой выборок\n", - "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", - "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data['id'])\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data['id'])\n", + "\n", + "# Вывод первых 5 строк сгенерированных признаков для валидационной и тестовой выборок\n", + "print(val_feature_matrix.head())\n", + "print(test_feature_matrix.head())" ] }, { @@ -387,114 +447,191 @@ }, { "cell_type": "code", - "execution_count": 34, - "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", - " warnings.warn(\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", - " warnings.warn(\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", - "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", - " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" - ] - } - ], - "source": [ - "import featuretools as ft\n", - "\n", - "# Добавление уникального идентификатора 'id'\n", - "train_data['id'] = train_data.index\n", - "val_data['id'] = val_data.index\n", - "test_data['id'] = test_data.index\n", - "\n", - "# Определение сущностей\n", - "es = ft.EntitySet(id='billionaires_data')\n", - "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", - "\n", - "# Генерация признаков\n", - "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", - "\n", - "# Преобразование признаков для контрольной и тестовой выборок\n", - "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", - "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" - ] - }, - { - "cell_type": "code", - "execution_count": 45, + "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Validation Accuracy: 0.51\n", - "Test Accuracy: 0.48\n" + "Время обучения модели: 2.38 секунд\n", + "Среднеквадратичная ошибка: 37.42\n" ] } ], "source": [ - "import pandas as pd\n", + "import time\n", "from sklearn.model_selection import train_test_split\n", - "from sklearn.ensemble import RandomForestClassifier\n", - "from sklearn.metrics import accuracy_score\n", + "from sklearn.linear_model import LinearRegression\n", + "from sklearn.metrics import mean_squared_error\n", "\n", - "# Предположим, что df - это ваш DataFrame с данными\n", - "# Убедитесь, что у вас есть данные в df\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", "\n", - "# Разделение данных на признаки (X) и целевую переменную (y)\n", - "# Если у вас нет целевой переменной, просто используйте все столбцы как признаки\n", - "X = df # Все данные без целевого признака\n", + "# Разделение данных на признаки и целевую переменную\n", + "X = df.drop('Networth', axis=1)\n", + "y = df['Networth']\n", "\n", - "# В этом случае, если у вас нет меток, вы можете использовать случайные метки для обучения\n", - "# Например, создадим случайные метки для примера\n", - "import numpy as np\n", + "# One-hot encoding для категориальных переменных\n", + "X = pd.get_dummies(X, drop_first=True)\n", "\n", - "y = np.random.randint(0, 2, size=len(X)) # Создание бинарной целевой переменной (0 или 1)\n", + "# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением\n", + "X.fillna(X.median(), inplace=True)\n", "\n", - "# Разделение данных на обучающую и тестовую выборки\n", - "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", - "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", - "\n", - "# Объединение данных для корректного преобразования категориальных признаков\n", - "X_combined = pd.concat([X_train, X_val, X_test], keys=['train', 'val', 'test'])\n", - "X_combined = pd.get_dummies(X_combined)\n", - "\n", - "# Разделение обратно на обучающую и тестовую выборки\n", - "X_train = X_combined.xs('train')\n", - "X_val = X_combined.xs('val')\n", - "X_test = X_combined.xs('test')\n", + "# Разделение данных на обучающую и валидационную выборки\n", + "X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)\n", "\n", "# Обучение модели\n", - "model = RandomForestClassifier(random_state=42)\n", + "model = LinearRegression()\n", + "\n", + "# Начинаем отсчет времени\n", + "start_time = time.time()\n", "model.fit(X_train, y_train)\n", "\n", - "# Валидация модели\n", - "y_val_pred = model.predict(X_val)\n", - "val_accuracy = accuracy_score(y_val, y_val_pred)\n", - "print(f'Validation Accuracy: {val_accuracy:.2f}')\n", + "# Время обучения модели\n", + "train_time = time.time() - start_time\n", "\n", - "# Тестирование модели\n", - "y_test_pred = model.predict(X_test)\n", - "test_accuracy = accuracy_score(y_test, y_test_pred)\n", - "print(f'Test Accuracy: {test_accuracy:.2f}')" + "# Предсказания и оценка модели\n", + "predictions = model.predict(X_val)\n", + "mse = mean_squared_error(y_val, predictions)\n", + "\n", + "print(f'Время обучения модели: {train_time:.2f} секунд')\n", + "print(f'Среднеквадратичная ошибка: {mse:.2f}')" + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "RMSE: 0.1079309363400079\n", + "R²: 0.9995098829408076\n", + "MAE: 0.013002884615386595 \n", + "\n", + "Кросс-валидация RMSE: 1.8428859549056362 \n", + "\n", + "Train RMSE: 0.595273758834312\n", + "Train R²: 0.9973914757181492\n", + "Train MAE: 0.0366675480769256\n", + "\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n", + " warnings.warn(\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "from sklearn.ensemble import RandomForestRegressor\n", + "from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error\n", + "from sklearn.model_selection import train_test_split, cross_val_score\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "\n", + "# Удаление строк с NaN\n", + "df = df.dropna()\n", + "\n", + "# Разделение данных на признаки и целевую переменную\n", + "X = df.drop('Networth', axis=1)\n", + "y = df['Networth']\n", + "\n", + "# One-hot encoding для категориальных переменных\n", + "X = pd.get_dummies(X, drop_first=True)\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Выбор модели\n", + "model = RandomForestRegressor(random_state=42)\n", + "\n", + "# Обучение модели\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Предсказание и оценка\n", + "y_pred = model.predict(X_test)\n", + "\n", + "rmse = mean_squared_error(y_test, y_pred, squared=False)\n", + "r2 = r2_score(y_test, y_pred)\n", + "mae = mean_absolute_error(y_test, y_pred)\n", + "\n", + "print(f\"RMSE: {rmse}\")\n", + "print(f\"R²: {r2}\")\n", + "print(f\"MAE: {mae} \\n\")\n", + "\n", + "# Кросс-валидация\n", + "scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n", + "rmse_cv = (-scores.mean())**0.5\n", + "print(f\"Кросс-валидация RMSE: {rmse_cv} \\n\")\n", + "\n", + "# Анализ важности признаков\n", + "feature_importances = model.feature_importances_\n", + "feature_names = X_train.columns\n", + "\n", + "# Проверка на переобучение\n", + "y_train_pred = model.predict(X_train)\n", + "\n", + "rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n", + "r2_train = r2_score(y_train, y_train_pred)\n", + "mae_train = mean_absolute_error(y_train, y_train_pred)\n", + "\n", + "print(f\"Train RMSE: {rmse_train}\")\n", + "print(f\"Train R²: {r2_train}\")\n", + "print(f\"Train MAE: {mae_train}\")\n", + "print()\n", + "\n", + "# Визуализация результатов\n", + "plt.figure(figsize=(10, 6))\n", + "plt.scatter(y_test, y_pred, alpha=0.5)\n", + "plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n", + "plt.xlabel('Фактическая чистая стоимость')\n", + "plt.ylabel('Прогнозируемая чистая стоимость')\n", + "plt.title('Фактическая чистая стоимость по сравнению с прогнозируемой')\n", + "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Точность предсказаний: Модель показывает низкую точность на валидационной и тестовой выборках (0.51 и 0.48 соответственно), что указывает на то, что модель не очень хорошо объясняет вариацию целевой переменной. Это может быть связано с недостаточной информативностью признаков или сложностью задачи классификации.\n", + "## Вывод\n", + "Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании чистой стоимости миллиардеров. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.\n", "\n", - "Переобучение: Разница между точностью на обучающей и тестовой выборках небольшая, что указывает на то, что переобучение не является критическим. Однако, низкая точность на тестовой выборке может свидетельствовать о том, что модель недостаточно хорошо обобщает данные.\n", + "Точность предсказаний: Модель демонстрирует довольно высокий R² (0.9995), что указывает на большую часть вариации целевого признака (чистой стоимости). Однако, значения RMSE и MAE остаются высоки (0.1079 и 0.0130), что свидетельствует о том, что модель не всегда точно предсказывает значения, особенно для миллиардеров с высокими или низкими чистыми стоимостями.\n", "\n", - "Кросс-валидация: Значение точности после кросс-валидации может быть нестабильным, что указывает на необходимость дальнейшего анализа и улучшения модели. Возможно, стоит рассмотреть другие модели или методы предобработки данных для повышения точности." + "Переобучение: Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя.\n", + "\n", + "Кросс-валидация: При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных. Для повышения устойчивости модели возможно стоит провести дальнейшую настройку гиперпараметров.\n", + "\n", + "Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях.\n", + "\n", + "Заключение: Модель случайного леса показала хорошие результаты, но есть потенциал для улучшения, особенно в части точности предсказаний для экстремальных значений чистой стоимости." ] } ],