From 6e20df49e5a2b7105f4383693b465312d3520e97 Mon Sep 17 00:00:00 2001 From: kamilia Date: Fri, 25 Oct 2024 18:34:15 +0400 Subject: [PATCH] lab 3 is done --- lab_3/lab_3.ipynb | 522 ++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 522 insertions(+) create mode 100644 lab_3/lab_3.ipynb diff --git a/lab_3/lab_3.ipynb b/lab_3/lab_3.ipynb new file mode 100644 index 0000000..2d638eb --- /dev/null +++ b/lab_3/lab_3.ipynb @@ -0,0 +1,522 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Вариант 19: Данные о миллионерах\n", + "### Бизнес-цели:\n", + "Цель 1: Исследовать распределение богатства среди миллиардеров и выявить ключевые факторы, которые способствуют их успеху.\n", + "Цель 2: Оценить влияние миллиардеров на экономику и общество, включая их вклад в благотворительность, инновации и социальные проекты.\n", + "### Цели технического проекта:\n", + "Для бизнес-цели 1:\n", + "Сбор и подготовка данных:\n", + "Очистка данных от пропусков, выбросов и дубликатов.\n", + "Преобразование категориальных переменных в числовые.\n", + "Разделение данных на обучающую и тестовую выборки.\n", + "Разработка и обучение модели:\n", + "Исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.).\n", + "Обучение моделей на обучающей выборке.\n", + "Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", + "Развертывание модели:\n", + "Интеграция модели в существующую систему или разработка нового API для доступа к прогнозам.\n", + "Создание веб-интерфейса или мобильного приложения для удобного использования модели.\n", + "Для бизнес-цели 2:\n", + "Сбор и подготовка данных:\n", + "Очистка данных от пропусков, выбросов и дубликатов.\n", + "Преобразование категориальных переменных в числовые.\n", + "Разделение данных на обучающую и тестовую выборки.\n", + "Разработка и обучение модели:\n", + "Исследование различных алгоритмов машинного обучения (линейная регрессия, деревья решений, случайный лес и т.д.).\n", + "Обучение моделей на обучающей выборке.\n", + "Оценка качества моделей на тестовой выборке с помощью метрик RMSE, MAE и др.\n", + "Развертывание модели:\n", + "Создать интерактивные дашборды для визуализации вклада миллиардеров в разные сферы.\n", + "Применить статистические методы и машинное обучение для анализа влияния миллиардеров на экономику и общество.\n", + "Определить ключевые факторы, влияющие на вклад миллиардеров в благотворительность и инновации." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Rank ', 'Name', 'Networth', 'Age', 'Country', 'Source', 'Industry'], dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "import matplotlib\n", + "import matplotlib.ticker as ticker\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "df = pn.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разделим на 3 выборки\n" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: (1560, 6)\n", + "Размер контрольной выборки: (520, 6)\n", + "Размер тестовой выборки: (520, 6)\n" + ] + } + ], + "source": [ + "# Предварительная обработка данных \n", + "# Удаление пропусков и дубликатов\n", + "df = df.dropna()\n", + "df = df.drop_duplicates()\n", + "\n", + "# Разделение данных на признаки (X) и целевую переменную (y)\n", + "# В данном случае, предположим, что мы хотим предсказать 'Networth'\n", + "X = df.drop(columns=['Networth'])\n", + "y = df['Networth']\n", + "\n", + "# Разбиение данных на обучающую и тестовую выборки\n", + "# Сначала разделим на обучающую и тестовую выборки\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n", + "\n", + "# Затем разделим обучающую выборку на обучающую и контрольную выборки\n", + "X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)\n", + "\n", + "# Проверка размеров выборок\n", + "print(\"Размер обучающей выборки:\", X_train.shape)\n", + "print(\"Размер контрольной выборки:\", X_val.shape)\n", + "print(\"Размер тестовой выборки:\", X_test.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Создание DataFrame для обучающей, контрольной и тестовой выборок\n", + "train_data = pd.DataFrame({'Networth': y_train})\n", + "val_data = pd.DataFrame({'Networth': y_val})\n", + "test_data = pd.DataFrame({'Networth': y_test})\n", + "\n", + "# Гистограмма распределения Networth в обучающей выборке\n", + "sns.histplot(train_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в обучающей выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения Networth в контрольной выборке\n", + "sns.histplot(val_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в контрольной выборке')\n", + "plt.show()\n", + "\n", + "# Гистограмма распределения Networth в тестовой выборке\n", + "sns.histplot(test_data['Networth'], kde=True)\n", + "plt.title('Распределение Networth в тестовой выборке')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Процесс конструирования признаков\n", + "Задача 1: Исследовать распределение богатства среди миллиардеров и выявить ключевые факторы, которые способствуют их успеху.\n", + "Цель технического проекта: Разработка модели машинного обучения для анализа распределения богатства среди миллиардеров и выявления ключевых факторов их успеха.\n", + "\n", + "Задача 2: Оценить влияние миллиардеров на экономику и общество, включая их вклад в благотворительность, инновации и социальные проекты.\n", + "Цель технического проекта: Использование прогнозов влияния миллиардеров на экономику и общество для оптимизации стратегий благотворительности и инвестиций в инновации.\n", + "\n", + "\n", + "### Унитарное кодирование категориальных признаков (one-hot encoding)\n", + "\n", + "One-hot encoding: Преобразование категориальных признаков в бинарные векторы." + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Rank Name Networth Age Country_Argentina \\\n", + "0 1 Elon Musk 219.0 50 0.0 \n", + "1 2 Jeff Bezos 171.0 58 0.0 \n", + "2 3 Bernard Arnault & family 158.0 73 0.0 \n", + "3 4 Bill Gates 129.0 66 0.0 \n", + "4 5 Warren Buffett 118.0 91 0.0 \n", + "\n", + " Country_Australia Country_Austria Country_Barbados Country_Belgium \\\n", + "0 0.0 0.0 0.0 0.0 \n", + "1 0.0 0.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 0.0 \n", + "3 0.0 0.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 0.0 \n", + "\n", + " Country_Belize ... Industry_Logistics Industry_Manufacturing \\\n", + "0 0.0 ... 0.0 0.0 \n", + "1 0.0 ... 0.0 0.0 \n", + "2 0.0 ... 0.0 0.0 \n", + "3 0.0 ... 0.0 0.0 \n", + "4 0.0 ... 0.0 0.0 \n", + "\n", + " Industry_Media & Entertainment Industry_Metals & Mining \\\n", + "0 0.0 0.0 \n", + "1 0.0 0.0 \n", + "2 0.0 0.0 \n", + "3 0.0 0.0 \n", + "4 0.0 0.0 \n", + "\n", + " Industry_Real Estate Industry_Service Industry_Sports \\\n", + "0 0.0 0.0 0.0 \n", + "1 0.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 \n", + "3 0.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 \n", + "\n", + " Industry_Technology Industry_Telecom Industry_diversified \n", + "0 0.0 0.0 0.0 \n", + "1 1.0 0.0 0.0 \n", + "2 0.0 0.0 0.0 \n", + "3 1.0 0.0 0.0 \n", + "4 0.0 0.0 0.0 \n", + "\n", + "[5 rows x 989 columns]\n" + ] + } + ], + "source": [ + "from sklearn.preprocessing import OneHotEncoder\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "\n", + "# Определение категориальных признаков\n", + "categorical_features = ['Country', 'Source', 'Industry']\n", + "\n", + "# Применение one-hot encoding\n", + "encoder = OneHotEncoder(sparse_output=False, drop='first')\n", + "encoded_features = encoder.fit_transform(df[categorical_features])\n", + "\n", + "# Создание DataFrame с закодированными признаками\n", + "encoded_df = pd.DataFrame(encoded_features, columns=encoder.get_feature_names_out(categorical_features))\n", + "\n", + "# Объединение закодированных признаков с исходным DataFrame\n", + "df_encoded = pd.concat([df.drop(columns=categorical_features), encoded_df], axis=1)\n", + "\n", + "# Проверка результата\n", + "print(df_encoded.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Ручной синтез\n", + "Создание новых признаков на основе экспертных знаний и логики предметной области. Например, можно создать признак \"квадрат возраста\" или \"возраст в квадрате\", который может помочь учесть нелинейные зависимости в данных." + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [], + "source": [ + "# Создание нового признака 'Age Squared'\n", + "df['Age Squared'] = df['Age'] ** 2" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети." + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.model_selection import train_test_split\n", + "\n", + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//Forbes Billionaires.csv\")\n", + "\n", + "# Определение числовых признаков\n", + "numerical_features = df.select_dtypes(include=['number']).columns.tolist()\n", + "numerical_features.remove('Networth') # Исключаем целевую переменную\n", + "\n", + "# Создание DataFrame для обучающей, контрольной и тестовой выборок\n", + "train_data = pd.DataFrame(X_train, columns=X.columns)\n", + "val_data = pd.DataFrame(X_val, columns=X.columns)\n", + "test_data = pd.DataFrame(X_test, columns=X.columns)\n", + "\n", + "# Пример масштабирования числовых признаков\n", + "scaler = StandardScaler()\n", + "train_data[numerical_features] = scaler.fit_transform(train_data[numerical_features])\n", + "val_data[numerical_features] = scaler.transform(val_data[numerical_features])\n", + "test_data[numerical_features] = scaler.transform(test_data[numerical_features])\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Конструирование признаков с применением фреймворка Featuretools" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" + ] + } + ], + "source": [ + "import featuretools as ft\n", + "\n", + "# Добавление уникального идентификатора 'id'\n", + "# Добавление уникального идентификатора 'id'\n", + "train_data['id'] = train_data.index\n", + "val_data['id'] = val_data.index\n", + "test_data['id'] = test_data.index\n", + "\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='billionaires_data')\n", + "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Оценка качества каждого набора признаков\n", + "Предсказательная способность\n", + "Метрики: RMSE, MAE, R²\n", + "\n", + "Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.\n", + "\n", + "Скорость вычисления\n", + "Методы: Измерение времени выполнения генерации признаков и обучения модели.\n", + "\n", + "Надежность\n", + "Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.\n", + "\n", + "Корреляция\n", + "Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.\n", + "\n", + "Цельность\n", + "Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели." + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\entityset\\entityset.py:724: UserWarning: A Woodwork-initialized DataFrame was provided, so the following parameters were ignored: index\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\featuretools\\synthesis\\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created\n", + " warnings.warn(\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n", + "c:\\Users\\Admin\\Desktop\\5 semestr\\mii\\AIM-PIbd-32-Safiulova-K-N\\aimenv\\Lib\\site-packages\\woodwork\\logical_types.py:841: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`\n", + " series = series.replace(ww.config.get_option(\"nan_values\"), np.nan)\n" + ] + } + ], + "source": [ + "import featuretools as ft\n", + "\n", + "# Добавление уникального идентификатора 'id'\n", + "train_data['id'] = train_data.index\n", + "val_data['id'] = val_data.index\n", + "test_data['id'] = test_data.index\n", + "\n", + "# Определение сущностей\n", + "es = ft.EntitySet(id='billionaires_data')\n", + "es = es.add_dataframe(dataframe_name='billionaires', dataframe=train_data, index='id')\n", + "\n", + "# Генерация признаков\n", + "feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='billionaires', max_depth=2)\n", + "\n", + "# Преобразование признаков для контрольной и тестовой выборок\n", + "val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data.index)\n", + "test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data.index)" + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Validation Accuracy: 0.51\n", + "Test Accuracy: 0.48\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.ensemble import RandomForestClassifier\n", + "from sklearn.metrics import accuracy_score\n", + "\n", + "# Предположим, что df - это ваш DataFrame с данными\n", + "# Убедитесь, что у вас есть данные в df\n", + "\n", + "# Разделение данных на признаки (X) и целевую переменную (y)\n", + "# Если у вас нет целевой переменной, просто используйте все столбцы как признаки\n", + "X = df # Все данные без целевого признака\n", + "\n", + "# В этом случае, если у вас нет меток, вы можете использовать случайные метки для обучения\n", + "# Например, создадим случайные метки для примера\n", + "import numpy as np\n", + "\n", + "y = np.random.randint(0, 2, size=len(X)) # Создание бинарной целевой переменной (0 или 1)\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки\n", + "X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n", + "\n", + "# Объединение данных для корректного преобразования категориальных признаков\n", + "X_combined = pd.concat([X_train, X_val, X_test], keys=['train', 'val', 'test'])\n", + "X_combined = pd.get_dummies(X_combined)\n", + "\n", + "# Разделение обратно на обучающую и тестовую выборки\n", + "X_train = X_combined.xs('train')\n", + "X_val = X_combined.xs('val')\n", + "X_test = X_combined.xs('test')\n", + "\n", + "# Обучение модели\n", + "model = RandomForestClassifier(random_state=42)\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Валидация модели\n", + "y_val_pred = model.predict(X_val)\n", + "val_accuracy = accuracy_score(y_val, y_val_pred)\n", + "print(f'Validation Accuracy: {val_accuracy:.2f}')\n", + "\n", + "# Тестирование модели\n", + "y_test_pred = model.predict(X_test)\n", + "test_accuracy = accuracy_score(y_test, y_test_pred)\n", + "print(f'Test Accuracy: {test_accuracy:.2f}')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Точность предсказаний: Модель показывает низкую точность на валидационной и тестовой выборках (0.51 и 0.48 соответственно), что указывает на то, что модель не очень хорошо объясняет вариацию целевой переменной. Это может быть связано с недостаточной информативностью признаков или сложностью задачи классификации.\n", + "\n", + "Переобучение: Разница между точностью на обучающей и тестовой выборках небольшая, что указывает на то, что переобучение не является критическим. Однако, низкая точность на тестовой выборке может свидетельствовать о том, что модель недостаточно хорошо обобщает данные.\n", + "\n", + "Кросс-валидация: Значение точности после кросс-валидации может быть нестабильным, что указывает на необходимость дальнейшего анализа и улучшения модели. Возможно, стоит рассмотреть другие модели или методы предобработки данных для повышения точности." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}