{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Набор данных \"Ближайшие к Земле объекты\" "
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"# Наборе данных \"Ближайшие к Земле объекты\" \n",
"# \n",
"# 1. Анализ сведений о наборе данных \n",
"# Набор данных о \"ближайших к Земле объектах\" относится к области астрофизики и исследования космических угроз. Проблемная область — мониторинг околоземных объектов (Near-Earth Objects, NEO), которые могут представлять потенциальную опасность для Земли. Цель анализа — оценить характеристики объектов, их орбиты, скорость, и расстояние до Земли, чтобы предсказать возможность столкновения. \n",
"# \n",
"# 2. Анализ содержимого набора данных \n",
"# Объекты наблюдения: \n",
"# Космические тела, которые классифицируются как \"околоземные объекты\". \n",
"# Атрибуты объектов: \n",
"# id — идентификатор объекта. \n",
"# name — название объекта. \n",
"# est_diameter_min и est_diameter_max — оценочные минимальный и максимальный диаметры. \n",
"# relative_velocity — относительная скорость объекта. \n",
"# miss_distance — минимальное расстояние до Земли. \n",
"# orbiting_body — небесное тело, вокруг которого объект совершает движение (обычно Солнце). \n",
"# sentry_object — булевый признак, указывающий, находится ли объект в базе наблюдения системы Sentry. \n",
"# absolute_magnitude — абсолютная звёздная величина объекта. \n",
"# hazardous — булевый признак опасности объекта. \n",
"# Связи между объектами: \n",
"# Объекты могут быть связаны через общее орбитальное тело или группироваться по характеристикам орбит. \n",
"# \n",
"# 3. Примеры бизнес-целей \n",
"# Уведомление о космических угрозах: \n",
"# Построение системы прогнозирования опасных объектов для оперативного предупреждения. \n",
"# Эффект: повышение безопасности через своевременные предупреждения. \n",
"# \n",
"# Оптимизация миссий для изучения астероидов: \n",
"# Идентификация объектов, подходящих для изучения (на основе характеристик орбиты и размера). \n",
"# Эффект: снижение затрат и повышение научной ценности миссий. \n",
"# \n",
"# 4. Примеры целей технического проекта \n",
"# Бизнес-цель: Предсказание опасности объекта. \n",
"# Входные данные: атрибуты объекта (диаметр, скорость, расстояние). \n",
"# Целевой признак: hazardous. \n",
"# \n",
"# Бизнес-цель: Классификация объектов по характеристикам. \n",
"# Входные данные: абсолютная звёздная величина, диаметр, скорость. \n",
"# Целевой признак: принадлежность к определённой группе объектов. "
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"import numpy as np\n",
"\n",
"df = pd.read_csv('datasets/neo.csv')\n",
"df = df.drop(columns=['name', 'orbiting_body', 'sentry_object'])\n",
"\n",
"\n",
"#5. Устранение пропущенных данных\n",
" \n",
"#Сведения о пропущенных данных\n",
"print(\"Количество пропущенных значений в каждом столбце:\")\n",
"print(df.isnull().sum())\n",
"\n",
"# Процент пропущенных значений признаков\n",
"for i in df.columns:\n",
" null_rate = df[i].isnull().sum() / len(df) * 100\n",
" if null_rate > 0:\n",
" print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n",
"\n",
"\n",
"#Пропущенных данных в датасете нет\n",
"\n",
"\n",
"\n",
"\n",
"#6. Проблемы набора данных\n",
" #5.1Выбросы: Возможны аномалии в значениях скорости или расстояния.\n",
" #Смещение: Данные могут быть смещены в сторону объектов, которые легче обнаружить (крупные, близкие).\n",
"\n",
"#7. Решения для обнаруженных проблем\n",
" #Выбросы: Идентификация и обработка выбросов через методы (например, IQR или Z-оценка).\n",
" #Смещение: Использование методов балансировки данных, таких как oversampling.\n",
"\n",
"#7.1 Проверка набора данных на выбросы\n",
"# Выбираем столбцы для анализа\n",
"columns_to_check = ['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude']\n",
"def Emissions(columns_to_check):\n",
"\n",
" # Функция для подсчета выбросов\n",
" def count_outliers(df, columns):\n",
" outliers_count = {}\n",
" for col in columns:\n",
" Q1 = df[col].quantile(0.25)\n",
" Q3 = df[col].quantile(0.75)\n",
" IQR = Q3 - Q1\n",
" lower_bound = Q1 - 1.5 * IQR\n",
" upper_bound = Q3 + 1.5 * IQR\n",
" \n",
" # Считаем количество выбросов\n",
" outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n",
" outliers_count[col] = len(outliers)\n",
" \n",
" return outliers_count\n",
"\n",
" # Подсчитываем выбросы\n",
" outliers_count = count_outliers(df, columns_to_check)\n",
"\n",
" # Выводим количество выбросов для каждого столбца\n",
" for col, count in outliers_count.items():\n",
" print(f\"Количество выбросов в столбце '{col}': {count}\")\n",
" \n",
" # Создаем гистограммы\n",
" plt.figure(figsize=(15, 10))\n",
" for i, col in enumerate(columns_to_check, 1):\n",
" plt.subplot(2, 3, i)\n",
" sns.histplot(df[col], kde=True)\n",
" plt.title(f'Histogram of {col}')\n",
" plt.tight_layout()\n",
" plt.show()\n",
"Emissions(columns_to_check)\n",
"\n",
"#Признак miss_distance не имеет выбросов, \n",
"#признак absolute_magnitude имеет количество выбросов в приемлемом диапазоне\n",
"#для признаков est_diameter_min, est_diameter_max и relative_velocity необходимо использовать метод решения проблемы выбросов. \n",
"#Воспользуемся методом усреднения значений:\n",
"columns_to_fix = ['est_diameter_min', 'est_diameter_max', 'relative_velocity']\n",
"# Замена нулей и пропущенных значений средним\n",
"for column in columns_to_fix:\n",
" # Расчет среднего, исключая 0 и NaN\n",
" mean_value = df[df[column] > 0][column].mean()\n",
" # Замена NaN и нулей на среднее\n",
" df[column] = df[column].replace(0, np.nan).fillna(mean_value)\n",
"\n",
"#Оценим выбросы в выборке после усреднения:\n",
"Emissions(columns_to_fix)\n",
"\n",
"#Удалось избавиться от выбросов в соответствующих признаках как видно на диаграммах.\n",
"\n",
"\n",
"\n",
"#8. Разбиение данных на выборки\n",
"\n",
"from sklearn.model_selection import train_test_split\n",
"\n",
"train_data, temp_data = train_test_split(df, test_size=0.3, random_state=42)\n",
"val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)\n",
"\n",
"print(\"Обучающая выборка: \", train_data.shape)\n",
"print(train_data.hazardous.value_counts())\n",
"hazardous_counts = train_data['hazardous'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов hazardous в обучающей выборке')\n",
"plt.show()\n",
"\n",
"print(\"Контрольная выборка: \", val_data.shape)\n",
"print(val_data.hazardous.value_counts())\n",
"hazardous_counts = val_data['hazardous'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов hazardous в контрольной выборке')\n",
"plt.show()\n",
"\n",
"print(\"Тестовая выборка: \", test_data.shape)\n",
"print(test_data.hazardous.value_counts())\n",
"hazardous_counts = test_data['hazardous'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов hazardous в тестовой выборке')\n",
"plt.show()\n",
"\n",
"\n",
"#9. Оценить сбалансированность выборок для каждого набора данных. Оценить необходимость использования методов приращения (аугментации) данных. \n",
"#Выводы по сбалансированности\n",
"#Если распределение классов примерно равно (например, 50%/50%), выборка считается сбалансированной, и аугментация данных не требуется.\n",
"#Если один из классов сильно доминирует (например, 90%/10%), выборка несбалансированная, и может потребоваться аугментация данных.\n",
"\n",
"#Данная сборка несбалансированная, и требуется аугментация данных.\n",
"\n",
"\n",
"#10. Выполнить приращение данных методами выборки с избытком (oversampling) и выборки с недостатком (undersampling). Должны быть представлены примеры реализации обоих методов для выборок набора данных. \n",
"\n",
"#10.1\n",
"#Аугментация данных методом оверсемплинга¶\n",
"#Этот метод увеличивает количество примеров меньшинства.\n",
"\n",
"from imblearn.over_sampling import ADASYN\n",
"\n",
"# Создание экземпляра ADASYN\n",
"ada = ADASYN()\n",
"\n",
"# Применение ADASYN\n",
"X_resampled, y_resampled = ada.fit_resample(train_data.drop(columns=['hazardous']), train_data['hazardous'])\n",
"\n",
"# Создание нового DataFrame\n",
"df_train_adasyn = pd.DataFrame(X_resampled)\n",
"df_train_adasyn['hazardous'] = y_resampled # Добавление целевой переменной\n",
"\n",
"# Вывод информации о новой выборке\n",
"print(\"Обучающая выборка после оверсемплинга: \", df_train_adasyn.shape)\n",
"print(df_train_adasyn['hazardous'].value_counts())\n",
"hazardous_counts = df_train_adasyn['hazardous'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов hazardous в обучающей выборке после оверсемплинга')\n",
"plt.show()\n",
"\n",
"\n",
"#10.2\n",
"#Аугментация данных методом андерсемплинга\n",
"#Этот метод помогает сбалансировать выборку, уменьшая количество экземпляров класса большинства, чтобы привести его в соответствие с классом меньшинства\n",
"\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"\n",
"rus = RandomUnderSampler()\n",
"\n",
"# Применение RandomUnderSampler\n",
"X_resampled, y_resampled = rus.fit_resample(train_data.drop(columns=['hazardous']), train_data['hazardous'])\n",
"\n",
"# Создание нового DataFrame\n",
"df_train_undersampled = pd.DataFrame(X_resampled)\n",
"df_train_undersampled['hazardous'] = y_resampled # Добавление целевой переменной\n",
"\n",
"# Вывод информации о новой выборке\n",
"print(\"Обучающая выборка после андерсемплинга: \", df_train_undersampled.shape)\n",
"print(df_train_undersampled['hazardous'].value_counts())\n",
"\n",
"# Визуализация распределения классов\n",
"hazardous_counts = df_train_undersampled['hazardous'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов hazardous в обучающей выборке после андерсемплинга')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Набор данных \"Продажа домов в округе Кинг, США\""
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [],
"source": [
"# 1. Анализ сведений о наборе данных \"Продажа домов в округе Кинг, США\"\n",
"# Данный набор данных содержит информацию о работе филиалов супермаркетов. Проблемная область связана с анализом производительности магазинов, оптимизацией их # работы и улучшением ключевых показателей, таких как продажи и привлечение клиентов. Основные вопросы, которые могут возникнуть:\n",
"# \n",
"# 2. Анализ содержимого набора данных\n",
"# Объекты наблюдения\n",
"# Каждая строка представляет собой данные о конкретном магазине.\n",
"# \n",
"# Атрибуты объектов\n",
"# Store ID (идентификатор магазина): уникальный номер, однозначно идентифицирующий магазин.\n",
"# Store_Area (площадь магазина): общая площадь магазина в квадратных метрах.\n",
"# Items_Available (количество доступных товаров): общее количество товаров в магазине.\n",
"# Daily_Customer_Count (ежедневное число покупателей): среднее число покупателей в день.\n",
"# Store_Sales (продажи магазина): общая выручка магазина.\n",
"# \n",
"# Связи между объектами\n",
"# Объекты (магазины) связаны общей бизнес-целью (рост прибыли) и схожими условиями работы (товары, покупатели,площади). Возможные связи:\n",
"# Прямая связь между числом покупателей и выручкой.\n",
"# Влияние площади и ассортимента на посещаемость и продажи.\n",
"# \n",
"# 3. Примеры бизнес-целей и эффекты для бизнеса\n",
"# Бизнес-цели\n",
"# Оптимизация ассортимента: определить, как ассортимент товаров влияет на продажи.\n",
"# Увеличение посещаемости: найти факторы, повышающие интерес покупателей к магазину.\n",
"# Оптимизация площадей: выявить оптимальные площади магазинов для максимальной выручки.\n",
"# Анализ производительности филиалов: сравнить эффективность магазинов и выявить лучшие практики.\n",
"# Эффекты для бизнеса\n",
"# Повышение выручки за счет оптимизации ассортимента и улучшения опыта покупателей.\n",
"# Сокращение затрат на неэффективные площади.\n",
"# Более точное планирование при открытии новых магазинов.\n",
"# \n",
"# 4. Примеры целей технического проекта\n",
"# Цель 1: Оптимизация ассортимента\n",
"# Входные данные: Store_Area, Items_Available, Store_Sales.\n",
"# Целевой признак: Store_Sales.\n",
"# Результат: рекомендации по увеличению или уменьшению ассортимента.\n",
"# Цель 2: Увеличение посещаемости\n",
"# Входные данные: Store_Area, Items_Available, Store_Sales.\n",
"# Целевой признак: Daily_Customer_Count.\n",
"# Результат: прогноз посещаемости на основе характеристик магазина.\n",
"# Цель 3: Оптимизация площадей\n",
"# Входные данные: Store_Area, Store_Sales.\n",
"# Целевой признак: Store_Sales.\n",
"# Результат: определение оптимальной площади для магазина.\n",
"# Цель 4: Анализ производительности филиалов\n",
"# Входные данные: Все атрибуты.\n",
"# Целевой признак: Store_Sales.\n",
"# Результат: классификация магазинов по эффективности и выявление отстающих филиалов."
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"import numpy as np\n",
"\n",
"df = pd.read_csv('datasets/kc_house_data.csv')\n",
"df = df.drop(columns=['id'])\n",
"\n",
"\n",
"#5. Устранение пропущенных данных\n",
" \n",
"#Сведения о пропущенных данных\n",
"print(\"Количество пропущенных значений в каждом столбце:\")\n",
"print(df.isnull().sum())\n",
"\n",
"# Процент пропущенных значений признаков\n",
"for i in df.columns:\n",
" null_rate = df[i].isnull().sum() / len(df) * 100\n",
" if null_rate > 0:\n",
" print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n",
"\n",
"\n",
"#Пропущенных данных в датасете нет\n",
"\n",
"\n",
"\n",
"\n",
"#6. Проблемы набора данных\n",
" #5.1Выбросы: Возможны аномалии в значениях скорости или расстояния.\n",
" #Смещение: Данные могут быть смещены в сторону объектов, которые легче обнаружить (крупные, близкие).\n",
"\n",
"#7. Решения для обнаруженных проблем\n",
" #Выбросы: Идентификация и обработка выбросов через методы (например, IQR или Z-оценка).\n",
" #Смещение: Использование методов балансировки данных, таких как oversampling.\n",
"\n",
"#7.1 Проверка набора данных на выбросы\n",
"# Выбираем столбцы для анализа\n",
"columns_to_check = ['price', 'sqft_living', 'bathrooms', 'yr_built']\n",
"def Emissions(columns_to_check):\n",
"\n",
" # Функция для подсчета выбросов\n",
" def count_outliers(df, columns):\n",
" outliers_count = {}\n",
" for col in columns:\n",
" Q1 = df[col].quantile(0.25)\n",
" Q3 = df[col].quantile(0.75)\n",
" IQR = Q3 - Q1\n",
" lower_bound = Q1 - 1.5 * IQR\n",
" upper_bound = Q3 + 1.5 * IQR\n",
" \n",
" # Считаем количество выбросов\n",
" outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n",
" outliers_count[col] = len(outliers)\n",
" \n",
" return outliers_count\n",
"\n",
" # Подсчитываем выбросы\n",
" outliers_count = count_outliers(df, columns_to_check)\n",
"\n",
" # Выводим количество выбросов для каждого столбца\n",
" for col, count in outliers_count.items():\n",
" print(f\"Количество выбросов в столбце '{col}': {count}\")\n",
" \n",
" # Создаем гистограммы\n",
" plt.figure(figsize=(15, 10))\n",
" for i, col in enumerate(columns_to_check, 1):\n",
" plt.subplot(2, 3, i)\n",
" sns.histplot(df[col], kde=True)\n",
" plt.title(f'Histogram of {col}')\n",
" plt.tight_layout()\n",
" plt.show()\n",
"Emissions(columns_to_check)\n",
"\n",
"#Признак yr_built не имеет выбросов, \n",
"#для признаков 'price', 'sqft_living', 'bathrooms' необходимо использовать метод решения проблемы выбросов. \n",
"#Воспользуемся методом удаления наблюдений с такими выбросами:\n",
"# Выбираем столбцы для очистки\n",
"columns_to_fix = ['price', 'sqft_living', 'bathrooms']\n",
"\n",
"# Функция для удаления выбросов\n",
"def remove_outliers(df, columns):\n",
" for col in columns:\n",
" Q1 = df[col].quantile(0.25)\n",
" Q3 = df[col].quantile(0.75)\n",
" IQR = Q3 - Q1\n",
" lower_bound = Q1 - 1.5 * IQR\n",
" upper_bound = Q3 + 1.5 * IQR\n",
" \n",
" # Удаляем строки, содержащие выбросы\n",
" df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]\n",
" \n",
" return df\n",
"\n",
"# Удаляем выбросы\n",
"df_cleaned = remove_outliers(df, columns_to_fix)\n",
"\n",
"# Выводим количество удаленных строк\n",
"print(f\"Количество удаленных строк: {len(df) - len(df_cleaned)}\")\n",
"\n",
"df = df_cleaned\n",
"\n",
"#Оценим выбросы в выборке после усреднения:\n",
"Emissions(columns_to_fix)\n",
"\n",
"#Удалось избавиться от выбросов в соответствующих признаках как видно на диаграммах.\n",
"\n",
"\n",
"\n",
"#8. Разбиение данных на выборки\n",
"\n",
"from sklearn.model_selection import train_test_split\n",
"\n",
"train_data, temp_data = train_test_split(df, test_size=0.3, random_state=42)\n",
"val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)\n",
"\n",
"# Средние значения цены\n",
"print(\"Средняя цена в обучающей выборке:\", train_data['price'].mean())\n",
"print(\"Средняя цена в контрольной выборке:\", val_data['price'].mean())\n",
"print(\"Средняя цена в тестовой выборке:\", test_data['price'].mean())\n",
"print()\n",
"\n",
"# Стандартное отклонение цены\n",
"print(\"Стандартное отклонение цены в обучающей выборке:\", train_data['price'].std())\n",
"print(\"Стандартное отклонение цены в контрольной выборке:\", val_data['price'].std())\n",
"print(\"Стандартное отклонение цены в тестовой выборке:\", test_data['price'].std())\n",
"print()\n",
"\n",
"# Проверка распределений по количеству объектов в диапазонах\n",
"print(\"Распределение по квартилам (обучающая):\")\n",
"print(train_data['price'].quantile([0.25, 0.5, 0.75]))\n",
"print()\n",
"print(\"Распределение по квартилам (контрольная):\")\n",
"print(val_data['price'].quantile([0.25, 0.5, 0.75]))\n",
"print()\n",
"print(\"Распределение по квартилам (тестовая):\")\n",
"print(test_data['price'].quantile([0.25, 0.5, 0.75]))\n",
"\n",
"# Построение гистограмм для каждой выборки\n",
"plt.figure(figsize=(12, 6))\n",
"\n",
"sns.histplot(train_data['price'], color='blue', label='Train', kde=True)\n",
"sns.histplot(val_data['price'], color='green', label='Validation', kde=True)\n",
"sns.histplot(test_data['price'], color='red', label='Test', kde=True)\n",
"\n",
"plt.legend()\n",
"plt.xlabel('price')\n",
"plt.ylabel('Frequency')\n",
"plt.title('Распределение цены в обучающей, контрольной и тестовой выборках')\n",
"plt.show()\n",
"\n",
"\n",
"#9. Оценить сбалансированность выборок для каждого набора данных. Оценить необходимость использования методов приращения (аугментации) данных. \n",
"#Выводы по сбалансированности\n",
"#Если распределение классов примерно равно (например, 50%/50%), выборка считается сбалансированной, и аугментация данных не требуется.\n",
"#Если один из классов сильно доминирует (например, 90%/10%), выборка несбалансированная, и может потребоваться аугментация данных.\n",
"\n",
"#Выборки оказались недостаточно сбалансированными. Используем методы приращения данных с избытком и с недостатком:\n",
"\n",
"\n",
"#10. Выполнить приращение данных методами выборки с избытком (oversampling) и выборки с недостатком (undersampling). Должны быть представлены примеры реализации обоих методов для выборок набора данных. \n",
"\n",
"#10.1\n",
"#Аугментация данных методом оверсемплинга¶\n",
"#Этот метод увеличивает количество примеров меньшинства.\n",
"\n",
"from imblearn.over_sampling import RandomOverSampler\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"\n",
"def oversample(df, target_column):\n",
" X = df.drop(target_column, axis=1)\n",
" y = df[target_column]\n",
" \n",
" oversampler = RandomOverSampler(random_state=42)\n",
" x_resampled, y_resampled = oversampler.fit_resample(X, y)\n",
" \n",
" resampled_df = pd.concat([x_resampled, y_resampled], axis=1) \n",
" return resampled_df\n",
"\n",
"def undersample(df, target_column):\n",
" X = df.drop(target_column, axis=1)\n",
" y = df[target_column]\n",
" \n",
" undersampler = RandomUnderSampler(random_state=42)\n",
" x_resampled, y_resampled = undersampler.fit_resample(X, y)\n",
" \n",
" resampled_df = pd.concat([x_resampled, y_resampled], axis=1)\n",
" return resampled_df\n",
"\n",
"train_df_oversampled = oversample(train_data, 'price')\n",
"val_df_oversampled = oversample(val_data, 'price')\n",
"test_df_oversampled = oversample(test_data, 'price')\n",
"\n",
"train_df_undersampled = undersample(train_data, 'price')\n",
"val_df_undersampled = undersample(val_data, 'price')\n",
"test_df_undersampled = undersample(test_data, 'price')\n",
"\n",
"# Построение гистограмм для каждой выборки\n",
"plt.figure(figsize=(12, 6))\n",
"\n",
"sns.histplot(train_df_undersampled['price'], color='blue', label='Train', kde=True)\n",
"sns.histplot(val_df_undersampled['price'], color='green', label='Validation', kde=True)\n",
"sns.histplot(test_df_undersampled['price'], color='red', label='Test', kde=True)\n",
"\n",
"plt.legend()\n",
"plt.xlabel('price')\n",
"plt.ylabel('Frequency')\n",
"plt.title('Распределение цены в обучающей, контрольной и тестовой выборках (андерсемплинг)')\n",
"plt.show()\n",
"\n",
"# Построение гистограмм для каждой выборки\n",
"plt.figure(figsize=(12, 6))\n",
"\n",
"sns.histplot(train_df_oversampled['price'], color='blue', label='Train', kde=True)\n",
"sns.histplot(val_df_oversampled['price'], color='green', label='Validation', kde=True)\n",
"sns.histplot(test_df_oversampled['price'], color='red', label='Test', kde=True)\n",
"\n",
"plt.legend()\n",
"plt.xlabel('price')\n",
"plt.ylabel('Frequency')\n",
"plt.title('Распределение цены в обучающей, контрольной и тестовой выборках (оверсемплинг)')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Набор данных \"Показатели сердечно-сосудистых заболеваний (за 2022 год)\""
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
"# 1. Анализ сведений о наборе данных\n",
"# Этот набор данных из Kaggle, вероятно, относится к исследованию диагностики диабета у женщин индийского происхождения. Набор данных изначально был взят из Национального института диабета и болезней пищеварения и почек (Pima Indians Diabetes Database).\n",
"# \n",
"# Проблемная область\n",
"# Основная проблемная область — медицинская диагностика. Цель данных — предсказать наличие диабета у пациента на основе медицинских показателей (например, уровня глюкозы, давления, ИМТ) и других факторов.\n",
"# \n",
"# 2. Анализ содержимого набора данных\n",
"# Объекты наблюдения\n",
"# Объектами наблюдения являются медицинские записи пациентов (768 строк). Каждая строка представляет собой данные о состоянии конкретного пациента.\n",
"# \n",
"# Атрибуты объектов\n",
"# Pregnancies (количество беременностей) — числовой признак.\n",
"# Glucose (уровень глюкозы в крови) — числовой признак.\n",
"# BloodPressure (артериальное давление) — числовой признак.\n",
"# SkinThickness (толщина кожной складки) — числовой признак.\n",
"# Insulin (уровень инсулина) — числовой признак.\n",
"# BMI (индекс массы тела) — вещественный признак.\n",
"# DiabetesPedigreeFunction (генетическая предрасположенность к диабету) — вещественный признак.\n",
"# Age (возраст) — числовой признак.\n",
"# Outcome (наличие диабета) — целевой бинарный признак (1 — диабет, 0 — нет).\n",
"# \n",
"# Связи между объектами\n",
"# Объекты наблюдения независимы друг от друга, так как каждый пациент представлен в одном экземпляре.\n",
"# \n",
"# 3. Примеры бизнес-целей\n",
"# Улучшение диагностики диабета\n",
"# Создание инструмента для раннего выявления диабета на основе медицинских данных.\n",
"# Эффект: Снижение затрат на лечение поздних стадий диабета, повышение уровня здоровья пациентов.\n",
"# \n",
"# Оптимизация медицинских услуг\n",
"# Предсказание риска диабета для отдельных групп населения.\n",
"# Эффект: Перераспределение ресурсов на профилактические меры и профилактические программы.\n",
"# \n",
"# Поддержка медицинских решений\n",
"# Автоматизированная рекомендация дополнительных обследований или консультаций для пациентов с высоким риском.\n",
"# Эффект: Ускорение процесса диагностики, уменьшение нагрузки на врачей.\n",
"# \n",
"# 4. Примеры целей технического проекта\n",
"# Цель 1: Улучшение диагностики диабета\n",
"# Вход: Все признаки, кроме Outcome.\n",
"# Целевой признак: Outcome (наличие диабета).\n",
"# Результат: Модель классификации, которая определяет, есть ли у пациента диабет.\n",
"# Цель 2: Оптимизация медицинских услуг\n",
"# Вход: Социально-демографические данные (возраст, количество беременностей) и факторы здоровья (ИМТ, глюкоза).\n",
"# Целевой признак: Вероятность (риск) наличия диабета.\n",
"# Результат: Отчет о вероятности диабета для различных групп пациентов.\n",
"# Цель 3: Поддержка медицинских решений\n",
"# Вход: Все признаки набора данных.\n",
"# Целевой признак: Рекомендации для дальнейших действий (например, \"провести анализ инсулина\", \"назначить консультацию эндокринолога\").\n",
"# Результат: Система поддержки принятия решений для врачей.\n",
"# "
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Pregnancies
\n",
"
Glucose
\n",
"
BloodPressure
\n",
"
SkinThickness
\n",
"
Insulin
\n",
"
BMI
\n",
"
DiabetesPedigreeFunction
\n",
"
Age
\n",
"
Outcome
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
6
\n",
"
148
\n",
"
72
\n",
"
35
\n",
"
0
\n",
"
33.6
\n",
"
0.627
\n",
"
50
\n",
"
1
\n",
"
\n",
"
\n",
"
1
\n",
"
1
\n",
"
85
\n",
"
66
\n",
"
29
\n",
"
0
\n",
"
26.6
\n",
"
0.351
\n",
"
31
\n",
"
0
\n",
"
\n",
"
\n",
"
2
\n",
"
8
\n",
"
183
\n",
"
64
\n",
"
0
\n",
"
0
\n",
"
23.3
\n",
"
0.672
\n",
"
32
\n",
"
1
\n",
"
\n",
"
\n",
"
3
\n",
"
1
\n",
"
89
\n",
"
66
\n",
"
23
\n",
"
94
\n",
"
28.1
\n",
"
0.167
\n",
"
21
\n",
"
0
\n",
"
\n",
"
\n",
"
4
\n",
"
0
\n",
"
137
\n",
"
40
\n",
"
35
\n",
"
168
\n",
"
43.1
\n",
"
2.288
\n",
"
33
\n",
"
1
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Pregnancies Glucose BloodPressure SkinThickness Insulin BMI \\\n",
"0 6 148 72 35 0 33.6 \n",
"1 1 85 66 29 0 26.6 \n",
"2 8 183 64 0 0 23.3 \n",
"3 1 89 66 23 94 28.1 \n",
"4 0 137 40 35 168 43.1 \n",
"\n",
" DiabetesPedigreeFunction Age Outcome \n",
"0 0.627 50 1 \n",
"1 0.351 31 0 \n",
"2 0.672 32 1 \n",
"3 0.167 21 0 \n",
"4 2.288 33 1 "
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.read_csv('datasets/diabetes.csv')\n",
"df.head()\n",
"#df.select_dtypes(include=np.number).columns.tolist()"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Количество пропущенных значений в каждом столбце:\n",
"Pregnancies 0\n",
"Glucose 0\n",
"BloodPressure 0\n",
"SkinThickness 0\n",
"Insulin 0\n",
"BMI 0\n",
"DiabetesPedigreeFunction 0\n",
"Age 0\n",
"Outcome 0\n",
"dtype: int64\n",
"Количество выбросов в столбце 'Pregnancies': 4\n",
"Количество выбросов в столбце 'Glucose': 5\n",
"Количество выбросов в столбце 'BloodPressure': 45\n",
"Количество выбросов в столбце 'SkinThickness': 1\n",
"Количество выбросов в столбце 'Insulin': 34\n",
"Количество выбросов в столбце 'BMI': 19\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"date 0\n",
"price 0\n",
"bedrooms 0\n",
"bathrooms 0\n",
"sqft_living 0\n",
"sqft_lot 0\n",
"floors 0\n",
"waterfront 0\n",
"view 0\n",
"condition 0\n",
"grade 0\n",
"sqft_above 0\n",
"sqft_basement 0\n",
"yr_built 0\n",
"yr_renovated 0\n",
"zipcode 0\n",
"lat 0\n",
"long 0\n",
"sqft_living15 0\n",
"sqft_lot15 0\n",
"dtype: int64\n",
"Обучающая выборка: (537, 9)\n",
"Outcome\n",
"0 349\n",
"1 188\n",
"Name: count, dtype: int64\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Контрольная выборка: (115, 9)\n",
"Outcome\n",
"0 78\n",
"1 37\n",
"Name: count, dtype: int64\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Тестовая выборка: (116, 9)\n",
"Outcome\n",
"0 73\n",
"1 43\n",
"Name: count, dtype: int64\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Обучающая выборка после оверсемплинга: (677, 9)\n",
"Outcome\n",
"0 349\n",
"1 328\n",
"Name: count, dtype: int64\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Обучающая выборка после андерсемплинга: (376, 9)\n",
"Outcome\n",
"0 188\n",
"1 188\n",
"Name: count, dtype: int64\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
""
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"import numpy as np\n",
"\n",
"df = pd.read_csv('datasets/diabetes.csv')\n",
"#df = df.drop(columns=['name', 'orbiting_body', 'sentry_object'])\n",
"\n",
"\n",
"#5. Устранение пропущенных данных\n",
" \n",
"#Сведения о пропущенных данных\n",
"print(\"Количество пропущенных значений в каждом столбце:\")\n",
"print(df.isnull().sum())\n",
"\n",
"# Процент пропущенных значений признаков\n",
"for i in df.columns:\n",
" null_rate = df[i].isnull().sum() / len(df) * 100\n",
" if null_rate > 0:\n",
" print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n",
"\n",
"#Пропущенных данных в датасете нет\n",
"\n",
"\n",
"\n",
"#6. Проблемы набора данных\n",
" #5.1Выбросы: Возможны аномалии в значениях скорости или расстояния.\n",
" #Смещение: Данные могут быть смещены в сторону объектов, которые легче обнаружить (крупные, близкие).\n",
"\n",
"#7. Решения для обнаруженных проблем\n",
" #Выбросы: Идентификация и обработка выбросов через методы (например, IQR или Z-оценка).\n",
" #Смещение: Использование методов балансировки данных, таких как oversampling.\n",
"\n",
"#7.1 Проверка набора данных на выбросы\n",
"# Выбираем столбцы для анализа\n",
"columns_to_check = ['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI']\n",
"def Emissions(columns_to_check):\n",
"\n",
" # Функция для подсчета выбросов\n",
" def count_outliers(df, columns):\n",
" outliers_count = {}\n",
" for col in columns:\n",
" Q1 = df[col].quantile(0.25)\n",
" Q3 = df[col].quantile(0.75)\n",
" IQR = Q3 - Q1\n",
" lower_bound = Q1 - 1.5 * IQR\n",
" upper_bound = Q3 + 1.5 * IQR\n",
" \n",
" # Считаем количество выбросов\n",
" outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]\n",
" outliers_count[col] = len(outliers)\n",
" \n",
" return outliers_count\n",
"\n",
" # Подсчитываем выбросы\n",
" outliers_count = count_outliers(df, columns_to_check)\n",
"\n",
" # Выводим количество выбросов для каждого столбца\n",
" for col, count in outliers_count.items():\n",
" print(f\"Количество выбросов в столбце '{col}': {count}\")\n",
" \n",
" # Создаем гистограммы\n",
" plt.figure(figsize=(15, 10))\n",
" for i, col in enumerate(columns_to_check, 1):\n",
" plt.subplot(2, 3, i)\n",
" sns.histplot(df[col], kde=True)\n",
" plt.title(f'Histogram of {col}')\n",
" plt.tight_layout()\n",
" plt.show()\n",
"Emissions(columns_to_check)\n",
"\n",
"#Признакb 'Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI' имеют количество выбросов в приемлемом диапазоне\n",
"#Не нужно проводить устранять проблему пропущенных данных.\n",
"\n",
"#Подстановка константного значения для пропущенных данных. (пример так как кол-во выбросов в пределах нормы)\n",
"constant_value = 0 # Например, подставим 0\n",
"df.fillna(constant_value, inplace=True)\n",
"print(df_cleaned.isna().sum())\n",
"\n",
"\n",
"#8. Разбиение данных на выборки\n",
"\n",
"train_data, temp_data = train_test_split(df, test_size=0.3, random_state=42)\n",
"val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)\n",
"\n",
"print(\"Обучающая выборка: \", train_data.shape)\n",
"print(train_data.Outcome.value_counts())\n",
"Outcome_counts = train_data['Outcome'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(Outcome_counts, labels=Outcome_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов Outcome в обучающей выборке')\n",
"plt.show()\n",
"\n",
"print(\"Контрольная выборка: \", val_data.shape)\n",
"print(val_data.Outcome.value_counts())\n",
"Outcome_counts = val_data['Outcome'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(Outcome_counts, labels=Outcome_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов Outcome в контрольной выборке')\n",
"plt.show()\n",
"\n",
"print(\"Тестовая выборка: \", test_data.shape)\n",
"print(test_data.Outcome.value_counts())\n",
"Outcome_counts = test_data['Outcome'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(Outcome_counts, labels=Outcome_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов Outcome в тестовой выборке')\n",
"plt.show()\n",
"\n",
"\n",
"#9. Оценить сбалансированность выборок для каждого набора данных. Оценить необходимость использования методов приращения (аугментации) данных. \n",
"#Выводы по сбалансированности\n",
"#Если распределение классов примерно равно (например, 50%/50%), выборка считается сбалансированной, и аугментация данных не требуется.\n",
"#Если один из классов сильно доминирует (например, 90%/10%), выборка несбалансированная, и может потребоваться аугментация данных.\n",
"\n",
"#Данная сборка несбалансированная, и требуется аугментация данных.\n",
"\n",
"\n",
"#10. Выполнить приращение данных методами выборки с избытком (oversampling) и выборки с недостатком (undersampling). Должны быть представлены примеры реализации обоих методов для выборок набора данных. \n",
"\n",
"#10.1\n",
"#Аугментация данных методом оверсемплинга¶\n",
"#Этот метод увеличивает количество примеров меньшинства.\n",
"\n",
"from imblearn.over_sampling import ADASYN\n",
"\n",
"# Создание экземпляра ADASYN\n",
"ada = ADASYN()\n",
"\n",
"# Применение ADASYN\n",
"X_resampled, y_resampled = ada.fit_resample(train_data.drop(columns=['Outcome']), train_data['Outcome'])\n",
"\n",
"# Создание нового DataFrame\n",
"df_train_adasyn = pd.DataFrame(X_resampled)\n",
"df_train_adasyn['Outcome'] = y_resampled # Добавление целевой переменной\n",
"\n",
"# Вывод информации о новой выборке\n",
"print(\"Обучающая выборка после оверсемплинга: \", df_train_adasyn.shape)\n",
"print(df_train_adasyn['Outcome'].value_counts())\n",
"Outcome_counts = df_train_adasyn['Outcome'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(Outcome_counts, labels=Outcome_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов Outcome в обучающей выборке после оверсемплинга')\n",
"plt.show()\n",
"\n",
"\n",
"#10.2\n",
"#Аугментация данных методом андерсемплинга\n",
"#Этот метод помогает сбалансировать выборку, уменьшая количество экземпляров класса большинства, чтобы привести его в соответствие с классом меньшинства\n",
"\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"\n",
"rus = RandomUnderSampler()\n",
"\n",
"# Применение RandomUnderSampler\n",
"X_resampled, y_resampled = rus.fit_resample(train_data.drop(columns=['Outcome']), train_data['Outcome'])\n",
"\n",
"# Создание нового DataFrame\n",
"df_train_undersampled = pd.DataFrame(X_resampled)\n",
"df_train_undersampled['Outcome'] = y_resampled # Добавление целевой переменной\n",
"\n",
"# Вывод информации о новой выборке\n",
"print(\"Обучающая выборка после андерсемплинга: \", df_train_undersampled.shape)\n",
"print(df_train_undersampled['Outcome'].value_counts())\n",
"\n",
"# Визуализация распределения классов\n",
"Outcome_counts = df_train_undersampled['Outcome'].value_counts()\n",
"plt.figure(figsize=(2, 2))\n",
"plt.pie(Outcome_counts, labels=Outcome_counts.index, autopct='%1.1f%%', startangle=90)\n",
"plt.title('Распределение классов Outcome в обучающей выборке после андерсемплинга')\n",
"plt.show()"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.0"
}
},
"nbformat": 4,
"nbformat_minor": 2
}