2024-11-23 14:48:54 +04:00
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Датасет 1. Зарплата специалистов по обработке данных в 2023 году\n",
"https://www.kaggle.com/datasets/henryshan/2023-data-scientists-salary\n",
"## Анализ сведений\n",
"### Краткое описание\n",
"Этот датасет посвящен анализу факторов, влияющих на уровень заработных плат специалистов в области Data Science. Включенные данные позволяют исследовать взаимосвязь между различными характеристиками сотрудников и их доходами.\n",
"### Проблемная область\n",
"Датасет касается анализа факторов, влияющих на заработную плату специалистов в области Data Science, что является важным аспектом для понимания экономических и профессиональных тенденций на рынке труда в этой сфере. Проблемная область включает:\n",
"- Анализ влияния опыта, типа занятости, географического положения и других факторов на размер заработной платы специалистов.\n",
"- Определение ключевых факторов, влияющих на рост зарплаты в профессии Data Scientist.\n",
"- Выявление тенденций, которые могут помочь работодателям и специалистам принимать решения о карьере, зарплате и условиях работы.\n",
"\n",
"### Актуальность\n",
"- **Рост профессии**: Data Science — это одна из самых востребованных и динамично развивающихся областей на рынке труда. Понимание факторов, влияющих на зарплату, важно для профессионалов и компаний.\n",
"- **Тенденции на рынке труда**: В условиях глобализации и удаленной работы важно понять, как тип занятости и местоположение компании влияют на оплату труда.\n",
"- **Оптимизация карьерных решений**: Анализ данных поможет специалистам принимать обоснованные решения при выборе карьерных путей, а работодателям — разрабатывать конкурентоспособные предложения по зарплате и условиям работы.\n",
"\n",
"### Объекты наблюдений\n",
"Объектами наблюдения являются **Data Scientists**, то есть специалисты, занимающиеся анализом данных. Каждый объект представляет собой запись, которая отражает характеристики работы конкретного специалиста в определенный год.\n",
"\n",
"### Атрибуты объектов\n",
"Каждый объект имеет следующие атрибуты:\n",
"- **work_year** — год, в котором была выплачена зарплата. Позволяет отслеживать изменения зарплат в разные годы.\n",
"- **experience_level** — уровень опыта сотрудника (Entry-level, Mid-level, Senior-level, Executive-level). Это важный атрибут, который влияет на зарплату.\n",
"- **employment_type** — тип занятости (Part-time, Full-time, Contract, Freelance). Определяет, является ли работа постоянной или временной.\n",
"- **job_title** — должность, занимаемая сотрудником. Важно для анализа различий между зарплатами для разных специализаций.\n",
"- **salary** — общая сумма заработной платы.\n",
"- **salary_currency** — валюта, в которой выплачена зарплата.\n",
"- **salaryinusd** — зарплата в долларах США. Этот атрибут используется для стандартизации данных.\n",
"- **employee_residence** — страна проживания сотрудника. Влияет на размер зарплаты и может быть важным для анализа глобальных различий.\n",
"- **remote_ratio** — доля работы, выполняемой удаленно. Важно для анализа влияния удаленной работы на уровень зарплаты.\n",
"- **company_location** — страна, где находится основная офисная локация компании. Это атрибут, который позволяет анализировать региональные различия в зарплатах.\n",
"- **company_size** — размер компании, выраженный через медиану числа сотрудников. Размер компании может влиять на оплату труда, так как крупные компании часто предлагают более высокие зарплаты.\n",
"\n",
"### Связь между объектами\n",
"Связь между объектами заключается в том, что все атрибуты в совокупности описывают профессиональную деятельность и условия работы каждого специалиста. Например:\n",
"- **experience_level** и **job_title** могут быть взаимосвязаны, так как более высокие должности (например, Senior или Executive) соответствуют большему опыту.\n",
"- **salary** напрямую зависит от **experience_level**, **employment_type**, **employee_residence**, **company_location**, и **company_size**, а также от уровня удаленности работы (**remote_ratio**).\n",
"- **salaryinusd** служит для нормализации и сопоставления зарплат между различными странами и валютами.\n",
"- **employee_residence** и **company_location** могут быть связаны с различиями в заработной плате, так как зарплаты могут варьироваться в зависимости от страны проживания и местоположения компании.\n",
"\n",
"## Качество набора данных\n",
"### Информативность\n",
"Датасет содержит разнообразные атрибуты, которые предоставляют полезную информацию для анализа факторов, влияющих на зарплату специалистов в области Data Science. Включенные переменные, такие как **уровень опыта**, **тип занятости**, **зарплата**, **географическое расположение** и **удаленная работа**, позволяют провести многогранный анализ и выявить значимые закономерности. Однако, отсутствие информации о дополнительной квалификации или навыках специалистов (например, знание конкретных технологий или инструментов) может ограничить глубину анализа.\n",
"\n",
"### Степень покрытия\n",
"Датасет охватывает достаточно широкий спектр факторов, влияющих на зарплату, включая географические данные (страна проживания, местоположение компании) и рабочие условия (удаленная работа, тип занятости). Однако степень покрытия может быть ограничена:\n",
"- Данные охватывают только одну профессиональную категорию (Data Science), что не позволяет делать выводы о других областях.\n",
"- Пропущенные данные по некоторым атрибутам могут снизить полноту информации (например, отсутствие данных по размеру компании или типу работы для некоторых записей).\n",
"\n",
"### Соответствие реальным данным\n",
"Датасет в целом отражает реальные условия рынка труда для специалистов в области Data Science. Он содержит важные атрибуты, такие как уровень опыта и зарплата, которые широко используются в исследованиях зарплат. Однако стоит учитывать, что в реальной жизни могут существовать дополнительные переменные, которые не учтены в наборе данных, такие как текущее состояние отрасли или специфические тренды (например, спрос на специалистов в определенных областях).\n",
"\n",
"### Согласованность меток\n",
"Метки в датасете, такие как **experience_level** (уровень опыта), **employment_type** (тип занятости), и **company_size** (размер компании), имеют четкие и логичные категории, что способствует легкости их интерпретации. Однако для некоторых меток могут возникнуть проблемы с точностью классификации, например:\n",
"- В разных странах или компаниях могут существовать различные способы определения уровней опыта, и это может не всегда совпадать с метками в датасете.\n",
"- Некоторые метки могут требовать дополнительного пояснения, например, категориальные значения для **remote_ratio** или **job_title** могут быть варьироваться в зависимости от контекста.\n",
"\n",
"## Бизнес-цели\n",
"### 1. **Определение конкурентоспособных уровней зарплат для специалистов в области Data Science**\n",
"\n",
"**Эффект на бизнес:**\n",
"Датасет поможет компаниям, работающим в сфере Data Science, определять конкурентоспособные уровни зарплат для специалистов в зависимости от уровня опыта, типа занятости и географического положения. Это способствует привлечению и удержанию талантливых специалистов, улучшая стратегию найма и оптимизируя расходы на оплату труда.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Создание модели для предсказания конкурентоспособных зарплат для специалистов по Data Science в зависимости от их уровня опыта и местоположения.\n",
" - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, местоположении компании и специалиста.\n",
" - **Целевой признак:** Прогнозируемая зарплата (в долларах США или эквивалент в локальной валюте).\n",
"\n",
"### 2. **Определение факторов, влияющих на рост зарплат в сфере Data Science**\n",
"\n",
"**Эффект на бизнес:**\n",
"Анализ факторов, влияющих на рост зарплат, позволит компаниям лучше понимать, какие характеристики (например, удаленная работа, опыт работы в крупных компаниях) способствуют повышению заработной платы. Это может помочь в построении программ карьерного роста и мотивации для сотрудников.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Разработка модели для анализа факторов, которые влияют на рост зарплат в сфере Data Science.\n",
" - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, удаленной работе, размере компании и других характеристиках.\n",
" - **Целевой признак:** Изменение зарплаты за год (прибавка к зарплате или её снижение).\n",
"\n",
"### 3. **Улучшение стратегии удаленной работы и гибких условий занятости**\n",
"\n",
"**Эффект на бизнес:**\n",
"Датасет поможет компаниям понять, как удаленная работа или гибкие условия занятости влияют на уровень зарплаты специалистов. Это даст возможность оптимизировать политику гибкости в работе и предложить лучшие условия для сотрудников, что повышает их удовлетворенность и снижает текучесть кадров.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Создание модели для анализа влияния удаленной работы и типа занятости на уровень зарплаты в сфере Data Science.\n",
" - **Что поступает на вход:** Данные о проценте удаленной работы, типе занятости (фриланс, контракт, полная или частичная занятость).\n",
" - **Целевой признак:** Зарплата в зависимости от удаленности работы и типа занятости (фиксированная сумма или разница в зарплатах для разных типов занятости)."
]
2024-11-23 17:15:05 +04:00
},
2024-11-23 18:13:22 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Выполним все необходимые импорты"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 146,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [],
"source": [
"from typing import Any\n",
"from math import ceil\n",
"\n",
"import pandas as pd\n",
"from pandas import DataFrame, Series\n",
"from sklearn.model_selection import train_test_split\n",
"from imblearn.over_sampling import ADASYN\n",
"from imblearn.under_sampling import RandomUnderSampler\n",
"import matplotlib.pyplot as plt"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Считаем данные для первого датасета"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 147,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 3755 entries, 0 to 3754\n",
"Data columns (total 11 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 work_year 3755 non-null int64 \n",
" 1 experience_level 3755 non-null object\n",
" 2 employment_type 3755 non-null object\n",
" 3 job_title 3755 non-null object\n",
" 4 salary 3755 non-null int64 \n",
" 5 salary_currency 3755 non-null object\n",
" 6 salary_in_usd 3755 non-null int64 \n",
" 7 employee_residence 3755 non-null object\n",
" 8 remote_ratio 3755 non-null int64 \n",
" 9 company_location 3755 non-null object\n",
" 10 company_size 3755 non-null object\n",
"dtypes: int64(4), object(7)\n",
"memory usage: 322.8+ KB\n"
]
},
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>count</th>\n",
" <th>mean</th>\n",
" <th>std</th>\n",
" <th>min</th>\n",
" <th>25%</th>\n",
" <th>50%</th>\n",
" <th>75%</th>\n",
" <th>max</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>work_year</th>\n",
" <td>3755.0</td>\n",
" <td>2022.373635</td>\n",
" <td>0.691448</td>\n",
" <td>2020.0</td>\n",
" <td>2022.0</td>\n",
" <td>2022.0</td>\n",
" <td>2023.0</td>\n",
" <td>2023.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>salary</th>\n",
" <td>3755.0</td>\n",
" <td>190695.571771</td>\n",
" <td>671676.500508</td>\n",
" <td>6000.0</td>\n",
" <td>100000.0</td>\n",
" <td>138000.0</td>\n",
" <td>180000.0</td>\n",
" <td>30400000.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>salary_in_usd</th>\n",
" <td>3755.0</td>\n",
" <td>137570.389880</td>\n",
" <td>63055.625278</td>\n",
" <td>5132.0</td>\n",
" <td>95000.0</td>\n",
" <td>135000.0</td>\n",
" <td>175000.0</td>\n",
" <td>450000.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>remote_ratio</th>\n",
" <td>3755.0</td>\n",
" <td>46.271638</td>\n",
" <td>48.589050</td>\n",
" <td>0.0</td>\n",
" <td>0.0</td>\n",
" <td>0.0</td>\n",
" <td>100.0</td>\n",
" <td>100.0</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" count mean std min 25% \\\n",
"work_year 3755.0 2022.373635 0.691448 2020.0 2022.0 \n",
"salary 3755.0 190695.571771 671676.500508 6000.0 100000.0 \n",
"salary_in_usd 3755.0 137570.389880 63055.625278 5132.0 95000.0 \n",
"remote_ratio 3755.0 46.271638 48.589050 0.0 0.0 \n",
"\n",
" 50% 75% max \n",
"work_year 2022.0 2023.0 2023.0 \n",
"salary 138000.0 180000.0 30400000.0 \n",
"salary_in_usd 135000.0 175000.0 450000.0 \n",
"remote_ratio 0.0 100.0 100.0 "
]
},
2024-11-23 21:26:48 +04:00
"execution_count": 147,
2024-11-23 18:13:22 +04:00
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.read_csv('csv/8.ds_salaries.csv')\n",
"df.info()\n",
"df.describe().transpose()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод проверки пустых значений в датафрейме"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 148,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [],
"source": [
"# Проверка пропущенных данных\n",
"def check_null_columns(dataframe: DataFrame) -> None:\n",
" print('Присутствуют ли пустые значения признаков в колонке:')\n",
" print(dataframe.isnull().any(), '\\n')\n",
"\n",
" if any(dataframe.isnull().any()):\n",
" print('Количество пустых значений признаков в колонке:')\n",
" print(dataframe.isnull().sum(), '\\n')\n",
"\n",
" print('Процент пустых значений признаков в колонке:')\n",
" for column in dataframe.columns:\n",
" null_rate: float = dataframe[column].isnull().sum() / len(dataframe) * 100\n",
" if null_rate > 0:\n",
" print(f\"{column} процент пустых значений: {null_rate:.2f}%\") "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверим на пустые значения в колонках"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 149,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Присутствуют ли пустые значения признаков в колонке:\n",
"work_year False\n",
"experience_level False\n",
"employment_type False\n",
"job_title False\n",
"salary False\n",
"salary_currency False\n",
"salary_in_usd False\n",
"employee_residence False\n",
"remote_ratio False\n",
"company_location False\n",
"company_size False\n",
"dtype: bool \n",
"\n"
]
}
],
"source": [
"check_null_columns(df)"
]
},
2024-11-23 21:00:03 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверка на наличие выборосов и зашумленности данных\n",
"\n",
"Зашумленность – это наличие случайных ошибок или вариаций в данных, которые могут затруднить выявление истинных закономерностей.\n",
"\n",
"Выбросы – это значения, которые значительно отличаются от остальных наблюдений в наборе данных."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Функция возвращает список числовых колонок датафрейма"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 150,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def get_numeric_columns(dataframe: DataFrame) -> list[str]:\n",
" w = []\n",
" for column in dataframe.columns:\n",
" if not pd.api.types.is_numeric_dtype(dataframe[column]):\n",
" continue\n",
" w.append(column)\n",
" return w"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод для проверки датафрейма на наличие выбросов"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 151,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def check_outliers(dataframe: DataFrame) -> list[str]:\n",
" w = []\n",
" for column in get_numeric_columns(dataframe):\n",
" Q1: float = dataframe[column].quantile(0.25)\n",
" Q3: float = dataframe[column].quantile(0.75)\n",
" IQR: float = Q3 - Q1\n",
"\n",
" lower_bound: float = Q1 - 1.5 * IQR\n",
" upper_bound: float = Q3 + 1.5 * IQR\n",
"\n",
" outliers: DataFrame = dataframe[(dataframe[column] < lower_bound) | (dataframe[column] > upper_bound)]\n",
" outlier_count: int = outliers.shape[0]\n",
"\n",
" if outlier_count > 0:\n",
" w.append(column)\n",
"\n",
" print(f\"Колонка {column}:\")\n",
" print(f\"\\tЕ с ть выбросы: {'Да' if outlier_count > 0 else 'Нет'}\")\n",
" print(f\"\\tК о личе с тво выбросов: {outlier_count}\")\n",
" print(f\"\\tМ инима льно е значение: {dataframe[column].min()}\")\n",
" print(f\"\\tМ а кс има льно е значение: {dataframe[column].max()}\")\n",
" print(f\"\\t1-й квартиль (Q1): {Q1}\")\n",
" print(f\"\\t3-й квартиль (Q3): {Q3}\\n\")\n",
" return w"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод для визуализации выбросов"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 152,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def visualize_outliers(dataframe: DataFrame) -> None:\n",
" columns = get_numeric_columns(dataframe)\n",
" plt.figure(figsize=(15, 10))\n",
" rows: int = ceil(len(columns) / 3)\n",
" for index, column in enumerate(columns, 1):\n",
" plt.subplot(rows, 3, index)\n",
" plt.boxplot(dataframe[column], vert=True, patch_artist=True)\n",
" plt.title(f\"Диаграмма размахов для \\\"{column}\\\"\")\n",
" plt.xlabel(column)\n",
" \n",
" plt.tight_layout()\n",
" plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверим на наличие выбросов"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 153,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонка work_year:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 76\n",
"\tМ инима льно е значение: 2020\n",
"\tМ а кс има льно е значение: 2023\n",
"\t1-й квартиль (Q1): 2022.0\n",
"\t3-й квартиль (Q3): 2023.0\n",
"\n",
"Колонка salary:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 113\n",
"\tМ инима льно е значение: 6000\n",
"\tМ а кс има льно е значение: 30400000\n",
"\t1-й квартиль (Q1): 100000.0\n",
"\t3-й квартиль (Q3): 180000.0\n",
"\n",
"Колонка salary_in_usd:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 63\n",
"\tМ инима льно е значение: 5132\n",
"\tМ а кс има льно е значение: 450000\n",
"\t1-й квартиль (Q1): 95000.0\n",
"\t3-й квартиль (Q3): 175000.0\n",
"\n",
"Колонка remote_ratio:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 0\n",
"\tМ а кс има льно е значение: 100\n",
"\t1-й квартиль (Q1): 0.0\n",
"\t3-й квартиль (Q3): 100.0\n",
"\n"
]
}
],
"source": [
"columns_with_outliers = check_outliers(df)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Визуализируем выбросы"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 154,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAABdIAAAPOCAYAAAALMup9AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAADbMklEQVR4nOzdeVhV5f7//xeDDIrgyGCi4FDOE5mAoqImebQktM7RSpzSEjspZYWZUyXlkHlyykqxo6hpqKmdlFSUEk8nzAo1v6WYlYBaCWoKCOv3hz/Wxy2IoOhGeD6ua1+67/u91nqvzd7ci/de6142hmEYAgAAAAAAAAAARbK1dgIAAAAAAAAAAJRnFNIBAAAAAAAAACgGhXQAAAAAAAAAAIpBIR0AAAAAAAAAgGJQSAcAAAAAAAAAoBgU0gEAAAAAAAAAKAaFdAAAAAAAAAAAikEhHQAAAAAAAACAYlBIBwAAAAAAAACgGBTSAaASmTp1qmxsbHT69GlrpwIAAG7SsWPHZGNjo5iYGGunAgDAHaW8j6EJCQmysbFRQkKCtVO5YUOHDpWPj4+10yhTFNIrmHXr1snGxqbIR6tWraydHlBpdO/eXUOHDpV0efDo3r27VfOpDAoOhAoONMrzQRFwq3AcAJQPleU44Mp9mzp1aoX7YxmVC2MoUD5UljG0srry73QfHx9NnTrVqvmUlr21E8CtMXHiRDVv3tx8/vrrr1sxGwAAcDtxHAAAwI1hDAVQHnTt2lUXLlyQg4ODtVPBFSikV1D333+/xbd277//PlM5AJXY+fPnVa1aNWuncUtcunRJ+fn51k4DKFc4DgBwIyry8QJQUoyhAG5EWY+htra2cnJyKrP1oWwwtUsFk5OTI+nyB+56YmJiZGNjo2PHjplt+fn5atOmTaEpEb777jsNHTpUjRo1kpOTkzw9PTV8+HD9/vvvFussmH/56oe9/f99Z9O9e3e1atVKycnJCgwMlLOzs3x9fbV48eJC+zJ58mT5+fnJzc1N1apVU1BQkHbu3GkRVzCdg42NjTZs2GDRd/HiRdWsWVM2NjaaPXt2oTzd3d2Vm5trscyqVavM9V15wLRx40b17dtX9erVk6Ojoxo3bqxXX31VeXl5132tC7b3ww8/6NFHH5Wrq6tq166tZ599VhcvXrSIXbZsmXr06CF3d3c5OjqqRYsWWrRoUaF19u/fXz4+PnJycpK7u7seeughff/99xYxBfvx9ttvF1q+WbNmsrGx0dixY822P/74Q88//7xat24tFxcXubq6qk+fPvr2228tlg0PD5eTk5MOHTpk0R4SEqKaNWvqxIkTZtvRo0f1yCOPqFatWqpatar8/f21ZcsWi+UK5v4qeDg6Ouruu+9WdHS0DMMo/sX9/13rvVfUZWBXvmeuflzp5MmTGjFihBo0aCA7OzszxsXFpUQ5XUuHDh0UFhZm0da6dWvZ2Njou+++M9vWrFkjGxsbi9f5m2++UZ8+feTq6ioXFxf17NlTe/futVhXwWd7165dGjNmjNzd3VW/fv1r5vPzzz+rSZMmatWqlTIyMq6b/9GjR2VjY6O5c+cW6tuzZ49sbGy0atUqs+23337T8OHD5eHhIUdHR7Vs2VJLly61WK60n/fZs2fr7bffVuPGjeXo6KiDBw9eN2+gMuA4YINFH8cBHAeUx+MASVq9erX8/PxUvXp1ubq6qnXr1po3b57ZX9KfRVFK+3k9ePCgBg8erJo1a6pLly5atmyZbGxs9M033xRa94wZM2RnZ6fffvvtpl8DoLxhDN1g0ccYyhjKGGrdMbSoOdILfgccPHhQwcHBqlq1qu666y7NnDmzROu8ko2NTZHTqvj4+JhT60hSbm6upk2bpqZNm8rJyUm1a9dWly5dFB8fb7Hchg0b1KpVKzk5OalVq1Zav359qXO6E3BGegVTMPg7Ojre0PL//ve/Cw0gkhQfH6+jR49q2LBh8vT01IEDB7RkyRIdOHBAe/fuLfRLc9GiRRa/IK8+GPnzzz/1t7/9TY8++qgGDRqkjz76SE8//bQcHBw0fPhwSVJWVpbef/99DRo0SE8++aTOnj2rDz74QCEhIfrqq6/Url07i3U6OTlp2bJlCg0NNdvi4uIKDa5XOnv2rDZv3qyHH37YbFu2bJmcnJwKLRcTEyMXFxdFRkbKxcVFO3bs0OTJk5WVlaVZs2ZdcxtXevTRR+Xj46Po6Gjt3btX//rXv/Tnn3/qww8/tHjtWrZsqYceekj29vbatGmTxowZo/z8fEVERFisb9SoUfL09NSJEyc0f/589erVS6mpqapatWqh12XcuHFm2549e/Tzzz8Xyu/o0aPasGGDHnnkEfn6+iojI0PvvvuuunXrpoMHD6pevXqSpHnz5mnHjh0KDw9XUlKS7Ozs9O6772rbtm3697//bcZlZGQoMDBQf/31l/75z3+qdu3aWr58uR566CGtW7fO4nWX/u8yygsXLmjNmjWaOHGi3N3dNWLEiBK9vgWvX8F7LyoqqtjYUaNGKSgoSNLl98rVv+jDw8P1+eef65lnnlHbtm1lZ2enJUuWaN++fSXOpyhBQUEWheY//vhDBw4ckK2trRITE9WmTRtJUmJiourWrWteWnrgwAEFBQXJ1dVVL7zwgqpUqaJ3331X3bt3165du9SpUyeL7YwZM0Z169bV5MmTdf78+SJzOXLkiHr06KFatWopPj5ederUuW7+jRo1UufOnbVy5UqNHz/eom/lypWqXr26+vfvL+nye8Df39880Kxbt67+85//aMSIEcrKyjLfl6X9vC9btkwXL17UqFGj5OjoqFq1anFWOiCOAzgO4DjgTjgOiI+P16BBg9SzZ0+9+eabkqRDhw7pyy+/1LPPPiup5D+La62/NJ/XRx55RE2bNtWMGTNkGIYGDhyoiIgIrVy5Uu3bt7eIXblypbp376677rrrpl4DoDxiDGUMZQxlDL0TxtA///xTDzzwgMLCwvToo49q3bp1evHFF9W6dWv16dPnptZdlKlTpyo6OlojR47Ufffdp6ysLH399dfat2+f7r//fknStm3bNGDAALVo0ULR0dH6/fffNWzYsGJP6LtjGahQ3n77bUOS8e2331q0d+vWzWjZsqVF27JlywxJRmpqqmEYhnHx4kWjQYMGRp8+fQxJxrJly8zYv/76q9C2Vq1aZUgydu/ebbZNmTLFkGScOnXqmjl269bNkGTMmTPHbMvOzjbatWtnuLu7Gzk5OYZhGMalS5eM7Oxsi2X//PNPw8PDwxg+fLjZlpqaakgyBg0aZNjb2xvp6elmX8+ePY3BgwcbkoxZs2YVynPQoEFGv379zPaff/7ZsLW1NQYNGlRoP4p6DUaPHm1UrVrVuHjx4jX398rtPfTQQxbtY8aMKfTzKmo7ISEhRqNGjYrdxkcffWRIMr7++muzTZIxcOBAw97e3qJ9xIgR5usSERFhtl+8eNHIy8uzWG9qaqrh6OhoTJ8+3aJ969athiTjtddeM44ePWq4uLgYoaGhFjHjxo0zJBmJiYlm29mzZw1fX1/Dx8fH3NbOnTsNScbOnTstcrG1tTXGjBlT7H4XmDhxoiHJOH36tNnWsmVLo1u3boVif/zxR0OSsXz5crOt4GdU4MKFC4atra0xevRoi2XDw8ONatWqlSina1m7dq0hyTh48KBhGIbxySefGI6OjsZDDz1k/P3vfzfj2rRpYzz88MPm89DQUMPBwcE4cuSI2XbixAmjevXqRteuXc22gs92ly5djEuXLlls+8rP6KFDh4x69eoZHTt2NP74449S7cO7775rSDIOHTpktuXk5Bh16tQxwsPDzbYRI0YYXl5eFj8XwzCMf/zjH4abm5v5fi/t593V1dU4efJkqXIGKgOOAzgO4Dig/B8HPPvss4arq2uhMfpKJf1ZFLz/b+bzOmjQoELxgwYNMurVq2eRw759+wptC6hIGEMZQxlDGUPL0xha1M+24HfAhx9+aLZlZ2cbnp6exoABA0q8bsO4/B6fMmVKofaGDRta/E3ftm1bo2/fvsWuq127doaXl5dx5swZs23btm2GJKN
"text/plain": [
"<Figure size 1500x1000 with 4 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"visualize_outliers(df)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод устраняет выбросы в заданных колонках, задавая значениям выше максимального значение максимума, а ниже минимального - значение минимума."
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 155,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def remove_outliers(dataframe: DataFrame, columns: list[str]) -> DataFrame:\n",
" print('Колонки с выбросами:', *columns, sep='\\n')\n",
" for column in columns:\n",
" Q1: float = dataframe[column].quantile(0.25)\n",
" Q3: float = dataframe[column].quantile(0.75)\n",
" IQR: float = Q3 - Q1\n",
"\n",
" lower_bound: float = Q1 - 1.5 * IQR\n",
" upper_bound: float = Q3 + 1.5 * IQR\n",
"\n",
" dataframe[column] = dataframe[column].apply(lambda x: lower_bound if x < lower_bound else upper_bound if x > upper_bound else x)\n",
" \n",
" return dataframe"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Устраняем выбросы, если они имеются"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 156,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонки с выбросами:\n",
"work_year\n",
"salary\n",
"salary_in_usd\n"
]
}
],
"source": [
"df = remove_outliers(df, columns_with_outliers)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверим наличие выбросов и визуализируем"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 157,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонка work_year:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 2020.5\n",
"\tМ а кс има льно е значение: 2023.0\n",
"\t1-й квартиль (Q1): 2022.0\n",
"\t3-й квартиль (Q3): 2023.0\n",
"\n",
"Колонка salary:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 6000.0\n",
"\tМ а кс има льно е значение: 300000.0\n",
"\t1-й квартиль (Q1): 100000.0\n",
"\t3-й квартиль (Q3): 180000.0\n",
"\n",
"Колонка salary_in_usd:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 5132.0\n",
"\tМ а кс има льно е значение: 295000.0\n",
"\t1-й квартиль (Q1): 95000.0\n",
"\t3-й квартиль (Q3): 175000.0\n",
"\n",
"Колонка remote_ratio:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 0\n",
"\tМ а кс има льно е значение: 100\n",
"\t1-й квартиль (Q1): 0.0\n",
"\t3-й квартиль (Q3): 100.0\n",
"\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAABdIAAAPeCAYAAAAI5OjmAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAADEHUlEQVR4nOzdeVxV5fr//zegDIqgKIMeETUrwTHJgcyZQI+lFk024ZRlG0v5nPRw8jhWfNLULFEzE+wgOaWZw1HJsRLqhKGJyufkkJ6DoJZCkgLK+v3hj/V1C2xBTRBez8djPWqv+9r3utaCzb289lr3sjMMwxAAAAAAAAAAACiRfUUnAAAAAAAAAABAZUYhHQAAAAAAAAAAGyikAwAAAAAAAABgA4V0AAAAAAAAAABsoJAOAAAAAAAAAIANFNIBAAAAAAAAALCBQjoAAAAAAAAAADZQSAcAAAAAAAAAwAYK6QAAAAAAAAAA2EAhHQCqkcmTJ8vOzk5nzpyp6FQAAMBNOnbsmOzs7BQXF1fRqQAAcEep7GPojh07ZGdnpx07dlR0KjdsyJAhatq0aUWncUtRSK9iVq1aJTs7uxKX1q1bV3R6QLXRs2dPDRkyRNKVwaNnz54Vmk91UHQiVHSiUZlPioA/CucBQOVQXc4Drt63yZMnV7l/LKN6YQwFKofqMoZWV1f/O71p06aaPHlyheZTXjUqOgH8Mf72t7/J39/ffP3WW29VYDYAAOB24jwAAIAbwxgKoDLo3r27Lly4IEdHx4pOBVehkF5FPfTQQ1bf2i1atIipHIBqLDc3V7Vr167oNP4Qly5dUmFhYUWnAVQqnAcAuBFV+XwBKCvGUAA34laPofb29nJ2dr5l/eHWYGqXKiY/P1/SlQ/c9cTFxcnOzk7Hjh0z1xUWFqpt27bFpkTYt2+fhgwZoubNm8vZ2Vk+Pj4aNmyYfvnlF6s+i+ZfvnapUeP/fWfTs2dPtW7dWikpKXrggQfk4uKiZs2aacGCBcX2ZeLEiQoMDJS7u7tq166tbt26afv27VZxRdM52NnZ6fPPP7dqu3jxourVqyc7Ozu9++67xfL08vJSQUGB1Xs+/fRTs7+rT5jWrl2r/v37q1GjRnJyctJdd92ladOm6fLly9c91kXbO3TokJ588km5ubmpfv36eu2113Tx4kWr2NjYWPXu3VteXl5ycnJSQECA5s+fX6zPgQMHqmnTpnJ2dpaXl5cGDBigH3/80SqmaD/ee++9Yu9v2bKl7OzsFBERYa779ddf9Ze//EVt2rSRq6ur3Nzc1K9fP+3du9fqveHh4XJ2dtbBgwet1oeGhqpevXrKyMgw1x05ckRPPPGEPDw8VKtWLXXp0kUbNmywel/R3F9Fi5OTk+655x5FR0fLMAzbB/f/V9rvXkm3gV39O3PtcrVTp05p+PDhatKkiRwcHMwYV1fXMuVUmg4dOuixxx6zWtemTRvZ2dlp37595rrly5fLzs7O6jj/8MMP6tevn9zc3OTq6qo+ffooOTnZqq+iz/bOnTv1yiuvyMvLS40bNy41n59//lktWrRQ69atlZWVdd38jxw5Ijs7O82ePbtY2+7du2VnZ6dPP/3UXPff//5Xw4YNk7e3t5ycnNSqVSstXrzY6n3l/by/++67eu+993TXXXfJyclJBw4cuG7eQHXAecDnVm2cB3AeUBnPAyRp2bJlCgwMVJ06deTm5qY2bdpozpw5ZntZfxYlKe/n9cCBA3rmmWdUr149Pfjgg4qNjZWdnZ1++OGHYn2//fbbcnBw0H//+9+bPgZAZcMY+rlVG2MoYyhjaMWOoSXNkV70N+DAgQPq1auXatWqpT/96U+aPn16mfq8mp2dXYnTqjRt2tScWkeSCgoKNGXKFN19991ydnZW/fr19eCDDyoxMdHqfZ9//rlat24tZ2dntW7dWmvWrCl3TncCrkivYooGfycnpxt6/z/+8Y9iA4gkJSYm6siRIxo6dKh8fHyUlpamhQsXKi0tTcnJycX+aM6fP9/qD+S1JyNnz57Vn//8Zz355JMaPHiwVqxYoVGjRsnR0VHDhg2TJOXk5GjRokUaPHiwXnzxRf3222/6+OOPFRoaqu+++07t27e36tPZ2VmxsbEaNGiQuW716tXFBter/fbbb1q/fr0effRRc11sbKycnZ2LvS8uLk6urq6KjIyUq6urtm3bpokTJyonJ0czZswodRtXe/LJJ9W0aVNFR0crOTlZ77//vs6ePatPPvnE6ti1atVKAwYMUI0aNbRu3Tq98sorKiwslMVisepv5MiR8vHxUUZGhubOnavg4GAdPXpUtWrVKnZcxowZY67bvXu3fv7552L5HTlyRJ9//rmeeOIJNWvWTFlZWfrwww/Vo0cPHThwQI0aNZIkzZkzR9u2bVN4eLiSkpLk4OCgDz/8UFu2bNE//vEPMy4rK0sPPPCAfv/9d7366quqX7++lixZogEDBmjVqlVWx136f7dRXrhwQcuXL9ff/vY3eXl5afjw4WU6vkXHr+h3LyoqymbsyJEj1a1bN0lXfleu/UMfHh6uL7/8UqNHj1a7du3k4OCghQsXas+ePWXOpyTdunWzKjT/+uuvSktLk729vb766iu1bdtWkvTVV1/J09PTvLU0LS1N3bp1k5ubm8aNG6eaNWvqww8/VM+ePbVz50517tzZajuvvPKKPD09NXHiROXm5paYy+HDh9W7d295eHgoMTFRDRo0uG7+zZs3V9euXbV06VKNHTvWqm3p0qWqU6eOBg4cKOnK70CXLl3ME01PT0/985//1PDhw5WTk2P+Xpb38x4bG6uLFy9q5MiRcnJykoeHB1elA+I8gPMAzgPuhPOAxMREDR48WH369NE777wjSTp48KC++eYbvfbaa5LK/rMorf/yfF6feOIJ3X333Xr77bdlGIYef/xxWSwWLV26VPfdd59V7NKlS9WzZ0/96U9/uqljAFRGjKGMoYyhjKF3whh69uxZ9e3bV4899piefPJJrVq1SuPHj1ebNm3Ur1+/m+q7JJMnT1Z0dLRGjBihTp06KScnR99//7327Nmjhx56SJK0ZcsWhYWFKSAgQNHR0frll180dOhQmxf03bEMVCnvvfeeIcnYu3ev1foePXoYrVq1sloXGxtrSDKOHj1qGIZhXLx40WjSpInRr18/Q5IRGxtrxv7+++/FtvXpp58akoxdu3aZ6yZNmmRIMk6fPl1qjj169DAkGTNnzjTX5eXlGe3btze8vLyM/Px8wzAM49KlS0ZeXp7Ve8+ePWt4e3sbw4YNM9cdPXrUkGQMHjzYqFGjhpGZmWm29enTx3jmmWcMScaMGTOK5Tl48GDj4YcfNtf//PPPhr29vTF48OBi+1HSMXjppZeMWrVqGRcvXix1f6/e3oABA6zWv/LKK8V+XiVtJzQ01GjevLnNbaxYscKQZHz//ffmOknG448/btSoUcNq/fDhw83jYrFYzPUXL140Ll++bNXv0aNHDScnJ2Pq1KlW6zdv3mxIMt58803jyJEjhqurqzFo0CCrmDFjxhiSjK+++spc99tvvxnNmjUzmjZtam5r+/bthiRj+/btVrnY29sbr7zyis39LvK3v/3NkGScOXPGXNeqVSujR48exWL//e9/G5KMJUuWmOuKfkZFLly4YNjb2xsvvfSS1XvDw8ON2rVrlymn0qxcudKQZBw4cMAwDMP44osvDCcnJ2PAgAHGU089Zca1bdvWePTRR83XgwYNMhwdHY3Dhw+b6zIyMow6deoY3bt3N9cVfbYffPBB49KlS1bbvvozevDgQaNRo0ZGx44djV9//bVc+/Dhhx8akoyDBw+a6/Lz840GDRoY4eHh5rrhw4cbDRs2tPq5GIZhPP3004a7u7v5+17ez7ubm5tx6tSpcuUMVAecB3AewHlA5T8PeO211ww3N7diY/TVyvqzKPr9v5nP6+DBg4vFDx482GjUqJFVDnv27Cm2LaAqYQxlDGUMZQytTGNoST/bor8Bn3zyibkuLy/P8PHxMcLCwsrct2Fc+R2fNGlSsfV+fn5W/6Zv166d0b9/f5t9tW/f3mj
"text/plain": [
"<Figure size 1500x1000 with 4 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"check_outliers(df)\n",
"visualize_outliers(df)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Разбиение набора данных на выборки:¶\n",
"Групповое разбиение данных – это метод разделения данных на несколько групп или подмножеств на основе определенного признака или характеристики. При этом наблюдения для одного объекта должны попасть только в одну выборку.\n",
"\n",
"Основные виды выборки данных:\n",
"- Обучающая выборка (60-80%). Обучение модели (подбор коэффициентов некоторой математической функции для аппроксимации).\n",
"- Контрольная выборка (10-20%). Выбор метода обучения, настройка гиперпараметров.\n",
"- Тестовая выборка (10-20% или 20-30%). Оценка качества модели перед передачей заказчику.\n",
"\n",
"Разделим выборку данных на 3 группы и проанализируем качество распределения данных."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Функция для создания выборок"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 158,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def split_stratified_into_train_val_test(\n",
" df_input,\n",
" stratify_colname=\"y\",\n",
" frac_train=0.6,\n",
" frac_val=0.15,\n",
" frac_test=0.25,\n",
" random_state=None,\n",
") -> tuple[Any, Any, Any]:\n",
" if frac_train + frac_val + frac_test != 1.0:\n",
" raise ValueError(\n",
" \"fractions %f, %f, %f do not add up to 1.0\"\n",
" % (frac_train, frac_val, frac_test)\n",
" )\n",
"\n",
" if stratify_colname not in df_input.columns:\n",
" raise ValueError(\"%s is not a column in the dataframe\" % (stratify_colname))\n",
"\n",
" X: DataFrame = df_input\n",
" y: DataFrame = df_input[\n",
" [stratify_colname]\n",
" ]\n",
"\n",
" df_train, df_temp, y_train, y_temp = train_test_split(\n",
" X, y, \n",
" stratify=y, \n",
" test_size=(1.0 - frac_train), \n",
" random_state=random_state\n",
" )\n",
"\n",
" relative_frac_test: float = frac_test / (frac_val + frac_test)\n",
" df_val, df_test, y_val, y_test = train_test_split(\n",
" df_temp,\n",
" y_temp,\n",
" stratify=y_temp,\n",
" test_size=relative_frac_test,\n",
" random_state=random_state,\n",
" )\n",
"\n",
" assert len(df_input) == len(df_train) + len(df_val) + len(df_test)\n",
"\n",
" return df_train, df_val, df_test"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Функция оценки сбалансированности по колонке"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 159,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def check_balance(dataframe: DataFrame, dataframe_name: str, column: str) -> None:\n",
" counts: Series[int] = dataframe[column].value_counts()\n",
" print(dataframe_name + \": \", dataframe.shape)\n",
" print(f\"Распределение выборки данных по классам в колонке \\\"{column}\\\":\\n\", counts)\n",
" total_count: int = len(dataframe)\n",
" for value in counts.index:\n",
" percentage: float = counts[value] / total_count * 100\n",
" print(f\"Процент объектов класса \\\"{value}\\\": {percentage:.2f}%\")\n",
" print()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Функция определения необходимости аугментации данных"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 160,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def need_augmentation(dataframe: DataFrame,\n",
" column: str, \n",
" first_value: Any, second_value: Any) -> bool:\n",
" counts: Series[int] = dataframe[column].value_counts()\n",
" ratio: float = counts[first_value] / counts[second_value]\n",
" return ratio > 1.5 or ratio < 0.67"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод визуализации сбалансированности классов"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 161,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def visualize_balance(dataframe: DataFrame,\n",
" column: str) -> None:\n",
" fig, axes = plt.subplots(1, 1, figsize=(15, 5))\n",
"\n",
" counts_train: Series[int] = dataframe[column].value_counts()\n",
" axes.pie(counts_train, labels=counts_train.index, autopct='%1.1f%%', startangle=90)\n",
" axes.set_title(f\"Распределение классов \\\"{column}\\\"\\n\")\n",
"\n",
" plt.tight_layout()\n",
" plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Разделим выборку данных на 3 группы и проанализируем качество распределения данных.\n",
"\n",
"Стратифицированное разбиение требует, чтобы в каждом классе, по которому происходит стратификация, было минимум по два элемента, иначе метод не сможет корректно разделить данные на тренировочные, валидационные и тестовые наборы.\n",
"\n",
"Чтобы решить эту проблему введём категории для значения зарплаты. Вместо того, чтобы использовать точные значения зарплаты для стратификации, мы создадим категории зарплат, основываясь на квартилях (25%, 50%, 75%) и минимальном и максимальном значении зарплаты. Это позволит создать более крупные классы, что устранит проблему с редкими значениями\n",
"\n",
"Категории для разбиения зарплат:\n",
"- Низкая зарплата: зарплаты ниже первого квартиля (25%) — это значения меньше 95000.\n",
"- Средняя зарплата: зарплаты между первым квартилем (25%) и третьим квартилем (75%) — это зарплаты от 95000 до 175000.\n",
"- Высокая зарплата: зарплаты выше третьего квартиля (75%) и до максимального значения — это зарплаты выше 175000."
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 162,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Распределение количества наблюдений по меткам (классам):\n",
"salary_in_usd\n",
"100000.0 99\n",
"150000.0 98\n",
"120000.0 91\n",
"160000.0 84\n",
"130000.0 82\n",
" ..\n",
"39916.0 1\n",
"26005.0 1\n",
"22611.0 1\n",
"5679.0 1\n",
"40038.0 1\n",
"Name: count, Length: 1002, dtype: int64 \n",
"\n",
"Статистическое описание целевого признака:\n",
"count 3755.000000\n",
"mean 136959.779760\n",
"std 61098.121137\n",
"min 5132.000000\n",
"25% 95000.000000\n",
"50% 135000.000000\n",
"75% 175000.000000\n",
"max 295000.000000\n",
"Name: salary_in_usd, dtype: float64 \n",
"\n",
"Распределение количества наблюдений по меткам (классам):\n",
"salary_category\n",
"medium 1867\n",
"low 956\n",
"high 932\n",
"Name: count, dtype: int64 \n",
"\n",
"Проверка сбалансированности:\n",
"Весь датасет: (3755, 12)\n",
"Распределение выборки данных по классам в колонке \"salary_category\":\n",
" salary_category\n",
"medium 1867\n",
"low 956\n",
"high 932\n",
"Name: count, dtype: int64\n",
"Процент объектов класса \"medium\": 49.72%\n",
"Процент объектов класса \"low\": 25.46%\n",
"Процент объектов класса \"high\": 24.82%\n",
"\n",
"Проверка необходимости аугментации:\n",
"Для датасета аугментация данных ТРЕБУЕТСЯ\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAd0AAAHqCAYAAABBQpR7AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABV/ElEQVR4nO3dd3QUZcMF8Du72Wx6L4QaIJBQgoSqtAQEBBEsCAoCAqKogOJn5bWAYEcFBStKUcGCKEXpVXoPNZRAQgnpkN62zPdHyMKSkATYzLPl/s7hhMzOztzdlJtnqiTLsgwiIiKqcSrRAYiIiBwFS5eIiEghLF0iIiKFsHSJiIgUwtIlIiJSCEuXiIhIISxdIiIihbB0iYiIFMLSJSIiUghLl4gcRmhoKEaOHCk6Bjkwlm41zZ8/H5Ikmf65uLigadOmGD9+PFJTU0XHI7JZU6ZMQWhoKIBrP2d0577++mvMnz9fdAyLGzlyJGJiYgCYf+/YCifRAWzN1KlT0bBhQxQVFWHbtm345ptvsHLlShw9ehRubm6i4xERASgt3YCAAI7srQxL9xb17dsX7dq1AwCMGTMG/v7++Pzzz7Fs2TIMGTJEcDoiUkpRURGcnZ2hUnGD4Z3Iz8+Hu7u76BiK4XfLHerRowcAICEhAQBw+fJlvPLKK4iMjISHhwe8vLzQt29fHDp0qNxzi4qKMGXKFDRt2hQuLi4ICQnBI488gjNnzgAAEhMTzTZp3/ivbBMLAGzevBmSJOH333/H//73P9SqVQvu7u4YMGAALly4UG7du3fvRp8+feDt7Q03NzdER0dj+/btFb7GmJiYCtc/ZcqUcvP+8ssvaNu2LVxdXeHn54fHH3+8wvVX9tquZzQaMXPmTLRo0QIuLi4IDg7G2LFjceXKFbP5QkND8cADD5Rbz/jx48sts6Ls06dPL/eeAkBxcTEmT56MsLAwaLVa1KtXD6+99hqKi4srfK+uFxMTU25577//PlQqFRYtWnRb78enn36KTp06wd/fH66urmjbti3+/PPPCtf/yy+/oEOHDnBzc4Ovry+6deuGtWvXms2zatUqREdHw9PTE15eXmjfvn25bIsXLzZ9TQMCAjBs2DAkJSWZzTNy5EizzL6+voiJicHWrVurfJ+qsm/fPtx3330ICAiAq6srGjZsiNGjR9/2+3K96v68lv18/fbbb3jrrbdQp04duLm5ITY2FpIkYcaMGeWWvWPHDkiShF9//bXar9VoNOKLL75AZGQkXFxcEBgYiD59+mDfvn2meebNm4cePXogKCgIWq0WzZs3xzfffGO2nNDQUBw7dgxbtmyp8PdFVlYWJk6ciHr16kGr1SIsLAwff/wxjEaj2XIyMzMxfPhweHl5wcfHB08++SQOHToESZLKbbreuHEjunbtCnd3d/j4+ODBBx9EXFyc2TxTpkyBJEk4fvw4hg4dCl9fX3Tp0gXz5s2DJEk4ePBguffkgw8+gFqtLvc9Z6s40r1DZQXp7+8PADh79iyWLl2KQYMGoWHDhkhNTcV3332H6OhoHD9+HLVr1wYAGAwGPPDAA9iwYQMef/xxvPjii8jNzcW6detw9OhRNG7c2LSOIUOG4P777zdb76RJkyrM8/7770OSJLz++utIS0vDzJkz0bNnT8TGxsLV1RVA6Q9H37590bZtW0yePBkqlcr0g7x161Z06NCh3HLr1q2LDz/8EACQl5eH5557rsJ1v/322xg8eDDGjBmD9PR0zJo1C926dcPBgwfh4+NT7jnPPPMMunbtCgD466+/8Pfff5s9PnbsWMyfPx+jRo3CCy+8gISEBMyePRsHDx7E9u3bodFoKnwfbkVWVpbptV3PaDRiwIAB2LZtG5555hk0a9YMR44cwYwZM3Dq1CksXbr0ltYzb948vPXWW/jss88wdOjQCuep6v344osvMGDAADzxxBMoKSnBb7/9hkGDBuGff/5Bv379TPO9++67mDJlCjp16oSpU6fC2dkZu3fvxsaNG9G7d28ApftPR48ejRYtWmDSpEnw8fHBwYMHsXr1alO+sve+ffv2+PDDD5GamoovvvgC27dvL/c1DQgIMJXPxYsX8cUXX+D+++/HhQsXKvzaV0daWhp69+6NwMBAvPHGG/Dx8UFiYiL++uuv23pfblTdn9cy06ZNg7OzM1555RUUFxcjIiICnTt3xsKFC/HSSy+Zzbtw4UJ4enriwQcfrPbrfeqppzB//nz07dsXY8aMgV6vx9atW7Fr1y7TFrZvvvkGLVq0wIABA+Dk5IQVK1bg+eefh9FoxLhx4wAAM2fOxIQJE+Dh4YE333wTABAcHAwAKCgoQHR0NJKSkjB27FjUr18fO3bswKRJk5CcnIyZM2cCKP3+79+/P/bs2YPnnnsOERERWLZsGZ588slyudevX4++ffuiUaNGmDJlCgoLCzFr1ix07twZBw4cKLffddCgQWjSpAk++OADyLKMRx99FOPGjcPChQsRFRVV7n2MiYlBnTp1qv0+WjWZqmXevHkyAHn9+vVyenq6fOHCBfm3336T/f39ZVdXV/nixYuyLMtyUVGRbDAYzJ6bkJAga7VaeerUqaZpc+fOlQHIn3/+ebl1GY1G0/MAyNOnTy83T4sWLeTo6GjT55s2bZIByHXq1JFzcnJM0//44w8ZgPzFF1+Ylt2kSRP5vvvuM61HlmW5oKBAbtiwodyrV69y6+rUqZPcsmVL0+fp6ekyAHny5MmmaYmJibJarZbff/99s+ceOXJEdnJyKjf99OnTMgB5wYIFpmmTJ0+Wr/+W3Lp1qwxAXrhwodlzV69eXW56gwYN5H79+pXLPm7cOPnGb/Mbs7/22mtyUFCQ3LZtW7P39Oeff5ZVKpW8detWs+d/++23MgB5+/bt5dZ3vejoaNPy/v33X9nJyUl++eWXK5y3Ou+HLJd+na5XUlIit2zZUu7Ro4fZslQqlfzwww+X+14s+5pnZWXJnp6ecseOHeXCwsIK5ykpKZGDgoLkli1bms3zzz//yADkd955xzTtySeflBs0aGC2nO+//14GIO/Zs6fC11wdf//9twxA3rt3b6XzVed9keXS75Mnn3zS9Hl1f17Lfr4aNWpUbl3fffedDECOi4szW39AQIDZuqqyceNGGYD8wgsvlHvsxp/VG913331yo0aNzKbd+DuizLRp02R3d3f51KlTZtPfeOMNWa1Wy+fPn5dlWZaXLFkiA5BnzpxpmsdgMMg9evSQAcjz5s0zTW/durUcFBQkZ2ZmmqYdOnRIVqlU8ogRI0zTyr6nhwwZUi7XkCFD5Nq1a5t9PQ4cOFBuXbaOm5dvUc+ePREYGIh69erh8ccfh4eHB/7++2/TX2Farda0j8dgMCAzMxMeHh4IDw/HgQMHTMtZsmQJAgICMGHChHLruJOjN0eMGAFPT0/T548++ihCQkKwcuVKAEBsbCxOnz6NoUOHIjMzExkZGcjIyEB+fj7uvfde/Pfff+U2MRUVFcHFxaXS9f71118wGo0YPHiwaZkZGRmoVasWmjRpgk2bNpnNX1JSAqD0/bqZxYsXw9vbG7169TJbZtu2beHh4VFumTqdzmy+jIwMFBUVVZo7KSkJs2bNwttvvw0PD49y62/WrBkiIiLMllm2S+HG9d/Mnj17MHjwYAwcOBDTp0+vcJ7qvB8ATFsrAODKlSvIzs5G165dzb63li5dCqPRiHfeeafc/say761169YhNzcXb7zxRrmvbdk8+/btQ1paGp5//nmzefr164eIiAj8+++/Zs8zGo2m9yg2NhY//fQTQkJC0KxZs0pfU2XKRsj//PMPdDrdTeerzvtSker+vJZ58sknzdYFAIMHD4aLiwsWLlxomrZmzRpkZGRg2LBhVb7GMkuWLIEkSZg8eXK5x67/nXD9+rOzs5GRkYHo6GicPXsW2dnZVa5n8eLF6Nq1K3x9fc2+r3v27AmDwYD//vsPALB69WpoNBo8/fTTpueqVCrTaLpMcnIyYmNjMXLkSPj5+Zmmt2rVCr169TL97rnes88+W27aiBEjcOnSJbOfq4ULF8LV1RUDBw6s8nXZCm5
"text/plain": [
"<Figure size 1500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Вывод распределения количества наблюдений по меткам (классам)\n",
"print('Распределение количества наблюдений по меткам (классам):')\n",
"print(df.salary_in_usd.value_counts(), '\\n')\n",
"\n",
"# Статистическое описание целевого признака\n",
"print('Статистическое описание целевого признака:')\n",
"print(df['salary_in_usd'].describe().transpose(), '\\n')\n",
"\n",
"# Определим границы для каждой категории зарплаты\n",
"bins: list[float] = [df['salary_in_usd'].min() - 1, \n",
" df['salary_in_usd'].quantile(0.25), \n",
" df['salary_in_usd'].quantile(0.75), \n",
" df['salary_in_usd'].max() + 1]\n",
"labels: list[str] = ['low', 'medium', 'high']\n",
"\n",
"# Создаем новую колонку с категориями зарплат#\n",
"df['salary_category'] = pd.cut(df['salary_in_usd'], bins=bins, labels=labels)\n",
"\n",
"# Вывод распределения количества наблюдений по меткам (классам)\n",
"print('Распределение количества наблюдений по меткам (классам):')\n",
"print(df['salary_category'].value_counts(), '\\n')\n",
"\n",
"# Проверка сбалансированности\n",
"print('Проверка сбалансированности:')\n",
"check_balance(df, 'Весь датасет', 'salary_category')\n",
"\n",
"# Проверка необходимости аугментации\n",
"print('Проверка необходимости аугментации:')\n",
"print(f\"Для датасета аугментация данных {'Н Е ' if not need_augmentation(df, 'salary_category', 'low', 'medium') else ''}ТРЕБУЕТСЯ\")\n",
" \n",
"# Визуализация сбалансированности классов\n",
"visualize_balance(df, 'salary_category')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Данные обладают значительным дисбалансом между классами. Это может быть проблемой при обучении модели, так как она может иметь тенденцию игнорировать низкие или высокие зарплаты (low или high), что следует учитывать при дальнейшем анализе и выборе методов обработки данных.\n",
"\n",
"Для получения более сбалансированных данных необходимо воспользоваться методами приращения (аугментации) данных, а именно методами oversampling и undersampling."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Метод приращения с избытком (oversampling)"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 163,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [],
"source": [
"def oversample(df: DataFrame, column: str) -> DataFrame:\n",
" X: DataFrame = pd.get_dummies(df.drop(column, axis=1))\n",
" y: DataFrame = df[column] # type: ignore\n",
" \n",
" adasyn = ADASYN()\n",
" X_resampled, y_resampled = adasyn.fit_resample(X, y) # type: ignore\n",
" \n",
" df_resampled: DataFrame = pd.concat([X_resampled, y_resampled], axis=1)\n",
" return df_resampled"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 164,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Проверка сбалансированности выборок после применения метода oversampling:\n",
"Весь датасет: (5601, 279)\n",
"Распределение выборки данных по классам в колонке \"salary_category\":\n",
" salary_category\n",
"high 1868\n",
"medium 1867\n",
"low 1866\n",
"Name: count, dtype: int64\n",
"Процент объектов класса \"high\": 33.35%\n",
"Процент объектов класса \"medium\": 33.33%\n",
"Процент объектов класса \"low\": 33.32%\n",
"\n",
"Проверка необходимости аугментации выборок после применения метода oversampling:\n",
"Для всего датасета аугментация данных Н Е ТРЕБУЕТСЯ\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAb4AAAHqCAYAAAB7kisIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABaO0lEQVR4nO3dd3gUVcMF8LMlZdMbqZQQEnoQCEVqItIREBQEFARFsbwq72flRQWxIiooiCIqoIJIkd6U3mtI6BAggTTSe90y3x8xKyEJBNjk7u6c3/PwaHY3M2c3m5ydmTt3FJIkSSAiIpIJpegAREREdYnFR0REssLiIyIiWWHxERGRrLD4iIhIVlh8REQkKyw+IiKSFRYfERHJCouPiIhkhcVHRHUqMDAQ48ePFx2DZMyiim/x4sVQKBTGf/b29mjatCn+85//ICUlRXQ8Ios1ffp0BAYGAvj394zu3/z587F48WLRMUxu/PjxiIiIAFDxvWMp1KID3IsZM2agcePGKC4uxv79+/Hdd99h8+bNOHPmDBwcHETHIyICUFZ8Xl5e3MI1MxZZfAMGDECHDh0AABMnToSnpye++uorrFu3DqNHjxacjojqSnFxMWxtbaFUWtTOK7NTUFAAR0dH0THqjFW8W3r16gUAiI2NBQBkZmbijTfeQGhoKJycnODi4oIBAwYgOjq60vcWFxdj+vTpaNq0Kezt7eHn54fhw4fjypUrAIC4uLgKu1dv/Ve+uQ8Au3fvhkKhwB9//IH//e9/8PX1haOjI4YMGYL4+PhK6z5y5Aj69+8PV1dXODg4IDw8HAcOHKjyOUZERFS5/unTp1d67G+//YawsDBoNBp4eHhg1KhRVa7/ds/tZgaDAXPmzEGrVq1gb28PHx8fTJo0CVlZWRUeFxgYiEceeaTSev7zn/9UWmZV2WfNmlXpNQWAkpISTJs2DcHBwbCzs0ODBg3w1ltvoaSkpMrX6mYRERGVlvfxxx9DqVRi2bJl9/R6fPHFF+jatSs8PT2h0WgQFhaGVatWVbn+3377DZ06dYKDgwPc3d3Rs2dP/PXXXxUes2XLFoSHh8PZ2RkuLi7o2LFjpWwrV640/ky9vLzw1FNPITExscJjxo8fXyGzu7s7IiIisG/fvju+Tndy/Phx9OvXD15eXtBoNGjcuDGeeeaZe35dblbT39fy36/ly5fj3XffRUBAABwcHBAVFQWFQoHZs2dXWvbBgwehUCjw+++/1/i5GgwGfP311wgNDYW9vT3q1auH/v374/jx48bHLFq0CL169YK3tzfs7OzQsmVLfPfddxWWExgYiLNnz2LPnj1V/r3Izs7G5MmT0aBBA9jZ2SE4OBgzZ86EwWCosJyMjAyMHTsWLi4ucHNzw9NPP43o6GgoFIpKu1F37tyJHj16wNHREW5ubhg6dCjOnz9f4THTp0+HQqHAuXPnMGbMGLi7u6N79+5YtGgRFAoFTp48Wek1+eSTT6BSqSq95yyVRW7x3aq8pDw9PQEAV69exdq1azFixAg0btwYKSkpWLBgAcLDw3Hu3Dn4+/sDAPR6PR555BHs2LEDo0aNwmuvvYa8vDz8/fffOHPmDJo0aWJcx+jRozFw4MAK650yZUqVeT7++GMoFAq8/fbbSE1NxZw5c9C7d29ERUVBo9EAKHuDDhgwAGFhYZg2bRqUSqXxl2nfvn3o1KlTpeXWr18fn376KQAgPz8fL774YpXrfu+99zBy5EhMnDgRaWlpmDt3Lnr27ImTJ0/Czc2t0vc8//zz6NGjBwDgzz//xJo1ayrcP2nSJCxevBgTJkzAq6++itjYWMybNw8nT57EgQMHYGNjU+XrcDeys7ONz+1mBoMBQ4YMwf79+/H888+jRYsWOH36NGbPno1Lly5h7dq1d7WeRYsW4d1338WXX36JMWPGVPmYO70eX3/9NYYMGYInn3wSpaWlWL58OUaMGIGNGzdi0KBBxsd98MEHmD59Orp27YoZM2bA1tYWR44cwc6dO9G3b18AZcfTnnnmGbRq1QpTpkyBm5sbTp48ia1btxrzlb/2HTt2xKeffoqUlBR8/fXXOHDgQKWfqZeXl7EAEhIS8PXXX2PgwIGIj4+v8mdfE6mpqejbty/q1auHd955B25uboiLi8Off/55T6/LrWr6+1ruww8/hK2tLd544w2UlJSgefPm6NatG5YuXYr//ve/FR67dOlSODs7Y+jQoTV+vs8++ywWL16MAQMGYOLEidDpdNi3bx8OHz5s3NP03XffoVWrVhgyZAjUajU2bNiAl156CQaDAS+//DIAYM6cOXjllVfg5OSEqVOnAgB8fHwAAIWFhQgPD0diYiImTZqEhg0b4uDBg5gyZQqSk5MxZ84cAGXv/8GDB+Po0aN48cUX0bx5c6xbtw5PP/10pdzbt2/HgAEDEBQUhOnTp6OoqAhz585Ft27dEBkZWek43IgRIxASEoJPPvkEkiTh8ccfx8svv4ylS5eiXbt2lV7HiIgIBAQE1Ph1NGuSBVm0aJEEQNq+fbuUlpYmxcfHS8uXL5c8PT0ljUYjJSQkSJIkScXFxZJer6/wvbGxsZKdnZ00Y8YM420///yzBED66quvKq3LYDAYvw+ANGvWrEqPadWqlRQeHm78eteuXRIAKSAgQMrNzTXevmLFCgmA9PXXXxuXHRISIvXr18+4HkmSpMLCQqlx48ZSnz59Kq2ra9euUuvWrY1fp6WlSQCkadOmGW+Li4uTVCqV9PHHH1f43tOnT0tqtbrS7TExMRIAacmSJcbbpk2bJt38tti3b58EQFq6dGmF7926dWul2xs1aiQNGjSoUvaXX35ZuvWtdmv2t956S/L29pbCwsIqvKa//vqrpFQqpX379lX4/u+//14CIB04cKDS+m4WHh5uXN6mTZsktVotvf7661U+tiavhySV/ZxuVlpaKrVu3Vrq1atXhWUplUpp2LBhld6L5T/z7OxsydnZWercubNUVFRU5WNKS0slb29vqXXr1hUes3HjRgmA9P777xtve/rpp6VGjRpVWM4PP/wgAZCOHj1a5XOuiTVr1kgApGPHjt32cTV5XSSp7H3y9NNPG7+u6e9r+e9XUFBQpXUtWLBAAiCdP3++wvq9vLwqrOtOdu7cKQGQXn311Ur33fq7eqt+/fpJQUFBFW679W9EuQ8//FBydHSULl26VOH2d955R1KpVNL169clSZKk1atXSwCkOXPmGB+j1+ulXr16SQCkRYsWGW9v27at5O3tLWVkZBhvi46OlpRKpTRu3DjjbeXv6dGjR1fKNXr0aMnf37/CzyMyMrLSuiydRe7q7N27N+rVq4cGDRpg1KhRcHJywpo1a4yfRuzs7Iz7/PV6PTIyMuDk5IRmzZohMjLSuJzVq1fDy8sLr7zySqV13M+otnHjxsHZ2dn49eOPPw4/Pz9s3rwZABAVFYWYmBiMGTMGGRkZSE9PR3p6OgoKCvDwww9j7969lXZ3FBcXw97e/rbr/fPPP2EwGDBy5EjjMtPT0+Hr64uQkBDs2rWrwuNLS0sBlL1e1Vm5ciVcXV3Rp0+fCssMCwuDk5NTpWVqtdoKj0tPT0dxcfFtcycmJmLu3Ll477334OTkVGn9LVq0QPPmzSsss3z39q3rr87Ro0cxcuRIPPbYY5g1a1aVj6nJ6wHAuNUOAFlZWcjJyUGPHj0qvLfWrl0Lg8GA999/v9Lxp/L31t9//428vDy88847lX625Y85fvw4UlNT8dJLL1V4zKBBg9C8eXNs2rSpwvcZDAbjaxQVFYVffvkFfn5+aNGixW2f0+2Ubylu3LgRWq222sfV5HWpSk1/X8s9/fTTFdYFACNHjoS9vT2WLl1qvG3btm1IT0/HU089dcfnWG716tVQKBSYNm1apftu/ptw8/pzcnKQnp6O8PBwXL16FTk5OXdcz8qVK9GjRw+4u7tXeF/37t0ber0ee/fuBQBs3boVNjY2eO6554zfq1QqjVuV5ZKTkxEVFYXx48fDw8PDeHubNm3Qp08f49+em73wwguVbhs3bhySkpIq/F4tXboUGo0Gjz322B2fl6WwyF2
"text/plain": [
"<Figure size 1500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Приращение данных (oversampling)\n",
"df_oversampled: DataFrame = oversample(df, 'salary_category')\n",
"\n",
"# Проверка сбалансированности\n",
"print('Проверка сбалансированности выборок после применения метода oversampling:')\n",
"check_balance(df_oversampled, 'Весь датасет', 'salary_category')\n",
"\n",
"# Проверка необходимости аугментации\n",
"print('Проверка необходимости аугментации выборок после применения метода oversampling:')\n",
"print(f\"Для всего датасета аугментация данных {'Н Е ' if not need_augmentation(df_oversampled, 'salary_category', 'low', 'medium') else ''}ТРЕБУЕТСЯ\")\n",
" \n",
"# Визуализация сбалансированности классов\n",
"visualize_balance(df_oversampled, 'salary_category')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Разделим датасет на выборки"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 165,
2024-11-23 21:00:03 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Тренировочная выборка\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAb4AAAHqCAYAAAB7kisIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABbz0lEQVR4nO3dd3gU5cIF8DO7m7LpvVJS6UGaIDWRJkVERRFQEJQr1it+Vq4FBBuigIIgFooKIkVqKErvNYTeIZCEQHpvW+b7I2YlJECATd7dnfN7njyQLTNnJ5ucnXeaJMuyDCIiIoVQiQ5ARERUm1h8RESkKCw+IiJSFBYfEREpCouPiIgUhcVHRESKwuIjIiJFYfEREZGisPiIiEhRWHxEVKtCQkIwfPhw0TFIwayq+ObOnQtJkkxfjo6OaNCgAV599VVcu3ZNdDwiqzVu3DiEhIQA+Pf3jO7djBkzMHfuXNExzG748OGIiYkBUPG9Yy00ogPcjfHjxyM0NBTFxcXYsWMHZs6ciTVr1uDYsWNwcnISHY+ICEBZ8fn4+HAN18JYZfH17t0bbdq0AQCMHDkS3t7emDx5MlasWIHBgwcLTkdEtaW4uBj29vZQqaxq8MriFBQUwNnZWXSMWmMT75auXbsCAC5evAgAyMzMxFtvvYWoqCi4uLjAzc0NvXv3xuHDhys9t7i4GOPGjUODBg3g6OiIwMBAPP744zh//jwAICEhocLw6o1f5av7ALBlyxZIkoQ//vgD//vf/xAQEABnZ2c88sgjSExMrDTvvXv3olevXnB3d4eTkxOio6Oxc+fOKl9jTExMlfMfN25cpcf+9ttvaN26NbRaLby8vDBo0KAq53+r13Y9o9GIqVOnomnTpnB0dIS/vz9GjRqFrKysCo8LCQnBww8/XGk+r776aqVpVpV90qRJlZYpAJSUlGDs2LGIiIiAg4MD6tati3feeQclJSVVLqvrxcTEVJrep59+CpVKhQULFtzV8vjqq6/QoUMHeHt7Q6vVonXr1liyZEmV8//tt9/Qtm1bODk5wdPTE126dMFff/1V4TFr165FdHQ0XF1d4ebmhvvvv79StsWLF5t+pj4+PnjmmWeQnJxc4THDhw+vkNnT0xMxMTHYvn37bZfT7Rw4cAAPPfQQfHx8oNVqERoaiueee+6ul8v1qvv7Wv77tXDhQnzwwQcIDg6Gk5MT4uPjIUkSpkyZUmnau3btgiRJ+P3336v9Wo1GI7755htERUXB0dERvr6+6NWrFw4cOGB6zJw5c9C1a1f4+fnBwcEBTZo0wcyZMytMJyQkBMePH8fWrVur/HuRnZ2N0aNHo27dunBwcEBERAQmTpwIo9FYYToZGRkYOnQo3Nzc4OHhgWeffRaHDx+GJEmVhlE3bdqEzp07w9nZGR4eHujfvz9OnjxZ4THjxo2DJEk4ceIEhgwZAk9PT3Tq1Alz5syBJEk4dOhQpWXy2WefQa1WV3rPWSurXOO7UXlJeXt7AwAuXLiA5cuX48knn0RoaCiuXbuGWbNmITo6GidOnEBQUBAAwGAw4OGHH8bGjRsxaNAgvP7668jLy8Pff/+NY8eOITw83DSPwYMHo0+fPhXmO2bMmCrzfPrpp5AkCe+++y5SU1MxdepUdO/eHfHx8dBqtQDK3qC9e/dG69atMXbsWKhUKtMv0/bt29G2bdtK061Tpw4+//xzAEB+fj5eeumlKuf94YcfYuDAgRg5ciTS0tIwbdo0dOnSBYcOHYKHh0el57zwwgvo3LkzAODPP//EsmXLKtw/atQozJ07FyNGjMB///tfXLx4EdOnT8ehQ4ewc+dO2NnZVbkc7kR2drbptV3PaDTikUcewY4dO/DCCy+gcePGOHr0KKZMmYIzZ85g+fLldzSfOXPm4IMPPsDXX3+NIUOGVPmY2y2Pb775Bo888giefvpplJaWYuHChXjyySexevVq9O3b1/S4jz/+GOPGjUOHDh0wfvx42NvbY+/evdi0aRN69uwJoGx72nPPPYemTZtizJgx8PDwwKFDh7Bu3TpTvvJlf//99+Pzzz/HtWvX8M0332Dnzp2VfqY+Pj6mAkhKSsI333yDPn36IDExscqffXWkpqaiZ8+e8PX1xXvvvQcPDw8kJCTgzz//vKvlcqPq/r6WmzBhAuzt7fHWW2+hpKQEjRo1QseOHTF//ny88cYbFR47f/58uLq6on///tV+vc8//zzmzp2L3r17Y+TIkdDr9di+fTv27NljGmmaOXMmmjZtikceeQQajQarVq3Cyy+/DKPRiFdeeQUAMHXqVLz22mtwcXHB+++/DwDw9/cHABQWFiI6OhrJyckYNWoU6tWrh127dmHMmDFISUnB1KlTAZS9//v164d9+/bhpZdeQqNGjbBixQo8++yzlXJv2LABvXv3RlhYGMaNG4eioiJMmzYNHTt2RFxcXKXtcE8++SQiIyPx2WefQZZlPPHEE3jllVcwf/58tGzZstJyjImJQXBwcLWXo0WTrcicOXNkAPKGDRvktLQ0OTExUV64cKHs7e0ta7VaOSkpSZZlWS4uLpYNBkOF5168eFF2cHCQx48fb7pt9uzZMgB58uTJleZlNBpNzwMgT5o0qdJjmjZtKkdHR5u+37x5swxADg4OlnNzc023L1q0SAYgf/PNN6ZpR0ZGyg899JBpPrIsy4WFhXJoaKjco0ePSvPq0KGD3KxZM9P3aWlpMgB57NixptsSEhJktVotf/rppxWee/ToUVmj0VS6/ezZszIAed68eabbxo4dK1//tti+fbsMQJ4/f36F565bt67S7fXr15f79u1bKfsrr7wi3/hWuzH7O++8I/v5+cmtW7eusEx//fVXWaVSydu3b6/w/O+//14GIO/cubPS/K4XHR1tml5sbKys0WjkN998s8rHVmd5yHLZz+l6paWlcrNmzeSuXbtWmJZKpZIfe+yxSu/F8p95dna27OrqKrdr104uKiqq8jGlpaWyn5+f3KxZswqPWb16tQxA/uijj0y3Pfvss3L9+vUrTOeHH36QAcj79u2r8jVXx7Jly2QA8v79+2/5uOosF1kue588++yzpu+r+/ta/vsVFhZWaV6zZs2SAcgnT56sMH8fH58K87qdTZs2yQDk//73v5Xuu/F39UYPPfSQHBYWVuG2G/9GlJswYYLs7OwsnzlzpsLt7733nqxWq+XLly/LsizLS5culQHIU6dONT3GYDDIXbt2lQHIc+bMMd3eokUL2c/PT87IyDDddvjwYVmlUsnDhg0z3Vb+nh48eHClXIMHD5aDgoIq/Dzi4uIqzcvaWeVQZ/fu3eHr64u6deti0KBBcHFxwbJly0yfRhwcHExj/gaDARkZGXBxcUHDhg0RFxdnms7SpUvh4+OD1157rdI87mWvtmHDhsHV1dX0/RNPPIHAwECsWbMGABAfH4+zZ89iyJAhyMjIQHp6OtLT01FQUIBu3bph27ZtlYY7iouL4ejoeMv5/vnnnzAajRg4cKBpmunp6QgICEBkZCQ2b95c4fGlpaUAypbXzSxevBju7u7o0aNHhWm2bt0aLi4ulaap0+kqPC49PR3FxcW3zJ2cnIxp06bhww8/hIuLS6X5N27cGI0aNaowzfLh7RvnfzP79u3DwIEDMWDAAEyaNKnKx1RneQAwrbUDQFZWFnJyctC5c+cK763ly5fDaDTio48+qrT9qfy99ffffyMvLw/vvfdepZ9t+WMOHDiA1NRUvPzyyxUe07dvXzRq1AixsbEVnmc0Gk3LKD4+Hr/88gsCAwPRuHHjW76mWylfU1y9ejV0Ot1NH1ed5VKV6v6+lnv22WcrzAsABg4cCEdHR8yfP9902/r165Geno5nnnnmtq+x3NKlSyFJEsaOHVvpvuv/Jlw//5ycHKSnpyM6OhoXLlxATk7ObeezePFidO7cGZ6enhXe1927d4fBYMC2bdsAAOvWrYOdnR3+85//mJ6rUqlMa5XlUlJSEB8fj+HDh8PLy8t0e/PmzdGjRw/T357rvfjii5VuGzZsGK5cuVLh92r+/PnQarUYMGDAbV+XtbDKoc7vvvsODRo
"text/plain": [
"<Figure size 1500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Контрольная выборка\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAcQAAAHqCAYAAACa+T5ZAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABcFElEQVR4nO3dd3hTZcMG8Psk6Uj3noxOKKPIEgSEIks2IoKAgqC45ZX3c/I6QJyIAwVEUBkKiAIyy5K9Z2kpu4xCF917Zpzvj9pK6aBA2yfj/l1XL2jGOXfSJHeeMyVZlmUQERGZOYXoAERERIaAhUhERAQWIhEREQAWIhEREQAWIhEREQAWIhEREQAWIhEREQAWIhEREQAWIhEREQAWIhE1MD8/P0yYMEF0DKJKjKoQlyxZAkmSyn+sra3RrFkzvPbaa0hOThYdj8hoTZ8+HX5+fgD+fZ/R/fvhhx+wZMkS0THq3IQJE9CzZ08AFV87xk4lOsC9mDFjBvz9/VFUVIQDBw5g/vz52Lx5M86cOQMbGxvR8YiIAJQWopubG0fERsIoC3HAgAHo2LEjAGDSpElwdXXFN998g/Xr12PMmDGC0xFRQykqKoKlpSUUCqNa2GVw8vPzYWtrKzqGcCbxKurVqxcA4Nq1awCAjIwMvPnmmwgNDYWdnR0cHBwwYMAAREVFVbpvUVERpk+fjmbNmsHa2hre3t54/PHHceXKFQBAbGxshcW0t/+ULTYAgD179kCSJPzxxx/43//+By8vL9ja2mLo0KGIi4urNO+jR4+if//+cHR0hI2NDcLCwnDw4MEqH2PPnj2rnP/06dMr3XbZsmXo0KED1Go1XFxcMHr06CrnX9Nju5Ver8fs2bPRqlUrWFtbw9PTEy+++CIyMzMr3M7Pzw+DBw+uNJ/XXnut0jSryj5r1qxKzykAFBcXY9q0aQgKCoKVlRUaN26Mt99+G8XFxVU+V7fq2bNnpel9+umnUCgUWLFixT09H1999RW6du0KV1dXqNVqdOjQAatXr65y/suWLUOnTp1gY2MDZ2dn9OjRA9u3b69wmy1btiAsLAz29vZwcHDAgw8+WCnbqlWryv+mbm5uePrpp5GQkFDhNhMmTKiQ2dnZGT179sT+/fvv+DzdyYkTJ/Doo4/Czc0NarUa/v7+ePbZZ+/5eblVbd+vZe+vlStX4v3334evry9sbGwQGRkJSZLw7bffVpr2oUOHIEkSfv/991o/Vr1ej++++w6hoaGwtraGu7s7+vfvjxMnTpTfZvHixejVqxc8PDxgZWWFli1bYv78+RWm4+fnh7Nnz2Lv3r1Vfl5kZWVhypQpaNy4MaysrBAUFISZM2dCr9dXmE56ejrGjRsHBwcHODk54ZlnnkFUVBQkSaq0OHbXrl3o3r07bG1t4eTkhGHDhuH8+fMVbjN9+nRIkoRz585h7NixcHZ2xsMPP4zFixdDkiScOnWq0nPy2WefQalUVnrNmRqjHCHerqy8XF1dAQBXr17FunXrMHLkSPj7+yM5ORkLFixAWFgYzp07Bx8fHwCATqfD4MGDsXPnTowePRqvv/46cnNz8ffff+PMmTMIDAwsn8eYMWMwcODACvOdOnVqlXk+/fRTSJKEd955BykpKZg9ezb69OmDyMhIqNVqAKUv3AEDBqBDhw6YNm0aFApF+Zts//796NSpU6XpNmrUCJ9//jkAIC8vDy+//HKV8/7ggw8watQoTJo0CampqZgzZw569OiBU6dOwcnJqdJ9XnjhBXTv3h0A8Ndff2Ht2rUVrn/xxRexZMkSTJw4Ef/5z39w7do1zJ07F6dOncLBgwdhYWFR5fNwN7Kyssof2630ej2GDh2KAwcO4IUXXkCLFi0QHR2Nb7/9FpcuXcK6devuaj6LFy/G+++/j6+//hpjx46t8jZ3ej6+++47DB06FE899RRKSkqwcuVKjBw5Eps2bcKgQYPKb/fRRx9h+vTp6Nq1K2bMmAFLS0scPXoUu3btQr9+/QCUrq979tln0apVK0ydOhVOTk44deoUtm7dWp6v7Ll/8MEH8fnnnyM5ORnfffcdDh48WOlv6ubmVl4M8fHx+O677zBw4EDExcVV+bevjZSUFPTr1w/u7u5499134eTkhNjYWPz111/39Lzcrrbv1zIff/wxLC0t8eabb6K4uBghISHo1q0bli9fjv/+978Vbrt8+XLY29tj2LBhtX68zz33HJYsWYIBAwZg0qRJ0Gq12L9/P44cOVK+ZGr+/Plo1aoVhg4dCpVKhY0bN+KVV16BXq/Hq6++CgCYPXs2Jk+eDDs7O7z33nsAAE9PTwBAQUEBwsLCkJCQgBdffBFNmjTBoUOHMHXqVCQlJWH27NkASl//Q4YMwbFjx/Dyyy8jJCQE69evxzPPPFMp944dOzBgwAAEBARg+vTpKCwsxJw5c9CtWzdERERUWs83cuRIBAcH47PPPoMsy3jiiSfw6quvYvny5WjXrl2l57Fnz57w9fWt9fNolGQjsnjxYhmAvGPHDjk1NVWOi4uTV65cKbu6uspqtVqOj4+XZVmWi4qKZJ1OV+G+165dk62srOQZM2aUX7Zo0SIZgPzNN99Umpdery+/HwB51qxZlW7TqlUrOSwsrPz33bt3ywBkX19fOScnp/zyP//8UwYgf/fdd+XTDg4Olh999NHy+ciyLBcUFMj+/v5y3759K82ra9eucuvWrct/T01NlQHI06ZNK78sNjZWViqV8qefflrhvtHR0bJKpap0eUxMjAxAXrp0afll06ZNk299Wezfv18GIC9fvrzCfbdu3Vrp8qZNm8qDBg2qlP3VV1+Vb3+p3Z797bfflj08POQOHTpUeE5/++03WaFQyPv3769w/x9//FEGIB88eLDS/G4VFhZWPr3w8HBZpVLJb7zxRpW3rc3zIculf6dblZSUyK1bt5Z79epVYVoKhUIePnx4pddi2d88KytLtre3lzt37iwXFhZWeZuSkhLZw8NDbt26dYXbbNq0SQYgf/jhh+WXPfPMM3LTpk0rTGfhwoUyAPnYsWNVPubaWLt2rQxAPn78eI23q83zIsulr5Nnnnmm/Pfavl/L3l8BAQGV5rVgwQIZgHz+/PkK83dzc6swrzvZtWuXDED+z3/+U+m629+rt3v00UflgICACpfd/hlR5uOPP5ZtbW3lS5cuVbj83XfflZVKpXzjxg1ZlmV5zZo1MgB59uzZ5bfR6XRyr169ZADy4sWLyy9v27at7OHhIaenp5dfFhUVJSsUCnn8+PHll5W9pseMGVMp15gxY2QfH58Kf4+IiIhK8zJVRrnItE+fPnB3d0fjxo0xevRo2NnZYe3ateXfXqysrMrXKeh0OqSnp8POzg7NmzdHRERE+XTWrFkDNzc3TJ48udI87mcru/Hjx8Pe3r789yeeeALe3t7YvHkzACAyMhIxMTEYO3Ys0tPTkZaWhrS0NOTn56N3797Yt29fpcUmRUVFsLa2rnG+f/31F/R6PUaNGlU+zbS0NHh5eSE4OBi7d++ucPuSkhIApc9XdVatWgVHR0f07du3wjQ7dOgAOzu7StPUaDQVbpeWloaioqIacyckJGDOnDn44IMPYGdnV2n+LVq0QEhISIVpli0mv33+1Tl27BhGjRqFESNGYNasWVXepjbPB4DyUT4AZGZmIjs7G927d6/w2lq3bh30ej0+/PDDSuu3yl5bf//9N3Jzc/Huu+9W+tuW3ebEiRNISUnBK6+8UuE2gwYNQkhICMLDwyvcT6/Xlz9HkZGR+PXXX+Ht7Y0WLVrU+JhqUjay3LRpEzQaTbW3q83zUpXavl/LPPPMMxXmBQCjRo2CtbU1li9fXn7Ztm3bkJaWhqeffvqOj7HMmjVrIEkSpk2bVum6Wz8Tbp1/dnY20tLSEBYWhqtXryI7O/uO81m1ahW6d+8OZ2fnCq/rPn36QKfTYd++fQCArVu3wsLCAs8//3z5fRUKRfkotExSUhIiIyMxYcIEuLi4lF/epk0b9O3bt/yz51YvvfRSpcvGjx+PxMTECu+r5cuXQ61WY8SIEXd8XMbOKBeZzps3D82aNYN
"text/plain": [
"<Figure size 1500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"Тестовая выборка\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAb4AAAHqCAYAAAB7kisIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABblElEQVR4nO3dd3gU5cIF8DNbkmx6r5SQhE6QJkgN0ouAiqKgINiwfuK1ci0gqFxEBAXFShFBpEivUqW3EHoJJZCEQHpvW+b7IyYSkkCA3by7O+f3PHk0W2bODrs5O+80SZZlGURERAqhEh2AiIioJrH4iIhIUVh8RESkKCw+IiJSFBYfEREpCouPiIgUhcVHRESKwuIjIiJFYfEREZGisPiIqEaFhoZi5MiRomOQgtlU8c2dOxeSJJX9ODk5oUGDBnjttddw/fp10fGIbNb48eMRGhoK4N/PGd277777DnPnzhUdw+xGjhyJrl27Aij/3rEVGtEB7saECRNQr149FBYWYteuXZg1axbWrVuHEydOwNnZWXQ8IiIAJcXn6+vLNVwrY5PF17dvX7Rp0wYA8Pzzz8PHxwdfffUVVq5ciaFDhwpOR0Q1pbCwEA4ODlCpbGrwyurk5eXBxcVFdIwaYxfvlm7dugEALl26BABIT0/H22+/jcjISLi6usLd3R19+/bF0aNHKzy3sLAQ48ePR4MGDeDk5ISgoCA8+uijuHDhAgAgLi6u3PDqzT+lq/sAsH37dkiShD/++AP//e9/ERgYCBcXFwwcOBDx8fEV5r1//3706dMHHh4ecHZ2RlRUFHbv3l3pa+zatWul8x8/fnyFx/72229o3bo1dDodvL298eSTT1Y6/1u9thuZTCZMnz4dTZs2hZOTEwICAjB69GhkZGSUe1xoaCgeeuihCvN57bXXKkyzsuxTpkypsEwBoKioCOPGjUNERAQcHR1Ru3ZtvPvuuygqKqp0Wd2oa9euFab32WefQaVSYeHChXe1PL788kt06NABPj4+0Ol0aN26NZYuXVrp/H/77Te0bdsWzs7O8PLyQpcuXbBp06Zyj1m/fj2ioqLg5uYGd3d33H///RWyLVmypOzf1NfXF08//TQSExPLPWbkyJHlMnt5eaFr167YuXPnbZfT7Rw6dAi9e/eGr68vdDod6tWrh2efffaul8uNqvt5Lf18LVq0CB9++CFCQkLg7OyMmJgYSJKEadOmVZj2nj17IEkSfv/992q/VpPJhK+//hqRkZFwcnKCn58f+vTpg0OHDpU9Zs6cOejWrRv8/f3h6OiIJk2aYNasWeWmExoaipMnT2LHjh2V/r3IzMzEmDFjULt2bTg6OiIiIgKTJ0+GyWQqN520tDQMHz4c7u7u8PT0xDPPPIOjR49CkqQKw6hbt25F586d4eLiAk9PTwwaNAinT58u95jx48dDkiScOnUKw4YNg5eXFzp16oQ5c+ZAkiQcOXKkwjL5/PPPoVarK7znbJVNrvHdrLSkfHx8AAAXL17EihUr8Pjjj6NevXq4fv06fvjhB0RFReHUqVMIDg4GABiNRjz00EPYsmULnnzySbzxxhvIycnBX3/9hRMnTiA8PLxsHkOHDkW/fv3KzXfs2LGV5vnss88gSRLee+89JCcnY/r06ejRowdiYmKg0+kAlLxB+/bti9atW2PcuHFQqVRlH6adO3eibdu2FaZbq1YtTJo0CQCQm5uLl19+udJ5f/TRRxgyZAief/55pKSkYMaMGejSpQuOHDkCT0/PCs958cUX0blzZwDAn3/+ieXLl5e7f/To0Zg7dy5GjRqF//u//8OlS5cwc+ZMHDlyBLt374ZWq610OdyJzMzMstd2I5PJhIEDB2LXrl148cUX0bhxYxw/fhzTpk3DuXPnsGLFijuaz5w5c/Dhhx9i6tSpGDZsWKWPud3y+PrrrzFw4EA89dRTKC4uxqJFi/D4449jzZo16N+/f9njPvnkE4wfPx4dOnTAhAkT4ODggP3792Pr1q3o1asXgJLtac8++yyaNm2KsWPHwtPTE0eOHMGGDRvK8pUu+/vvvx+TJk3C9evX8fXXX2P37t0V/k19fX3LCiAhIQFff/01+vXrh/j4+Er/7asjOTkZvXr1gp+fH95//314enoiLi4Of/75510tl5tV9/NaauLEiXBwcMDbb7+NoqIiNGrUCB07dsSCBQvw5ptvlnvsggUL4ObmhkGDBlX79T733HOYO3cu+vbti+effx4GgwE7d+7Evn37ykaaZs2ahaZNm2LgwIHQaDRYvXo1XnnlFZhMJrz66qsAgOnTp+P111+Hq6srPvjgAwBAQEAAACA/Px9RUVFITEzE6NGjUadOHezZswdjx45FUlISpk+fDqDk/T9gwAAcOHAAL7/8Mho1aoSVK1fimWeeqZB78+bN6Nu3L8LCwjB+/HgUFBRgxowZ6NixI6Kjoytsh3v88cdRv359fP7555BlGY899hheffVVLFiwAC1btqywHLt27YqQkJBqL0erJtuQOXPmyADkzZs3yykpKXJ8fLy8aNEi2cfHR9bpdHJCQoIsy7JcWFgoG43Gcs+9dOmS7OjoKE+YMKHsttmzZ8sA5K+++qrCvEwmU9nzAMhTpkyp8JimTZvKUVFRZb9v27ZNBiCHhITI2dnZZbcvXrxYBiB//fXXZdOuX7++3Lt377L5yLIs5+fny/Xq1ZN79uxZYV4dOnSQmzVrVvZ7SkqKDEAeN25c2W1xcXGyWq2WP/vss3LPPX78uKzRaCrcHhsbKwOQ582bV3bbuHHj5BvfFjt37pQByAsWLCj33A0bNlS4vW7dunL//v0rZH/11Vflm99qN2d/9913ZX9/f7l169bllun8+fNllUol79y5s9zzv//+exmAvHv37grzu1FUVFTZ9NauXStrNBr5rbfeqvSx1Vkeslzy73Sj4uJiuVmzZnK3bt3KTUulUsmPPPJIhfdi6b95Zmam7ObmJrdr104uKCio9DHFxcWyv7+/3KxZs3KPWbNmjQxA/vjjj8tue+aZZ+S6deuWm86PP/4oA5APHDhQ6WuujuXLl8sA5IMHD97ycdVZLrJc8j555plnyn6v7ue19PMVFhZWYV4//PCDDEA+ffp0ufn7+vqWm9ftbN26VQYg/9///V+F+27+rN6sd+/eclhYWLnbbv4bUWrixImyi4uLfO7cuXK3v//++7JarZavXLkiy7IsL1u2TAYgT58+vewxRqNR7tatmwxAnjNnTtntLVq0kP39/eW0tLSy244ePSqrVCp5xIgRZbeVvqeHDh1aIdfQoUPl4ODgcv8e0dHRFeZl62xyqLNHjx7w8/ND7dq18eSTT8LV1RXLly8v+zbi6OhYNuZvNBqRlpYGV1dXNGzYENHR0WXTWbZsGXx9ffH6669XmMe97NU2YsQIuLm5lf3+2GOPISgoCOvWrQMAxMTEIDY2FsOGDUNaWhpSU1ORmpqKvLw8dO/eHX///XeF4Y7CwkI4OTndcr5//vknTCYThgwZUjbN1NRUBAYGon79+ti2bVu5xxcXFwMoWV5VWbJkCTw8PNCzZ89y02zdujVcXV0rTFOv15d7XGpqKgoLC2+ZOzExETNmzMBHH30EV1fXCvNv3LgxGjVqVG6apcPbN8+/KgcOHMCQIUMwePBgTJkypdLHVGd5AChbaweAjIwMZGVloXPnzuXeWytWrIDJZMLHH39cYftT6Xvrr7/+Qk5ODt5///0K/7aljzl06BCSk5PxyiuvlHtM//790ahRI6xdu7bc80wmU9kyiomJwa+//oqgoCA0btz4lq/pVkrXFNesWQO9Xl/l46qzXCpT3c9rqWeeeabcvABgyJAhcHJywoIFC8pu27hxI1JTU/H000/f9jWWWrZsGSRJwrhx4yrcd+PfhBvnn5WVhdTUVERFReHixYvIysq67XyWLFmCzp07w8vLq9z7ukePHjAajfj7778BABs2bIBWq8ULL7xQ9lyVSlW2VlkqKSkJMTExGDlyJLy9vctub968OXr27Fn2t+dGL730UoXbRowYgatXr5b7XC1YsAA6nQ6DBw++7euyFTY
"text/plain": [
"<Figure size 1500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"df_train, df_val, df_test = split_stratified_into_train_val_test(\n",
" df_oversampled,\n",
" stratify_colname=\"salary_category\", \n",
" frac_train=0.60, \n",
" frac_val=0.20, \n",
" frac_test=0.20\n",
")\n",
"\n",
"print('Тренировочная выборка')\n",
"visualize_balance(df_train, 'salary_category')\n",
"print('Контрольная выборка')\n",
"visualize_balance(df_val, 'salary_category')\n",
"print('Тестовая выборка')\n",
"visualize_balance(df_test, 'salary_category')"
]
},
2024-11-23 17:15:05 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Датасет 2. Анализ продаж филиалов супермаркетов\n",
"https://www.kaggle.com/datasets/surajjha101/stores-area-and-sales-data\n",
"## Анализ сведений о датасете\n",
"\n",
"### **Проблемная область** \n",
"Датасет описывает производственные и экономические характеристики магазинов супермаркетов с целью анализа их деятельности и выявления факторов, влияющих на прибыльность. Задачи включают:\n",
"- Оценку производительности магазинов;\n",
"- Поиск факторов, которые могут улучшить прибыль и эффективность;\n",
"- Определение взаимосвязи между различными характеристиками магазинов.\n",
"\n",
"### **Актуальность** \n",
"Анализ эффективности супермаркетов актуален в сфере розничной торговли, поскольку помогает:\n",
"- Повышать прибыльность магазинов;\n",
"- Улучшать распределение ресурсов (например, товаров или пространства);\n",
"- Оптимизировать маркетинговые и операционные стратегии;\n",
"- Оценивать влияние внешних факторов (например, площади магазина или ассортимента товаров) на продажи.\n",
"\n",
"### **Объекты наблюдений** \n",
"Объектами наблюдения являются **магазины супермаркетов**, каждый из которых представлен в датасете через уникальный идентификатор (Store ID). Для каждого магазина представлены различные параметры, которые отражают е г о физическую структуру и экономическую деятельность.\n",
"\n",
"### **Атрибуты объектов** \n",
"Каждое наблюдение (магазин) имеет следующие атрибуты:\n",
"- **Store ID** — уникальный идентификатор магазина (индекс);\n",
"- **Store_Area** — физическая площадь магазина в квадратных ярдах (меряет размер магазина);\n",
"- **Items_Available** — количество различных товаров, доступных в магазине (ассортимент);\n",
"- **Daily_Customer_Count** — среднее количество клиентов, посещающих магазин ежедневно (популярность);\n",
"- **Store_Sales** — объем продаж магазина в долларах США (экономическая эффективность).\n",
"\n",
"### **Связь между объектами** \n",
"Связь между атрибутами объектов (магазинов) может быть следующей:\n",
"- **Store_Area ↔ Items_Available**: Большее количество товаров может требовать большей площади для их размещения.\n",
"- **Store_Area ↔ Store_Sales**: Большая площадь магазина может свидетельствовать о большем объеме продаж, поскольку позволяет разместить больше товаров и обслуживать больше клиентов.\n",
"- **Items_Available ↔ Daily_Customer_Count**: Магазины с большим ассортиментом товаров могут привлекать больше клиентов, особенно если товары соответствуют потребительским ожиданиям.\n",
"- **Daily_Customer_Count ↔ Store_Sales**: Прямая зависимость — большее количество клиентов может привести к большему объему продаж.\n",
"\n",
"Для дальнейшего анализа можно использовать корреляционные методы, чтобы понять, как различные факторы (площадь, ассортимент, количество клиентов) влияют на продажи.\n",
"\n",
"### Качество набора данных\n",
"\n",
"1. **Информативность**: \n",
" Датасет содержит несколько ключевых атрибутов, которые отражают как физические характеристики магазинов, так и их экономическую эффективность. Эти атрибуты (площадь, ассортимент товаров, количество клиентов и продажи) достаточно информативны для начального анализа производительности супермаркетов.\n",
"\n",
"2. **Степень покрытия**: \n",
" Датасет охватывает информацию по нескольким магазинам компании, однако он может не быть репрезентативным для всей розничной сети, так как данные собраны только для определенных магазинов с их уникальными характеристиками. Это может ограничить выводы, если не все магазины покрыты в данных.\n",
"\n",
"3. **Соответствие реальным данным**: \n",
" Данные, представленные в датасете, соответствуют реальной практической ситуации, поскольку информация о площади магазинов, количестве товаров и клиентском потоке довольно типична для анализа розничных торговых точек.\n",
"\n",
"4. **Согласованность меток**: \n",
" Метки данных (например, Store ID, Store_Area, Items_Available и т.д.) хорошо согласованы и имеют понятные и логичные наименования. Однако для полной уверенности в корректности данных потребуется проверка на наличие пропусков или аномалий (например, если площадь магазина или количество товаров кажется необычно низким или высоким).\n",
"\n",
"### Бизнес цели, которые может решить датасет:\n",
"\n",
"1. **Оптимизация ассортимента товаров и пространства** \n",
" **Цель**: Разработать стратегию по оптимальному размещению товаров и выбору ассортимента в зависимости от площади магазина и е г о клиентской базы. \n",
" **Эффект на бизнес**: Поможет увеличить продажи путем улучшения доступности популярных товаров и оптимизации использования пространства в магазинах. \n",
" \n",
" **Цели технического проекта**:\n",
" - **Входные данные**: Площадь магазина, количество товаров, ежедневное количество клиентов.\n",
" - **Целевой признак**: Объем продаж (Store_Sales).\n",
"\n",
"2. **Увеличение продаж через улучшение привлечения клиентов** \n",
" **Цель**: Разработать стратегию по увеличению потока клиентов в магазины на основе текущего количества покупателей и их корреляции с объемом продаж. \n",
" **Эффект на бизнес**: Увеличение количества клиентов может прямо повлиять на рост продаж и прибыльность, особенно если будет применена стратегия привлечения дополнительного потока потребителей. \n",
" \n",
" **Цели технического проекта**:\n",
" - **Входные данные**: Количество товаров в магазине, площадь магазина, среднее количество клиентов.\n",
" - **Целевой признак**: Объем продаж (Store_Sales).\n",
"\n",
"3. **Предсказание и управление производительностью магазинов** \n",
" **Цель**: Оценить, какие факторы (площадь, ассортимент, количество клиентов) влияют на эффективность магазина и как прогнозировать е г о продажи в будущем. \n",
" **Эффект на бизнес**: Ожидаемый результат — повышение точности прогнозов продаж и улучшение стратегического планирования для различных магазинов сети. \n",
" \n",
" **Цели технического проекта**:\n",
" - **Входные данные**: Площадь магазина, количество товаров, ежедневное количество клиентов.\n",
" - **Целевой признак**: Объем продаж (Store_Sales).\n",
"\n",
"### Примеры целей технического проекта для каждой бизнес-цели:\n",
"\n",
"1. **Оптимизация ассортимента товаров и пространства**\n",
" - **Задача**: Построить модель, которая на основе площади магазина и ассортимента товаров будет предсказывать оптимальный объем продаж.\n",
" - **Вход**: Площадь магазина (Store_Area), Количество товаров (Items_Available).\n",
" - **Цель**: Прогнозировать объем продаж (Store_Sales).\n",
"\n",
"2. **Увеличение продаж через улучшение привлечения клиентов**\n",
" - **Задача**: Разработать алгоритм, который будет анализировать связи между количеством клиентов и продажами для оценки эффективности маркетинговых усилий.\n",
" - **Вход**: Среднее количество клиентов (Daily_Customer_Count), Количество товаров (Items_Available), Площадь магазина (Store_Area).\n",
" - **Цель**: Прогнозировать объем продаж (Store_Sales).\n",
"\n",
"3. **Предсказание и управление производительностью магазинов**\n",
" - **Задача**: Построить модель для предсказания объемов продаж на основе характеристик магазинов, чтобы заранее прогнозировать производительность и принимать меры по улучшению результатов.\n",
" - **Вход**: Площадь магазина (Store_Area), Среднее количество клиентов (Daily_Customer_Count), Количество товаров (Items_Available).\n",
" - **Цель**: Прогнозировать объем продаж (Store_Sales)."
]
2024-11-23 17:26:44 +04:00
},
2024-11-23 18:13:22 +04:00
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 171,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 896 entries, 0 to 895\n",
"Data columns (total 5 columns):\n",
" # Column Non-Null Count Dtype\n",
"--- ------ -------------- -----\n",
" 0 Store ID 896 non-null int64\n",
" 1 Store_Area 896 non-null int64\n",
" 2 Items_Available 896 non-null int64\n",
" 3 Daily_Customer_Count 896 non-null int64\n",
" 4 Store_Sales 896 non-null int64\n",
"dtypes: int64(5)\n",
"memory usage: 35.1 KB\n"
]
},
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>count</th>\n",
" <th>mean</th>\n",
" <th>std</th>\n",
" <th>min</th>\n",
" <th>25%</th>\n",
" <th>50%</th>\n",
" <th>75%</th>\n",
" <th>max</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>Store ID</th>\n",
" <td>896.0</td>\n",
" <td>448.500000</td>\n",
" <td>258.797218</td>\n",
" <td>1.0</td>\n",
" <td>224.75</td>\n",
" <td>448.5</td>\n",
" <td>672.25</td>\n",
" <td>896.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Store_Area</th>\n",
" <td>896.0</td>\n",
" <td>1485.409598</td>\n",
" <td>250.237011</td>\n",
" <td>775.0</td>\n",
" <td>1316.75</td>\n",
" <td>1477.0</td>\n",
" <td>1653.50</td>\n",
" <td>2229.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Items_Available</th>\n",
" <td>896.0</td>\n",
" <td>1782.035714</td>\n",
" <td>299.872053</td>\n",
" <td>932.0</td>\n",
" <td>1575.50</td>\n",
" <td>1773.5</td>\n",
" <td>1982.75</td>\n",
" <td>2667.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Daily_Customer_Count</th>\n",
" <td>896.0</td>\n",
" <td>786.350446</td>\n",
" <td>265.389281</td>\n",
" <td>10.0</td>\n",
" <td>600.00</td>\n",
" <td>780.0</td>\n",
" <td>970.00</td>\n",
" <td>1560.0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Store_Sales</th>\n",
" <td>896.0</td>\n",
" <td>59351.305804</td>\n",
" <td>17190.741895</td>\n",
" <td>14920.0</td>\n",
" <td>46530.00</td>\n",
" <td>58605.0</td>\n",
" <td>71872.50</td>\n",
" <td>116320.0</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" count mean std min 25% \\\n",
"Store ID 896.0 448.500000 258.797218 1.0 224.75 \n",
"Store_Area 896.0 1485.409598 250.237011 775.0 1316.75 \n",
"Items_Available 896.0 1782.035714 299.872053 932.0 1575.50 \n",
"Daily_Customer_Count 896.0 786.350446 265.389281 10.0 600.00 \n",
"Store_Sales 896.0 59351.305804 17190.741895 14920.0 46530.00 \n",
"\n",
" 50% 75% max \n",
"Store ID 448.5 672.25 896.0 \n",
"Store_Area 1477.0 1653.50 2229.0 \n",
"Items_Available 1773.5 1982.75 2667.0 \n",
"Daily_Customer_Count 780.0 970.00 1560.0 \n",
"Store_Sales 58605.0 71872.50 116320.0 "
]
},
2024-11-23 21:26:48 +04:00
"execution_count": 171,
2024-11-23 18:13:22 +04:00
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.read_csv('csv/9.Stores.csv')\n",
"df.info()\n",
"df.describe().transpose()"
]
},
2024-11-23 21:26:48 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Удалим колонку с ID магазинов, она нам вряд ли понадобится"
]
},
2024-11-23 18:13:22 +04:00
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 192,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 896 entries, 0 to 895\n",
"Data columns (total 4 columns):\n",
" # Column Non-Null Count Dtype\n",
"--- ------ -------------- -----\n",
" 0 Store_Area 896 non-null int64\n",
" 1 Items_Available 896 non-null int64\n",
" 2 Daily_Customer_Count 896 non-null int64\n",
" 3 Store_Sales 896 non-null int64\n",
"dtypes: int64(4)\n",
"memory usage: 28.1 KB\n"
]
}
],
"source": [
"if \"Store ID \" in df.columns:\n",
" df = df.drop(columns=[\"Store ID \"])\n",
"\n",
"df.info()"
]
},
{
"cell_type": "code",
"execution_count": 193,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Присутствуют ли пустые значения признаков в колонке:\n",
"Store_Area False\n",
"Items_Available False\n",
"Daily_Customer_Count False\n",
"Store_Sales False\n",
"dtype: bool \n",
"\n"
]
}
],
"source": [
"check_null_columns(df)"
]
},
2024-11-23 21:26:48 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверим на наличие выбросов"
]
},
{
"cell_type": "code",
"execution_count": 194,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонка Store_Area:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 5\n",
"\tМ инима льно е значение: 775\n",
"\tМ а кс има льно е значение: 2229\n",
"\t1-й квартиль (Q1): 1316.75\n",
"\t3-й квартиль (Q3): 1653.5\n",
"\n",
"Колонка Items_Available:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 5\n",
"\tМ инима льно е значение: 932\n",
"\tМ а кс има льно е значение: 2667\n",
"\t1-й квартиль (Q1): 1575.5\n",
"\t3-й квартиль (Q3): 1982.75\n",
"\n",
"Колонка Daily_Customer_Count:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 3\n",
"\tМ инима льно е значение: 10\n",
"\tМ а кс има льно е значение: 1560\n",
"\t1-й квартиль (Q1): 600.0\n",
"\t3-й квартиль (Q3): 970.0\n",
"\n",
"Колонка Store_Sales:\n",
"\tЕ с ть выбросы: Да\n",
"\tК о личе с тво выбросов: 1\n",
"\tМ инима льно е значение: 14920\n",
"\tМ а кс има льно е значение: 116320\n",
"\t1-й квартиль (Q1): 46530.0\n",
"\t3-й квартиль (Q3): 71872.5\n",
"\n"
]
}
],
"source": [
"columns_with_outliers = check_outliers(df)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Визуализируем выбросы"
]
},
{
"cell_type": "code",
"execution_count": 195,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAABdMAAAPdCAYAAABhsvF2AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAEAAElEQVR4nOzdeXxN1/7/8XcGGYQkgiRyRZLSSww1pC3RmipXEDNttWhUSmlQw1VXL4oOqZmqcnUQvaK3tGhLixRBK1TTpmqoUjG0mqDIaYKM+/dHf9lfRxKJIRLyej4e+8Fe67P3XuvknLPO+Zy917YxDMMQAAAAAAAAAAAolG1pNwAAAAAAAAAAgLKOZDoAAAAAAAAAAEUgmQ4AAAAAAAAAQBFIpgMAAAAAAAAAUASS6QAAAAAAAAAAFIFkOgAAAAAAAAAARSCZDgAAAAAAAABAEUimAwAAAAAAAABQBJLpAAAAAAAAAAAUgWQ6AAAAAKBYBg4cKH9/f6syGxsbTZky5br3FR0dLRsbG3377bdFxrZt21Zt27a97mMAAErX1WNE3nv/sWPHSq1NwM0gmV6OfPTRR7KxsSlwadiwYWk3Dyg32rZtq4EDB0r66wvp1V8M09LS9NJLL6lhw4ZycXFR1apV1aRJEz3//PM6deqUGff555/f0BfX0vTggw/KxsZGixYtKu2maMqUKWYyIO8DHVBcjKlA2VDUmGpjY6Phw4eb66dOndKUKVOUmJh4+xpZwi5cuCAnJyfZ2Njo4MGDpd2cMsnf39/8zHTlcwYlj/ESKBuKM17mLfb29vLw8FBQUJCef/55HThw4PY3+CYlJiaqf//+8vX1laOjozw8PBQSEqKlS5cqJyenRI751ltvKTo6ukT2XRb98ssvevbZZ3XPPffIyclJrq6ueuihhzR//nxdunSptJsnqfC/SVxcnPmDzrFjx2RjY6O4uLhi79f+1jURd4oXX3xRgYGB5vqrr75aiq0BcKWsrCy1bt1aP/30k8LDwzVixAilpaVp//79WrFihXr27CkfHx9JfyXTFy5ceMck1A8fPqw9e/bI399fMTExGjZsWGk3CbhpjKnAneXUqVOaOnWq/P391aRJk9Juzi2xatUq2djYyNvbWzExMXrllVdK9Hhvv/22cnNzS/QYuPswXgJl3z/+8Q899dRTMgxDqamp+uGHH7Rs2TK99dZbmj59usaMGXND+7106ZLs7W9f+vGdd97R0KFD5eXlpQEDBujee+/Vn3/+qc2bNysiIkK///67XnzxxVt+3LfeekvVqlUrFz/Yrl+/Xo8++qgcHR311FNPqWHDhsrMzNRXX32lcePGaf/+/VqyZElpN7PE/iYk08uhf/zjH1a/Qr7zzjs6e/Zs6TUIgGnt2rX6/vvvFRMToyeffNKq7vLly8rMzCzR4+fm5iozM1NOTk63fN/Lly+Xp6enZs+erT59+ujYsWP5LhMvSHp6ulxcXG55e4BbgTEVQGlbvny5OnfuLD8/P61YsaLEk+kVKlQo0f3j7sR4CZR9f//739W/f3+rstdff11du3bV2LFjVa9ePXXu3Pm691sS3y0Ls2vXLg0dOlTBwcH6/PPPVblyZbNu1KhR+vbbb7Vv377b1p47ycWLF1WxYsUi45KSktS3b1/5+flpy5YtqlGjhlkXGRmpI0eOaP369SXZ1FLHNC/lSF4Szta26D97QXNY5ebm6r777pONjY3VZRJ79+7VwIEDzUs7vL29NWjQIP3xxx9W+5wyZUqBl/dd+Qtl27Zt1bBhQyUkJKhly5ZydnZWQECAFi9enK8vkydPVlBQkNzc3OTi4qJWrVpp69atVnF5l2vY2Nho7dq1VnWXL19WlSpVZGNjo1mzZuVrp6enp7Kysqy2+eCDD8z9Xfnh75NPPlFYWJh8fHzk6Oio2rVr6+WXXy7W5UN5x/vpp5/02GOPydXVVVWrVtXzzz+vy5cvW8UuXbpUjzzyiDw9PeXo6Kj69esXOF1G9+7d5e/vLycnJ3l6eqpbt2768ccfrWLy+jFv3rx829erVy/fZdHnzp3TP//5TzVq1EiVKlWSq6urOnXqpB9++MFq2/DwcDk5OeW7zDg0NFRVqlSxmqbk6NGjevTRR+Xh4aGKFSuqRYsW+d508y6/yVscHR3197//XVFRUTIM49oP7v9X2HOvoHk3r3zOXL1c6fTp04qIiFCtWrVkZ2dnxlSqVKlYbSrML7/8Ikl66KGH8tXlXTol/XVp3sKFCyWpwDamp6dr7Nix5mVtdevW1axZs/I9Znl/55iYGDVo0ECOjo7asGGDJOm3337ToEGD5OXlJUdHRzVo0EDvvffeDfdtxYoV6tOnj7p06SI3NzetWLEiX0ze3+rAgQN68sknVaVKFT388MNm/fLlyxUUFCRnZ2d5eHiob9++OnnypNU+duzYoUcffVS1atWSo6OjfH19NXr06DJzqRnuDoypa63qGFMZU8vimHq1uLg4PfDAA5Kkp59+2jzOla/B3bt3q2PHjnJzc1PFihXVpk0bff311wU+Bj///LP69+8vNzc3Va9eXZMmTZJhGDp58qS6d+8uV1dXeXt7a/bs2fnasmDBAjVo0EAVK1ZUlSpVdP/99xc4LhblxIkT2rFjh/r27au+ffsqKSlJO3fuNOuHDx+uSpUq6eLFi/m2feKJJ+Tt7W2+tor72itozvSrHT9+XM8995zq1q0rZ2dnVa1aVY8++mih8+NevHhRzz77rKpWrSpXV1c99dRTOn/+fJH9z8jI0EsvvaQ6deqYY/4LL7ygjIyMIrfF7cF4udaqjvGS8fJOGC+vVLVqVf3vf/+Tvb291RUlxX09SEXfVyM8PFzVqlXL99yXpA4dOqhu3brFbu/UqVNlY2OjmJgYq0R6nvvvv988Sznv73z19B55f48r33OSk5P19NNPq2bNmnJ0dFSNGjXUvXt38/3K399f+/fv17Zt2wr8W1/P827lypWaOnWq/va3v6ly5crq06ePUlNTlZGRoVGjRsnT01OVKlXS008/XeB4V5zvzFe+77Vu3VoVK1Ys9tn6M2bMUFpamt59912rRHqeOnXq6PnnnzfXs7Oz9fLLL6t27dpydHSUv7+/XnzxxXxtL+x54u/vb3Vmed5Y8fXXX2vMmDGqXr26XFxc1LNnT505c8Zqu2v9TW4GZ6aXI3kfZBwdHW9o+//+97/5BkNJio2N1dGjR/X000/L29vbvJxj//792rVrV74BYNGiRVZv9ld/sDp//rw6d+6sxx57TE888YRWrlypYcOGycHBQYMGDZIkWSwWvfPOO3riiSc0ePBg/fnnn3r33XcVGhqqb775Jt9lu05OTlq6dKl69Ohhlq1evTrfB4Ur/fnnn1q3bp169uxpli1dulROTk75touOjlalSpU0ZswYVapUSVu2bNHkyZNlsVg0c+bMQo9xpccee0z+/v6KiorSrl279MYbb+j8+fN6//33rR67Bg0aqFu3brK3t9dnn32m5557Trm5uYqMjLTa35AhQ+Tt7a1Tp07pzTffVEhIiJKSkqx+acx7XEaNGmWW7dy5U8ePH8/XvqNHj2rt2rV69NFHFRAQoJSUFP3nP/9RmzZtdODAAXPqkfnz52vLli0KDw9XfHy87Ozs9J///EebNm3Sf//7XzMuJSVFLVu21MWLFzVy5EhVrVpVy5YtU7du3fTRRx9ZPe7S/10aeunSJX344Yd68cUX5enpqYiIiGI9vnmPX95zb8KECdeMHTJkiFq1aiXpr+fKmjVrrOrDw8P15ZdfasSIEWrcuLHs7Oy0ZMkSfffdd8VuT0H8/PwkSe+//74mTpyY7/WT59lnn9WpU6cUGxur//73v1Z1hmGoW7du2rp1qyIiItSkSRNt3LhR48aN02+//aa5c+daxW/ZskUrV67U8OHDVa1aNfn7+yslJUUtWrQwP9BWr15dX3zxhSIiImSxWKyeM8Wxe/duHTlyREuXLpWDg4N69eqlmJiYQgfsRx99VPfee69ee+018wPrq6++qkmTJumxxx7TM888ozNnzmjBggVq3bq1vv/+e7m7u0v
"text/plain": [
"<Figure size 1500x1000 with 4 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"visualize_outliers(df)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Устраняем выбросы, если они имеются"
]
},
{
"cell_type": "code",
"execution_count": 196,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонки с выбросами:\n",
"Store_Area\n",
"Items_Available\n",
"Daily_Customer_Count\n",
"Store_Sales\n"
]
}
],
"source": [
"df = remove_outliers(df, columns_with_outliers)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Проверим наличие выбросов и визуализируем"
]
},
{
"cell_type": "code",
"execution_count": 197,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Колонка Store_Area:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 811.625\n",
"\tМ а кс има льно е значение: 2158.625\n",
"\t1-й квартиль (Q1): 1316.75\n",
"\t3-й квартиль (Q3): 1653.5\n",
"\n",
"Колонка Items_Available:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 964.625\n",
"\tМ а кс има льно е значение: 2593.625\n",
"\t1-й квартиль (Q1): 1575.5\n",
"\t3-й квартиль (Q3): 1982.75\n",
"\n",
"Колонка Daily_Customer_Count:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 45.0\n",
"\tМ а кс има льно е значение: 1525.0\n",
"\t1-й квартиль (Q1): 600.0\n",
"\t3-й квартиль (Q3): 970.0\n",
"\n",
"Колонка Store_Sales:\n",
"\tЕ с ть выбросы: Нет\n",
"\tК о личе с тво выбросов: 0\n",
"\tМ инима льно е значение: 14920.0\n",
"\tМ а кс има льно е значение: 109886.25\n",
"\t1-й квартиль (Q1): 46530.0\n",
"\t3-й квартиль (Q3): 71872.5\n",
"\n"
]
},
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAABdMAAAPdCAYAAABhsvF2AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAD1VUlEQVR4nOzdeVhV5fr/8Q+DDIKAqIAcGUw7KmZaWIqVQ5KIpDk0WGaUFA1gqR0zS82h4mSmmWFmg9gRT+UpzdSjkqZUoilFKhplopgeIFPZgQoo6/eHP9bXLcPGEdT367rWpXs9917refZ0b+691rPsDMMwBAAAAAAAAAAAqmRf2x0AAAAAAAAAAKCuo5gOAAAAAAAAAIANFNMBAAAAAAAAALCBYjoAAAAAAAAAADZQTAcAAAAAAAAAwAaK6QAAAAAAAAAA2EAxHQAAAAAAAAAAGyimAwAAAAAAAABgA8V0AAAAAAAAAABsoJgOAAAAAKiRhx9+WMHBwVbr7OzsNHHixLPeVlJSkuzs7LRlyxabsd27d1f37t3Peh8AgNp1Zo4o/+zfs2dPrfUJOB8U068i//nPf2RnZ1fpct1119V294CrRvfu3fXwww9LOvUH6Zl/GBYWFuqll17SddddJzc3NzVq1EgdOnTQM888owMHDphxK1asOKc/XGvTzTffLDs7O73zzju13RVNnDjRLAaUf6EDaoqcCtQNtnKqnZ2d4uPjzdsHDhzQxIkTlZGRcek6eZEdOXJELi4usrOz086dO2u7O3VScHCw+Z3p9NcMLj7yJVA31CRfli+Ojo7y9vZWaGionnnmGe3YsePSd/g8ZWRk6MEHH1RAQICcnZ3l7e2t8PBwzZs3TydPnrwo+5w9e7aSkpIuyrbrot9++02PP/64rrnmGrm4uMjDw0O33HKLZs6cqWPHjtV29yRV/ZysW7fO/EFnz549srOz07p162q8XccL10VcLl544QW1adPGvP3KK6/UYm8AnK60tFRdu3bVzz//rOjoaA0fPlyFhYXKzMzUwoULNWDAAPn7+0s6VUxPTEy8bArqv/76qzZv3qzg4GAlJyfrySefrO0uAeeNnApcXg4cOKBJkyYpODhYHTp0qO3uXBCLFi2SnZ2d/Pz8lJycrJdffvmi7u+9995TWVnZRd0HrjzkS6Duu+OOO/TQQw/JMAwVFBTop59+0vz58zV79my99tprGjVq1Dlt99ixY3J0vHTlx/fff19PPPGEfH19NXToUF177bX666+/tGbNGsXExOh///ufXnjhhQu+39mzZ6tx48ZXxQ+2y5cv1z333CNnZ2c99NBDuu6661RSUqJvv/1Wo0ePVmZmpubOnVvb3bxozwnF9KvQHXfcYfUr5Pvvv6+DBw/WXocAmJYsWaIff/xRycnJeuCBB6zajh8/rpKSkou6/7KyMpWUlMjFxeWCb3vBggXy8fHRG2+8obvvvlt79uypcJp4ZYqKiuTm5nbB+wNcCORUALVtwYIF6tOnj4KCgrRw4cKLXkyvV6/eRd0+rkzkS6Du+/vf/64HH3zQat0///lP9e3bV88++6xat26tPn36nPV2L8bfllXZuHGjnnjiCYWFhWnFihVq0KCB2TZixAht2bJF27dvv2T9uZwcPXpU9evXtxmXnZ2twYMHKygoSGvXrlXTpk3Ntri4OO3atUvLly+/mF2tdUzzchUpL8LZ29t+2iubw6qsrEzXX3+97OzsrE6T2Lp1qx5++GHz1A4/Pz8NGzZMf/75p9U2J06cWOnpfaf/Qtm9e3ddd911Sk9PV5cuXeTq6qrmzZtrzpw5FcYyYcIEhYaGytPTU25ubrrtttv09ddfW8WVn65hZ2enJUuWWLUdP35cDRs2lJ2dnaZNm1ahnz4+PiotLbW6z7///W9ze6d/+fviiy8UFRUlf39/OTs7q0WLFpoyZUqNTh8q39/PP/+se++9Vx4eHmrUqJGeeeYZHT9+3Cp23rx5uv322+Xj4yNnZ2eFhIRUOl3GXXfdpeDgYLm4uMjHx0f9+vXTtm3brGLKx/Hmm29WuH/r1q0rnBZ96NAh/eMf/1C7du3k7u4uDw8PRUZG6qeffrK6b3R0tFxcXCqcZhwREaGGDRtaTVOye/du3XPPPfL29lb9+vXVuXPnCh+65afflC/Ozs76+9//roSEBBmGUf2D+/9V9dqrbN7N018zZy6ny8/PV0xMjAIDA+Xg4GDGuLu716hPVfntt98kSbfcckuFtvJTp6RTp+YlJiZKUqV9LCoq0rPPPmue1taqVStNmzatwmNW/jwnJyerbdu2cnZ21sqVKyVJ+/fv17Bhw+Tr6ytnZ2e1bdtWH3744TmPbeHChbr77rt15513ytPTUwsXLqwQU/5c7dixQw888IAaNmyoW2+91WxfsGCBQkND5erqKm9vbw0ePFj79u2z2sY333yje+65R4GBgXJ2dlZAQIBGjhxZZ041w5WBnLrEqo2cSk6tizn1TOvWrdNNN90kSXrkkUfM/Zz+Hty0aZN69+4tT09P1a9fX926ddN3331X6WPwyy+/6MEHH5Snp6eaNGmi8ePHyzAM7du3T3fddZc8PDzk5+enN954o0JfZs2apbZt26p+/fpq2LChOnbsWGletCUnJ0fffPONBg8erMGDBys7O1sbNmww2+Pj4+Xu7q6jR49WuO/9998vPz8/871V0/deZXOmn2nv3r166qmn1KpVK7m6uqpRo0a65557qpwf9+jRo3r88cfVqFEjeXh46KGHHtLhw4dtjr+4uFgvvfSSWrZsaeb85557TsXFxTbvi0uDfLnEqo18Sb68HPLl6Ro1aqSPP/5Yjo6OVmeU1PT9INm+rkZ0dLQaN25c4bUvSb169VKrVq1q3N9JkybJzs5OycnJVoX0ch07djSPUi5/ns+c3qP8+Tj9Myc3N1ePPPKImjVrJmdnZzVt2lR33XWX+XkVHByszMxMrV+/vtLn+mxed59++qkmTZqkv/3tb2rQoIHuvvtuFRQUqLi4WCNGjJCPj4/c3d31yCOPVJrvavI38+mfe127dlX9+vVrfLT+1KlTVVhYqA8++MCqkF6uZcuWeuaZZ8zbJ06c0JQpU9SiRQs5OzsrODhYL7zwQoW+V/U6CQ4OtjqyvDxXfPfddxo1apSaNGkiNzc3DRgwQH/88YfV/ap7Ts4HR6ZfRcq/yDg7O5/T/f/1r39VSIaSlJKSot27d+uRRx6Rn5+feTpHZmamNm7cWCEBvPPOO1Yf9md+sTp8+LD69Omje++9V/fff78+/fRTPfnkk3JyctKwYcMkSRaLRe+//77uv/9+PfbYY/rrr7/0wQcfKCIiQt9//32F03ZdXFw0b9489e/f31z3+eefV/iicLq//vpLy5Yt04ABA8x18+bNk4uLS4X7JSUlyd3dXaNGjZK7u7vWrl2rCRMmyGKx6PXXX69yH6e79957FRwcrISEBG3cuFFvvfWWDh8+rI8++sjqsWvbtq369esnR0dHffnll3rqqadUVlamuLg4q+3FxsbKz89PBw4c0Ntvv63w8HBlZ2db/dJY/riMGDHCXLdhwwbt3bu3Qv92796tJUuW6J577lHz5s2Vl5end999V926ddOOHTvMqUdmzpyptWvXKjo6WmlpaXJwcNC7776r1atX61//+pcZl5eXpy5duujo0aN6+umn1ahRI82fP1/9+vXTf/7zH6vHXfq/U0OPHTumTz75RC+88IJ8fHwUExNTo8e3/PErf+2NHTu22tjY2Fjddtttkk69VhYvXmzVHh0dra+++krDhw9X+/bt5eDgoLlz5+qHH36ocX8qExQUJEn66KOPNG7cuArvn3KPP/64Dhw4oJSUFP3rX/+yajMMQ/369dPXX3+tmJgYdejQQatWrdLo0aO1f/9+zZgxwyp+7dq1+vTTTxUfH6/GjRsrODhYeXl56ty5s/mFtkmTJvrvf/+rmJgYWSwWq9dMTWzatEm7du3SvHnz5OTkpIEDByo5ObnKhH3PPffo2muv1auvvmp+YX3llVc0fvx43XvvvXr00Uf1xx9/aNasWeratat+/PF
"text/plain": [
"<Figure size 1500x1000 with 4 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"check_outliers(df)\n",
"visualize_outliers(df)"
]
},
2024-11-23 17:26:44 +04:00
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Датасет 3. Прогнозирование стоимости медицинского страхования\n",
"https://www.kaggle.com/datasets/harishkumardatalab/medical-insurance-price-prediction\n",
"## Анализ сведений о датасете\n",
"\n",
"### **Проблемная область**: \n",
"Задача прогнозирования медицинских расходов на основе различных факторов, влияющих на стоимость страхования. Это важно для компаний медицинского страхования для оптимизации ценообразования и управления рисками.\n",
"\n",
"### **Актуальность**: \n",
"Прогнозирование медицинских расходов является ключевым элементом для страховых компаний, чтобы правильно оценить риски, установить справедливые страховые взносы и обеспечить финансовую устойчивость компании. Актуальность такого анализа возрастает с увеличением потребности в персонализированном страховании.\n",
"\n",
"### **Объекты наблюдений**: \n",
"Каждый объект наблюдения представляет собой запись о человеке, который является клиентом медицинской страховой компании.\n",
"\n",
"### **Атрибуты объектов**:\n",
"- **Age (возраст)** — числовой атрибут, показывает возраст клиента.\n",
"- **Sex (пол)** — категориальный атрибут (мужчина/женщина), который может повлиять на тип медицинских услуг и расходы.\n",
"- **BMI (индекс массы тела)** — числовой атрибут, который может быть важным для оценки здоровья клиента и возможных заболеваний.\n",
"- **Children (дети)** — числовой атрибут, который может показывать потребность в медицинских услугах для детей.\n",
"- **Smoker (курящий)** — булев атрибут, показывающий, является ли человек курильщиком, что влияет на е г о здоровье и расходы.\n",
"- **Region (регион)** — текстовый атрибут, который может учитывать различия в стоимости медицинских услуг в разных регионах.\n",
"- **Charges (расходы)** — целевой числовой атрибут, показывающий медицинские расходы, которые следует предсказать.\n",
"\n",
"### **Связь между объектами**:\n",
" Атрибуты данных взаимосвязаны. Например, возраст, ИМТ и курение могут быть связанными с увеличением медицинских расходов, так как старение и ожирение повышают риски заболеваний. Регион может определять базовый уровень расходов, а наличие детей может указывать на дополнительные расходы на медицинские услуги для детей.\n",
"\n",
"## Качество набора данных\n",
"\n",
"### **Информативность**: \n",
"Н а б о р данных содержит важные параметры для оценки медицинских расходов, такие как возраст, ИМТ, статус курящего и наличие детей. Однако дополнительные параметры, такие как хронические заболевания, история медицинских визитов или история страховки, могут улучшить модель.\n",
"\n",
"### **Степень покрытия**: \n",
"Н а б о р данных охватывает несколько ключевых факторов (возраст, пол, ИМТ, количество детей, курение, регион), которые являются важными для прогнозирования расходов. Однако для более точных прогнозов могут быть полезны дополнительные данные, такие как образ жизни или медицинская история.\n",
"\n",
"### **Соответствие реальным данным**: \n",
"Данные вполне могут соответствовать реальной ситуации в медицинском страховании, так как параметры, такие как курение, возраст и ИМТ, действительно влияют на здоровье и, следовательно, на расходы на лечение. Однако важно, чтобы данные были сбалансированы и не содержали искажений.\n",
"\n",
"### **Согласованность меток**: \n",
"Метки, такие как пол, курящий/не курящий, и регион, должны быть корректно представлены. Необходимо убедиться в отсутствии противоречий в данных (например, отсутствие значений для категориальных переменных или неверных числовых значений).\n",
"\n",
"## Бизнес-цели, которые может решить этот датасет\n",
"\n",
"1. **Оптимизация ценообразования на медицинское страхование**\n",
" - **Эффект на бизнес**: Компании смогут более точно оценивать потенциальные расходы на медицинские услуги для клиентов, что позволит устанавливать адекватные страховые взносы, минимизируя риски и обеспечивая прибыльность.\n",
"\n",
"2. **Оценка рисков клиентов**\n",
" - **Эффект на бизнес**: Страховые компании смогут выявлять группы клиентов с высоким риском, что поможет предсказать, какие клиенты могут потребовать больше затрат на лечение, и соответственно, предлагать им более высокие премии или дополнительные услуги.\n",
"\n",
"3. **Разработка персонализированных предложений для клиентов**\n",
" - **Эффект на бизнес**: Возможность предложить клиентам индивидуальные страховые планы и дополнительные услуги, основанные на их рисках и потребностях, повысит их удовлетворенность и лояльность, а также улучшит финансовые результаты компании.\n",
"\n",
"## Примеры целей технического проекта для каждой бизнес-цели\n",
"\n",
"1. **Оптимизация ценообразования на медицинское страхование**\n",
" - **Цель технического проекта**: Построить модель регрессии для прогнозирования медицинских расходов на основе демографических данных (возраст, пол, ИМТ, курение и т.д.).\n",
" - **Что поступает на вход**: Возраст, пол, ИМТ, количество детей, курение, регион.\n",
" - **Целевой признак**: Расходы (charges).\n",
"\n",
"2. **Оценка рисков клиентов**\n",
" - **Цель технического проекта**: Разработать модель классификации для оценки уровня риска клиента (низкий, средний, высокий риск).\n",
" - **Что поступает на вход**: Возраст, пол, ИМТ, количество детей, курение, регион.\n",
" - **Целевой признак**: Риск (классификация на категории: низкий, средний, высокий).\n",
"\n",
"3. **Разработка персонализированных предложений для клиентов**\n",
" - **Цель технического проекта**: Создать систему рекомендаций, которая будет предлагать персонализированные страховые планы и услуги на основе характеристик клиента.\n",
" - **Что поступает на вход**: В с е атрибуты клиента (возраст, пол, ИМТ, дети, курение, регион).\n",
" - **Целевой признак**: Рекомендуемый план страхования или дополнительная услуга.\n",
"\n",
"Каждый из этих проектов направлен на повышение прибыльности компании, улучшение персонализированного подхода к клиентам и снижение финансовых рисков."
]
2024-11-23 18:13:22 +04:00
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 168,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 2772 entries, 0 to 2771\n",
"Data columns (total 7 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 age 2772 non-null int64 \n",
" 1 sex 2772 non-null object \n",
" 2 bmi 2772 non-null float64\n",
" 3 children 2772 non-null int64 \n",
" 4 smoker 2772 non-null object \n",
" 5 region 2772 non-null object \n",
" 6 charges 2772 non-null float64\n",
"dtypes: float64(2), int64(2), object(3)\n",
"memory usage: 151.7+ KB\n"
]
},
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>count</th>\n",
" <th>mean</th>\n",
" <th>std</th>\n",
" <th>min</th>\n",
" <th>25%</th>\n",
" <th>50%</th>\n",
" <th>75%</th>\n",
" <th>max</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>age</th>\n",
" <td>2772.0</td>\n",
" <td>39.109668</td>\n",
" <td>14.081459</td>\n",
" <td>18.0000</td>\n",
" <td>26.000</td>\n",
" <td>39.00000</td>\n",
" <td>51.0000</td>\n",
" <td>64.00000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>bmi</th>\n",
" <td>2772.0</td>\n",
" <td>30.701349</td>\n",
" <td>6.129449</td>\n",
" <td>15.9600</td>\n",
" <td>26.220</td>\n",
" <td>30.44750</td>\n",
" <td>34.7700</td>\n",
" <td>53.13000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>children</th>\n",
" <td>2772.0</td>\n",
" <td>1.101732</td>\n",
" <td>1.214806</td>\n",
" <td>0.0000</td>\n",
" <td>0.000</td>\n",
" <td>1.00000</td>\n",
" <td>2.0000</td>\n",
" <td>5.00000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>charges</th>\n",
" <td>2772.0</td>\n",
" <td>13261.369959</td>\n",
" <td>12151.768945</td>\n",
" <td>1121.8739</td>\n",
" <td>4687.797</td>\n",
" <td>9333.01435</td>\n",
" <td>16577.7795</td>\n",
" <td>63770.42801</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" count mean std min 25% 50% \\\n",
"age 2772.0 39.109668 14.081459 18.0000 26.000 39.00000 \n",
"bmi 2772.0 30.701349 6.129449 15.9600 26.220 30.44750 \n",
"children 2772.0 1.101732 1.214806 0.0000 0.000 1.00000 \n",
"charges 2772.0 13261.369959 12151.768945 1121.8739 4687.797 9333.01435 \n",
"\n",
" 75% max \n",
"age 51.0000 64.00000 \n",
"bmi 34.7700 53.13000 \n",
"children 2.0000 5.00000 \n",
"charges 16577.7795 63770.42801 "
]
},
2024-11-23 21:26:48 +04:00
"execution_count": 168,
2024-11-23 18:13:22 +04:00
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df = pd.read_csv('csv/5.medical_insurance.csv')\n",
"df.info()\n",
"df.describe().transpose()"
]
},
{
"cell_type": "code",
2024-11-23 21:26:48 +04:00
"execution_count": 169,
2024-11-23 18:13:22 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Присутствуют ли пустые значения признаков в колонке:\n",
"age False\n",
"sex False\n",
"bmi False\n",
"children False\n",
"smoker False\n",
"region False\n",
"charges False\n",
"dtype: bool \n",
"\n"
]
}
],
"source": [
"check_null_columns(df)"
]
2024-11-23 14:48:54 +04:00
}
],
"metadata": {
2024-11-23 18:13:22 +04:00
"kernelspec": {
"display_name": "venv",
"language": "python",
"name": "python3"
},
2024-11-23 14:48:54 +04:00
"language_info": {
2024-11-23 18:13:22 +04:00
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.6"
2024-11-23 14:48:54 +04:00
}
},
"nbformat": 4,
"nbformat_minor": 2
}