1420 lines
402 KiB
Plaintext
1420 lines
402 KiB
Plaintext
{
|
||
"cells": [
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"*Вариант задания:* Заработная плата рабочих мест в области Data Science (вариант - 8) \n",
|
||
"\n",
|
||
"Бизнес-цели для датасета о заработной плате в Data Science:\n",
|
||
"Оптимизация стратегии найма и оплаты труда в Data Science\n",
|
||
"\n",
|
||
"Формулировка: Разработать модель, которая позволяет точно прогнозировать и оптимизировать заработную плату для специалистов в области Data Science на основе их опыта, типа занятости, местоположения и других факторов.\n",
|
||
"\n",
|
||
"Цель: Увеличить привлекательность компании для талантливых специалистов в Data Science, обеспечивая конкурентоспособные зарплаты, а также оптимизировать расходы на персонал, избегая переплат и недоплат.\n",
|
||
"\n",
|
||
"Ключевые показатели успеха (KPI):\n",
|
||
"\n",
|
||
"Точность модели прогнозирования зарплаты (RMSE): Минимизация среднеквадратичной ошибки до уровня ниже 10% от реальной зарплаты, чтобы учитывать большие отклонения в оценке.\n",
|
||
"\n",
|
||
"Средняя абсолютная ошибка (MAE): Модель должна предсказать зарплату с минимальной ошибкой и снизить MAE до 5% или меньше, учитывая большие отклонения в оценке.\n",
|
||
"\n",
|
||
"Скорость оценки зарплаты: Уменьшение времени на оценку зарплаты для новых сотрудников, чтобы быстрее принимать решения о найме.\n",
|
||
"\n",
|
||
"Доступность: Внедрение модели в систему управления персоналом для использования HR-специалистами.\n",
|
||
"\n",
|
||
"Оптимизация распределения ресурсов в компании\n",
|
||
"\n",
|
||
"Формулировка: Разработать модель, которая поможет компаниям определить оптимальное распределение ресурсов (бюджета) на Data Science проекты и команды, учитывая уровень зарплат, опыт и другие факторы.\n",
|
||
"\n",
|
||
"Цель: Снизить затраты на Data Science проекты, оптимизировать распределение бюджета, обеспечивая максимальную эффективность и результативность проектов.\n",
|
||
"\n",
|
||
"Ключевые показатели успеха (KPI):\n",
|
||
"\n",
|
||
"Возврат инвестиций (ROI): Проекты должны показывать не менее 20% прироста в результатах (например, увеличение прибыли, улучшение показателей) на каждый вложенный доллар в Data Science.\n",
|
||
"\n",
|
||
"Средняя стоимость проекта на 1 сотрудника (CPA): Задача снизить расходы на проекты, минимизировав ненужные траты. Например, оптимизация затрат до $50,000 на проект с учетом максимального прироста в результатах.\n",
|
||
"\n",
|
||
"Сокращение времени на принятие решений: Модель должна сокращать время, необходимое на оценку вариантов распределения ресурсов, до нескольких минут, что ускорит принятие решений.\n",
|
||
"\n",
|
||
"Оптимизация стратегии развития карьеры в Data Science\n",
|
||
"\n",
|
||
"Формулировка: Разработать модель, которая поможет специалистам в Data Science определить оптимальные пути развития карьеры, учитывая текущий уровень зарплаты, опыт и перспективы роста.\n",
|
||
"\n",
|
||
"Цель: Повысить удовлетворенность и мотивацию специалистов в Data Science, обеспечивая им четкие пути развития карьеры и возможность получения конкурентоспособных зарплат.\n",
|
||
"\n",
|
||
"Ключевые показатели успеха (KPI):\n",
|
||
"\n",
|
||
"Уровень удовлетворенности сотрудников: Увеличение уровня удовлетворенности сотрудников на 15% за счет предоставления четких путей развития карьеры и возможностей для роста.\n",
|
||
"\n",
|
||
"Средний срок пребывания в компании: Увеличение среднего срока пребывания сотрудников в компании на 20% за счет предоставления привлекательных перспектив развития.\n",
|
||
"\n",
|
||
"Доступность: Внедрение модели в систему управления карьерой для использования сотрудниками и HR-специалистами.\n",
|
||
"\n",
|
||
"**Технические цели проекта для каждой выделенной бизнес-цели**\n",
|
||
"\n",
|
||
"Оптимизация стратегии найма и оплаты труда в Data Science\n",
|
||
"\n",
|
||
"Сбор и подготовка данных:\n",
|
||
"\n",
|
||
"Сбор данных: Получение данных о заработных платах специалистов в Data Science из различных источников (например, Glassdoor, LinkedIn, Kaggle).\n",
|
||
"\n",
|
||
"Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных (например, experience_level, employment_type, employee_residence, company_location) в числовую форму с использованием One-Hot Encoding.\n",
|
||
"\n",
|
||
"Нормализация и стандартизация: Применение методов масштабирования данных (нормировка, стандартизация) для числовых признаков (например, salary_in_usd, remote_ratio).\n",
|
||
"\n",
|
||
"Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки для предотвращения утечек данных и переобучения.\n",
|
||
"\n",
|
||
"Разработка и обучение модели:\n",
|
||
"\n",
|
||
"Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг, деревья решений) для предсказания заработной платы.\n",
|
||
"\n",
|
||
"Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как RMSE (Root Mean Square Error) и MAE (Mean Absolute Error).\n",
|
||
"\n",
|
||
"Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE для получения точных прогнозов заработной платы.\n",
|
||
"\n",
|
||
"Развёртывание модели:\n",
|
||
"\n",
|
||
"Интеграция модели: Интеграция модели в существующую систему управления персоналом или разработка API для доступа к модели.\n",
|
||
"\n",
|
||
"Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения прогнозов в режиме реального времени.\n",
|
||
"\n",
|
||
"Оптимизация распределения ресурсов в компании\n",
|
||
"\n",
|
||
"Сбор и подготовка данных:\n",
|
||
"\n",
|
||
"Сбор данных: Получение данных о затратах на Data Science проекты, результатах проектов, уровнях зарплат сотрудников и других релевантных факторов.\n",
|
||
"\n",
|
||
"Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовую форму с использованием One-Hot Encoding.\n",
|
||
"\n",
|
||
"Нормализация и стандартизация: Применение методов масштабирования данных для числовых признаков.\n",
|
||
"\n",
|
||
"Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки.\n",
|
||
"\n",
|
||
"Разработка и обучение модели:\n",
|
||
"\n",
|
||
"Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг) для предсказания оптимального распределения ресурсов.\n",
|
||
"\n",
|
||
"Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как ROI (Return on Investment) и CPA (Cost Per Acquisition).\n",
|
||
"\n",
|
||
"Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя CPA и максимизируя ROI.\n",
|
||
"\n",
|
||
"Развёртывание модели:\n",
|
||
"\n",
|
||
"Интеграция модели: Интеграция модели в систему управления проектами или разработка API для доступа к модели.\n",
|
||
"\n",
|
||
"Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения рекомендаций по распределению ресурсов.\n",
|
||
"\n",
|
||
"Оптимизация стратегии развития карьеры в Data Science\n",
|
||
"\n",
|
||
"Сбор и подготовка данных:\n",
|
||
"\n",
|
||
"Сбор данных: Получение данных о карьерных траекториях специалистов в Data Science, уровнях зарплат, опыте и других релевантных факторах.\n",
|
||
"\n",
|
||
"Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовую форму с использованием One-Hot Encoding.\n",
|
||
"\n",
|
||
"Нормализация и стандартизация: Применение методов масштабирования данных для числовых признаков.\n",
|
||
"\n",
|
||
"Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки.\n",
|
||
"\n",
|
||
"Разработка и обучение модели:\n",
|
||
"\n",
|
||
"Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг) для предсказания оптимальных путей развития карьеры.\n",
|
||
"\n",
|
||
"Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как MAE (Mean Absolute Error) и RMSE (Root Mean Square Error).\n",
|
||
"\n",
|
||
"Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE.\n",
|
||
"\n",
|
||
"Развёртывание модели:\n",
|
||
"\n",
|
||
"Интеграция модели: Интеграция модели в систему управления карьерой или разработка API для доступа к модели.\n",
|
||
"\n",
|
||
"Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения рекомендаций по развитию карьеры."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 2,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Index(['work_year', 'experience_level', 'employment_type', 'job_title',\n",
|
||
" 'salary', 'salary_currency', 'salary_in_usd', 'employee_residence',\n",
|
||
" 'remote_ratio', 'company_location', 'company_size'],\n",
|
||
" dtype='object')\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import pandas as pd\n",
|
||
"df = pd.read_csv(\"..//static//csv//ds_salaries.csv\")\n",
|
||
"print(df.columns)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 3,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/html": [
|
||
"<div>\n",
|
||
"<style scoped>\n",
|
||
" .dataframe tbody tr th:only-of-type {\n",
|
||
" vertical-align: middle;\n",
|
||
" }\n",
|
||
"\n",
|
||
" .dataframe tbody tr th {\n",
|
||
" vertical-align: top;\n",
|
||
" }\n",
|
||
"\n",
|
||
" .dataframe thead th {\n",
|
||
" text-align: right;\n",
|
||
" }\n",
|
||
"</style>\n",
|
||
"<table border=\"1\" class=\"dataframe\">\n",
|
||
" <thead>\n",
|
||
" <tr style=\"text-align: right;\">\n",
|
||
" <th></th>\n",
|
||
" <th>work_year</th>\n",
|
||
" <th>experience_level</th>\n",
|
||
" <th>employment_type</th>\n",
|
||
" <th>job_title</th>\n",
|
||
" <th>salary</th>\n",
|
||
" <th>salary_currency</th>\n",
|
||
" <th>salary_in_usd</th>\n",
|
||
" <th>employee_residence</th>\n",
|
||
" <th>remote_ratio</th>\n",
|
||
" <th>company_location</th>\n",
|
||
" <th>company_size</th>\n",
|
||
" </tr>\n",
|
||
" </thead>\n",
|
||
" <tbody>\n",
|
||
" <tr>\n",
|
||
" <th>0</th>\n",
|
||
" <td>2023</td>\n",
|
||
" <td>SE</td>\n",
|
||
" <td>FT</td>\n",
|
||
" <td>Principal Data Scientist</td>\n",
|
||
" <td>80000</td>\n",
|
||
" <td>EUR</td>\n",
|
||
" <td>85847</td>\n",
|
||
" <td>ES</td>\n",
|
||
" <td>100</td>\n",
|
||
" <td>ES</td>\n",
|
||
" <td>L</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>1</th>\n",
|
||
" <td>2023</td>\n",
|
||
" <td>MI</td>\n",
|
||
" <td>CT</td>\n",
|
||
" <td>ML Engineer</td>\n",
|
||
" <td>30000</td>\n",
|
||
" <td>USD</td>\n",
|
||
" <td>30000</td>\n",
|
||
" <td>US</td>\n",
|
||
" <td>100</td>\n",
|
||
" <td>US</td>\n",
|
||
" <td>S</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>2</th>\n",
|
||
" <td>2023</td>\n",
|
||
" <td>MI</td>\n",
|
||
" <td>CT</td>\n",
|
||
" <td>ML Engineer</td>\n",
|
||
" <td>25500</td>\n",
|
||
" <td>USD</td>\n",
|
||
" <td>25500</td>\n",
|
||
" <td>US</td>\n",
|
||
" <td>100</td>\n",
|
||
" <td>US</td>\n",
|
||
" <td>S</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>3</th>\n",
|
||
" <td>2023</td>\n",
|
||
" <td>SE</td>\n",
|
||
" <td>FT</td>\n",
|
||
" <td>Data Scientist</td>\n",
|
||
" <td>175000</td>\n",
|
||
" <td>USD</td>\n",
|
||
" <td>175000</td>\n",
|
||
" <td>CA</td>\n",
|
||
" <td>100</td>\n",
|
||
" <td>CA</td>\n",
|
||
" <td>M</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>4</th>\n",
|
||
" <td>2023</td>\n",
|
||
" <td>SE</td>\n",
|
||
" <td>FT</td>\n",
|
||
" <td>Data Scientist</td>\n",
|
||
" <td>120000</td>\n",
|
||
" <td>USD</td>\n",
|
||
" <td>120000</td>\n",
|
||
" <td>CA</td>\n",
|
||
" <td>100</td>\n",
|
||
" <td>CA</td>\n",
|
||
" <td>M</td>\n",
|
||
" </tr>\n",
|
||
" </tbody>\n",
|
||
"</table>\n",
|
||
"</div>"
|
||
],
|
||
"text/plain": [
|
||
" work_year experience_level employment_type job_title \\\n",
|
||
"0 2023 SE FT Principal Data Scientist \n",
|
||
"1 2023 MI CT ML Engineer \n",
|
||
"2 2023 MI CT ML Engineer \n",
|
||
"3 2023 SE FT Data Scientist \n",
|
||
"4 2023 SE FT Data Scientist \n",
|
||
"\n",
|
||
" salary salary_currency salary_in_usd employee_residence remote_ratio \\\n",
|
||
"0 80000 EUR 85847 ES 100 \n",
|
||
"1 30000 USD 30000 US 100 \n",
|
||
"2 25500 USD 25500 US 100 \n",
|
||
"3 175000 USD 175000 CA 100 \n",
|
||
"4 120000 USD 120000 CA 100 \n",
|
||
"\n",
|
||
" company_location company_size \n",
|
||
"0 ES L \n",
|
||
"1 US S \n",
|
||
"2 US S \n",
|
||
"3 CA M \n",
|
||
"4 CA M "
|
||
]
|
||
},
|
||
"execution_count": 3,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Для наглядности\n",
|
||
"df.head()"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 4,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/html": [
|
||
"<div>\n",
|
||
"<style scoped>\n",
|
||
" .dataframe tbody tr th:only-of-type {\n",
|
||
" vertical-align: middle;\n",
|
||
" }\n",
|
||
"\n",
|
||
" .dataframe tbody tr th {\n",
|
||
" vertical-align: top;\n",
|
||
" }\n",
|
||
"\n",
|
||
" .dataframe thead th {\n",
|
||
" text-align: right;\n",
|
||
" }\n",
|
||
"</style>\n",
|
||
"<table border=\"1\" class=\"dataframe\">\n",
|
||
" <thead>\n",
|
||
" <tr style=\"text-align: right;\">\n",
|
||
" <th></th>\n",
|
||
" <th>work_year</th>\n",
|
||
" <th>salary</th>\n",
|
||
" <th>salary_in_usd</th>\n",
|
||
" <th>remote_ratio</th>\n",
|
||
" </tr>\n",
|
||
" </thead>\n",
|
||
" <tbody>\n",
|
||
" <tr>\n",
|
||
" <th>count</th>\n",
|
||
" <td>3755.000000</td>\n",
|
||
" <td>3.755000e+03</td>\n",
|
||
" <td>3755.000000</td>\n",
|
||
" <td>3755.000000</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>mean</th>\n",
|
||
" <td>2022.373635</td>\n",
|
||
" <td>1.906956e+05</td>\n",
|
||
" <td>137570.389880</td>\n",
|
||
" <td>46.271638</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>std</th>\n",
|
||
" <td>0.691448</td>\n",
|
||
" <td>6.716765e+05</td>\n",
|
||
" <td>63055.625278</td>\n",
|
||
" <td>48.589050</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>min</th>\n",
|
||
" <td>2020.000000</td>\n",
|
||
" <td>6.000000e+03</td>\n",
|
||
" <td>5132.000000</td>\n",
|
||
" <td>0.000000</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>25%</th>\n",
|
||
" <td>2022.000000</td>\n",
|
||
" <td>1.000000e+05</td>\n",
|
||
" <td>95000.000000</td>\n",
|
||
" <td>0.000000</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>50%</th>\n",
|
||
" <td>2022.000000</td>\n",
|
||
" <td>1.380000e+05</td>\n",
|
||
" <td>135000.000000</td>\n",
|
||
" <td>0.000000</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>75%</th>\n",
|
||
" <td>2023.000000</td>\n",
|
||
" <td>1.800000e+05</td>\n",
|
||
" <td>175000.000000</td>\n",
|
||
" <td>100.000000</td>\n",
|
||
" </tr>\n",
|
||
" <tr>\n",
|
||
" <th>max</th>\n",
|
||
" <td>2023.000000</td>\n",
|
||
" <td>3.040000e+07</td>\n",
|
||
" <td>450000.000000</td>\n",
|
||
" <td>100.000000</td>\n",
|
||
" </tr>\n",
|
||
" </tbody>\n",
|
||
"</table>\n",
|
||
"</div>"
|
||
],
|
||
"text/plain": [
|
||
" work_year salary salary_in_usd remote_ratio\n",
|
||
"count 3755.000000 3.755000e+03 3755.000000 3755.000000\n",
|
||
"mean 2022.373635 1.906956e+05 137570.389880 46.271638\n",
|
||
"std 0.691448 6.716765e+05 63055.625278 48.589050\n",
|
||
"min 2020.000000 6.000000e+03 5132.000000 0.000000\n",
|
||
"25% 2022.000000 1.000000e+05 95000.000000 0.000000\n",
|
||
"50% 2022.000000 1.380000e+05 135000.000000 0.000000\n",
|
||
"75% 2023.000000 1.800000e+05 175000.000000 100.000000\n",
|
||
"max 2023.000000 3.040000e+07 450000.000000 100.000000"
|
||
]
|
||
},
|
||
"execution_count": 4,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Описание данных (основные статистические показатели)\n",
|
||
"df.describe()"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 5,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"work_year 0\n",
|
||
"experience_level 0\n",
|
||
"employment_type 0\n",
|
||
"job_title 0\n",
|
||
"salary 0\n",
|
||
"salary_currency 0\n",
|
||
"salary_in_usd 0\n",
|
||
"employee_residence 0\n",
|
||
"remote_ratio 0\n",
|
||
"company_location 0\n",
|
||
"company_size 0\n",
|
||
"dtype: int64\n"
|
||
]
|
||
},
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"work_year False\n",
|
||
"experience_level False\n",
|
||
"employment_type False\n",
|
||
"job_title False\n",
|
||
"salary False\n",
|
||
"salary_currency False\n",
|
||
"salary_in_usd False\n",
|
||
"employee_residence False\n",
|
||
"remote_ratio False\n",
|
||
"company_location False\n",
|
||
"company_size False\n",
|
||
"dtype: bool"
|
||
]
|
||
},
|
||
"execution_count": 5,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Процент пропущенных значений признаков\n",
|
||
"for i in df.columns:\n",
|
||
" null_rate = df[i].isnull().sum() / len(df) * 100\n",
|
||
" if null_rate > 0:\n",
|
||
" print(f'{i} Процент пустых значений: %{null_rate:.2f}')\n",
|
||
"\n",
|
||
"# Проверка на пропущенные данные\n",
|
||
"print(df.isnull().sum())\n",
|
||
"\n",
|
||
"df.isnull().any()"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"Разбиваем на выборки (обучающую, тестовую, контрольную)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 6,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Размер обучающей выборки: 3004\n",
|
||
"Размер контрольной выборки: 751\n",
|
||
"Размер тестовой выборки: 751\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"from sklearn.model_selection import train_test_split\n",
|
||
"\n",
|
||
"# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)\n",
|
||
"train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)\n",
|
||
"\n",
|
||
"# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)\n",
|
||
"train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)\n",
|
||
"\n",
|
||
"print(\"Размер обучающей выборки: \", len(train_data))\n",
|
||
"print(\"Размер контрольной выборки: \", len(val_data))\n",
|
||
"print(\"Размер тестовой выборки: \", len(test_data))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 7,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Средняя заработная плата в обучающей выборке: 138055.9893475366\n",
|
||
"Средняя заработная плата в контрольной выборке: 135627.99201065247\n",
|
||
"Средняя заработная плата в тестовой выборке: 135627.99201065247\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import pandas as pd\n",
|
||
"import seaborn as sns\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"\n",
|
||
"# Предположим, что у вас уже есть данные, разделенные на обучающую, контрольную и тестовую выборки\n",
|
||
"# train_data, val_data, test_data\n",
|
||
"\n",
|
||
"# Визуализация распределения заработной платы в выборках (гистограмма)\n",
|
||
"def plot_salary_distribution(data, title):\n",
|
||
" sns.histplot(data['salary_in_usd'], kde=True)\n",
|
||
" plt.title(title)\n",
|
||
" plt.xlabel('Заработная плата (USD)')\n",
|
||
" plt.ylabel('Частота')\n",
|
||
" plt.show()\n",
|
||
"\n",
|
||
"plot_salary_distribution(train_data, 'Распределение заработной платы в обучающей выборке')\n",
|
||
"plot_salary_distribution(val_data, 'Распределение заработной платы в контрольной выборке')\n",
|
||
"plot_salary_distribution(test_data, 'Распределение заработной платы в тестовой выборке')\n",
|
||
"\n",
|
||
"# Оценка сбалансированности данных по целевой переменной (salary_in_usd)\n",
|
||
"print(\"Средняя заработная плата в обучающей выборке: \", train_data['salary_in_usd'].mean())\n",
|
||
"print(\"Средняя заработная плата в контрольной выборке: \", val_data['salary_in_usd'].mean())\n",
|
||
"print(\"Средняя заработная плата в тестовой выборке: \", test_data['salary_in_usd'].mean())"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 10,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Размер обучающей выборки после oversampling и undersampling: 3044\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import pandas as pd\n",
|
||
"import seaborn as sns\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"from sklearn.model_selection import train_test_split\n",
|
||
"from imblearn.over_sampling import RandomOverSampler\n",
|
||
"from imblearn.under_sampling import RandomUnderSampler\n",
|
||
"\n",
|
||
"# Предположим, что у вас уже есть данные, разделенные на обучающую, контрольную и тестовую выборки\n",
|
||
"# train_data, val_data, test_data\n",
|
||
"\n",
|
||
"# Преобразование целевой переменной (заработная плата) в категориальные диапазоны с использованием квантилей\n",
|
||
"train_data['salary_category'] = pd.qcut(train_data['salary_in_usd'], q=4, labels=['low', 'medium', 'high', 'very_high'])\n",
|
||
"\n",
|
||
"# Визуализация распределения заработной платы после преобразования в категории\n",
|
||
"sns.countplot(x=train_data['salary_category'])\n",
|
||
"plt.title('Распределение категорий заработной платы в обучающей выборке')\n",
|
||
"plt.xlabel('Категория заработной платы')\n",
|
||
"plt.ylabel('Частота')\n",
|
||
"plt.show()\n",
|
||
"\n",
|
||
"# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)\n",
|
||
"ros = RandomOverSampler(random_state=42)\n",
|
||
"X_train = train_data.drop(columns=['salary_in_usd', 'salary_category'])\n",
|
||
"y_train = train_data['salary_category']\n",
|
||
"\n",
|
||
"X_resampled, y_resampled = ros.fit_resample(X_train, y_train)\n",
|
||
"\n",
|
||
"# Визуализация распределения заработной платы после oversampling\n",
|
||
"sns.countplot(x=y_resampled)\n",
|
||
"plt.title('Распределение категорий заработной платы после oversampling')\n",
|
||
"plt.xlabel('Категория заработной платы')\n",
|
||
"plt.ylabel('Частота')\n",
|
||
"plt.show()\n",
|
||
"\n",
|
||
"# Применение RandomUnderSampler для уменьшения большего класса\n",
|
||
"rus = RandomUnderSampler(random_state=42)\n",
|
||
"X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)\n",
|
||
"\n",
|
||
"# Визуализация распределения заработной платы после undersampling\n",
|
||
"sns.countplot(x=y_resampled)\n",
|
||
"plt.title('Распределение категорий заработной платы после undersampling')\n",
|
||
"plt.xlabel('Категория заработной платы')\n",
|
||
"plt.ylabel('Частота')\n",
|
||
"plt.show()\n",
|
||
"\n",
|
||
"# Печать размеров выборки после балансировки\n",
|
||
"print(\"Размер обучающей выборки после oversampling и undersampling: \", len(X_resampled))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"### Конструирование признаков\n",
|
||
"Теперь приступим к конструированию признаков для решения каждой задачи.\n",
|
||
"\n",
|
||
"**Процесс конструирования признаков**\n",
|
||
"Задача 1: Прогнозирование заработной платы в Data Science. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования заработной платы специалистов в области Data Science.\n",
|
||
"Задача 2: Оптимизация распределения ресурсов в компании. Цель технического проекта: Разработка модели машинного обучения для оптимизации распределения ресурсов на Data Science проекты.\n",
|
||
"\n",
|
||
"**Унитарное кодирование**\n",
|
||
"Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.\n",
|
||
"\n",
|
||
"**Дискретизация числовых признаков**\n",
|
||
"Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 16,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Столбцы train_data_encoded: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'salary_category', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_CT', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AM', 'employee_residence_AR', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BA', 'employee_residence_BE', 'employee_residence_BG', 'employee_residence_BO', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CL', 'employee_residence_CN', 'employee_residence_CO', 'employee_residence_CR', 'employee_residence_CY', 'employee_residence_CZ', 'employee_residence_DE', 'employee_residence_DK', 'employee_residence_DZ', 'employee_residence_EE', 'employee_residence_EG', 'employee_residence_ES', 'employee_residence_FI', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HN', 'employee_residence_HR', 'employee_residence_HU', 'employee_residence_ID', 'employee_residence_IE', 'employee_residence_IL', 'employee_residence_IN', 'employee_residence_IQ', 'employee_residence_IR', 'employee_residence_IT', 'employee_residence_JP', 'employee_residence_KE', 'employee_residence_KW', 'employee_residence_LT', 'employee_residence_LU', 'employee_residence_LV', 'employee_residence_MA', 'employee_residence_MD', 'employee_residence_MK', 'employee_residence_MX', 'employee_residence_MY', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_NZ', 'employee_residence_PH', 'employee_residence_PK', 'employee_residence_PL', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RO', 'employee_residence_RS', 'employee_residence_RU', 'employee_residence_SE', 'employee_residence_SG', 'employee_residence_SI', 'employee_residence_SK', 'employee_residence_TH', 'employee_residence_TN', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'employee_residence_VN', 'company_location_AE', 'company_location_AL', 'company_location_AM', 'company_location_AR', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BA', 'company_location_BE', 'company_location_BO', 'company_location_BR', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CL', 'company_location_CO', 'company_location_CR', 'company_location_CZ', 'company_location_DE', 'company_location_DK', 'company_location_DZ', 'company_location_EE', 'company_location_EG', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HN', 'company_location_HR', 'company_location_HU', 'company_location_ID', 'company_location_IE', 'company_location_IL', 'company_location_IN', 'company_location_IQ', 'company_location_IR', 'company_location_IT', 'company_location_JP', 'company_location_KE', 'company_location_LT', 'company_location_LU', 'company_location_LV', 'company_location_MA', 'company_location_MD', 'company_location_MK', 'company_location_MX', 'company_location_MY', 'company_location_NG', 'company_location_NL', 'company_location_NZ', 'company_location_PH', 'company_location_PK', 'company_location_PL', 'company_location_PR', 'company_location_PT', 'company_location_RO', 'company_location_RU', 'company_location_SE', 'company_location_SG', 'company_location_SI', 'company_location_SK', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_location_VN', 'company_size_L', 'company_size_M', 'company_size_S']\n",
|
||
"Столбцы val_data_encoded: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AR', 'employee_residence_AS', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BE', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CO', 'employee_residence_DE', 'employee_residence_DO', 'employee_residence_ES', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HR', 'employee_residence_IE', 'employee_residence_IN', 'employee_residence_IT', 'employee_residence_JE', 'employee_residence_JP', 'employee_residence_LV', 'employee_residence_MT', 'employee_residence_MX', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_PK', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RU', 'employee_residence_TH', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'company_location_AE', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BE', 'company_location_BS', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CN', 'company_location_CO', 'company_location_DE', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HK', 'company_location_HR', 'company_location_IE', 'company_location_IN', 'company_location_JP', 'company_location_LU', 'company_location_LV', 'company_location_MT', 'company_location_MX', 'company_location_NG', 'company_location_NL', 'company_location_PK', 'company_location_PR', 'company_location_PT', 'company_location_RU', 'company_location_SG', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_size_L', 'company_size_M', 'company_size_S']\n",
|
||
"Столбцы test_data_encoded: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AR', 'employee_residence_AS', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BE', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CO', 'employee_residence_DE', 'employee_residence_DO', 'employee_residence_ES', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HR', 'employee_residence_IE', 'employee_residence_IN', 'employee_residence_IT', 'employee_residence_JE', 'employee_residence_JP', 'employee_residence_LV', 'employee_residence_MT', 'employee_residence_MX', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_PK', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RU', 'employee_residence_TH', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'company_location_AE', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BE', 'company_location_BS', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CN', 'company_location_CO', 'company_location_DE', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HK', 'company_location_HR', 'company_location_IE', 'company_location_IN', 'company_location_JP', 'company_location_LU', 'company_location_LV', 'company_location_MT', 'company_location_MX', 'company_location_NG', 'company_location_NL', 'company_location_PK', 'company_location_PR', 'company_location_PT', 'company_location_RU', 'company_location_SG', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_size_L', 'company_size_M', 'company_size_S']\n",
|
||
"Столбцы train_data_encoded после дискретизации: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'salary_category', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_CT', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AM', 'employee_residence_AR', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BA', 'employee_residence_BE', 'employee_residence_BG', 'employee_residence_BO', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CL', 'employee_residence_CN', 'employee_residence_CO', 'employee_residence_CR', 'employee_residence_CY', 'employee_residence_CZ', 'employee_residence_DE', 'employee_residence_DK', 'employee_residence_DZ', 'employee_residence_EE', 'employee_residence_EG', 'employee_residence_ES', 'employee_residence_FI', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HN', 'employee_residence_HR', 'employee_residence_HU', 'employee_residence_ID', 'employee_residence_IE', 'employee_residence_IL', 'employee_residence_IN', 'employee_residence_IQ', 'employee_residence_IR', 'employee_residence_IT', 'employee_residence_JP', 'employee_residence_KE', 'employee_residence_KW', 'employee_residence_LT', 'employee_residence_LU', 'employee_residence_LV', 'employee_residence_MA', 'employee_residence_MD', 'employee_residence_MK', 'employee_residence_MX', 'employee_residence_MY', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_NZ', 'employee_residence_PH', 'employee_residence_PK', 'employee_residence_PL', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RO', 'employee_residence_RS', 'employee_residence_RU', 'employee_residence_SE', 'employee_residence_SG', 'employee_residence_SI', 'employee_residence_SK', 'employee_residence_TH', 'employee_residence_TN', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'employee_residence_VN', 'company_location_AE', 'company_location_AL', 'company_location_AM', 'company_location_AR', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BA', 'company_location_BE', 'company_location_BO', 'company_location_BR', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CL', 'company_location_CO', 'company_location_CR', 'company_location_CZ', 'company_location_DE', 'company_location_DK', 'company_location_DZ', 'company_location_EE', 'company_location_EG', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HN', 'company_location_HR', 'company_location_HU', 'company_location_ID', 'company_location_IE', 'company_location_IL', 'company_location_IN', 'company_location_IQ', 'company_location_IR', 'company_location_IT', 'company_location_JP', 'company_location_KE', 'company_location_LT', 'company_location_LU', 'company_location_LV', 'company_location_MA', 'company_location_MD', 'company_location_MK', 'company_location_MX', 'company_location_MY', 'company_location_NG', 'company_location_NL', 'company_location_NZ', 'company_location_PH', 'company_location_PK', 'company_location_PL', 'company_location_PR', 'company_location_PT', 'company_location_RO', 'company_location_RU', 'company_location_SE', 'company_location_SG', 'company_location_SI', 'company_location_SK', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_location_VN', 'company_size_L', 'company_size_M', 'company_size_S']\n",
|
||
"Столбцы val_data_encoded после дискретизации: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AR', 'employee_residence_AS', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BE', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CO', 'employee_residence_DE', 'employee_residence_DO', 'employee_residence_ES', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HR', 'employee_residence_IE', 'employee_residence_IN', 'employee_residence_IT', 'employee_residence_JE', 'employee_residence_JP', 'employee_residence_LV', 'employee_residence_MT', 'employee_residence_MX', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_PK', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RU', 'employee_residence_TH', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'company_location_AE', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BE', 'company_location_BS', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CN', 'company_location_CO', 'company_location_DE', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HK', 'company_location_HR', 'company_location_IE', 'company_location_IN', 'company_location_JP', 'company_location_LU', 'company_location_LV', 'company_location_MT', 'company_location_MX', 'company_location_NG', 'company_location_NL', 'company_location_PK', 'company_location_PR', 'company_location_PT', 'company_location_RU', 'company_location_SG', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_size_L', 'company_size_M', 'company_size_S', 'salary_category']\n",
|
||
"Столбцы test_data_encoded после дискретизации: ['work_year', 'job_title', 'salary', 'salary_currency', 'salary_in_usd', 'remote_ratio', 'experience_level_EN', 'experience_level_EX', 'experience_level_MI', 'experience_level_SE', 'employment_type_FL', 'employment_type_FT', 'employment_type_PT', 'employee_residence_AE', 'employee_residence_AR', 'employee_residence_AS', 'employee_residence_AT', 'employee_residence_AU', 'employee_residence_BE', 'employee_residence_BR', 'employee_residence_CA', 'employee_residence_CF', 'employee_residence_CH', 'employee_residence_CO', 'employee_residence_DE', 'employee_residence_DO', 'employee_residence_ES', 'employee_residence_FR', 'employee_residence_GB', 'employee_residence_GH', 'employee_residence_GR', 'employee_residence_HK', 'employee_residence_HR', 'employee_residence_IE', 'employee_residence_IN', 'employee_residence_IT', 'employee_residence_JE', 'employee_residence_JP', 'employee_residence_LV', 'employee_residence_MT', 'employee_residence_MX', 'employee_residence_NG', 'employee_residence_NL', 'employee_residence_PK', 'employee_residence_PR', 'employee_residence_PT', 'employee_residence_RU', 'employee_residence_TH', 'employee_residence_TR', 'employee_residence_UA', 'employee_residence_US', 'employee_residence_UZ', 'company_location_AE', 'company_location_AS', 'company_location_AT', 'company_location_AU', 'company_location_BE', 'company_location_BS', 'company_location_CA', 'company_location_CF', 'company_location_CH', 'company_location_CN', 'company_location_CO', 'company_location_DE', 'company_location_ES', 'company_location_FI', 'company_location_FR', 'company_location_GB', 'company_location_GH', 'company_location_GR', 'company_location_HK', 'company_location_HR', 'company_location_IE', 'company_location_IN', 'company_location_JP', 'company_location_LU', 'company_location_LV', 'company_location_MT', 'company_location_MX', 'company_location_NG', 'company_location_NL', 'company_location_PK', 'company_location_PR', 'company_location_PT', 'company_location_RU', 'company_location_SG', 'company_location_TH', 'company_location_TR', 'company_location_UA', 'company_location_US', 'company_size_L', 'company_size_M', 'company_size_S', 'salary_category']\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"# Конструирование признаков\n",
|
||
"# Унитарное кодирование категориальных признаков (применение one-hot encoding)\n",
|
||
"\n",
|
||
"# Пример категориальных признаков\n",
|
||
"categorical_features = ['experience_level', 'employment_type', 'employee_residence', 'company_location', 'company_size']\n",
|
||
"\n",
|
||
"# Применение one-hot encoding\n",
|
||
"train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)\n",
|
||
"val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)\n",
|
||
"test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)\n",
|
||
"df_encoded = pd.get_dummies(df, columns=categorical_features)\n",
|
||
"\n",
|
||
"print(\"Столбцы train_data_encoded:\", train_data_encoded.columns.tolist())\n",
|
||
"print(\"Столбцы val_data_encoded:\", val_data_encoded.columns.tolist())\n",
|
||
"print(\"Столбцы test_data_encoded:\", test_data_encoded.columns.tolist())\n",
|
||
"\n",
|
||
"\n",
|
||
"# Пример дискретизации признака 'salary_in_usd' на 5 категорий\n",
|
||
"train_data_encoded['salary_category'] = pd.cut(train_data_encoded['salary_in_usd'], bins=5, labels=False)\n",
|
||
"val_data_encoded['salary_category'] = pd.cut(val_data_encoded['salary_in_usd'], bins=5, labels=False)\n",
|
||
"test_data_encoded['salary_category'] = pd.cut(test_data_encoded['salary_in_usd'], bins=5, labels=False)\n",
|
||
"df_encoded['salary_category'] = pd.cut(df_encoded['salary_in_usd'], bins=5, labels=False)\n",
|
||
"\n",
|
||
"print(\"Столбцы train_data_encoded после дискретизации:\", train_data_encoded.columns.tolist())\n",
|
||
"print(\"Столбцы val_data_encoded после дискретизации:\", val_data_encoded.columns.tolist())\n",
|
||
"print(\"Столбцы test_data_encoded после дискретизации:\", test_data_encoded.columns.tolist())\n"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"### Ручной синтез\n",
|
||
"Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о заработной плате в Data Science можно создать признак \"зарплата в месяц\"."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 34,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
" work_year experience_level employment_type job_title \\\n",
|
||
"0 2023 SE FT Principal Data Scientist \n",
|
||
"1 2023 MI CT ML Engineer \n",
|
||
"2 2023 MI CT ML Engineer \n",
|
||
"3 2023 SE FT Data Scientist \n",
|
||
"4 2023 SE FT Data Scientist \n",
|
||
"\n",
|
||
" salary salary_currency salary_in_usd employee_residence remote_ratio \\\n",
|
||
"0 80000 EUR 85847 ES 100 \n",
|
||
"1 30000 USD 30000 US 100 \n",
|
||
"2 25500 USD 25500 US 100 \n",
|
||
"3 175000 USD 175000 CA 100 \n",
|
||
"4 120000 USD 120000 CA 100 \n",
|
||
"\n",
|
||
" company_location company_size Salary in month \n",
|
||
"0 ES L 6666 \n",
|
||
"1 US S 2500 \n",
|
||
"2 US S 2125 \n",
|
||
"3 CA M 14583 \n",
|
||
"4 CA M 10000 \n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"df = pd.read_csv(\"..//static//csv//ds_salaries.csv\")\n",
|
||
"# Создание нового признака 'Salary in month'\n",
|
||
"df['Salary in month'] = df['salary'] // 12\n",
|
||
"\n",
|
||
"# Вывод первых нескольких строк датафрейма для проверки\n",
|
||
"print(df.head())"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 36,
|
||
"metadata": {},
|
||
"outputs": [],
|
||
"source": [
|
||
"from sklearn.preprocessing import StandardScaler, MinMaxScaler\n",
|
||
"\n",
|
||
"# Пример масштабирования числовых признаков\n",
|
||
"numerical_features = ['work_year', 'salary']\n",
|
||
"\n",
|
||
"scaler = StandardScaler()\n",
|
||
"train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])\n",
|
||
"val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])\n",
|
||
"test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])\n"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"# Конструирование признаков с применением фреймворка Featuretools"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 43,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stderr",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n"
|
||
]
|
||
},
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
" work_year experience_level employment_type job_title \\\n",
|
||
"id \n",
|
||
"1 2023 SE FT Principal Data Scientist \n",
|
||
"2 2023 MI CT ML Engineer \n",
|
||
"3 2023 MI CT ML Engineer \n",
|
||
"4 2023 SE FT Data Scientist \n",
|
||
"5 2023 SE FT Data Scientist \n",
|
||
"\n",
|
||
" salary salary_currency salary_in_usd employee_residence remote_ratio \\\n",
|
||
"id \n",
|
||
"1 80000 EUR 85847 ES 100 \n",
|
||
"2 30000 USD 30000 US 100 \n",
|
||
"3 25500 USD 25500 US 100 \n",
|
||
"4 175000 USD 175000 CA 100 \n",
|
||
"5 120000 USD 120000 CA 100 \n",
|
||
"\n",
|
||
" company_location company_size \n",
|
||
"id \n",
|
||
"1 ES L \n",
|
||
"2 US S \n",
|
||
"3 US S \n",
|
||
"4 CA M \n",
|
||
"5 CA M \n",
|
||
" work_year experience_level employment_type job_title salary \\\n",
|
||
"id \n",
|
||
"2385 2022 SE FT Data Engineer 175000 \n",
|
||
"941 2023 SE FT Analytics Engineer 150000 \n",
|
||
"1617 2023 MI FT Data Analyst 65000 \n",
|
||
"1443 2023 MI FT Data Analyst 61200 \n",
|
||
"416 2023 SE FT Data Scientist 175000 \n",
|
||
"\n",
|
||
" salary_currency salary_in_usd employee_residence remote_ratio \\\n",
|
||
"id \n",
|
||
"2385 USD 175000 US 100 \n",
|
||
"941 USD 150000 US 0 \n",
|
||
"1617 GBP 78990 GB 0 \n",
|
||
"1443 USD 61200 US 0 \n",
|
||
"416 USD 175000 US 100 \n",
|
||
"\n",
|
||
" company_location company_size \n",
|
||
"id \n",
|
||
"2385 US M \n",
|
||
"941 US M \n",
|
||
"1617 GB M \n",
|
||
"1443 US M \n",
|
||
"416 US M \n",
|
||
" work_year experience_level employment_type job_title salary \\\n",
|
||
"id \n",
|
||
"2321 2022 SE FT Analytics Engineer 116250 \n",
|
||
"473 2023 EX FT Data Engineer 286000 \n",
|
||
"2269 2022 EN FT Data Engineer 135000 \n",
|
||
"430 2023 SE FT Data Analyst 208450 \n",
|
||
"3574 2020 MI FT Data Engineer 88000 \n",
|
||
"\n",
|
||
" salary_currency salary_in_usd employee_residence remote_ratio \\\n",
|
||
"id \n",
|
||
"2321 USD 116250 US 100 \n",
|
||
"473 USD 286000 US 100 \n",
|
||
"2269 USD 135000 US 0 \n",
|
||
"430 USD 208450 US 100 \n",
|
||
"3574 GBP 112872 GB 50 \n",
|
||
"\n",
|
||
" company_location company_size \n",
|
||
"id \n",
|
||
"2321 US M \n",
|
||
"473 US M \n",
|
||
"2269 US M \n",
|
||
"430 US M \n",
|
||
"3574 GB L \n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import pandas as pd\n",
|
||
"import featuretools as ft\n",
|
||
"from sklearn.model_selection import train_test_split\n",
|
||
"\n",
|
||
"# Загрузка данных\n",
|
||
"df = pd.read_csv(\"..//static//csv//ds_salaries.csv\")\n",
|
||
"\n",
|
||
"# Создание уникального идентификатора для каждой строки\n",
|
||
"df['id'] = range(1, len(df) + 1)\n",
|
||
"\n",
|
||
"# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)\n",
|
||
"# Удаление дубликатов по всем столбцам\n",
|
||
"df = df.drop_duplicates()\n",
|
||
"\n",
|
||
"# Создание EntitySet\n",
|
||
"es = ft.EntitySet(id='data_science_jobs')\n",
|
||
"\n",
|
||
"# Добавление датафрейма с данными о рабочих местах\n",
|
||
"es = es.add_dataframe(\n",
|
||
" dataframe_name='jobs',\n",
|
||
" dataframe=df,\n",
|
||
" index='id'\n",
|
||
")\n",
|
||
"\n",
|
||
"# Генерация признаков с помощью глубокой синтезы признаков\n",
|
||
"feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='jobs', max_depth=1)\n",
|
||
"\n",
|
||
"# Выводим первые 5 строк сгенерированного набора признаков\n",
|
||
"print(feature_matrix.head())\n",
|
||
"\n",
|
||
"# Разделение данных на обучающую и тестовую выборки\n",
|
||
"train_data, test_data = train_test_split(df, test_size=0.3, random_state=42)\n",
|
||
"\n",
|
||
"# Разделение оставшейся части на валидационную и тестовую выборки\n",
|
||
"val_data, test_data = train_test_split(test_data, test_size=0.5, random_state=42)\n",
|
||
"\n",
|
||
"# Преобразование признаков для контрольной и тестовой выборок\n",
|
||
"val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data['id'])\n",
|
||
"test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data['id'])\n",
|
||
"\n",
|
||
"# Вывод первых 5 строк сгенерированных признаков для валидационной и тестовой выборок\n",
|
||
"print(val_feature_matrix.head())\n",
|
||
"print(test_feature_matrix.head())"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"### Оценка качества каждого набора признаков \n",
|
||
"\n",
|
||
"*Предсказательная способность Метрики:* RMSE, MAE, R² \n",
|
||
"\n",
|
||
"*Методы:* Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках. \n",
|
||
"\n",
|
||
"*Скорость вычисления Методы:* Измерение времени выполнения генерации признаков и обучения модели. \n",
|
||
"\n",
|
||
"*Надежность Методы:* Кросс-валидация, анализ чувствительности модели к изменениям в данных. \n",
|
||
"\n",
|
||
"*Корреляция Методы:* Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков. \n",
|
||
"\n",
|
||
"*Цельность Методы:* Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели. "
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 44,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Время обучения модели: 1.81 секунд\n",
|
||
"Среднеквадратичная ошибка (RMSE): 49834.60\n",
|
||
"Средняя абсолютная ошибка (MAE): 37776.22\n",
|
||
"Коэффициент детерминации (R²): 0.37\n",
|
||
"Кросс-валидация RMSE: 51653687796568.14 (± 37705548691705.71)\n",
|
||
"Корреляционная матрица признаков:\n",
|
||
" work_year remote_ratio experience_level_EX \\\n",
|
||
"work_year 1.000000 -0.236430 0.003156 \n",
|
||
"remote_ratio -0.236430 1.000000 0.007190 \n",
|
||
"experience_level_EX 0.003156 0.007190 1.000000 \n",
|
||
"experience_level_MI -0.128381 -0.000650 -0.092433 \n",
|
||
"experience_level_SE 0.194923 -0.035201 -0.252152 \n",
|
||
"... ... ... ... \n",
|
||
"company_location_UA 0.005969 -0.005896 -0.005778 \n",
|
||
"company_location_US 0.267002 -0.077706 0.022562 \n",
|
||
"company_location_VN 0.014787 -0.015545 -0.002888 \n",
|
||
"company_size_M 0.421975 -0.154550 -0.003061 \n",
|
||
"company_size_S -0.257948 0.108512 0.012020 \n",
|
||
"\n",
|
||
" experience_level_MI experience_level_SE \\\n",
|
||
"work_year -0.128381 0.194923 \n",
|
||
"remote_ratio -0.000650 -0.035201 \n",
|
||
"experience_level_EX -0.092433 -0.252152 \n",
|
||
"experience_level_MI 1.000000 -0.744400 \n",
|
||
"experience_level_SE -0.744400 1.000000 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA -0.017059 0.005553 \n",
|
||
"company_location_US -0.255712 0.324686 \n",
|
||
"company_location_VN -0.008526 -0.023258 \n",
|
||
"company_size_M -0.097174 0.236746 \n",
|
||
"company_size_S 0.060936 -0.163489 \n",
|
||
"\n",
|
||
" employment_type_FL employment_type_FT \\\n",
|
||
"work_year -0.050350 0.116310 \n",
|
||
"remote_ratio 0.025238 -0.068702 \n",
|
||
"experience_level_EX -0.009144 0.001938 \n",
|
||
"experience_level_MI 0.035964 -0.033295 \n",
|
||
"experience_level_SE -0.040667 0.113486 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA 0.156722 -0.079394 \n",
|
||
"company_location_US -0.053906 0.082093 \n",
|
||
"company_location_VN -0.000843 0.001628 \n",
|
||
"company_size_M -0.047840 0.125424 \n",
|
||
"company_size_S 0.095761 -0.173783 \n",
|
||
"\n",
|
||
" employment_type_PT job_title_AI Developer \\\n",
|
||
"work_year -0.093825 0.027726 \n",
|
||
"remote_ratio 0.041919 -0.016126 \n",
|
||
"experience_level_EX -0.011933 -0.009591 \n",
|
||
"experience_level_MI -0.006230 -0.004301 \n",
|
||
"experience_level_SE -0.096100 -0.045802 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA -0.002202 0.300345 \n",
|
||
"company_location_US -0.078434 -0.099216 \n",
|
||
"company_location_VN -0.001101 -0.000885 \n",
|
||
"company_size_M -0.100277 -0.043467 \n",
|
||
"company_size_S 0.108664 0.064994 \n",
|
||
"\n",
|
||
" job_title_AI Programmer ... company_location_SG \\\n",
|
||
"work_year 0.004219 ... -0.021620 \n",
|
||
"remote_ratio 0.001772 ... 0.016794 \n",
|
||
"experience_level_EX -0.004085 ... -0.007079 \n",
|
||
"experience_level_MI -0.012059 ... 0.044089 \n",
|
||
"experience_level_SE -0.032896 ... -0.042828 \n",
|
||
"... ... ... ... \n",
|
||
"company_location_UA -0.000754 ... -0.001306 \n",
|
||
"company_location_US -0.047600 ... -0.082490 \n",
|
||
"company_location_VN -0.000377 ... -0.000653 \n",
|
||
"company_size_M -0.021372 ... -0.055210 \n",
|
||
"company_size_S -0.004676 ... -0.008104 \n",
|
||
"\n",
|
||
" company_location_SI company_location_SK \\\n",
|
||
"work_year -0.017648 -0.008821 \n",
|
||
"remote_ratio 0.027712 0.018050 \n",
|
||
"experience_level_EX -0.005778 -0.002888 \n",
|
||
"experience_level_MI 0.042620 -0.008526 \n",
|
||
"experience_level_SE -0.029172 0.011453 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA -0.001066 -0.000533 \n",
|
||
"company_location_US -0.067335 -0.033654 \n",
|
||
"company_location_VN -0.000533 -0.000266 \n",
|
||
"company_size_M -0.030233 -0.037352 \n",
|
||
"company_size_S -0.006615 0.080574 \n",
|
||
"\n",
|
||
" company_location_TH company_location_TR \\\n",
|
||
"work_year -0.001648 -0.051424 \n",
|
||
"remote_ratio 0.011871 -0.004714 \n",
|
||
"experience_level_EX -0.005003 -0.006461 \n",
|
||
"experience_level_MI 0.008196 0.052106 \n",
|
||
"experience_level_SE -0.020249 -0.036503 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA -0.000923 -0.001192 \n",
|
||
"company_location_US -0.058306 -0.075293 \n",
|
||
"company_location_VN -0.000462 -0.000596 \n",
|
||
"company_size_M -0.039024 -0.003949 \n",
|
||
"company_size_S -0.005728 -0.007397 \n",
|
||
"\n",
|
||
" company_location_UA company_location_US \\\n",
|
||
"work_year 0.005969 0.267002 \n",
|
||
"remote_ratio -0.005896 -0.077706 \n",
|
||
"experience_level_EX -0.005778 0.022562 \n",
|
||
"experience_level_MI -0.017059 -0.255712 \n",
|
||
"experience_level_SE 0.005553 0.324686 \n",
|
||
"... ... ... \n",
|
||
"company_location_UA 1.000000 -0.067335 \n",
|
||
"company_location_US -0.067335 1.000000 \n",
|
||
"company_location_VN -0.000533 -0.033654 \n",
|
||
"company_size_M -0.030233 0.314961 \n",
|
||
"company_size_S 0.035342 -0.229439 \n",
|
||
"\n",
|
||
" company_location_VN company_size_M company_size_S \n",
|
||
"work_year 0.014787 0.421975 -0.257948 \n",
|
||
"remote_ratio -0.015545 -0.154550 0.108512 \n",
|
||
"experience_level_EX -0.002888 -0.003061 0.012020 \n",
|
||
"experience_level_MI -0.008526 -0.097174 0.060936 \n",
|
||
"experience_level_SE -0.023258 0.236746 -0.163489 \n",
|
||
"... ... ... ... \n",
|
||
"company_location_UA -0.000533 -0.030233 0.035342 \n",
|
||
"company_location_US -0.033654 0.314961 -0.229439 \n",
|
||
"company_location_VN 1.000000 -0.037352 -0.003306 \n",
|
||
"company_size_M -0.037352 1.000000 -0.463577 \n",
|
||
"company_size_S -0.003306 -0.463577 1.000000 \n",
|
||
"\n",
|
||
"[250 rows x 250 columns]\n",
|
||
"Коэффициенты модели:\n",
|
||
" Feature Coefficient\n",
|
||
"0 work_year 3996.696898\n",
|
||
"1 remote_ratio 5.199270\n",
|
||
"2 experience_level_EX 88740.552288\n",
|
||
"3 experience_level_MI 20170.854874\n",
|
||
"4 experience_level_SE 44093.474726\n",
|
||
".. ... ...\n",
|
||
"245 company_location_UA -64984.628104\n",
|
||
"246 company_location_US 40574.678578\n",
|
||
"247 company_location_VN 24478.024917\n",
|
||
"248 company_size_M -2895.244061\n",
|
||
"249 company_size_S -23506.811439\n",
|
||
"\n",
|
||
"[250 rows x 2 columns]\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import time\n",
|
||
"import pandas as pd\n",
|
||
"from sklearn.model_selection import train_test_split, cross_val_score\n",
|
||
"from sklearn.linear_model import LinearRegression\n",
|
||
"from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score\n",
|
||
"\n",
|
||
"# Загрузка данных\n",
|
||
"df = pd.read_csv(\"..//static//csv//ds_salaries.csv\")\n",
|
||
"\n",
|
||
"# Разделение данных на признаки и целевую переменную\n",
|
||
"X = df.drop(['salary_in_usd', 'salary', 'salary_currency'], axis=1) # Удаляем целевую переменную и ненужные столбцы\n",
|
||
"y = df['salary_in_usd']\n",
|
||
"\n",
|
||
"# One-hot encoding для категориальных переменных\n",
|
||
"X = pd.get_dummies(X, drop_first=True)\n",
|
||
"\n",
|
||
"# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением\n",
|
||
"X.fillna(X.median(), inplace=True)\n",
|
||
"\n",
|
||
"# Разделение данных на обучающую и валидационную выборки\n",
|
||
"X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)\n",
|
||
"\n",
|
||
"# Обучение модели\n",
|
||
"model = LinearRegression()\n",
|
||
"\n",
|
||
"# Начинаем отсчет времени\n",
|
||
"start_time = time.time()\n",
|
||
"model.fit(X_train, y_train)\n",
|
||
"\n",
|
||
"# Время обучения модели\n",
|
||
"train_time = time.time() - start_time\n",
|
||
"\n",
|
||
"# Предсказания и оценка модели\n",
|
||
"predictions = model.predict(X_val)\n",
|
||
"mse = mean_squared_error(y_val, predictions)\n",
|
||
"mae = mean_absolute_error(y_val, predictions)\n",
|
||
"r2 = r2_score(y_val, predictions)\n",
|
||
"\n",
|
||
"print(f'Время обучения модели: {train_time:.2f} секунд')\n",
|
||
"print(f'Среднеквадратичная ошибка (RMSE): {mse**0.5:.2f}')\n",
|
||
"print(f'Средняя абсолютная ошибка (MAE): {mae:.2f}')\n",
|
||
"print(f'Коэффициент детерминации (R²): {r2:.2f}')\n",
|
||
"\n",
|
||
"# Кросс-валидация\n",
|
||
"cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')\n",
|
||
"cv_rmse_scores = (-cv_scores)**0.5\n",
|
||
"print(f'Кросс-валидация RMSE: {cv_rmse_scores.mean():.2f} (± {cv_rmse_scores.std():.2f})')\n",
|
||
"\n",
|
||
"# Анализ корреляции\n",
|
||
"correlation_matrix = X.corr()\n",
|
||
"print(\"Корреляционная матрица признаков:\")\n",
|
||
"print(correlation_matrix)\n",
|
||
"\n",
|
||
"# Цельность: Проверка логической связи между признаками и целевой переменной\n",
|
||
"# В данном случае, мы можем проанализировать коэффициенты модели\n",
|
||
"coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})\n",
|
||
"print(\"Коэффициенты модели:\")\n",
|
||
"print(coefficients)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": null,
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stderr",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\woodwork\\type_sys\\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.\n",
|
||
" pd.to_datetime(\n",
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n",
|
||
" warnings.warn(\n"
|
||
]
|
||
},
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"RMSE: 8277.602700993119\n",
|
||
"R²: 0.9826437806135544\n",
|
||
"MAE: 1270.2934354194408 \n",
|
||
"\n",
|
||
"Кросс-валидация RMSE: 13606.980806552549 \n",
|
||
"\n",
|
||
"Train RMSE: 4839.006207438376\n",
|
||
"Train R²: 0.9941174224388726\n",
|
||
"Train MAE: 664.4994041278297\n",
|
||
"\n"
|
||
]
|
||
},
|
||
{
|
||
"name": "stderr",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"d:\\MII\\AIM-PIbd-32-Kaznacheeva-E-K\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.\n",
|
||
" warnings.warn(\n"
|
||
]
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "",
|
||
"text/plain": [
|
||
"<Figure size 1000x600 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"import pandas as pd\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"from sklearn.ensemble import RandomForestRegressor\n",
|
||
"from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error\n",
|
||
"from sklearn.model_selection import train_test_split, cross_val_score\n",
|
||
"\n",
|
||
"# Загрузка данных\n",
|
||
"df = pd.read_csv(\"..//static//csv//ds_salaries.csv\")\n",
|
||
"\n",
|
||
"# Создание уникального идентификатора для каждой строки\n",
|
||
"df['id'] = range(1, len(df) + 1)\n",
|
||
"\n",
|
||
"# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)\n",
|
||
"# Удаление дубликатов по всем столбцам\n",
|
||
"df = df.drop_duplicates()\n",
|
||
"\n",
|
||
"# Создание EntitySet\n",
|
||
"es = ft.EntitySet(id='data_science_jobs')\n",
|
||
"\n",
|
||
"# Добавление датафрейма с данными о рабочих местах\n",
|
||
"es = es.add_dataframe(\n",
|
||
" dataframe_name='jobs',\n",
|
||
" dataframe=df,\n",
|
||
" index='id'\n",
|
||
")\n",
|
||
"\n",
|
||
"# Генерация признаков с помощью глубокой синтезы признаков\n",
|
||
"feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='jobs', max_depth=1)\n",
|
||
"\n",
|
||
"# Удаление строк с NaN\n",
|
||
"feature_matrix = feature_matrix.dropna()\n",
|
||
"\n",
|
||
"# Разделение данных на обучающую и тестовую выборки\n",
|
||
"X_train = feature_matrix.drop('salary_in_usd', axis=1)\n",
|
||
"y_train = feature_matrix['salary_in_usd']\n",
|
||
"\n",
|
||
"# Кодирования категориальных переменных с использованием одноразового кодирования\n",
|
||
"X_train = pd.get_dummies(X_train, drop_first=True)\n",
|
||
"\n",
|
||
"# Разобьём тренировочный тест и примерку модели\n",
|
||
"X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42)\n",
|
||
"\n",
|
||
"# Выбор модели\n",
|
||
"model = RandomForestRegressor(random_state=42)\n",
|
||
"\n",
|
||
"# Обучение модели\n",
|
||
"model.fit(X_train, y_train)\n",
|
||
"\n",
|
||
"# Предсказание и оценка\n",
|
||
"y_pred = model.predict(X_test)\n",
|
||
"\n",
|
||
"rmse = mean_squared_error(y_test, y_pred, squared=False)\n",
|
||
"r2 = r2_score(y_test, y_pred)\n",
|
||
"mae = mean_absolute_error(y_test, y_pred)\n",
|
||
"\n",
|
||
"print(f\"RMSE: {rmse}\")\n",
|
||
"print(f\"R²: {r2}\")\n",
|
||
"print(f\"MAE: {mae} \\n\")\n",
|
||
"\n",
|
||
"# Кросс-валидация\n",
|
||
"scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')\n",
|
||
"rmse_cv = (-scores.mean())**0.5\n",
|
||
"print(f\"Кросс-валидация RMSE: {rmse_cv} \\n\")\n",
|
||
"\n",
|
||
"# Анализ важности признаков\n",
|
||
"feature_importances = model.feature_importances_\n",
|
||
"feature_names = X_train.columns\n",
|
||
"\n",
|
||
"# Проверка на переобучение\n",
|
||
"y_train_pred = model.predict(X_train)\n",
|
||
"\n",
|
||
"rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)\n",
|
||
"r2_train = r2_score(y_train, y_train_pred)\n",
|
||
"mae_train = mean_absolute_error(y_train, y_train_pred)\n",
|
||
"\n",
|
||
"print(f\"Train RMSE: {rmse_train}\")\n",
|
||
"print(f\"Train R²: {r2_train}\")\n",
|
||
"print(f\"Train MAE: {mae_train}\")\n",
|
||
"print()\n",
|
||
"\n",
|
||
"# Визуализация результатов\n",
|
||
"plt.figure(figsize=(10, 6))\n",
|
||
"plt.scatter(y_test, y_pred, alpha=0.5)\n",
|
||
"plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)\n",
|
||
"plt.xlabel('Фактическая зарплата (USD)')\n",
|
||
"plt.ylabel('Прогнозируемая зарплата (USD)')\n",
|
||
"plt.title('Фактическая зарплата по сравнению с прогнозируемой')\n",
|
||
"plt.show()"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {},
|
||
"source": [
|
||
"# Выводы и итог\n",
|
||
"Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании зарплат в области Data Science. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.\n",
|
||
"\n",
|
||
"Точность предсказаний: Модель показывает довольно высокий R² (0.8029), что указывает на хорошее объяснение вариации зарплат. Однако, значения RMSE и MAE довольно высоки, что говорит о том, что модель не очень точно предсказывает зарплаты, особенно для высоких значений.\n",
|
||
"\n",
|
||
"Переобучение: Разница между RMSE на обучающей и тестовой выборках не очень большая, что указывает на то, что переобучение не является критическим. Однако, стоит быть осторожным и продолжать мониторинг этого показателя.\n",
|
||
"\n",
|
||
"Кросс-валидация: Значение RMSE после кросс-валидации немного выше, чем на тестовой выборке, что может указывать на некоторую нестабильность модели.\n",
|
||
"\n",
|
||
"Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях. Также стоит рассмотреть возможность использования других моделей, таких как градиентный бустинг или нейронные сети, для сравнения результатов и выбора наиболее эффективной модели."
|
||
]
|
||
}
|
||
],
|
||
"metadata": {
|
||
"kernelspec": {
|
||
"display_name": "aimenv",
|
||
"language": "python",
|
||
"name": "python3"
|
||
},
|
||
"language_info": {
|
||
"codemirror_mode": {
|
||
"name": "ipython",
|
||
"version": 3
|
||
},
|
||
"file_extension": ".py",
|
||
"mimetype": "text/x-python",
|
||
"name": "python",
|
||
"nbconvert_exporter": "python",
|
||
"pygments_lexer": "ipython3",
|
||
"version": "3.12.5"
|
||
}
|
||
},
|
||
"nbformat": 4,
|
||
"nbformat_minor": 2
|
||
}
|