402 KiB
Вариант задания: Заработная плата рабочих мест в области Data Science (вариант - 8)
Бизнес-цели для датасета о заработной плате в Data Science: Оптимизация стратегии найма и оплаты труда в Data Science
Формулировка: Разработать модель, которая позволяет точно прогнозировать и оптимизировать заработную плату для специалистов в области Data Science на основе их опыта, типа занятости, местоположения и других факторов.
Цель: Увеличить привлекательность компании для талантливых специалистов в Data Science, обеспечивая конкурентоспособные зарплаты, а также оптимизировать расходы на персонал, избегая переплат и недоплат.
Ключевые показатели успеха (KPI):
Точность модели прогнозирования зарплаты (RMSE): Минимизация среднеквадратичной ошибки до уровня ниже 10% от реальной зарплаты, чтобы учитывать большие отклонения в оценке.
Средняя абсолютная ошибка (MAE): Модель должна предсказать зарплату с минимальной ошибкой и снизить MAE до 5% или меньше, учитывая большие отклонения в оценке.
Скорость оценки зарплаты: Уменьшение времени на оценку зарплаты для новых сотрудников, чтобы быстрее принимать решения о найме.
Доступность: Внедрение модели в систему управления персоналом для использования HR-специалистами.
Оптимизация распределения ресурсов в компании
Формулировка: Разработать модель, которая поможет компаниям определить оптимальное распределение ресурсов (бюджета) на Data Science проекты и команды, учитывая уровень зарплат, опыт и другие факторы.
Цель: Снизить затраты на Data Science проекты, оптимизировать распределение бюджета, обеспечивая максимальную эффективность и результативность проектов.
Ключевые показатели успеха (KPI):
Возврат инвестиций (ROI): Проекты должны показывать не менее 20% прироста в результатах (например, увеличение прибыли, улучшение показателей) на каждый вложенный доллар в Data Science.
Средняя стоимость проекта на 1 сотрудника (CPA): Задача снизить расходы на проекты, минимизировав ненужные траты. Например, оптимизация затрат до $50,000 на проект с учетом максимального прироста в результатах.
Сокращение времени на принятие решений: Модель должна сокращать время, необходимое на оценку вариантов распределения ресурсов, до нескольких минут, что ускорит принятие решений.
Оптимизация стратегии развития карьеры в Data Science
Формулировка: Разработать модель, которая поможет специалистам в Data Science определить оптимальные пути развития карьеры, учитывая текущий уровень зарплаты, опыт и перспективы роста.
Цель: Повысить удовлетворенность и мотивацию специалистов в Data Science, обеспечивая им четкие пути развития карьеры и возможность получения конкурентоспособных зарплат.
Ключевые показатели успеха (KPI):
Уровень удовлетворенности сотрудников: Увеличение уровня удовлетворенности сотрудников на 15% за счет предоставления четких путей развития карьеры и возможностей для роста.
Средний срок пребывания в компании: Увеличение среднего срока пребывания сотрудников в компании на 20% за счет предоставления привлекательных перспектив развития.
Доступность: Внедрение модели в систему управления карьерой для использования сотрудниками и HR-специалистами.
Технические цели проекта для каждой выделенной бизнес-цели
Оптимизация стратегии найма и оплаты труда в Data Science
Сбор и подготовка данных:
Сбор данных: Получение данных о заработных платах специалистов в Data Science из различных источников (например, Glassdoor, LinkedIn, Kaggle).
Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных (например, experience_level, employment_type, employee_residence, company_location) в числовую форму с использованием One-Hot Encoding.
Нормализация и стандартизация: Применение методов масштабирования данных (нормировка, стандартизация) для числовых признаков (например, salary_in_usd, remote_ratio).
Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки для предотвращения утечек данных и переобучения.
Разработка и обучение модели:
Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг, деревья решений) для предсказания заработной платы.
Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как RMSE (Root Mean Square Error) и MAE (Mean Absolute Error).
Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE для получения точных прогнозов заработной платы.
Развёртывание модели:
Интеграция модели: Интеграция модели в существующую систему управления персоналом или разработка API для доступа к модели.
Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения прогнозов в режиме реального времени.
Оптимизация распределения ресурсов в компании
Сбор и подготовка данных:
Сбор данных: Получение данных о затратах на Data Science проекты, результатах проектов, уровнях зарплат сотрудников и других релевантных факторов.
Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовую форму с использованием One-Hot Encoding.
Нормализация и стандартизация: Применение методов масштабирования данных для числовых признаков.
Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки.
Разработка и обучение модели:
Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг) для предсказания оптимального распределения ресурсов.
Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как ROI (Return on Investment) и CPA (Cost Per Acquisition).
Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя CPA и максимизируя ROI.
Развёртывание модели:
Интеграция модели: Интеграция модели в систему управления проектами или разработка API для доступа к модели.
Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения рекомендаций по распределению ресурсов.
Оптимизация стратегии развития карьеры в Data Science
Сбор и подготовка данных:
Сбор данных: Получение данных о карьерных траекториях специалистов в Data Science, уровнях зарплат, опыте и других релевантных факторах.
Очистка данных: Удаление пропусков, выбросов и дубликатов. Преобразование категориальных переменных в числовую форму с использованием One-Hot Encoding.
Нормализация и стандартизация: Применение методов масштабирования данных для числовых признаков.
Разбиение данных: Разделение набора данных на обучающую, контрольную и тестовую выборки.
Разработка и обучение модели:
Исследование моделей: Эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг) для предсказания оптимальных путей развития карьеры.
Обучение модели: Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как MAE (Mean Absolute Error) и RMSE (Root Mean Square Error).
Оценка качества: Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE.
Развёртывание модели:
Интеграция модели: Интеграция модели в систему управления карьерой или разработка API для доступа к модели.
Создание интерфейса: Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения рекомендаций по развитию карьеры.
import pandas as pd
df = pd.read_csv("..//static//csv//ds_salaries.csv")
print(df.columns)
# Для наглядности
df.head()
# Описание данных (основные статистические показатели)
df.describe()
# Процент пропущенных значений признаков
for i in df.columns:
null_rate = df[i].isnull().sum() / len(df) * 100
if null_rate > 0:
print(f'{i} Процент пустых значений: %{null_rate:.2f}')
# Проверка на пропущенные данные
print(df.isnull().sum())
df.isnull().any()
Разбиваем на выборки (обучающую, тестовую, контрольную)
from sklearn.model_selection import train_test_split
# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)
train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)
# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)
train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)
print("Размер обучающей выборки: ", len(train_data))
print("Размер контрольной выборки: ", len(val_data))
print("Размер тестовой выборки: ", len(test_data))
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# Предположим, что у вас уже есть данные, разделенные на обучающую, контрольную и тестовую выборки
# train_data, val_data, test_data
# Визуализация распределения заработной платы в выборках (гистограмма)
def plot_salary_distribution(data, title):
sns.histplot(data['salary_in_usd'], kde=True)
plt.title(title)
plt.xlabel('Заработная плата (USD)')
plt.ylabel('Частота')
plt.show()
plot_salary_distribution(train_data, 'Распределение заработной платы в обучающей выборке')
plot_salary_distribution(val_data, 'Распределение заработной платы в контрольной выборке')
plot_salary_distribution(test_data, 'Распределение заработной платы в тестовой выборке')
# Оценка сбалансированности данных по целевой переменной (salary_in_usd)
print("Средняя заработная плата в обучающей выборке: ", train_data['salary_in_usd'].mean())
print("Средняя заработная плата в контрольной выборке: ", val_data['salary_in_usd'].mean())
print("Средняя заработная плата в тестовой выборке: ", test_data['salary_in_usd'].mean())
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
# Предположим, что у вас уже есть данные, разделенные на обучающую, контрольную и тестовую выборки
# train_data, val_data, test_data
# Преобразование целевой переменной (заработная плата) в категориальные диапазоны с использованием квантилей
train_data['salary_category'] = pd.qcut(train_data['salary_in_usd'], q=4, labels=['low', 'medium', 'high', 'very_high'])
# Визуализация распределения заработной платы после преобразования в категории
sns.countplot(x=train_data['salary_category'])
plt.title('Распределение категорий заработной платы в обучающей выборке')
plt.xlabel('Категория заработной платы')
plt.ylabel('Частота')
plt.show()
# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)
ros = RandomOverSampler(random_state=42)
X_train = train_data.drop(columns=['salary_in_usd', 'salary_category'])
y_train = train_data['salary_category']
X_resampled, y_resampled = ros.fit_resample(X_train, y_train)
# Визуализация распределения заработной платы после oversampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий заработной платы после oversampling')
plt.xlabel('Категория заработной платы')
plt.ylabel('Частота')
plt.show()
# Применение RandomUnderSampler для уменьшения большего класса
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)
# Визуализация распределения заработной платы после undersampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий заработной платы после undersampling')
plt.xlabel('Категория заработной платы')
plt.ylabel('Частота')
plt.show()
# Печать размеров выборки после балансировки
print("Размер обучающей выборки после oversampling и undersampling: ", len(X_resampled))
Конструирование признаков¶
Теперь приступим к конструированию признаков для решения каждой задачи.
Процесс конструирования признаков Задача 1: Прогнозирование заработной платы в Data Science. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования заработной платы специалистов в области Data Science. Задача 2: Оптимизация распределения ресурсов в компании. Цель технического проекта: Разработка модели машинного обучения для оптимизации распределения ресурсов на Data Science проекты.
Унитарное кодирование Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.
Дискретизация числовых признаков Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины).
# Конструирование признаков
# Унитарное кодирование категориальных признаков (применение one-hot encoding)
# Пример категориальных признаков
categorical_features = ['experience_level', 'employment_type', 'employee_residence', 'company_location', 'company_size']
# Применение one-hot encoding
train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)
val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)
test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)
df_encoded = pd.get_dummies(df, columns=categorical_features)
print("Столбцы train_data_encoded:", train_data_encoded.columns.tolist())
print("Столбцы val_data_encoded:", val_data_encoded.columns.tolist())
print("Столбцы test_data_encoded:", test_data_encoded.columns.tolist())
# Пример дискретизации признака 'salary_in_usd' на 5 категорий
train_data_encoded['salary_category'] = pd.cut(train_data_encoded['salary_in_usd'], bins=5, labels=False)
val_data_encoded['salary_category'] = pd.cut(val_data_encoded['salary_in_usd'], bins=5, labels=False)
test_data_encoded['salary_category'] = pd.cut(test_data_encoded['salary_in_usd'], bins=5, labels=False)
df_encoded['salary_category'] = pd.cut(df_encoded['salary_in_usd'], bins=5, labels=False)
print("Столбцы train_data_encoded после дискретизации:", train_data_encoded.columns.tolist())
print("Столбцы val_data_encoded после дискретизации:", val_data_encoded.columns.tolist())
print("Столбцы test_data_encoded после дискретизации:", test_data_encoded.columns.tolist())
Ручной синтез¶
Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о заработной плате в Data Science можно создать признак "зарплата в месяц".
df = pd.read_csv("..//static//csv//ds_salaries.csv")
# Создание нового признака 'Salary in month'
df['Salary in month'] = df['salary'] // 12
# Вывод первых нескольких строк датафрейма для проверки
print(df.head())
Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети.
from sklearn.preprocessing import StandardScaler, MinMaxScaler
# Пример масштабирования числовых признаков
numerical_features = ['work_year', 'salary']
scaler = StandardScaler()
train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])
val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])
test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])
Конструирование признаков с применением фреймворка Featuretools¶
import pandas as pd
import featuretools as ft
from sklearn.model_selection import train_test_split
# Загрузка данных
df = pd.read_csv("..//static//csv//ds_salaries.csv")
# Создание уникального идентификатора для каждой строки
df['id'] = range(1, len(df) + 1)
# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)
# Удаление дубликатов по всем столбцам
df = df.drop_duplicates()
# Создание EntitySet
es = ft.EntitySet(id='data_science_jobs')
# Добавление датафрейма с данными о рабочих местах
es = es.add_dataframe(
dataframe_name='jobs',
dataframe=df,
index='id'
)
# Генерация признаков с помощью глубокой синтезы признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='jobs', max_depth=1)
# Выводим первые 5 строк сгенерированного набора признаков
print(feature_matrix.head())
# Разделение данных на обучающую и тестовую выборки
train_data, test_data = train_test_split(df, test_size=0.3, random_state=42)
# Разделение оставшейся части на валидационную и тестовую выборки
val_data, test_data = train_test_split(test_data, test_size=0.5, random_state=42)
# Преобразование признаков для контрольной и тестовой выборок
val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data['id'])
test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data['id'])
# Вывод первых 5 строк сгенерированных признаков для валидационной и тестовой выборок
print(val_feature_matrix.head())
print(test_feature_matrix.head())
Оценка качества каждого набора признаков¶
Предсказательная способность Метрики: RMSE, MAE, R²
Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.
Скорость вычисления Методы: Измерение времени выполнения генерации признаков и обучения модели.
Надежность Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.
Корреляция Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.
Цельность Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели.
import time
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Загрузка данных
df = pd.read_csv("..//static//csv//ds_salaries.csv")
# Разделение данных на признаки и целевую переменную
X = df.drop(['salary_in_usd', 'salary', 'salary_currency'], axis=1) # Удаляем целевую переменную и ненужные столбцы
y = df['salary_in_usd']
# One-hot encoding для категориальных переменных
X = pd.get_dummies(X, drop_first=True)
# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением
X.fillna(X.median(), inplace=True)
# Разделение данных на обучающую и валидационную выборки
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
# Обучение модели
model = LinearRegression()
# Начинаем отсчет времени
start_time = time.time()
model.fit(X_train, y_train)
# Время обучения модели
train_time = time.time() - start_time
# Предсказания и оценка модели
predictions = model.predict(X_val)
mse = mean_squared_error(y_val, predictions)
mae = mean_absolute_error(y_val, predictions)
r2 = r2_score(y_val, predictions)
print(f'Время обучения модели: {train_time:.2f} секунд')
print(f'Среднеквадратичная ошибка (RMSE): {mse**0.5:.2f}')
print(f'Средняя абсолютная ошибка (MAE): {mae:.2f}')
print(f'Коэффициент детерминации (R²): {r2:.2f}')
# Кросс-валидация
cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
cv_rmse_scores = (-cv_scores)**0.5
print(f'Кросс-валидация RMSE: {cv_rmse_scores.mean():.2f} (± {cv_rmse_scores.std():.2f})')
# Анализ корреляции
correlation_matrix = X.corr()
print("Корреляционная матрица признаков:")
print(correlation_matrix)
# Цельность: Проверка логической связи между признаками и целевой переменной
# В данном случае, мы можем проанализировать коэффициенты модели
coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})
print("Коэффициенты модели:")
print(coefficients)
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split, cross_val_score
# Загрузка данных
df = pd.read_csv("..//static//csv//ds_salaries.csv")
# Создание уникального идентификатора для каждой строки
df['id'] = range(1, len(df) + 1)
# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)
# Удаление дубликатов по всем столбцам
df = df.drop_duplicates()
# Создание EntitySet
es = ft.EntitySet(id='data_science_jobs')
# Добавление датафрейма с данными о рабочих местах
es = es.add_dataframe(
dataframe_name='jobs',
dataframe=df,
index='id'
)
# Генерация признаков с помощью глубокой синтезы признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='jobs', max_depth=1)
# Удаление строк с NaN
feature_matrix = feature_matrix.dropna()
# Разделение данных на обучающую и тестовую выборки
X_train = feature_matrix.drop('salary_in_usd', axis=1)
y_train = feature_matrix['salary_in_usd']
# Кодирования категориальных переменных с использованием одноразового кодирования
X_train = pd.get_dummies(X_train, drop_first=True)
# Разобьём тренировочный тест и примерку модели
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42)
# Выбор модели
model = RandomForestRegressor(random_state=42)
# Обучение модели
model.fit(X_train, y_train)
# Предсказание и оценка
y_pred = model.predict(X_test)
rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae} \n")
# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Кросс-валидация RMSE: {rmse_cv} \n")
# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns
# Проверка на переобучение
y_train_pred = model.predict(X_train)
rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)
print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")
print()
# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Фактическая зарплата (USD)')
plt.ylabel('Прогнозируемая зарплата (USD)')
plt.title('Фактическая зарплата по сравнению с прогнозируемой')
plt.show()
Выводы и итог¶
Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании зарплат в области Data Science. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.
Точность предсказаний: Модель показывает довольно высокий R² (0.8029), что указывает на хорошее объяснение вариации зарплат. Однако, значения RMSE и MAE довольно высоки, что говорит о том, что модель не очень точно предсказывает зарплаты, особенно для высоких значений.
Переобучение: Разница между RMSE на обучающей и тестовой выборках не очень большая, что указывает на то, что переобучение не является критическим. Однако, стоит быть осторожным и продолжать мониторинг этого показателя.
Кросс-валидация: Значение RMSE после кросс-валидации немного выше, чем на тестовой выборке, что может указывать на некоторую нестабильность модели.
Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях. Также стоит рассмотреть возможность использования других моделей, таких как градиентный бустинг или нейронные сети, для сравнения результатов и выбора наиболее эффективной модели.