Приступаем к работе...

Вариант задания: Продажи домов в округе Кинг (вариант - 6)
Определим бизнес-цели и цели технического проекта


  1. Оптимизация процесса оценки стоимости дома

Формулировка: Разработать модель, которая позволяет автоматически и точно оценивать стоимость дома на основании его характеристик (таких как площадь, количество комнат, состояние, местоположение).
Цель: Увеличить точность оценки стоимости недвижимости для агенств и потенциальных покупателей, а также сократить время и затраты на оценку недвижимости, обеспечивая более точное предсказание цены.

Ключевые показатели успеха (KPI): Точность модели прогнозирования (RMSE): Минимихация среднеквадратичной ошибки до уровня ниже 10% от реальной цены, чтобы учитывать большие отклонения оценке. Средная абсолютная ошибка (MAE): Модель должна предсказать цену с минимальной ошибкой и снизить MAE до 5% или меньше учитывая большие отклонения в оценке.
Скорость оценки: Уменьшение времени на оценку стоимости дома, чтобы быстрее получать результат. Доступность: Внедрение модели в реальную систему для использования агентами недвижимости.

  1. Оптимизация затрат на ремонт перед продажей

Формулировка: Разработать модель, которая поможет продавцам домов и агентствам недвижимости определить, какие улучшения или реновации дадуи наибольший прирост стоимости дома при минимальных затратах. Это поможет избежать ненужных расходов и максимизировать прибыль от продажи.
Цель: Снизить затраты на ремонт перед продажей, рекомендовать только те улучшения, которые максимально увеличат стоимость недвижимости, и сократить время на принятие решений по реновациям.

Ключевые показатели успеха (KPI):
Возврат инвестиций (ROI): Продавцы должны получать не менее 20% прироста стоимости дома на каждый вложенный доллар в реновацию. Например, если на ремонт было потрачено $10,000, цена дома должна увеличиться как минимум на $12,000.
Средняя стоимость ремонта на 1 сделку (CPA): Задача снизить расходы на ремонт, минимизировав ненужные траты. Например, оптимизация затрат до $5,000 на дом с учетом максимального прироста в цене.
Сокращение времени на принятие решений: Модель должна сокращать время, необходимое на оценку вариантов реноваций, до нескольких минут, что ускорит подготовку дома к продажи.

Технические цели проекта для каждой выделенной бизнес-цели

  1. Создание модели для точной оценки стоимости дома.
    Сбор и подготовка данных: Очистка данных от пропусков, выбросов, дубликатов (аномальных значений в столбцах price, sqft_living, bedrooms). Преобразование категориальных переменных (view, condition, waterfront) в числовую форму с применением One-Hot-Encoding. Нормализация и стандартизация с применением методов масштабирования данных (нормировка, стандартизация для числовых признаков, чтобы привести их к 1ому масштабу). Разбиение набора данных на обучающую, контрольную и тестовую выборки для предотвращения утечек данных и переобучения.
    Разработка и обучение модели: Исследование моделей машинного обучения, проводя эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг, деревья решений) для предсказания стоимости недвижимости. Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как RMSE (Root Mean Square Error) и MAE (Mean Absolute Error). Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE для получения точных прогнозов стоимости.
    Развёртывание модели: Интеграция модели в существующую систему или разработка API для доступа к модели с недвижимостью и частными продавцами. Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения прогнозов в режиме реального времени.

  2. Разработка модели для рекомендаций по реновациям.
    Сбор и подготовка данных: Сбор данных о типах и стоимости реноваций, а также их влияние на конечную стоимость дома. Очистка и устранение неточных или неполных данных о ремонтах. Преобразование категориальных признаков (реновации, например, обновление крыши, замена окон) в числовой формат для представления этих данных с применением One-Hot-Encoding. Разбиение данных на обучающую и тестовую выборки для обучения модели.
    Разработка и обучение модели: Использование модели регрессий (линейная регрессия, случайный лес) для предсказания и моделирования влияния конкрентых реноваций на увеличение стоимости недвижимости. Оценка метрики (CPA - Cost Per Acquisition) оценка затрат на реновацию одной продажи и (ROI - Return on Investment) рассчёт возврата на инвестиции от реновации дома, прирост стоимости после реновации. Обучение модели с целью прогнозирования изменений, которве могут принести наибоьшую пользу для стоимости домов и реноваций.
    Развёртывание модели: Создание интерфейса, где пользователи смогут вводить информацию о текущем состоянии дома и получать рекомендации по реновациям с расчётом ROI. Создать рекомендационную систему для продавцов недвижимости, которая будет предлагать набор реноваций.

In [14]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

# Подключим датафрейм и выгрузим данные
df = pd.read_csv(".//static//csv//kc_house_data.csv")
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
In [15]:
# Для наглядности
id date price bedrooms bathrooms sqft_living sqft_lot floors waterfront view ... grade sqft_above sqft_basement yr_built yr_renovated zipcode lat long sqft_living15 sqft_lot15
0 7129300520 20141013T000000 221900.0 3 1.00 1180 5650 1.0 0 0 ... 7 1180 0 1955 0 98178 47.5112 -122.257 1340 5650
1 6414100192 20141209T000000 538000.0 3 2.25 2570 7242 2.0 0 0 ... 7 2170 400 1951 1991 98125 47.7210 -122.319 1690 7639
2 5631500400 20150225T000000 180000.0 2 1.00 770 10000 1.0 0 0 ... 6 770 0 1933 0 98028 47.7379 -122.233 2720 8062
3 2487200875 20141209T000000 604000.0 4 3.00 1960 5000 1.0 0 0 ... 7 1050 910 1965 0 98136 47.5208 -122.393 1360 5000
4 1954400510 20150218T000000 510000.0 3 2.00 1680 8080 1.0 0 0 ... 8 1680 0 1987 0 98074 47.6168 -122.045 1800 7503

5 rows × 21 columns

In [16]:
# Описание данных (основные статистические показатели)
id price bedrooms bathrooms sqft_living sqft_lot floors waterfront view condition grade sqft_above sqft_basement yr_built yr_renovated zipcode lat long sqft_living15 sqft_lot15
count 2.161300e+04 2.161300e+04 21613.000000 21613.000000 21613.000000 2.161300e+04 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000
mean 4.580302e+09 5.400881e+05 3.370842 2.114757 2079.899736 1.510697e+04 1.494309 0.007542 0.234303 3.409430 7.656873 1788.390691 291.509045 1971.005136 84.402258 98077.939805 47.560053 -122.213896 1986.552492 12768.455652
std 2.876566e+09 3.671272e+05 0.930062 0.770163 918.440897 4.142051e+04 0.539989 0.086517 0.766318 0.650743 1.175459 828.090978 442.575043 29.373411 401.679240 53.505026 0.138564 0.140828 685.391304 27304.179631
min 1.000102e+06 7.500000e+04 0.000000 0.000000 290.000000 5.200000e+02 1.000000 0.000000 0.000000 1.000000 1.000000 290.000000 0.000000 1900.000000 0.000000 98001.000000 47.155900 -122.519000 399.000000 651.000000
25% 2.123049e+09 3.219500e+05 3.000000 1.750000 1427.000000 5.040000e+03 1.000000 0.000000 0.000000 3.000000 7.000000 1190.000000 0.000000 1951.000000 0.000000 98033.000000 47.471000 -122.328000 1490.000000 5100.000000
50% 3.904930e+09 4.500000e+05 3.000000 2.250000 1910.000000 7.618000e+03 1.500000 0.000000 0.000000 3.000000 7.000000 1560.000000 0.000000 1975.000000 0.000000 98065.000000 47.571800 -122.230000 1840.000000 7620.000000
75% 7.308900e+09 6.450000e+05 4.000000 2.500000 2550.000000 1.068800e+04 2.000000 0.000000 0.000000 4.000000 8.000000 2210.000000 560.000000 1997.000000 0.000000 98118.000000 47.678000 -122.125000 2360.000000 10083.000000
max 9.900000e+09 7.700000e+06 33.000000 8.000000 13540.000000 1.651359e+06 3.500000 1.000000 4.000000 5.000000 13.000000 9410.000000 4820.000000 2015.000000 2015.000000 98199.000000 47.777600 -121.315000 6210.000000 871200.000000
In [17]:
# Процент пропущенных значений признаков
for i in df.columns:
    null_rate = df[i].isnull().sum() / len(df) * 100
    if null_rate > 0:
        print(f'{i} Процент пустых значений: %{null_rate:.2f}')

# Проверка на пропущенные данные

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64
id               False
date             False
price            False
bedrooms         False
bathrooms        False
sqft_living      False
sqft_lot         False
floors           False
waterfront       False
view             False
condition        False
grade            False
sqft_above       False
sqft_basement    False
yr_built         False
yr_renovated     False
zipcode          False
lat              False
long             False
sqft_living15    False
sqft_lot15       False
dtype: bool

Ооо, пропущенных колонок нету :)

Разбиваем на выборки (обучающую, тестовую, контрольную)

In [18]:
from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)
train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)

# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)
train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)

print("Размер обучающей выборки: ", len(train_data))
print("Размер контрольной выборки: ", len(val_data))
print("Размер тестовой выборки: ", len(test_data))
Размер обучающей выборки:  17290
Размер контрольной выборки:  4323
Размер тестовой выборки:  4323
In [19]:
# Оценка сбалансированности целевой переменной (цена)
# Визуализация распределения цены в выборках (гистограмма)
def plot_price_distribution(data, title):
    sns.histplot(data['price'], kde=True)

plot_price_distribution(train_data, 'Распределение цены в обучающей выборке')
plot_price_distribution(val_data, 'Распределение цены в контрольной выборке')
plot_price_distribution(test_data, 'Распределение цены в тестовой выборке')

# Оценка сбалансированности данных по целевой переменной (price)
print("Средняя цена в обучающей выборке: ", train_data['price'].mean())
print("Средняя цена в контрольной выборке: ", val_data['price'].mean())
print("Средняя цена в тестовой выборке: ", test_data['price'].mean())
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
Средняя цена в обучающей выборке:  537768.04794679
Средняя цена в контрольной выборке:  549367.443673375
Средняя цена в тестовой выборке:  549367.443673375
In [20]:
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

# Преобразование целевой переменной (цены) в категориальные диапазоны с использованием квантилей
train_data['price_category'] = pd.qcut(train_data['price'], q=4, labels=['low', 'medium', 'high', 'very_high'])

# Визуализация распределения цен после преобразования в категории
plt.title('Распределение категорий цены в обучающей выборке')
plt.xlabel('Категория цены')

# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)
ros = RandomOverSampler(random_state=42)
X_train = train_data.drop(columns=['price', 'price_category'])
y_train = train_data['price_category']

X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

# Визуализация распределения цен после oversampling
plt.title('Распределение категорий цены после oversampling')
plt.xlabel('Категория цены')

# Применение RandomUnderSampler для уменьшения большего класса
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)

# Визуализация распределения цен после undersampling
plt.title('Распределение категорий цены после undersampling')
plt.xlabel('Категория цен')

# Печать размеров выборки после балансировки
print("Размер обучающей выборки после oversampling и undersampling: ", len(X_resampled))
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
Размер обучающей выборки после oversampling и undersampling:  17620

Конструирование признаков

Теперь приступим к конструированию признаков для решения каждой задачи.

Процесс конструирования признаков
Задача 1: Прогнозирование цен недвижимости. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования рыночной стоимости недвижимости.
Задача 2: Оптимизация затрат на ремонт перед продажей. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования по рекомендациям по реновациям.

Унитарное кодирование
Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.

Дискретизация числовых признаков
Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины).

In [21]:
# Конструирование признаков
# Унитарное кодирование категориальных признаков (применение one-hot encoding)

# Пример категориальных признаков
categorical_features = ['date', 'waterfront', 'view', 'condition']

# Применение one-hot encoding
train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)
val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)
test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)
df_encoded = pd.get_dummies(df, columns=categorical_features)

print("Столбцы train_data_encoded:", train_data_encoded.columns.tolist())
print("Столбцы val_data_encoded:", val_data_encoded.columns.tolist())
print("Столбцы test_data_encoded:", test_data_encoded.columns.tolist())

# Дискретизация числовых признаков (цены). Например, можно разделить площадь жилья на категории
# Пример дискретизации признака 'Общая площадь'
train_data_encoded['sqtf'] = pd.cut(train_data_encoded['sqft_living'], bins=5, labels=False)
val_data_encoded['sqtf'] = pd.cut(val_data_encoded['sqft_living'], bins=5, labels=False)
test_data_encoded['sqtf'] = pd.cut(test_data_encoded['sqft_living'], bins=5, labels=False)

# Пример дискретизации признака 'sqft_living' на 5 категорий
df_encoded['sqtf'] = pd.cut(df_encoded['sqft_living'], bins=5, labels=False)
Столбцы train_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'price_category', 'date_20140502T000000', 'date_20140503T000000', 'date_20140504T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140517T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140608T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140704T000000', 'date_20140705T000000', 'date_20140706T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140720T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140726T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140809T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140816T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140823T000000', 'date_20140824T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140830T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140906T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140920T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140928T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141004T000000', 'date_20141005T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141011T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141025T000000', 'date_20141026T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141102T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141129T000000', 'date_20141130T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141207T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141213T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141221T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150110T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150117T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150125T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150201T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150215T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150308T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150314T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150322T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150405T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150418T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150510T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150515T000000', 'date_20150524T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы val_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы test_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']

Ручной синтез

Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о продаже домов можно создать признак цена за квадратный фут.

In [22]:
# Ручной синтех признаков
train_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
val_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
test_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']

# Пример создания нового признака - цена за квадратный фут
df_encoded['price_per_sqft'] = df_encoded['price'] / df_encoded['sqft_living']

Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети.

In [23]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Пример масштабирования числовых признаков
numerical_features = ['bedrooms', 'sqft_living']

scaler = StandardScaler()
train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])
val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])
test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])

Конструирование признаков с применением фреймворка Featuretools

In [24]:
import featuretools as ft

# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)
# Удаление дубликатов по идентификатору
df = df.drop_duplicates(subset='id')
duplicates = train_data_encoded[train_data_encoded['id'].duplicated(keep=False)]

# Удаление дубликатов из столбца "id", сохранив первое вхождение
df_encoded = df_encoded.drop_duplicates(subset='id', keep='first')


# Создание EntitySet
es = ft.EntitySet(id='house_data')

# Добавление датафрейма с домами
es = es.add_dataframe(dataframe_name='houses', dataframe=df_encoded, index='id')

# Генерация признаков с помощью глубокой синтезы признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Выводим первые 5 строк сгенерированного набора признаков

train_data_encoded = train_data_encoded.drop_duplicates(subset='id')
train_data_encoded = train_data_encoded.drop_duplicates(subset='id', keep='first')  # or keep='last'

# Определение сущностей (Создание EntitySet)
es = ft.EntitySet(id='house_data')

es = es.add_dataframe(dataframe_name='houses', dataframe=train_data_encoded, index='id')

# Генерация признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Преобразование признаков для контрольной и тестовой выборок
val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)
test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)
               id     price  bedrooms  bathrooms  sqft_living  sqft_lot  \
9876   1219000473  164950.0 -0.395263       1.75    -0.555396     15330   
14982  6308000010  585000.0 -0.395263       2.50     0.238192      5089   
1464   3630120700  757000.0 -0.395263       3.25     1.230177      5283   
19209  1901600090  359000.0  1.752138       1.75    -0.147580      6654   
2039   3395040550  320000.0 -0.395263       2.50    -0.599484      2890   
...           ...       ...       ...        ...          ...       ...   
13184  1523049207  220000.0  0.678437       2.00    -0.412109      8043   
5759   1954420170  580000.0 -0.395263       2.50     0.083883      7484   
8433   1721801010  225000.0 -0.395263       1.00    -0.312911      6120   
10253  2422049104   85000.0 -1.468964       1.00    -1.371028      9000   
11363  7701960990  870000.0  0.678437       2.50     1.230177     14565   

       floors  grade  sqft_above  sqft_basement  ...  view_2  view_3  view_4  \
9876      1.0      7        1080            490  ...   False   False   False   
14982     2.0      9        2290              0  ...   False   False   False   
1464      2.0      9        3190              0  ...   False   False   False   
19209     1.5      7        1940              0  ...   False   False   False   
2039      2.0      7        1530              0  ...   False   False   False   
...       ...    ...         ...            ...  ...     ...     ...     ...   
13184     1.0      7         850            850  ...   False   False   False   
5759      2.0      8        2150              0  ...   False   False   False   
8433      1.0      6        1790              0  ...   False   False   False   
10253     1.0      6         830              0  ...   False   False   False   
11363     2.0     11        3190              0  ...   False   False   False   

       condition_1  condition_2  condition_3  condition_4 condition_5  sqtf  \
9876         False        False         True        False       False     0   
14982        False        False         True        False       False     0   
1464         False        False         True        False       False     1   
19209        False        False        False         True       False     0   
2039         False        False         True        False       False     0   
...            ...          ...          ...          ...         ...   ...   
13184        False        False         True        False       False     0   
5759         False        False         True        False       False     0   
8433         False        False         True        False       False     0   
10253        False        False         True        False       False     0   
11363        False        False         True        False       False     1   

9876       105.063694  
14982      255.458515  
1464       237.304075  
19209      185.051546  
2039       209.150327  
...               ...  
13184      129.411765  
5759       269.767442  
8433       125.698324  
10253      102.409639  
11363      272.727273  

[224 rows x 400 columns]
Оценка качества каждого набора признаков

Предсказательная способность Метрики: RMSE, MAE, R²

Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.

Скорость вычисления Методы: Измерение времени выполнения генерации признаков и обучения модели.

Надежность Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.

Корреляция Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.

Цельность Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели.

In [25]:
import time
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную
X = feature_matrix.drop('price', axis=1)
y = feature_matrix['price']

# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)
X = pd.get_dummies(X, drop_first=True)

# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением
X.fillna(X.median(), inplace=True)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LinearRegression()

# Начинаем отсчет времени
start_time = time.time(), y_train)

# Время обучения модели
train_time = time.time() - start_time

# Предсказания и оценка модели и вычисляем среднеквадратичную ошибку
predictions = model.predict(X_val)
mse = mean_squared_error(y_val, predictions)

print(f'Время обучения модели: {train_time:.2f} секунд')
print(f'Среднеквадратичная ошибка: {mse:.2f}')
Время обучения модели: 0.33 секунд
Среднеквадратичная ошибка: 125198557176601739264.00
In [26]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.model_selection import cross_val_score

# Удаление строк с NaN
feature_matrix = feature_matrix.dropna()
val_feature_matrix = val_feature_matrix.dropna()
test_feature_matrix = test_feature_matrix.dropna()

# Разделение данных на обучающую и тестовую выборки
X_train = feature_matrix.drop('price', axis=1)
y_train = feature_matrix['price']
X_val = val_feature_matrix.drop('price', axis=1)
y_val = val_feature_matrix['price']
X_test = test_feature_matrix.drop('price', axis=1)
y_test = test_feature_matrix['price']

X_test = X_test.reindex(columns=X_train.columns, fill_value=0)  

# Кодирования категориальных переменных с использованием одноразового кодирования
X = pd.get_dummies(X, drop_first=True)

# Разобьём тренировочный тест и примерку модели
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = RandomForestRegressor(random_state=42)

# Обучение модели, y_train)

# Предсказание и оценка
y_pred = model.predict(X_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae} \n")

# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Кросс-валидация RMSE: {rmse_cv} \n")

# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns

# Проверка на переобучение
y_train_pred = model.predict(X_train)

rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)

print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Фактическая цена')
plt.ylabel('Прогнозируемая цена')
plt.title('Фактическая цена по сравнению с прогнозируемой')
e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\ FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
RMSE: 17870.38470608543
R²: 0.9973762630189477
MAE: 5924.569330616996 

Кросс-валидация RMSE: 34577.766841359786 

Train RMSE: 12930.759734777745
Train R²: 0.9987426148033223
Train MAE: 2495.3698282637165

e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\ FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
No description has been provided for this image

Выводы и итог

Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании цен на недвижимость. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.

Точность предсказаний: Модель демонстрирует довольно высокий R² (0.9987), что указывает на большую часть вариации целевого признака (цены недвижимости). Однако, значения RMSE и MAE остаются высоки (12930 и 2495), что свидетельствует о том, что модель не всегда точно предсказывает значения, особенно для объектов с высокими или низкими ценами.

Переобучение: Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя.

Кросс-валидация: При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных. Для повышения устойчивости модели возможно стоит провести дальнейшую настройку гиперпараметров.

Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях.

Кажется на этом закончили :)