AIM-PIbd-32-Kaznacheeva-E-K/lab_3/Lab3.ipynb
2024-10-26 12:47:48 +04:00

330 KiB
Raw Blame History

Приступаем к работе...

Вариант задания: Продажи домов в округе Кинг (вариант - 6)
Определим бизнес-цели и цели технического проекта

Бизнес-цели:

  1. Оптимизация процесса оценки стоимости дома

Формулировка: Разработать модель, которая позволяет автоматически и точно оценивать стоимость дома на основании его характеристик (таких как площадь, количество комнат, состояние, местоположение).
Цель: Увеличить точность оценки стоимости недвижимости для агенств и потенциальных покупателей, а также сократить время и затраты на оценку недвижимости, обеспечивая более точное предсказание цены.

Ключевые показатели успеха (KPI): Точность модели прогнозирования (RMSE): Минимизация среднеквадратичной ошибки до уровня ниже 10% от реальной цены, чтобы учитывать большие отклонения оценке. Средная абсолютная ошибка (MAE): Модель должна предсказать цену с минимальной ошибкой и снизить MAE до 5% или меньше учитывая большие отклонения в оценке.
Скорость оценки: Уменьшение времени на оценку стоимости дома, чтобы быстрее получать результат. Доступность: Внедрение модели в реальную систему для использования агентами недвижимости.

  1. Оптимизация затрат на ремонт перед продажей

Формулировка: Разработать модель, которая поможет продавцам домов и агентствам недвижимости определить, какие улучшения или реновации дадут наибольший прирост стоимости дома при минимальных затратах. Это поможет избежать ненужных расходов и максимизировать прибыль от продажи.
Цель: Снизить затраты на ремонт перед продажей, рекомендовать только те улучшения, которые максимально увеличат стоимость недвижимости, и сократить время на принятие решений по реновациям.

Ключевые показатели успеха (KPI):
Возврат инвестиций (ROI): Продавцы должны получать не менее 20% прироста стоимости дома на каждый вложенный доллар в реновацию. Например, если на ремонт было потрачено $10,000, цена дома должна увеличиться как минимум на $12,000.
Средняя стоимость ремонта на 1 сделку (CPA): Задача снизить расходы на ремонт, минимизировав ненужные траты. Например, оптимизация затрат до $5,000 на дом с учетом максимального прироста в цене.
Сокращение времени на принятие решений: Модель должна сокращать время, необходимое на оценку вариантов реноваций, до нескольких минут, что ускорит подготовку дома к продажи.

Технические цели проекта для каждой выделенной бизнес-цели

  1. Создание модели для точной оценки стоимости дома.
    Сбор и подготовка данных: Очистка данных от пропусков, выбросов, дубликатов (аномальных значений в столбцах price, sqft_living, bedrooms). Преобразование категориальных переменных (view, condition, waterfront) в числовую форму с применением One-Hot-Encoding. Нормализация и стандартизация с применением методов масштабирования данных (нормировка, стандартизация для числовых признаков, чтобы привести их к 1ому масштабу). Разбиение набора данных на обучающую, контрольную и тестовую выборки для предотвращения утечек данных и переобучения.
    Разработка и обучение модели: Исследование моделей машинного обучения, проводя эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг, деревья решений) для предсказания стоимости недвижимости. Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как RMSE (Root Mean Square Error) и MAE (Mean Absolute Error). Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE для получения точных прогнозов стоимости.
    Развёртывание модели: Интеграция модели в существующую систему или разработка API для доступа к модели с недвижимостью и частными продавцами. Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения прогнозов в режиме реального времени.

  2. Разработка модели для рекомендаций по реновациям.
    Сбор и подготовка данных: Сбор данных о типах и стоимости реноваций, а также их влияние на конечную стоимость дома. Очистка и устранение неточных или неполных данных о ремонтах. Преобразование категориальных признаков (реновации, например, обновление крыши, замена окон) в числовой формат для представления этих данных с применением One-Hot-Encoding. Разбиение данных на обучающую и тестовую выборки для обучения модели.
    Разработка и обучение модели: Использование модели регрессий (линейная регрессия, случайный лес) для предсказания и моделирования влияния конкретных реноваций на увеличение стоимости недвижимости. Оценка метрики (CPA - Cost Per Acquisition) оценка затрат на реновацию одной продажи и (ROI - Return on Investment) расчёт возврата на инвестиции от реновации дома, прирост стоимости после реновации. Обучение модели с целью прогнозирования изменений, которые могут принести наибольшую пользу для стоимости домов и реноваций.
    Развёртывание модели: Создание интерфейса, где пользователи смогут вводить информацию о текущем состоянии дома и получать рекомендации по реновациям с расчётом ROI. Создать рекомендационную систему для продавцов недвижимости, которая будет предлагать набор реноваций.

In [23]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

# Подключим датафрейм и выгрузим данные
df = pd.read_csv(".//static//csv//kc_house_data.csv")
print(df.columns)
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')
In [24]:
# Для наглядности
df.head()
Out[24]:
id date price bedrooms bathrooms sqft_living sqft_lot floors waterfront view ... grade sqft_above sqft_basement yr_built yr_renovated zipcode lat long sqft_living15 sqft_lot15
0 7129300520 20141013T000000 221900.0 3 1.00 1180 5650 1.0 0 0 ... 7 1180 0 1955 0 98178 47.5112 -122.257 1340 5650
1 6414100192 20141209T000000 538000.0 3 2.25 2570 7242 2.0 0 0 ... 7 2170 400 1951 1991 98125 47.7210 -122.319 1690 7639
2 5631500400 20150225T000000 180000.0 2 1.00 770 10000 1.0 0 0 ... 6 770 0 1933 0 98028 47.7379 -122.233 2720 8062
3 2487200875 20141209T000000 604000.0 4 3.00 1960 5000 1.0 0 0 ... 7 1050 910 1965 0 98136 47.5208 -122.393 1360 5000
4 1954400510 20150218T000000 510000.0 3 2.00 1680 8080 1.0 0 0 ... 8 1680 0 1987 0 98074 47.6168 -122.045 1800 7503

5 rows × 21 columns

In [25]:
# Описание данных (основные статистические показатели)
df.describe()
Out[25]:
id price bedrooms bathrooms sqft_living sqft_lot floors waterfront view condition grade sqft_above sqft_basement yr_built yr_renovated zipcode lat long sqft_living15 sqft_lot15
count 2.161300e+04 2.161300e+04 21613.000000 21613.000000 21613.000000 2.161300e+04 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000 21613.000000
mean 4.580302e+09 5.400881e+05 3.370842 2.114757 2079.899736 1.510697e+04 1.494309 0.007542 0.234303 3.409430 7.656873 1788.390691 291.509045 1971.005136 84.402258 98077.939805 47.560053 -122.213896 1986.552492 12768.455652
std 2.876566e+09 3.671272e+05 0.930062 0.770163 918.440897 4.142051e+04 0.539989 0.086517 0.766318 0.650743 1.175459 828.090978 442.575043 29.373411 401.679240 53.505026 0.138564 0.140828 685.391304 27304.179631
min 1.000102e+06 7.500000e+04 0.000000 0.000000 290.000000 5.200000e+02 1.000000 0.000000 0.000000 1.000000 1.000000 290.000000 0.000000 1900.000000 0.000000 98001.000000 47.155900 -122.519000 399.000000 651.000000
25% 2.123049e+09 3.219500e+05 3.000000 1.750000 1427.000000 5.040000e+03 1.000000 0.000000 0.000000 3.000000 7.000000 1190.000000 0.000000 1951.000000 0.000000 98033.000000 47.471000 -122.328000 1490.000000 5100.000000
50% 3.904930e+09 4.500000e+05 3.000000 2.250000 1910.000000 7.618000e+03 1.500000 0.000000 0.000000 3.000000 7.000000 1560.000000 0.000000 1975.000000 0.000000 98065.000000 47.571800 -122.230000 1840.000000 7620.000000
75% 7.308900e+09 6.450000e+05 4.000000 2.500000 2550.000000 1.068800e+04 2.000000 0.000000 0.000000 4.000000 8.000000 2210.000000 560.000000 1997.000000 0.000000 98118.000000 47.678000 -122.125000 2360.000000 10083.000000
max 9.900000e+09 7.700000e+06 33.000000 8.000000 13540.000000 1.651359e+06 3.500000 1.000000 4.000000 5.000000 13.000000 9410.000000 4820.000000 2015.000000 2015.000000 98199.000000 47.777600 -121.315000 6210.000000 871200.000000
In [26]:
# Процент пропущенных значений признаков
for i in df.columns:
    null_rate = df[i].isnull().sum() / len(df) * 100
    if null_rate > 0:
        print(f'{i} Процент пустых значений: %{null_rate:.2f}')

# Проверка на пропущенные данные
print(df.isnull().sum())

df.isnull().any()
id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64
Out[26]:
id               False
date             False
price            False
bedrooms         False
bathrooms        False
sqft_living      False
sqft_lot         False
floors           False
waterfront       False
view             False
condition        False
grade            False
sqft_above       False
sqft_basement    False
yr_built         False
yr_renovated     False
zipcode          False
lat              False
long             False
sqft_living15    False
sqft_lot15       False
dtype: bool

Ооо, пропущенных колонок нету :)

Разбиваем на выборки (обучающую, тестовую, контрольную)

In [27]:
from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)
train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)

# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)
train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)

print("Размер обучающей выборки: ", len(train_data))
print("Размер контрольной выборки: ", len(val_data))
print("Размер тестовой выборки: ", len(test_data))
Размер обучающей выборки:  17290
Размер контрольной выборки:  4323
Размер тестовой выборки:  4323
In [28]:
# Оценка сбалансированности целевой переменной (цена)
# Визуализация распределения цены в выборках (гистограмма)
def plot_price_distribution(data, title):
    sns.histplot(data['price'], kde=True)
    plt.title(title)
    plt.xlabel('Цена')
    plt.ylabel('Частота')
    plt.show()

plot_price_distribution(train_data, 'Распределение цены в обучающей выборке')
plot_price_distribution(val_data, 'Распределение цены в контрольной выборке')
plot_price_distribution(test_data, 'Распределение цены в тестовой выборке')

# Оценка сбалансированности данных по целевой переменной (price)
print("Средняя цена в обучающей выборке: ", train_data['price'].mean())
print("Средняя цена в контрольной выборке: ", val_data['price'].mean())
print("Средняя цена в тестовой выборке: ", test_data['price'].mean())
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
Средняя цена в обучающей выборке:  537768.04794679
Средняя цена в контрольной выборке:  549367.443673375
Средняя цена в тестовой выборке:  549367.443673375
In [29]:
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

# Преобразование целевой переменной (цены) в категориальные диапазоны с использованием квантилей
train_data['price_category'] = pd.qcut(train_data['price'], q=4, labels=['low', 'medium', 'high', 'very_high'])

# Визуализация распределения цен после преобразования в категории
sns.countplot(x=train_data['price_category'])
plt.title('Распределение категорий цены в обучающей выборке')
plt.xlabel('Категория цены')
plt.ylabel('Частота')
plt.show()

# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)
ros = RandomOverSampler(random_state=42)
X_train = train_data.drop(columns=['price', 'price_category'])
y_train = train_data['price_category']

X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

# Визуализация распределения цен после oversampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий цены после oversampling')
plt.xlabel('Категория цены')
plt.ylabel('Частота')
plt.show()

# Применение RandomUnderSampler для уменьшения большего класса
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)

# Визуализация распределения цен после undersampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий цены после undersampling')
plt.xlabel('Категория цен')
plt.ylabel('Частота')
plt.show()

# Печать размеров выборки после балансировки
print("Размер обучающей выборки после oversampling и undersampling: ", len(X_resampled))
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
Размер обучающей выборки после oversampling и undersampling:  17620

Конструирование признаков

Теперь приступим к конструированию признаков для решения каждой задачи.

Процесс конструирования признаков
Задача 1: Прогнозирование цен недвижимости. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования рыночной стоимости недвижимости.
Задача 2: Оптимизация затрат на ремонт перед продажей. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования по рекомендациям по реновациям.

Унитарное кодирование
Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.

Дискретизация числовых признаков
Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины).

In [30]:
# Конструирование признаков
# Унитарное кодирование категориальных признаков (применение one-hot encoding)

# Пример категориальных признаков
categorical_features = ['date', 'waterfront', 'view', 'condition']

# Применение one-hot encoding
train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)
val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)
test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)
df_encoded = pd.get_dummies(df, columns=categorical_features)

print("Столбцы train_data_encoded:", train_data_encoded.columns.tolist())
print("Столбцы val_data_encoded:", val_data_encoded.columns.tolist())
print("Столбцы test_data_encoded:", test_data_encoded.columns.tolist())


# Дискретизация числовых признаков (цены). Например, можно разделить площадь жилья на категории
# Пример дискретизации признака 'Общая площадь'
train_data_encoded['sqtf'] = pd.cut(train_data_encoded['sqft_living'], bins=5, labels=False)
val_data_encoded['sqtf'] = pd.cut(val_data_encoded['sqft_living'], bins=5, labels=False)
test_data_encoded['sqtf'] = pd.cut(test_data_encoded['sqft_living'], bins=5, labels=False)

# Пример дискретизации признака 'sqft_living' на 5 категорий
df_encoded['sqtf'] = pd.cut(df_encoded['sqft_living'], bins=5, labels=False)
Столбцы train_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'price_category', 'date_20140502T000000', 'date_20140503T000000', 'date_20140504T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140517T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140608T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140704T000000', 'date_20140705T000000', 'date_20140706T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140720T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140726T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140809T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140816T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140823T000000', 'date_20140824T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140830T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140906T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140920T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140928T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141004T000000', 'date_20141005T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141011T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141025T000000', 'date_20141026T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141102T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141129T000000', 'date_20141130T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141207T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141213T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141221T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150110T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150117T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150125T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150201T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150215T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150308T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150314T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150322T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150405T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150418T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150510T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150515T000000', 'date_20150524T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы val_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы test_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']

Ручной синтез

Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о продаже домов можно создать признак цена за квадратный фут.

In [31]:
# Ручной синтез признаков
train_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
val_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
test_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']

# Пример создания нового признака - цена за квадратный фут
df_encoded['price_per_sqft'] = df_encoded['price'] / df_encoded['sqft_living']

Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети.

In [32]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Пример масштабирования числовых признаков
numerical_features = ['bedrooms', 'sqft_living']

scaler = StandardScaler()
train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])
val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])
test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])

Конструирование признаков с применением фреймворка Featuretools

In [33]:
import featuretools as ft

# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)
# Удаление дубликатов по идентификатору
df = df.drop_duplicates(subset='id')
duplicates = train_data_encoded[train_data_encoded['id'].duplicated(keep=False)]

# Удаление дубликатов из столбца "id", сохранив первое вхождение
df_encoded = df_encoded.drop_duplicates(subset='id', keep='first')

print(duplicates)


# Создание EntitySet
es = ft.EntitySet(id='house_data')

# Добавление датафрейма с домами
es = es.add_dataframe(dataframe_name='houses', dataframe=df_encoded, index='id')

# Генерация признаков с помощью глубокой синтезы признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Выводим первые 5 строк сгенерированного набора признаков
print(feature_matrix.head())

train_data_encoded = train_data_encoded.drop_duplicates(subset='id')
train_data_encoded = train_data_encoded.drop_duplicates(subset='id', keep='first')  # or keep='last'

# Определение сущностей (Создание EntitySet)
es = ft.EntitySet(id='house_data')

es = es.add_dataframe(dataframe_name='houses', dataframe=train_data_encoded, index='id')

# Генерация признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Преобразование признаков для контрольной и тестовой выборок
val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)
test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)
               id     price  bedrooms  bathrooms  sqft_living  sqft_lot  \
9876   1219000473  164950.0 -0.395263       1.75    -0.555396     15330   
14982  6308000010  585000.0 -0.395263       2.50     0.238192      5089   
1464   3630120700  757000.0 -0.395263       3.25     1.230177      5283   
19209  1901600090  359000.0  1.752138       1.75    -0.147580      6654   
2039   3395040550  320000.0 -0.395263       2.50    -0.599484      2890   
...           ...       ...       ...        ...          ...       ...   
13184  1523049207  220000.0  0.678437       2.00    -0.412109      8043   
5759   1954420170  580000.0 -0.395263       2.50     0.083883      7484   
8433   1721801010  225000.0 -0.395263       1.00    -0.312911      6120   
10253  2422049104   85000.0 -1.468964       1.00    -1.371028      9000   
11363  7701960990  870000.0  0.678437       2.50     1.230177     14565   

       floors  grade  sqft_above  sqft_basement  ...  view_2  view_3  view_4  \
9876      1.0      7        1080            490  ...   False   False   False   
14982     2.0      9        2290              0  ...   False   False   False   
1464      2.0      9        3190              0  ...   False   False   False   
19209     1.5      7        1940              0  ...   False   False   False   
2039      2.0      7        1530              0  ...   False   False   False   
...       ...    ...         ...            ...  ...     ...     ...     ...   
13184     1.0      7         850            850  ...   False   False   False   
5759      2.0      8        2150              0  ...   False   False   False   
8433      1.0      6        1790              0  ...   False   False   False   
10253     1.0      6         830              0  ...   False   False   False   
11363     2.0     11        3190              0  ...   False   False   False   

       condition_1  condition_2  condition_3  condition_4 condition_5  sqtf  \
9876         False        False         True        False       False     0   
14982        False        False         True        False       False     0   
1464         False        False         True        False       False     1   
19209        False        False        False         True       False     0   
2039         False        False         True        False       False     0   
...            ...          ...          ...          ...         ...   ...   
13184        False        False         True        False       False     0   
5759         False        False         True        False       False     0   
8433         False        False         True        False       False     0   
10253        False        False         True        False       False     0   
11363        False        False         True        False       False     1   

       price_per_sqft  
9876       105.063694  
14982      255.458515  
1464       237.304075  
19209      185.051546  
2039       209.150327  
...               ...  
13184      129.411765  
5759       269.767442  
8433       125.698324  
10253      102.409639  
11363      272.727273  

[224 rows x 400 columns]
e:\MII\laboratory\mai\Lib\site-packages\featuretools\synthesis\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created
  warnings.warn(
               price  bedrooms  bathrooms  sqft_living  sqft_lot  floors  \
id                                                                         
7129300520  221900.0         3       1.00         1180      5650     1.0   
6414100192  538000.0         3       2.25         2570      7242     2.0   
5631500400  180000.0         2       1.00          770     10000     1.0   
2487200875  604000.0         4       3.00         1960      5000     1.0   
1954400510  510000.0         3       2.00         1680      8080     1.0   

            grade  sqft_above  sqft_basement  yr_built  ...  view_2  view_3  \
id                                                      ...                   
7129300520      7        1180              0      1955  ...   False   False   
6414100192      7        2170            400      1951  ...   False   False   
5631500400      6         770              0      1933  ...   False   False   
2487200875      7        1050            910      1965  ...   False   False   
1954400510      8        1680              0      1987  ...   False   False   

            view_4  condition_1  condition_2  condition_3  condition_4  \
id                                                                       
7129300520   False        False        False         True        False   
6414100192   False        False        False         True        False   
5631500400   False        False        False         True        False   
2487200875   False        False        False        False        False   
1954400510   False        False        False         True        False   

            condition_5  sqtf  price_per_sqft  
id                                             
7129300520        False     0      188.050847  
6414100192        False     0      209.338521  
5631500400        False     0      233.766234  
2487200875         True     0      308.163265  
1954400510        False     0      303.571429  

[5 rows x 402 columns]
e:\MII\laboratory\mai\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
e:\MII\laboratory\mai\Lib\site-packages\featuretools\synthesis\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created
  warnings.warn(

Оценка качества каждого набора признаков

Предсказательная способность Метрики: RMSE, MAE, R²

Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.

Скорость вычисления Методы: Измерение времени выполнения генерации признаков и обучения модели.

Надежность Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.

Корреляция Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.

Цельность Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели.

In [34]:
import time
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную
X = feature_matrix.drop('price', axis=1)
y = feature_matrix['price']

# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)
X = pd.get_dummies(X, drop_first=True)

# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением
X.fillna(X.median(), inplace=True)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LinearRegression()

# Начинаем отсчет времени
start_time = time.time()
model.fit(X_train, y_train)

# Время обучения модели
train_time = time.time() - start_time

# Предсказания и оценка модели и вычисляем среднеквадратичную ошибку
predictions = model.predict(X_val)
mse = mean_squared_error(y_val, predictions)

print(f'Время обучения модели: {train_time:.2f} секунд')
print(f'Среднеквадратичная ошибка: {mse:.2f}')
Время обучения модели: 5.18 секунд
Среднеквадратичная ошибка: 125198557176601739264.00
In [35]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.model_selection import cross_val_score


# Удаление строк с NaN
feature_matrix = feature_matrix.dropna()
val_feature_matrix = val_feature_matrix.dropna()
test_feature_matrix = test_feature_matrix.dropna()

# Разделение данных на обучающую и тестовую выборки
X_train = feature_matrix.drop('price', axis=1)
y_train = feature_matrix['price']
X_val = val_feature_matrix.drop('price', axis=1)
y_val = val_feature_matrix['price']
X_test = test_feature_matrix.drop('price', axis=1)
y_test = test_feature_matrix['price']

X_test = X_test.reindex(columns=X_train.columns, fill_value=0)  

# Кодирования категориальных переменных с использованием одноразового кодирования
X = pd.get_dummies(X, drop_first=True)

# Разобьём тренировочный тест и примерку модели
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = RandomForestRegressor(random_state=42)

# Обучение модели
model.fit(X_train, y_train)

# Предсказание и оценка
y_pred = model.predict(X_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print()
print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae} \n")

# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Кросс-валидация RMSE: {rmse_cv} \n")

# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns

# Проверка на переобучение
y_train_pred = model.predict(X_train)

rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)

print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")
print()

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Фактическая цена')
plt.ylabel('Прогнозируемая цена')
plt.title('Фактическая цена по сравнению с прогнозируемой')
plt.show()
e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(
RMSE: 17870.38470608543
R²: 0.9973762630189477
MAE: 5924.569330616996 

Кросс-валидация RMSE: 34577.766841359786 

Train RMSE: 12930.759734777745
Train R²: 0.9987426148033223
Train MAE: 2495.3698282637165

e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(
No description has been provided for this image

Выводы и итог

Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании цен на недвижимость. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.

Точность предсказаний: Модель демонстрирует довольно высокий R² (0.9987), что указывает на большую часть вариации целевого признака (цены недвижимости). Однако, значения RMSE и MAE остаются высоки (12930 и 2495), что свидетельствует о том, что модель не всегда точно предсказывает значения, особенно для объектов с высокими или низкими ценами.

Переобучение: Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя.

Кросс-валидация: При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных. Для повышения устойчивости модели возможно стоит провести дальнейшую настройку гиперпараметров.

Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях.

Кажется на этом закончили :)