Belnik/AIM-PIbd-31-Belianin-N-N

Fork 0

nikbel2004@outlook.com 9c6d363ab4 laboratory_3

2024-10-15 03:13:12 +04:00

330 KiB

Raw Blame History

Приступаем к работе...¶

Вариант задания: Продажи домов в округе Кинг
Определим бизнес-цели и цели технического проекта

Бизнес-цели:¶

Оптимизация процесса оценки стоимости дома

Формулировка: Разработать модель, которая позволяет автоматически и точно оценивать стоимость дома на основании его характеристик (таких как площадь, количество комнат, состояние, местоположение).
Цель: Увеличить точность оценки стоимости недвижимости для агенств и потенциальных покупателей, а также сократить время и затраты на оценку недвижимости, обеспечивая более точное предсказание цены.

Ключевые показатели успеха (KPI): Точность модели прогнозирования (RMSE): Минимизация среднеквадратичной ошибки до уровня ниже 10% от реальной цены, чтобы учитывать большие отклонения оценке. Средная абсолютная ошибка (MAE): Модель должна предсказать цену с минимальной ошибкой и снизить MAE до 5% или меньше учитывая большие отклонения в оценке.
Скорость оценки: Уменьшение времени на оценку стоимости дома, чтобы быстрее получать результат. Доступность: Внедрение модели в реальную систему для использования агентами недвижимости.

Оптимизация затрат на ремонт перед продажей

Формулировка: Разработать модель, которая поможет продавцам домов и агентствам недвижимости определить, какие улучшения или реновации дадут наибольший прирост стоимости дома при минимальных затратах. Это поможет избежать ненужных расходов и максимизировать прибыль от продажи.
Цель: Снизить затраты на ремонт перед продажей, рекомендовать только те улучшения, которые максимально увеличат стоимость недвижимости, и сократить время на принятие решений по реновациям.

Ключевые показатели успеха (KPI):
Возврат инвестиций (ROI): Продавцы должны получать не менее 20% прироста стоимости дома на каждый вложенный доллар в реновацию. Например, если на ремонт было потрачено $10,000, цена дома должна увеличиться как минимум на $12,000.
Средняя стоимость ремонта на 1 сделку (CPA): Задача снизить расходы на ремонт, минимизировав ненужные траты. Например, оптимизация затрат до $5,000 на дом с учетом максимального прироста в цене.
Сокращение времени на принятие решений: Модель должна сокращать время, необходимое на оценку вариантов реноваций, до нескольких минут, что ускорит подготовку дома к продажи.

Технические цели проекта для каждой выделенной бизнес-цели¶

Создание модели для точной оценки стоимости дома.
Сбор и подготовка данных: Очистка данных от пропусков, выбросов, дубликатов (аномальных значений в столбцах price, sqft_living, bedrooms). Преобразование категориальных переменных (view, condition, waterfront) в числовую форму с применением One-Hot-Encoding. Нормализация и стандартизация с применением методов масштабирования данных (нормировка, стандартизация для числовых признаков, чтобы привести их к 1ому масштабу). Разбиение набора данных на обучающую, контрольную и тестовую выборки для предотвращения утечек данных и переобучения.
Разработка и обучение модели: Исследование моделей машинного обучения, проводя эксперименты с различными алгоритмами (линейная регрессия, случайный лес, градиентный бустинг, деревья решений) для предсказания стоимости недвижимости. Обучение модели на обучающей выборке с использованием метрик оценки качества, таких как RMSE (Root Mean Square Error) и MAE (Mean Absolute Error). Оценка качества моделей на тестовой выборке, минимизируя MAE и RMSE для получения точных прогнозов стоимости.
Развёртывание модели: Интеграция модели в существующую систему или разработка API для доступа к модели с недвижимостью и частными продавцами. Создание веб-приложения или мобильного интерфейса для удобного использования модели и получения прогнозов в режиме реального времени.
Разработка модели для рекомендаций по реновациям.
Сбор и подготовка данных: Сбор данных о типах и стоимости реноваций, а также их влияние на конечную стоимость дома. Очистка и устранение неточных или неполных данных о ремонтах. Преобразование категориальных признаков (реновации, например, обновление крыши, замена окон) в числовой формат для представления этих данных с применением One-Hot-Encoding. Разбиение данных на обучающую и тестовую выборки для обучения модели.
Разработка и обучение модели: Использование модели регрессий (линейная регрессия, случайный лес) для предсказания и моделирования влияния конкретных реноваций на увеличение стоимости недвижимости. Оценка метрики (CPA - Cost Per Acquisition) оценка затрат на реновацию одной продажи и (ROI - Return on Investment) расчёт возврата на инвестиции от реновации дома, прирост стоимости после реновации. Обучение модели с целью прогнозирования изменений, которые могут принести наибольшую пользу для стоимости домов и реноваций.
Развёртывание модели: Создание интерфейса, где пользователи смогут вводить информацию о текущем состоянии дома и получать рекомендации по реновациям с расчётом ROI. Создать рекомендационную систему для продавцов недвижимости, которая будет предлагать набор реноваций.

In [23]:

import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

# Подключим датафрейм и выгрузим данные
df = pd.read_csv(".//static//csv//kc_house_data.csv")
print(df.columns)

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

In [24]:

# Для наглядности
df.head()

Out[24]:

	id	date	price	bedrooms	bathrooms	sqft_living	sqft_lot	floors	...	grade	sqft_above	sqft_basement	yr_built	yr_renovated	zipcode	lat	long	sqft_living15	sqft_lot15
0	7129300520	20141013T000000	221900.0	3	1.00	1180	5650	1.0	...	7	1180	0	1955	0	98178	47.5112	-122.257	1340	5650
1	6414100192	20141209T000000	538000.0	3	2.25	2570	7242	2.0	...	7	2170	400	1951	1991	98125	47.7210	-122.319	1690	7639
2	5631500400	20150225T000000	180000.0	2	1.00	770	10000	1.0	...	6	770	0	1933	0	98028	47.7379	-122.233	2720	8062
3	2487200875	20141209T000000	604000.0	4	3.00	1960	5000	1.0	...	7	1050	910	1965	0	98136	47.5208	-122.393	1360	5000
4	1954400510	20150218T000000	510000.0	3	2.00	1680	8080	1.0	...	8	1680	0	1987	0	98074	47.6168	-122.045	1800	7503

5 rows × 21 columns

In [25]:

# Описание данных (основные статистические показатели)
df.describe()

Out[25]:

	id	price	bedrooms	bathrooms	sqft_living	sqft_lot	floors	waterfront	view	condition	grade	sqft_above	sqft_basement	yr_built	yr_renovated	zipcode	lat	long	sqft_living15	sqft_lot15
count	2.161300e+04	2.161300e+04	21613.000000	21613.000000	21613.000000	2.161300e+04	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000	21613.000000
mean	4.580302e+09	5.400881e+05	3.370842	2.114757	2079.899736	1.510697e+04	1.494309	0.007542	0.234303	3.409430	7.656873	1788.390691	291.509045	1971.005136	84.402258	98077.939805	47.560053	-122.213896	1986.552492	12768.455652
std	2.876566e+09	3.671272e+05	0.930062	0.770163	918.440897	4.142051e+04	0.539989	0.086517	0.766318	0.650743	1.175459	828.090978	442.575043	29.373411	401.679240	53.505026	0.138564	0.140828	685.391304	27304.179631
min	1.000102e+06	7.500000e+04	0.000000	0.000000	290.000000	5.200000e+02	1.000000	0.000000	0.000000	1.000000	1.000000	290.000000	0.000000	1900.000000	0.000000	98001.000000	47.155900	-122.519000	399.000000	651.000000
25%	2.123049e+09	3.219500e+05	3.000000	1.750000	1427.000000	5.040000e+03	1.000000	0.000000	0.000000	3.000000	7.000000	1190.000000	0.000000	1951.000000	0.000000	98033.000000	47.471000	-122.328000	1490.000000	5100.000000
50%	3.904930e+09	4.500000e+05	3.000000	2.250000	1910.000000	7.618000e+03	1.500000	0.000000	0.000000	3.000000	7.000000	1560.000000	0.000000	1975.000000	0.000000	98065.000000	47.571800	-122.230000	1840.000000	7620.000000
75%	7.308900e+09	6.450000e+05	4.000000	2.500000	2550.000000	1.068800e+04	2.000000	0.000000	0.000000	4.000000	8.000000	2210.000000	560.000000	1997.000000	0.000000	98118.000000	47.678000	-122.125000	2360.000000	10083.000000
max	9.900000e+09	7.700000e+06	33.000000	8.000000	13540.000000	1.651359e+06	3.500000	1.000000	4.000000	5.000000	13.000000	9410.000000	4820.000000	2015.000000	2015.000000	98199.000000	47.777600	-121.315000	6210.000000	871200.000000

In [26]:

# Процент пропущенных значений признаков
for i in df.columns:
    null_rate = df[i].isnull().sum() / len(df) * 100
    if null_rate > 0:
        print(f'{i} Процент пустых значений: %{null_rate:.2f}')

# Проверка на пропущенные данные
print(df.isnull().sum())

df.isnull().any()

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

Out[26]:

id               False
date             False
price            False
bedrooms         False
bathrooms        False
sqft_living      False
sqft_lot         False
floors           False
waterfront       False
view             False
condition        False
grade            False
sqft_above       False
sqft_basement    False
yr_built         False
yr_renovated     False
zipcode          False
lat              False
long             False
sqft_living15    False
sqft_lot15       False
dtype: bool

Ооо, пропущенных колонок нету :)

Разбиваем на выборки (обучающую, тестовую, контрольную)

In [27]:

from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки (80% - обучение, 20% - тестовая)
train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)

# Разделение данных на обучающую и контрольную выборки (80% - обучение, 20% - контроль)
train_data, val_data = train_test_split(df, test_size=0.2, random_state=42)

print("Размер обучающей выборки: ", len(train_data))
print("Размер контрольной выборки: ", len(val_data))
print("Размер тестовой выборки: ", len(test_data))

Размер обучающей выборки:  17290
Размер контрольной выборки:  4323
Размер тестовой выборки:  4323

In [28]:

# Оценка сбалансированности целевой переменной (цена)
# Визуализация распределения цены в выборках (гистограмма)
def plot_price_distribution(data, title):
    sns.histplot(data['price'], kde=True)
    plt.title(title)
    plt.xlabel('Цена')
    plt.ylabel('Частота')
    plt.show()

plot_price_distribution(train_data, 'Распределение цены в обучающей выборке')
plot_price_distribution(val_data, 'Распределение цены в контрольной выборке')
plot_price_distribution(test_data, 'Распределение цены в тестовой выборке')

# Оценка сбалансированности данных по целевой переменной (price)
print("Средняя цена в обучающей выборке: ", train_data['price'].mean())
print("Средняя цена в контрольной выборке: ", val_data['price'].mean())
print("Средняя цена в тестовой выборке: ", test_data['price'].mean())

No description has been provided for this image

Средняя цена в обучающей выборке:  537768.04794679
Средняя цена в контрольной выборке:  549367.443673375
Средняя цена в тестовой выборке:  549367.443673375

In [29]:

from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler

# Преобразование целевой переменной (цены) в категориальные диапазоны с использованием квантилей
train_data['price_category'] = pd.qcut(train_data['price'], q=4, labels=['low', 'medium', 'high', 'very_high'])

# Визуализация распределения цен после преобразования в категории
sns.countplot(x=train_data['price_category'])
plt.title('Распределение категорий цены в обучающей выборке')
plt.xlabel('Категория цены')
plt.ylabel('Частота')
plt.show()

# Балансировка категорий с помощью RandomOverSampler (увеличение меньшинств)
ros = RandomOverSampler(random_state=42)
X_train = train_data.drop(columns=['price', 'price_category'])
y_train = train_data['price_category']

X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

# Визуализация распределения цен после oversampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий цены после oversampling')
plt.xlabel('Категория цены')
plt.ylabel('Частота')
plt.show()

# Применение RandomUnderSampler для уменьшения большего класса
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X_resampled, y_resampled)

# Визуализация распределения цен после undersampling
sns.countplot(x=y_resampled)
plt.title('Распределение категорий цены после undersampling')
plt.xlabel('Категория цен')
plt.ylabel('Частота')
plt.show()

# Печать размеров выборки после балансировки
print("Размер обучающей выборки после oversampling и undersampling: ", len(X_resampled))

Размер обучающей выборки после oversampling и undersampling:  17620

Конструирование признаков¶

Теперь приступим к конструированию признаков для решения каждой задачи.

Процесс конструирования признаков
Задача 1: Прогнозирование цен недвижимости. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования рыночной стоимости недвижимости.
Задача 2: Оптимизация затрат на ремонт перед продажей. Цель технического проекта: Разработка модели машинного обучения для точного прогнозирования по рекомендациям по реновациям.

Унитарное кодирование
Унитарное кодирование категориальных признаков (one-hot encoding). Преобразование категориальных признаков в бинарные векторы.

Дискретизация числовых признаков
Процесс преобразования непрерывных числовых значений в дискретные категории или интервалы (бины).

In [30]:

# Конструирование признаков
# Унитарное кодирование категориальных признаков (применение one-hot encoding)

# Пример категориальных признаков
categorical_features = ['date', 'waterfront', 'view', 'condition']

# Применение one-hot encoding
train_data_encoded = pd.get_dummies(train_data, columns=categorical_features)
val_data_encoded = pd.get_dummies(val_data, columns=categorical_features)
test_data_encoded = pd.get_dummies(test_data, columns=categorical_features)
df_encoded = pd.get_dummies(df, columns=categorical_features)

print("Столбцы train_data_encoded:", train_data_encoded.columns.tolist())
print("Столбцы val_data_encoded:", val_data_encoded.columns.tolist())
print("Столбцы test_data_encoded:", test_data_encoded.columns.tolist())


# Дискретизация числовых признаков (цены). Например, можно разделить площадь жилья на категории
# Пример дискретизации признака 'Общая площадь'
train_data_encoded['sqtf'] = pd.cut(train_data_encoded['sqft_living'], bins=5, labels=False)
val_data_encoded['sqtf'] = pd.cut(val_data_encoded['sqft_living'], bins=5, labels=False)
test_data_encoded['sqtf'] = pd.cut(test_data_encoded['sqft_living'], bins=5, labels=False)

# Пример дискретизации признака 'sqft_living' на 5 категорий
df_encoded['sqtf'] = pd.cut(df_encoded['sqft_living'], bins=5, labels=False)

Столбцы train_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'price_category', 'date_20140502T000000', 'date_20140503T000000', 'date_20140504T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140517T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140608T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140704T000000', 'date_20140705T000000', 'date_20140706T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140720T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140726T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140809T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140816T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140823T000000', 'date_20140824T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140830T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140906T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140920T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140928T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141004T000000', 'date_20141005T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141011T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141025T000000', 'date_20141026T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141102T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141129T000000', 'date_20141130T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141207T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141213T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141221T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150110T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150117T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150125T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150201T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150215T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150308T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150314T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150322T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150405T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150418T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150510T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150515T000000', 'date_20150524T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы val_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']
Столбцы test_data_encoded: ['id', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15', 'date_20140502T000000', 'date_20140503T000000', 'date_20140505T000000', 'date_20140506T000000', 'date_20140507T000000', 'date_20140508T000000', 'date_20140509T000000', 'date_20140510T000000', 'date_20140511T000000', 'date_20140512T000000', 'date_20140513T000000', 'date_20140514T000000', 'date_20140515T000000', 'date_20140516T000000', 'date_20140518T000000', 'date_20140519T000000', 'date_20140520T000000', 'date_20140521T000000', 'date_20140522T000000', 'date_20140523T000000', 'date_20140524T000000', 'date_20140525T000000', 'date_20140526T000000', 'date_20140527T000000', 'date_20140528T000000', 'date_20140529T000000', 'date_20140530T000000', 'date_20140531T000000', 'date_20140601T000000', 'date_20140602T000000', 'date_20140603T000000', 'date_20140604T000000', 'date_20140605T000000', 'date_20140606T000000', 'date_20140607T000000', 'date_20140609T000000', 'date_20140610T000000', 'date_20140611T000000', 'date_20140612T000000', 'date_20140613T000000', 'date_20140614T000000', 'date_20140615T000000', 'date_20140616T000000', 'date_20140617T000000', 'date_20140618T000000', 'date_20140619T000000', 'date_20140620T000000', 'date_20140621T000000', 'date_20140622T000000', 'date_20140623T000000', 'date_20140624T000000', 'date_20140625T000000', 'date_20140626T000000', 'date_20140627T000000', 'date_20140628T000000', 'date_20140629T000000', 'date_20140630T000000', 'date_20140701T000000', 'date_20140702T000000', 'date_20140703T000000', 'date_20140707T000000', 'date_20140708T000000', 'date_20140709T000000', 'date_20140710T000000', 'date_20140711T000000', 'date_20140712T000000', 'date_20140713T000000', 'date_20140714T000000', 'date_20140715T000000', 'date_20140716T000000', 'date_20140717T000000', 'date_20140718T000000', 'date_20140719T000000', 'date_20140721T000000', 'date_20140722T000000', 'date_20140723T000000', 'date_20140724T000000', 'date_20140725T000000', 'date_20140727T000000', 'date_20140728T000000', 'date_20140729T000000', 'date_20140730T000000', 'date_20140731T000000', 'date_20140801T000000', 'date_20140802T000000', 'date_20140803T000000', 'date_20140804T000000', 'date_20140805T000000', 'date_20140806T000000', 'date_20140807T000000', 'date_20140808T000000', 'date_20140810T000000', 'date_20140811T000000', 'date_20140812T000000', 'date_20140813T000000', 'date_20140814T000000', 'date_20140815T000000', 'date_20140817T000000', 'date_20140818T000000', 'date_20140819T000000', 'date_20140820T000000', 'date_20140821T000000', 'date_20140822T000000', 'date_20140825T000000', 'date_20140826T000000', 'date_20140827T000000', 'date_20140828T000000', 'date_20140829T000000', 'date_20140831T000000', 'date_20140901T000000', 'date_20140902T000000', 'date_20140903T000000', 'date_20140904T000000', 'date_20140905T000000', 'date_20140907T000000', 'date_20140908T000000', 'date_20140909T000000', 'date_20140910T000000', 'date_20140911T000000', 'date_20140912T000000', 'date_20140913T000000', 'date_20140914T000000', 'date_20140915T000000', 'date_20140916T000000', 'date_20140917T000000', 'date_20140918T000000', 'date_20140919T000000', 'date_20140921T000000', 'date_20140922T000000', 'date_20140923T000000', 'date_20140924T000000', 'date_20140925T000000', 'date_20140926T000000', 'date_20140927T000000', 'date_20140929T000000', 'date_20140930T000000', 'date_20141001T000000', 'date_20141002T000000', 'date_20141003T000000', 'date_20141006T000000', 'date_20141007T000000', 'date_20141008T000000', 'date_20141009T000000', 'date_20141010T000000', 'date_20141012T000000', 'date_20141013T000000', 'date_20141014T000000', 'date_20141015T000000', 'date_20141016T000000', 'date_20141017T000000', 'date_20141018T000000', 'date_20141019T000000', 'date_20141020T000000', 'date_20141021T000000', 'date_20141022T000000', 'date_20141023T000000', 'date_20141024T000000', 'date_20141027T000000', 'date_20141028T000000', 'date_20141029T000000', 'date_20141030T000000', 'date_20141031T000000', 'date_20141101T000000', 'date_20141103T000000', 'date_20141104T000000', 'date_20141105T000000', 'date_20141106T000000', 'date_20141107T000000', 'date_20141108T000000', 'date_20141109T000000', 'date_20141110T000000', 'date_20141111T000000', 'date_20141112T000000', 'date_20141113T000000', 'date_20141114T000000', 'date_20141115T000000', 'date_20141116T000000', 'date_20141117T000000', 'date_20141118T000000', 'date_20141119T000000', 'date_20141120T000000', 'date_20141121T000000', 'date_20141122T000000', 'date_20141123T000000', 'date_20141124T000000', 'date_20141125T000000', 'date_20141126T000000', 'date_20141128T000000', 'date_20141201T000000', 'date_20141202T000000', 'date_20141203T000000', 'date_20141204T000000', 'date_20141205T000000', 'date_20141206T000000', 'date_20141208T000000', 'date_20141209T000000', 'date_20141210T000000', 'date_20141211T000000', 'date_20141212T000000', 'date_20141214T000000', 'date_20141215T000000', 'date_20141216T000000', 'date_20141217T000000', 'date_20141218T000000', 'date_20141219T000000', 'date_20141220T000000', 'date_20141222T000000', 'date_20141223T000000', 'date_20141224T000000', 'date_20141226T000000', 'date_20141227T000000', 'date_20141229T000000', 'date_20141230T000000', 'date_20141231T000000', 'date_20150102T000000', 'date_20150105T000000', 'date_20150106T000000', 'date_20150107T000000', 'date_20150108T000000', 'date_20150109T000000', 'date_20150112T000000', 'date_20150113T000000', 'date_20150114T000000', 'date_20150115T000000', 'date_20150116T000000', 'date_20150119T000000', 'date_20150120T000000', 'date_20150121T000000', 'date_20150122T000000', 'date_20150123T000000', 'date_20150124T000000', 'date_20150126T000000', 'date_20150127T000000', 'date_20150128T000000', 'date_20150129T000000', 'date_20150130T000000', 'date_20150131T000000', 'date_20150202T000000', 'date_20150203T000000', 'date_20150204T000000', 'date_20150205T000000', 'date_20150206T000000', 'date_20150207T000000', 'date_20150209T000000', 'date_20150210T000000', 'date_20150211T000000', 'date_20150212T000000', 'date_20150213T000000', 'date_20150214T000000', 'date_20150216T000000', 'date_20150217T000000', 'date_20150218T000000', 'date_20150219T000000', 'date_20150220T000000', 'date_20150221T000000', 'date_20150222T000000', 'date_20150223T000000', 'date_20150224T000000', 'date_20150225T000000', 'date_20150226T000000', 'date_20150227T000000', 'date_20150228T000000', 'date_20150301T000000', 'date_20150302T000000', 'date_20150303T000000', 'date_20150304T000000', 'date_20150305T000000', 'date_20150306T000000', 'date_20150307T000000', 'date_20150309T000000', 'date_20150310T000000', 'date_20150311T000000', 'date_20150312T000000', 'date_20150313T000000', 'date_20150315T000000', 'date_20150316T000000', 'date_20150317T000000', 'date_20150318T000000', 'date_20150319T000000', 'date_20150320T000000', 'date_20150321T000000', 'date_20150323T000000', 'date_20150324T000000', 'date_20150325T000000', 'date_20150326T000000', 'date_20150327T000000', 'date_20150328T000000', 'date_20150329T000000', 'date_20150330T000000', 'date_20150331T000000', 'date_20150401T000000', 'date_20150402T000000', 'date_20150403T000000', 'date_20150404T000000', 'date_20150406T000000', 'date_20150407T000000', 'date_20150408T000000', 'date_20150409T000000', 'date_20150410T000000', 'date_20150411T000000', 'date_20150412T000000', 'date_20150413T000000', 'date_20150414T000000', 'date_20150415T000000', 'date_20150416T000000', 'date_20150417T000000', 'date_20150419T000000', 'date_20150420T000000', 'date_20150421T000000', 'date_20150422T000000', 'date_20150423T000000', 'date_20150424T000000', 'date_20150425T000000', 'date_20150426T000000', 'date_20150427T000000', 'date_20150428T000000', 'date_20150429T000000', 'date_20150430T000000', 'date_20150501T000000', 'date_20150502T000000', 'date_20150503T000000', 'date_20150504T000000', 'date_20150505T000000', 'date_20150506T000000', 'date_20150507T000000', 'date_20150508T000000', 'date_20150509T000000', 'date_20150511T000000', 'date_20150512T000000', 'date_20150513T000000', 'date_20150514T000000', 'date_20150527T000000', 'waterfront_0', 'waterfront_1', 'view_0', 'view_1', 'view_2', 'view_3', 'view_4', 'condition_1', 'condition_2', 'condition_3', 'condition_4', 'condition_5']

Ручной синтез¶

Создание новых признаков на основе экспертных знаний и логики предметной области. К примеру, для данных о продаже домов можно создать признак цена за квадратный фут.

In [31]:

# Ручной синтез признаков
train_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
val_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']
test_data_encoded['price_per_sqft'] = df['price'] / df['sqft_living']

# Пример создания нового признака - цена за квадратный фут
df_encoded['price_per_sqft'] = df_encoded['price'] / df_encoded['sqft_living']

Масштабирование признаков - это процесс преобразования числовых признаков таким образом, чтобы они имели одинаковый масштаб. Это важно для многих алгоритмов машинного обучения, которые чувствительны к масштабу признаков, таких как линейная регрессия, метод опорных векторов (SVM) и нейронные сети.

In [32]:

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Пример масштабирования числовых признаков
numerical_features = ['bedrooms', 'sqft_living']

scaler = StandardScaler()
train_data_encoded[numerical_features] = scaler.fit_transform(train_data_encoded[numerical_features])
val_data_encoded[numerical_features] = scaler.transform(val_data_encoded[numerical_features])
test_data_encoded[numerical_features] = scaler.transform(test_data_encoded[numerical_features])

Конструирование признаков с применением фреймворка Featuretools¶

In [33]:

import featuretools as ft

# Предобработка данных (например, кодирование категориальных признаков, удаление дубликатов)
# Удаление дубликатов по идентификатору
df = df.drop_duplicates(subset='id')
duplicates = train_data_encoded[train_data_encoded['id'].duplicated(keep=False)]

# Удаление дубликатов из столбца "id", сохранив первое вхождение
df_encoded = df_encoded.drop_duplicates(subset='id', keep='first')

print(duplicates)


# Создание EntitySet
es = ft.EntitySet(id='house_data')

# Добавление датафрейма с домами
es = es.add_dataframe(dataframe_name='houses', dataframe=df_encoded, index='id')

# Генерация признаков с помощью глубокой синтезы признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Выводим первые 5 строк сгенерированного набора признаков
print(feature_matrix.head())

train_data_encoded = train_data_encoded.drop_duplicates(subset='id')
train_data_encoded = train_data_encoded.drop_duplicates(subset='id', keep='first')  # or keep='last'

# Определение сущностей (Создание EntitySet)
es = ft.EntitySet(id='house_data')

es = es.add_dataframe(dataframe_name='houses', dataframe=train_data_encoded, index='id')

# Генерация признаков
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name='houses', max_depth=2)

# Преобразование признаков для контрольной и тестовой выборок
val_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=val_data_encoded.index)
test_feature_matrix = ft.calculate_feature_matrix(features=feature_defs, entityset=es, instance_ids=test_data_encoded.index)

               id     price  bedrooms  bathrooms  sqft_living  sqft_lot  \
9876   1219000473  164950.0 -0.395263       1.75    -0.555396     15330   
14982  6308000010  585000.0 -0.395263       2.50     0.238192      5089   
1464   3630120700  757000.0 -0.395263       3.25     1.230177      5283   
19209  1901600090  359000.0  1.752138       1.75    -0.147580      6654   
2039   3395040550  320000.0 -0.395263       2.50    -0.599484      2890   
...           ...       ...       ...        ...          ...       ...   
13184  1523049207  220000.0  0.678437       2.00    -0.412109      8043   
5759   1954420170  580000.0 -0.395263       2.50     0.083883      7484   
8433   1721801010  225000.0 -0.395263       1.00    -0.312911      6120   
10253  2422049104   85000.0 -1.468964       1.00    -1.371028      9000   
11363  7701960990  870000.0  0.678437       2.50     1.230177     14565   

       floors  grade  sqft_above  sqft_basement  ...  view_2  view_3  view_4  \
9876      1.0      7        1080            490  ...   False   False   False   
14982     2.0      9        2290              0  ...   False   False   False   
1464      2.0      9        3190              0  ...   False   False   False   
19209     1.5      7        1940              0  ...   False   False   False   
2039      2.0      7        1530              0  ...   False   False   False   
...       ...    ...         ...            ...  ...     ...     ...     ...   
13184     1.0      7         850            850  ...   False   False   False   
5759      2.0      8        2150              0  ...   False   False   False   
8433      1.0      6        1790              0  ...   False   False   False   
10253     1.0      6         830              0  ...   False   False   False   
11363     2.0     11        3190              0  ...   False   False   False   

       condition_1  condition_2  condition_3  condition_4 condition_5  sqtf  \
9876         False        False         True        False       False     0   
14982        False        False         True        False       False     0   
1464         False        False         True        False       False     1   
19209        False        False        False         True       False     0   
2039         False        False         True        False       False     0   
...            ...          ...          ...          ...         ...   ...   
13184        False        False         True        False       False     0   
5759         False        False         True        False       False     0   
8433         False        False         True        False       False     0   
10253        False        False         True        False       False     0   
11363        False        False         True        False       False     1   

       price_per_sqft  
9876       105.063694  
14982      255.458515  
1464       237.304075  
19209      185.051546  
2039       209.150327  
...               ...  
13184      129.411765  
5759       269.767442  
8433       125.698324  
10253      102.409639  
11363      272.727273  

[224 rows x 400 columns]

e:\MII\laboratory\mai\Lib\site-packages\featuretools\synthesis\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created
  warnings.warn(

               price  bedrooms  bathrooms  sqft_living  sqft_lot  floors  \
id                                                                         
7129300520  221900.0         3       1.00         1180      5650     1.0   
6414100192  538000.0         3       2.25         2570      7242     2.0   
5631500400  180000.0         2       1.00          770     10000     1.0   
2487200875  604000.0         4       3.00         1960      5000     1.0   
1954400510  510000.0         3       2.00         1680      8080     1.0   

            grade  sqft_above  sqft_basement  yr_built  ...  view_2  view_3  \
id                                                      ...                   
7129300520      7        1180              0      1955  ...   False   False   
6414100192      7        2170            400      1951  ...   False   False   
5631500400      6         770              0      1933  ...   False   False   
2487200875      7        1050            910      1965  ...   False   False   
1954400510      8        1680              0      1987  ...   False   False   

            view_4  condition_1  condition_2  condition_3  condition_4  \
id                                                                       
7129300520   False        False        False         True        False   
6414100192   False        False        False         True        False   
5631500400   False        False        False         True        False   
2487200875   False        False        False        False        False   
1954400510   False        False        False         True        False   

            condition_5  sqtf  price_per_sqft  
id                                             
7129300520        False     0      188.050847  
6414100192        False     0      209.338521  
5631500400        False     0      233.766234  
2487200875         True     0      308.163265  
1954400510        False     0      303.571429  

[5 rows x 402 columns]

e:\MII\laboratory\mai\Lib\site-packages\woodwork\type_sys\utils.py:33: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
  pd.to_datetime(
e:\MII\laboratory\mai\Lib\site-packages\featuretools\synthesis\deep_feature_synthesis.py:169: UserWarning: Only one dataframe in entityset, changing max_depth to 1 since deeper features cannot be created
  warnings.warn(

Оценка качества каждого набора признаков¶

Предсказательная способность Метрики: RMSE, MAE, R²

Методы: Обучение модели на обучающей выборке и оценка на контрольной и тестовой выборках.

Скорость вычисления Методы: Измерение времени выполнения генерации признаков и обучения модели.

Надежность Методы: Кросс-валидация, анализ чувствительности модели к изменениям в данных.

Корреляция Методы: Анализ корреляционной матрицы признаков, удаление мультиколлинеарных признаков.

Цельность Методы: Проверка логической связи между признаками и целевой переменной, интерпретация результатов модели.

In [34]:

import time
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Разделение данных на обучающую и валидационную выборки. Удаляем целевую переменную
X = feature_matrix.drop('price', axis=1)
y = feature_matrix['price']

# One-hot encoding для категориальных переменных (преобразование категориальных объектов в числовые)
X = pd.get_dummies(X, drop_first=True)

# Проверяем, есть ли пропущенные значения, и заполняем их медианой или другим подходящим значением
X.fillna(X.median(), inplace=True)

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = LinearRegression()

# Начинаем отсчет времени
start_time = time.time()
model.fit(X_train, y_train)

# Время обучения модели
train_time = time.time() - start_time

# Предсказания и оценка модели и вычисляем среднеквадратичную ошибку
predictions = model.predict(X_val)
mse = mean_squared_error(y_val, predictions)

print(f'Время обучения модели: {train_time:.2f} секунд')
print(f'Среднеквадратичная ошибка: {mse:.2f}')

Время обучения модели: 5.18 секунд
Среднеквадратичная ошибка: 125198557176601739264.00

In [35]:

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.model_selection import cross_val_score


# Удаление строк с NaN
feature_matrix = feature_matrix.dropna()
val_feature_matrix = val_feature_matrix.dropna()
test_feature_matrix = test_feature_matrix.dropna()

# Разделение данных на обучающую и тестовую выборки
X_train = feature_matrix.drop('price', axis=1)
y_train = feature_matrix['price']
X_val = val_feature_matrix.drop('price', axis=1)
y_val = val_feature_matrix['price']
X_test = test_feature_matrix.drop('price', axis=1)
y_test = test_feature_matrix['price']

X_test = X_test.reindex(columns=X_train.columns, fill_value=0)  

# Кодирования категориальных переменных с использованием одноразового кодирования
X = pd.get_dummies(X, drop_first=True)

# Разобьём тренировочный тест и примерку модели
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Выбор модели
model = RandomForestRegressor(random_state=42)

# Обучение модели
model.fit(X_train, y_train)

# Предсказание и оценка
y_pred = model.predict(X_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print()
print(f"RMSE: {rmse}")
print(f"R²: {r2}")
print(f"MAE: {mae} \n")

# Кросс-валидация
scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_cv = (-scores.mean())**0.5
print(f"Кросс-валидация RMSE: {rmse_cv} \n")

# Анализ важности признаков
feature_importances = model.feature_importances_
feature_names = X_train.columns

# Проверка на переобучение
y_train_pred = model.predict(X_train)

rmse_train = mean_squared_error(y_train, y_train_pred, squared=False)
r2_train = r2_score(y_train, y_train_pred)
mae_train = mean_absolute_error(y_train, y_train_pred)

print(f"Train RMSE: {rmse_train}")
print(f"Train R²: {r2_train}")
print(f"Train MAE: {mae_train}")
print()

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Фактическая цена')
plt.ylabel('Прогнозируемая цена')
plt.title('Фактическая цена по сравнению с прогнозируемой')
plt.show()

e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(

RMSE: 17870.38470608543
R²: 0.9973762630189477
MAE: 5924.569330616996 

Кросс-валидация RMSE: 34577.766841359786 

Train RMSE: 12930.759734777745
Train R²: 0.9987426148033223
Train MAE: 2495.3698282637165

e:\MII\laboratory\mai\Lib\site-packages\sklearn\metrics\_regression.py:492: FutureWarning: 'squared' is deprecated in version 1.4 and will be removed in 1.6. To calculate the root mean squared error, use the function'root_mean_squared_error'.
  warnings.warn(

Выводы и итог¶

Модель случайного леса (RandomForestRegressor) показала удовлетворительные результаты при прогнозировании цен на недвижимость. Метрики качества и кросс-валидация позволяют предположить, что модель не сильно переобучена и может быть использована для практических целей.

Точность предсказаний: Модель демонстрирует довольно высокий R² (0.9987), что указывает на большую часть вариации целевого признака (цены недвижимости). Однако, значения RMSE и MAE остаются высоки (12930 и 2495), что свидетельствует о том, что модель не всегда точно предсказывает значения, особенно для объектов с высокими или низкими ценами.

Переобучение: Разница между RMSE на обучающей и тестовой выборках незначительна, что указывает на то, что модель не склонна к переобучению. Однако в будущем стоит следить за этой метрикой при добавлении новых признаков или усложнении модели, чтобы избежать излишней подгонки под тренировочные данные. Также стоит быть осторожным и продолжать мониторинг этого показателя.

Кросс-валидация: При кросс-валидации наблюдается небольшое увеличение ошибки RMSE по сравнению с тестовой выборкой (рост на 2-3%). Это может указывать на небольшую нестабильность модели при использовании разных подвыборок данных. Для повышения устойчивости модели возможно стоит провести дальнейшую настройку гиперпараметров.

Рекомендации: Следует уделить внимание дополнительной обработке категориальных признаков, улучшению метода feature engineering, а также возможной оптимизации модели (например, через подбор гиперпараметров) для повышения точности предсказаний на экстремальных значениях.

Кажется на этом закончили :)

330 KiB Raw Blame History Unescape Escape