{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Лаб работа №3\n", "Вариант 6 - Продажа домов в округе кинг\n", "## Бизнес-цели:\n", "**1. Автоматизация и повышение точности оценки стоимости недвижимости:**\n", "* **Формулировка:** Разработать модель машинного обучения, которая с высокой точностью и на основе данных (площадь, количество комнат, состояние, местоположение) автоматически оценивает стоимость дома.\n", "* **Цель:** Повысить точность оценки для агентств недвижимости и покупателей, сократить время и затраты на оценку, обеспечив более точный прогноз цены.\n", "* **Ключевые показатели успеха (KPI):**\n", " * **Точность прогнозирования (RMSE):** Достичь среднеквадратичной ошибки менее 10% от реальной цены, чтобы учесть значительные отклонения.\n", " * **Средняя абсолютная ошибка (MAE):** Снизить MAE до 5% или менее, чтобы модель предсказывала цену с минимальной погрешностью.\n", " * **Скорость оценки:** Сократить время на оценку стоимости дома для быстрого получения результатов.\n", " * **Доступность:** Интегрировать модель в систему для использования агентствами недвижимости.\n", "\n", "**2. Оптимизация затрат на ремонт перед продажей:**\n", "* **Формулировка:** Разработать модель, которая поможет продавцам и агентствам недвижимости определить наиболее эффективные и выгодные ремонтные работы, увеличивающие стоимость дома при минимальных затратах.\n", "* **Цель:** Минимизировать затраты на ремонт, рекомендуя только те улучшения, которые максимально повысят стоимость недвижимости, и ускорить принятие решений о ремонте.\n", "* **Ключевые показатели успеха (KPI):**\n", " * **Возврат инвестиций (ROI):** Обеспечить прирост стоимости дома не менее 20% на каждый вложенный доллар в ремонт. Например, увеличение цены на $12,000 после траты $10,000 на ремонт.\n", " * **Средняя стоимость ремонта на сделку (CPA):** Снизить расходы на ремонт до $5,000 на дом, учитывая максимальный прирост стоимости.\n", " * **Сокращение времени на принятие решений:** Уменьшить время оценки вариантов ремонта до нескольких минут, чтобы ускорить подготовку дома к продаже." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',\n", " 'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',\n", " 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',\n", " 'lat', 'long', 'sqft_living15', 'sqft_lot15'],\n", " dtype='object')\n" ] } ], "source": [ "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import matplotlib.ticker as ticker\n", "import seaborn as sns\n", "\n", "df = pd.read_csv(\".//static//csv//kc_house_data.csv\")\n", "print(df.columns)" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | id | \n", "date | \n", "price | \n", "bedrooms | \n", "bathrooms | \n", "sqft_living | \n", "sqft_lot | \n", "floors | \n", "waterfront | \n", "view | \n", "... | \n", "grade | \n", "sqft_above | \n", "sqft_basement | \n", "yr_built | \n", "yr_renovated | \n", "zipcode | \n", "lat | \n", "long | \n", "sqft_living15 | \n", "sqft_lot15 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "7129300520 | \n", "20141013T000000 | \n", "221900.0 | \n", "3 | \n", "1.00 | \n", "1180 | \n", "5650 | \n", "1.0 | \n", "0 | \n", "0 | \n", "... | \n", "7 | \n", "1180 | \n", "0 | \n", "1955 | \n", "0 | \n", "98178 | \n", "47.5112 | \n", "-122.257 | \n", "1340 | \n", "5650 | \n", "
1 | \n", "6414100192 | \n", "20141209T000000 | \n", "538000.0 | \n", "3 | \n", "2.25 | \n", "2570 | \n", "7242 | \n", "2.0 | \n", "0 | \n", "0 | \n", "... | \n", "7 | \n", "2170 | \n", "400 | \n", "1951 | \n", "1991 | \n", "98125 | \n", "47.7210 | \n", "-122.319 | \n", "1690 | \n", "7639 | \n", "
2 | \n", "5631500400 | \n", "20150225T000000 | \n", "180000.0 | \n", "2 | \n", "1.00 | \n", "770 | \n", "10000 | \n", "1.0 | \n", "0 | \n", "0 | \n", "... | \n", "6 | \n", "770 | \n", "0 | \n", "1933 | \n", "0 | \n", "98028 | \n", "47.7379 | \n", "-122.233 | \n", "2720 | \n", "8062 | \n", "
3 | \n", "2487200875 | \n", "20141209T000000 | \n", "604000.0 | \n", "4 | \n", "3.00 | \n", "1960 | \n", "5000 | \n", "1.0 | \n", "0 | \n", "0 | \n", "... | \n", "7 | \n", "1050 | \n", "910 | \n", "1965 | \n", "0 | \n", "98136 | \n", "47.5208 | \n", "-122.393 | \n", "1360 | \n", "5000 | \n", "
4 | \n", "1954400510 | \n", "20150218T000000 | \n", "510000.0 | \n", "3 | \n", "2.00 | \n", "1680 | \n", "8080 | \n", "1.0 | \n", "0 | \n", "0 | \n", "... | \n", "8 | \n", "1680 | \n", "0 | \n", "1987 | \n", "0 | \n", "98074 | \n", "47.6168 | \n", "-122.045 | \n", "1800 | \n", "7503 | \n", "
5 rows × 21 columns
\n", "