From c0021905517970ec4f851aa74710df7487954a2a Mon Sep 17 00:00:00 2001 From: "a.puchkina" Date: Sat, 12 Oct 2024 15:50:38 +0400 Subject: [PATCH 1/3] =?UTF-8?q?=D0=BB=D0=B0=D0=B1=D0=B0=202=20=D0=B8=D1=81?= =?UTF-8?q?=D0=BF=D1=80=D0=B0=D0=B2=D0=BB=D0=B5=D0=BD=D0=BE=20(=D1=81=20?= =?UTF-8?q?=D0=B1=D0=BE=D0=B3=D0=BE=D0=BC)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .gitignore | 3 + lab_2/lab2.ipynb | 1303 ++++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 1306 insertions(+) create mode 100644 lab_2/lab2.ipynb diff --git a/.gitignore b/.gitignore index 207d123..8b52d1a 100644 --- a/.gitignore +++ b/.gitignore @@ -12,3 +12,6 @@ ipython_config.py # Remove previous ipynb_checkpoints # git rm -r .ipynb_checkpoints/ +# virtual +aimenv/ +static/ \ No newline at end of file diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb new file mode 100644 index 0000000..e68a077 --- /dev/null +++ b/lab_2/lab2.ipynb @@ -0,0 +1,1303 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Лабораторная работа №2" + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd \n", + "import matplotlib.pyplot as plt\n", + "import seaborn as sns\n", + "from sklearn.model_selection import train_test_split\n", + "from imblearn.over_sampling import RandomOverSampler\n", + "from imblearn.under_sampling import RandomUnderSampler\n", + "from sklearn.preprocessing import LabelEncoder\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Цены на автомобили**\n", + "https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge\n", + "\n", + "Этот набор данных предоставляет подробную информацию о продаже автомобилей, включая их уникальные идентификаторы, цены, сборы и налоги, а также характеристики производителя и модели. В данных представлены год производства, категория автомобиля, наличие кожаного салона, тип топлива, объем двигателя, пробег, количество цилиндров, тип коробки передач, привод, количество дверей, расположение руля, цвет и количество подушек безопасности. Эти данные могут быть использованы для анализа рынка автомобилей, прогнозирования цен на основе различных факторов, а также для изучения влияния технических и визуальных характеристик на стоимость автомобилей." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Цены на автомобили\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['ID', 'Price', 'Levy', 'Manufacturer', 'Model', 'Prod. year',\n", + " 'Category', 'Leather interior', 'Fuel type', 'Engine volume', 'Mileage',\n", + " 'Cylinders', 'Gear box type', 'Drive wheels', 'Doors', 'Wheel', 'Color',\n", + " 'Airbags'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "df1 = pd.read_csv(\"..//static//csv//car_price_prediction.csv\")\n", + "print(df1.columns)" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Преобразуем год производства в целочисленный тип\n", + "df1['Prod. year'] = df1['Prod. year'].astype(int)\n", + "\n", + "# Визуализация данных\n", + "plt.figure(figsize=(10, 6))\n", + "plt.scatter(df1['Prod. year'], df1['Price'])\n", + "plt.xlabel('Production Year')\n", + "plt.ylabel('Price')\n", + "plt.title('Scatter Plot of Price vs Production Year')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Зашумленность не очень высокая. Покрытие данных высокое и подошло бы для поставленной задачи по актуальности." + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Выбросы:\n", + " ID Price Levy Manufacturer Model Prod. year \\\n", + "14 45732604 59464 891 HYUNDAI Santa FE 2016 \n", + "36 45369569 51746 1077 TOYOTA CHR Limited 2019 \n", + "47 45732544 55390 1017 HYUNDAI Santa FE 2017 \n", + "56 44316016 87112 - MERCEDES-BENZ GLA 250 2019 \n", + "73 45732043 53154 891 HYUNDAI Santa FE 2016 \n", + "... ... ... ... ... ... ... \n", + "19144 45733642 56814 1017 HYUNDAI Sonata 2017 \n", + "19161 45677230 64290 - LEXUS RX 450 F SPORT 2012 \n", + "19180 45803164 63886 1076 HYUNDAI Sonata 2020 \n", + "19188 45571892 61154 579 TOYOTA RAV 4 2017 \n", + "19211 45802856 50037 891 HYUNDAI Santa FE 2016 \n", + "\n", + " Category Leather interior Fuel type Engine volume Mileage Cylinders \\\n", + "14 Jeep Yes Diesel 2 76000 km 4.0 \n", + "36 Jeep No Petrol 2 10200 km 4.0 \n", + "47 Jeep Yes Diesel 2 100734 km 4.0 \n", + "56 Jeep Yes Petrol 2.0 Turbo 5323 km 4.0 \n", + "73 Jeep Yes Diesel 2 84506 km 4.0 \n", + "... ... ... ... ... ... ... \n", + "19144 Sedan Yes Petrol 2 67365 km 4.0 \n", + "19161 Jeep Yes Hybrid 3.5 97000 km 6.0 \n", + "19180 Sedan Yes LPG 2 5305 km 4.0 \n", + "19188 Jeep No Hybrid 2.5 71234 km 4.0 \n", + "19211 Jeep Yes Diesel 2 121902 km 4.0 \n", + "\n", + " Gear box type Drive wheels Doors Wheel Color Airbags \n", + "14 Automatic Front 04-May Left wheel White 4 \n", + "36 Tiptronic Front 04-May Left wheel Red 12 \n", + "47 Automatic Front 04-May Left wheel Black 4 \n", + "56 Tiptronic 4x4 04-May Left wheel Grey 0 \n", + "73 Automatic Front 04-May Left wheel Silver 4 \n", + "... ... ... ... ... ... ... \n", + "19144 Automatic Front 04-May Left wheel Black 4 \n", + "19161 Variator 4x4 04-May Left wheel Black 12 \n", + "19180 Automatic Front 04-May Left wheel Silver 4 \n", + "19188 Tiptronic 4x4 04-May Left wheel White 12 \n", + "19211 Automatic Front 04-May Left wheel Black 4 \n", + "\n", + "[1073 rows x 18 columns]\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Преобразуем год производства в целочисленный тип\n", + "df1['Prod. year'] = df1['Prod. year'].astype(int)\n", + "\n", + "# Статистический анализ для определения выбросов\n", + "Q1 = df1['Price'].quantile(0.25)\n", + "Q3 = df1['Price'].quantile(0.75)\n", + "IQR = Q3 - Q1\n", + "\n", + "# Определение порога для выбросов\n", + "threshold = 1.5 * IQR\n", + "outliers = (df1['Price'] < (Q1 - threshold)) | (df1['Price'] > (Q3 + threshold))\n", + "\n", + "# Вывод выбросов\n", + "print(\"Выбросы:\")\n", + "print(df1[outliers])\n", + "\n", + "# Обработка выбросов\n", + "# В данном случае мы заменим выбросы на медианное значение\n", + "median_price = df1['Price'].median()\n", + "df1.loc[outliers, 'Price'] = median_price\n", + "\n", + "# Визуализация данных после обработки\n", + "plt.figure(figsize=(10, 6))\n", + "plt.scatter(df1['Prod. year'], df1['Price'])\n", + "plt.xlabel('Production Year')\n", + "plt.ylabel('Price')\n", + "plt.title('Scatter Plot of Price vs Production Year (After Handling Outliers)')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Очистим от строк с пустыми значениями наш датасет" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Количество удаленных строк: 0\n", + "\n", + "DataFrame после удаления строк с пропущенными значениями:\n", + " ID Price Levy Manufacturer Model Prod. year Category \\\n", + "0 45654403 13328 1399 LEXUS RX 450 2010 Jeep \n", + "1 44731507 16621 1018 CHEVROLET Equinox 2011 Jeep \n", + "2 45774419 8467 - HONDA FIT 2006 Hatchback \n", + "3 45769185 3607 862 FORD Escape 2011 Jeep \n", + "4 45809263 11726 446 HONDA FIT 2014 Hatchback \n", + "... ... ... ... ... ... ... ... \n", + "19232 45798355 8467 - MERCEDES-BENZ CLK 200 1999 Coupe \n", + "19233 45778856 15681 831 HYUNDAI Sonata 2011 Sedan \n", + "19234 45804997 26108 836 HYUNDAI Tucson 2010 Jeep \n", + "19235 45793526 5331 1288 CHEVROLET Captiva 2007 Jeep \n", + "19236 45813273 470 753 HYUNDAI Sonata 2012 Sedan \n", + "\n", + " Leather interior Fuel type Engine volume Mileage Cylinders \\\n", + "0 Yes Hybrid 3.5 186005 km 6.0 \n", + "1 No Petrol 3 192000 km 6.0 \n", + "2 No Petrol 1.3 200000 km 4.0 \n", + "3 Yes Hybrid 2.5 168966 km 4.0 \n", + "4 Yes Petrol 1.3 91901 km 4.0 \n", + "... ... ... ... ... ... \n", + "19232 Yes CNG 2.0 Turbo 300000 km 4.0 \n", + "19233 Yes Petrol 2.4 161600 km 4.0 \n", + "19234 Yes Diesel 2 116365 km 4.0 \n", + "19235 Yes Diesel 2 51258 km 4.0 \n", + "19236 Yes Hybrid 2.4 186923 km 4.0 \n", + "\n", + " Gear box type Drive wheels Doors Wheel Color Airbags \n", + "0 Automatic 4x4 04-May Left wheel Silver 12 \n", + "1 Tiptronic 4x4 04-May Left wheel Black 8 \n", + "2 Variator Front 04-May Right-hand drive Black 2 \n", + "3 Automatic 4x4 04-May Left wheel White 0 \n", + "4 Automatic Front 04-May Left wheel Silver 4 \n", + "... ... ... ... ... ... ... \n", + "19232 Manual Rear 02-Mar Left wheel Silver 5 \n", + "19233 Tiptronic Front 04-May Left wheel Red 8 \n", + "19234 Automatic Front 04-May Left wheel Grey 4 \n", + "19235 Automatic Front 04-May Left wheel Black 4 \n", + "19236 Automatic Front 04-May Left wheel White 12 \n", + "\n", + "[19237 rows x 18 columns]\n" + ] + } + ], + "source": [ + "# Удаление строк с пропущенными значениями\n", + "df_dropna = df1.dropna()\n", + "\n", + "# Вывод количества удаленных строк\n", + "num_deleted_rows = len(df1) - len(df_dropna)\n", + "print(f\"\\nКоличество удаленных строк: {num_deleted_rows}\")\n", + "\n", + "print(\"\\nDataFrame после удаления строк с пропущенными значениями:\")\n", + "print(df_dropna)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Теперь создадим выборки" + ] + }, + { + "cell_type": "code", + "execution_count": 28, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: 11542\n", + "Размер контрольной выборки: 3847\n", + "Размер тестовой выборки: 3848\n" + ] + } + ], + "source": [ + "# Загрузка данных\n", + "df = pd.read_csv(\"..//static//csv//car_price_prediction.csv\")\n", + "\n", + "# Разделение данных на обучающую и временную выборки\n", + "train_df, temp_df = train_test_split(df, test_size=0.4, random_state=42)\n", + "\n", + "# Разделение остатка на контрольную и тестовую выборки\n", + "val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)\n", + "\n", + "# Проверка размеров выборок\n", + "print(\"Размер обучающей выборки:\", len(train_df))\n", + "print(\"Размер контрольной выборки:\", len(val_df))\n", + "print(\"Размер тестовой выборки:\", len(test_df))\n", + "\n", + "# Сохранение выборок в файлы\n", + "train_df.to_csv(\"..//static//csv//train_data.csv\", index=False)\n", + "val_df.to_csv(\"..//static//csv//val_data.csv\", index=False)\n", + "test_df.to_csv(\"..//static//csv//test_data.csv\", index=False)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Проанализируем сбалансированность выборок" + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение Category в обучающей выборке:\n", + "Category\n", + "Sedan 5289\n", + "Jeep 3246\n", + "Hatchback 1684\n", + "Minivan 396\n", + "Coupe 318\n", + "Universal 216\n", + "Microbus 184\n", + "Goods wagon 151\n", + "Pickup 31\n", + "Cabriolet 20\n", + "Limousine 7\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 45.82%\n", + "Процент автомобилей категории 'Джип': 28.12%\n", + "\n", + "Распределение Category в контрольной выборке:\n", + "Category\n", + "Sedan 1697\n", + "Jeep 1109\n", + "Hatchback 608\n", + "Minivan 129\n", + "Coupe 105\n", + "Universal 73\n", + "Microbus 57\n", + "Goods wagon 42\n", + "Pickup 17\n", + "Cabriolet 9\n", + "Limousine 1\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 44.11%\n", + "Процент автомобилей категории 'Джип': 28.83%\n", + "\n", + "Распределение Category в тестовой выборке:\n", + "Category\n", + "Sedan 1750\n", + "Jeep 1118\n", + "Hatchback 555\n", + "Minivan 122\n", + "Coupe 109\n", + "Universal 75\n", + "Microbus 65\n", + "Goods wagon 40\n", + "Cabriolet 7\n", + "Pickup 4\n", + "Limousine 3\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 45.48%\n", + "Процент автомобилей категории 'Джип': 29.05%\n", + "\n", + "Необходима аугментация данных для балансировки классов.\n", + "Необходима аугментация данных для балансировки классов.\n", + "Необходима аугментация данных для балансировки классов.\n" + ] + } + ], + "source": [ + "train_df = pd.read_csv(\"..//static//csv//train_data.csv\")\n", + "val_df = pd.read_csv(\"..//static//csv//val_data.csv\")\n", + "test_df = pd.read_csv(\"..//static//csv//test_data.csv\")\n", + "\n", + "# Оценка сбалансированности\n", + "def check_balance(df, name):\n", + " counts = df['Category'].value_counts()\n", + " print(f\"Распределение Category в {name}:\")\n", + " print(counts)\n", + " print(f\"Процент автомобилей категории 'Седан': {counts['Sedan'] / len(df) * 100:.2f}%\")\n", + " print(f\"Процент автомобилей категории 'Джип': {counts['Jeep'] / len(df) * 100:.2f}%\")\n", + " print()\n", + "\n", + "# Определение необходимости аугментации данных\n", + "def need_augmentation(df):\n", + " counts = df['Category'].value_counts()\n", + " ratio = counts['Sedan'] / counts['Jeep']\n", + " if ratio > 1.5 or ratio < 0.67:\n", + " print(\"Необходима аугментация данных для балансировки классов.\")\n", + " else:\n", + " print(\"Аугментация данных не требуется.\")\n", + " \n", + "check_balance(train_df, \"обучающей выборке\")\n", + "check_balance(val_df, \"контрольной выборке\")\n", + "check_balance(test_df, \"тестовой выборке\")\n", + "\n", + "need_augmentation(train_df)\n", + "need_augmentation(val_df)\n", + "need_augmentation(test_df)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "По результатам анализа требуется приращение, соотношения отзывов вне допустимого диапазона" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Оверсэмплинг:\n", + "Распределение Category в обучающей выборке:\n", + "Category\n", + "Jeep 5289\n", + "Hatchback 5289\n", + "Sedan 5289\n", + "Goods wagon 5289\n", + "Cabriolet 5289\n", + "Universal 5289\n", + "Minivan 5289\n", + "Microbus 5289\n", + "Coupe 5289\n", + "Pickup 5289\n", + "Limousine 5289\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n", + "Распределение Category в контрольной выборке:\n", + "Category\n", + "Jeep 1697\n", + "Sedan 1697\n", + "Minivan 1697\n", + "Coupe 1697\n", + "Hatchback 1697\n", + "Goods wagon 1697\n", + "Universal 1697\n", + "Microbus 1697\n", + "Pickup 1697\n", + "Cabriolet 1697\n", + "Limousine 1697\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n", + "Распределение Category в тестовой выборке:\n", + "Category\n", + "Jeep 1750\n", + "Hatchback 1750\n", + "Sedan 1750\n", + "Coupe 1750\n", + "Minivan 1750\n", + "Goods wagon 1750\n", + "Microbus 1750\n", + "Universal 1750\n", + "Cabriolet 1750\n", + "Pickup 1750\n", + "Limousine 1750\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n", + "Андерсэмплинг:\n", + "Распределение Category в обучающей выборке:\n", + "Category\n", + "Cabriolet 7\n", + "Coupe 7\n", + "Goods wagon 7\n", + "Hatchback 7\n", + "Jeep 7\n", + "Limousine 7\n", + "Microbus 7\n", + "Minivan 7\n", + "Pickup 7\n", + "Sedan 7\n", + "Universal 7\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n", + "Распределение Category в контрольной выборке:\n", + "Category\n", + "Cabriolet 1\n", + "Coupe 1\n", + "Goods wagon 1\n", + "Hatchback 1\n", + "Jeep 1\n", + "Limousine 1\n", + "Microbus 1\n", + "Minivan 1\n", + "Pickup 1\n", + "Sedan 1\n", + "Universal 1\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n", + "Распределение Category в тестовой выборке:\n", + "Category\n", + "Cabriolet 3\n", + "Coupe 3\n", + "Goods wagon 3\n", + "Hatchback 3\n", + "Jeep 3\n", + "Limousine 3\n", + "Microbus 3\n", + "Minivan 3\n", + "Pickup 3\n", + "Sedan 3\n", + "Universal 3\n", + "Name: count, dtype: int64\n", + "Процент автомобилей категории 'Седан': 9.09%\n", + "Процент автомобилей категории 'Джип': 9.09%\n", + "\n" + ] + } + ], + "source": [ + "# Загрузка данных\n", + "train_df = pd.read_csv(\"..//static//csv//train_data.csv\")\n", + "val_df = pd.read_csv(\"..//static//csv//val_data.csv\")\n", + "test_df = pd.read_csv(\"..//static//csv//test_data.csv\")\n", + "\n", + "# Преобразование категориальных признаков в числовые\n", + "def encode(df):\n", + " label_encoders = {}\n", + " for column in df.select_dtypes(include=['object']).columns:\n", + " if column != 'Category': # Пропускаем целевую переменную\n", + " le = LabelEncoder()\n", + " df[column] = le.fit_transform(df[column])\n", + " label_encoders[column] = le\n", + " return label_encoders\n", + "\n", + "# Преобразование целевой переменной в числовые значения\n", + "def encode_target(df):\n", + " le = LabelEncoder()\n", + " df['Category'] = le.fit_transform(df['Category'])\n", + " return le\n", + "\n", + "# Применение кодирования\n", + "label_encoders = encode(train_df)\n", + "encode(val_df)\n", + "encode(test_df)\n", + "\n", + "# Кодирование целевой переменной\n", + "le_target = encode_target(train_df)\n", + "encode_target(val_df)\n", + "encode_target(test_df)\n", + "\n", + "# Проверка типов данных\n", + "def check_data_types(df):\n", + " for column in df.columns:\n", + " if df[column].dtype == 'object':\n", + " print(f\"Столбец '{column}' содержит строковые данные.\")\n", + "\n", + "check_data_types(train_df)\n", + "check_data_types(val_df)\n", + "check_data_types(test_df)\n", + "\n", + "# Функция для выполнения oversampling\n", + "def oversample(df):\n", + " if 'Category' not in df.columns:\n", + " print(\"Столбец 'Category' отсутствует.\")\n", + " return df\n", + " \n", + " X = df.drop('Category', axis=1)\n", + " y = df['Category']\n", + " \n", + " oversampler = RandomOverSampler(random_state=42)\n", + " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "# Функция для выполнения undersampling\n", + "def undersample(df):\n", + " if 'Category' not in df.columns:\n", + " print(\"Столбец 'Category' отсутствует.\")\n", + " return df\n", + " \n", + " X = df.drop('Category', axis=1)\n", + " y = df['Category']\n", + " \n", + " undersampler = RandomUnderSampler(random_state=42)\n", + " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "# Применение oversampling и undersampling к каждой выборке\n", + "train_df_oversampled = oversample(train_df)\n", + "val_df_oversampled = oversample(val_df)\n", + "test_df_oversampled = oversample(test_df)\n", + "\n", + "train_df_undersampled = undersample(train_df)\n", + "val_df_undersampled = undersample(val_df)\n", + "test_df_undersampled = undersample(test_df)\n", + "\n", + "# Обратное преобразование целевой переменной в строковые метки\n", + "def decode_target(df, le_target):\n", + " df['Category'] = le_target.inverse_transform(df['Category'])\n", + "\n", + "decode_target(train_df_oversampled, le_target)\n", + "decode_target(val_df_oversampled, le_target)\n", + "decode_target(test_df_oversampled, le_target)\n", + "\n", + "decode_target(train_df_undersampled, le_target)\n", + "decode_target(val_df_undersampled, le_target)\n", + "decode_target(test_df_undersampled, le_target)\n", + "\n", + "# Проверка результатов\n", + "def check_balance(df, name):\n", + " if 'Category' not in df.columns:\n", + " print(f\"Столбец 'Category' отсутствует в {name}.\")\n", + " return\n", + " \n", + " counts = df['Category'].value_counts()\n", + " print(f\"Распределение Category в {name}:\")\n", + " print(counts)\n", + " \n", + " if 'Sedan' in counts and 'Jeep' in counts:\n", + " print(f\"Процент автомобилей категории 'Седан': {counts['Sedan'] / len(df) * 100:.2f}%\")\n", + " print(f\"Процент автомобилей категории 'Джип': {counts['Jeep'] / len(df) * 100:.2f}%\")\n", + " else:\n", + " print(\"Отсутствуют одна или обе категории (Седан/Внедорожник).\")\n", + " print()\n", + "\n", + "# Проверка сбалансированности после oversampling\n", + "print(\"Оверсэмплинг:\")\n", + "check_balance(train_df_oversampled, \"обучающей выборке\")\n", + "check_balance(val_df_oversampled, \"контрольной выборке\")\n", + "check_balance(test_df_oversampled, \"тестовой выборке\")\n", + "\n", + "# Проверка сбалансированности после undersampling\n", + "print(\"Андерсэмплинг:\")\n", + "check_balance(train_df_undersampled, \"обучающей выборке\")\n", + "check_balance(val_df_undersampled, \"контрольной выборке\")\n", + "check_balance(test_df_undersampled, \"тестовой выборке\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Классические рок-треки (по данным Spotify)**\n", + "https://www.kaggle.com/datasets/thebumpkin/14400-classic-rock-tracks-with-spotify-data\n", + "\n", + " Этот набор данных, содержащий 1200 уникальных альбомов и 14 400 треков, представляет собой не просто коллекцию — это хроника эволюции классического рока. Каждый трек тщательно каталогизирован с 18 столбцами данных, включая ключевые метаданные, такие как название трека, исполнитель, альбом и год выпуска, наряду с функциями Spotify audio, которые позволяют получить представление о звуковом ландшафте этих неподвластных времени мелодий. Бизнес-цель может заключаться в улучшении стратегии маркетинга и продвижения музыкальных треков. Предположим как этот набор может быть полезен для бизнеса: Персонализированные рекомендации: Создание алгоритмов, которые будут рекомендовать пользователям музыку на основе их предпочтений. Цель технического проекта: Разработать и внедрить систему рекомендаций, которая будет предсказывать и рекомендовать пользователям музыкальные треки на основе их предпочтений и поведения. Входные данные: Данные о пользователях: Идентификатор пользователя, история прослушиваний, оценки треков, время прослушивания, частота прослушивания. Данные о треках: Атрибуты треков (название, исполнитель, альбом, год, длительность, танцевальность, энергичность, акустичность и т.д.). Данные о взаимодействии: Время и частота взаимодействия пользователя с определенными треками. Целевой признак: Рекомендации: Булева переменная, указывающая, должен ли конкретный трек быть рекомендован пользователю (1 - рекомендуется, 0 - не рекомендуется)." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Данные о клиентах\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 43, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Track', 'Artist', 'Album', 'Year', 'Duration', 'Time_Signature',\n", + " 'Danceability', 'Energy', 'Key', 'Loudness', 'Mode', 'Speechiness',\n", + " 'Acousticness', 'Instrumentalness', 'Liveness', 'Valence', 'Tempo',\n", + " 'Popularity'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "df = pd.read_csv(\"..//static//csv//UltimateClassicRock.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Анализируем датафрейм при помощи \"ящика с усами\". Есть смещение в сторону меньших значений, это можно исправить при помощи oversampling и undersampling." + ] + }, + { + "cell_type": "code", + "execution_count": 44, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Box plot для столбца 'Popularity'\n", + "plt.figure(figsize=(10, 6))\n", + "sns.boxplot(x=df['Popularity'])\n", + "plt.title('Box Plot для Popularity')\n", + "plt.xlabel('Popularity')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Решим проблему пустых значений при помощи удаления таких строк." + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [], + "source": [ + "df_cleaned = df.dropna()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разбиение набора данных на обучающую, контрольную и тестовую выборки" + ] + }, + { + "cell_type": "code", + "execution_count": 46, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: 8650\n", + "Размер контрольной выборки: 2884\n", + "Размер тестовой выборки: 2884\n" + ] + } + ], + "source": [ + "# Разделение на обучающую и тестовую выборки\n", + "train_df, test_df = train_test_split(df_cleaned, test_size=0.2, random_state=42)\n", + "\n", + "# Разделение обучающей выборки на обучающую и контрольную\n", + "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", + "\n", + "print(\"Размер обучающей выборки:\", len(train_df))\n", + "print(\"Размер контрольной выборки:\", len(val_df))\n", + "print(\"Размер тестовой выборки:\", len(test_df))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Оценка сбалансированности выборок, по результатам видно что баланса тут мало" + ] + }, + { + "cell_type": "code", + "execution_count": 47, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение Popularity в обучающей выборке:\n", + "Popularity\n", + "23 258\n", + "15 250\n", + "26 246\n", + "21 245\n", + "14 245\n", + " ... \n", + "84 1\n", + "87 1\n", + "91 1\n", + "79 1\n", + "86 1\n", + "Name: count, Length: 88, dtype: int64\n", + "\n", + "Распределение Popularity в контрольной выборке:\n", + "Popularity\n", + "17 90\n", + "26 86\n", + "21 83\n", + "24 83\n", + "28 80\n", + " ..\n", + "85 1\n", + "83 1\n", + "84 1\n", + "80 1\n", + "77 1\n", + "Name: count, Length: 85, dtype: int64\n", + "\n", + "Распределение Popularity в тестовой выборке:\n", + "Popularity\n", + "22 86\n", + "21 85\n", + "12 84\n", + "20 82\n", + "26 81\n", + " ..\n", + "76 2\n", + "71 2\n", + "79 1\n", + "82 1\n", + "80 1\n", + "Name: count, Length: 80, dtype: int64\n", + "\n" + ] + } + ], + "source": [ + "def check_balance(df, name):\n", + " counts = df['Popularity'].value_counts()\n", + " print(f\"Распределение Popularity в {name}:\")\n", + " print(counts)\n", + " print()\n", + "\n", + "check_balance(train_df, \"обучающей выборке\")\n", + "check_balance(val_df, \"контрольной выборке\")\n", + "check_balance(test_df, \"тестовой выборке\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выполним овер- и андер- слемпинг." + ] + }, + { + "cell_type": "code", + "execution_count": 48, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение Popularity в обучающей выборке после oversampling:\n", + "Popularity\n", + "44 258\n", + "20 258\n", + "30 258\n", + "27 258\n", + "8 258\n", + " ... \n", + "78 258\n", + "79 258\n", + "74 258\n", + "81 258\n", + "86 258\n", + "Name: count, Length: 88, dtype: int64\n", + "\n", + "Распределение Popularity в контрольной выборке после oversampling:\n", + "Popularity\n", + "21 90\n", + "11 90\n", + "28 90\n", + "23 90\n", + "37 90\n", + " ..\n", + "61 90\n", + "84 90\n", + "80 90\n", + "77 90\n", + "0 90\n", + "Name: count, Length: 85, dtype: int64\n", + "\n", + "Распределение Popularity в тестовой выборке после oversampling:\n", + "Popularity\n", + "14 86\n", + "47 86\n", + "27 86\n", + "13 86\n", + "66 86\n", + " ..\n", + "63 86\n", + "79 86\n", + "71 86\n", + "82 86\n", + "80 86\n", + "Name: count, Length: 80, dtype: int64\n", + "\n" + ] + } + ], + "source": [ + "def oversample(df):\n", + " X = df.drop('Popularity', axis=1)\n", + " y = df['Popularity']\n", + " \n", + " oversampler = RandomOverSampler(random_state=42)\n", + " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "train_df_oversampled = oversample(train_df)\n", + "val_df_oversampled = oversample(val_df)\n", + "test_df_oversampled = oversample(test_df)\n", + "\n", + "check_balance(train_df_oversampled, \"обучающей выборке после oversampling\")\n", + "check_balance(val_df_oversampled, \"контрольной выборке после oversampling\")\n", + "check_balance(test_df_oversampled, \"тестовой выборке после oversampling\")" + ] + }, + { + "cell_type": "code", + "execution_count": 50, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение Popularity в обучающей выборке после undersampling:\n", + "Popularity\n", + "0 1\n", + "1 1\n", + "2 1\n", + "3 1\n", + "4 1\n", + " ..\n", + "84 1\n", + "85 1\n", + "86 1\n", + "87 1\n", + "91 1\n", + "Name: count, Length: 88, dtype: int64\n", + "\n", + "Распределение Popularity в контрольной выборке после undersampling:\n", + "Popularity\n", + "0 1\n", + "1 1\n", + "2 1\n", + "3 1\n", + "4 1\n", + " ..\n", + "82 1\n", + "83 1\n", + "84 1\n", + "85 1\n", + "87 1\n", + "Name: count, Length: 85, dtype: int64\n", + "\n", + "Распределение Popularity в тестовой выборке после undersampling:\n", + "Popularity\n", + "0 1\n", + "1 1\n", + "2 1\n", + "3 1\n", + "4 1\n", + " ..\n", + "76 1\n", + "77 1\n", + "79 1\n", + "80 1\n", + "82 1\n", + "Name: count, Length: 80, dtype: int64\n", + "\n" + ] + } + ], + "source": [ + "def undersample(df):\n", + " X = df.drop('Popularity', axis=1)\n", + " y = df['Popularity']\n", + " \n", + " undersampler = RandomUnderSampler(random_state=42)\n", + " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "train_df_undersampled = undersample(train_df)\n", + "val_df_undersampled = undersample(val_df)\n", + "test_df_undersampled = undersample(test_df)\n", + "\n", + "check_balance(train_df_undersampled, \"обучающей выборке после undersampling\")\n", + "check_balance(val_df_undersampled, \"контрольной выборке после undersampling\")\n", + "check_balance(test_df_undersampled, \"тестовой выборке после undersampling\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Онлайн обучение**\n", + "\n", + "https://www.kaggle.com/datasets/shariful07/student-flexibility-in-online-learning\n", + "\n", + "\n", + "Этот набор данных предоставляет информацию о студентах и их характеристиках, связанных с обучением и использованием технологий. В данных представлены следующие атрибуты: уровень образования студента (например, бакалавриат, магистратура), тип учебного заведения (государственное или частное), пол, возраст, тип используемого устройства, является ли студент IT-специалистом, местоположение, финансовое состояние, тип интернета, тип сети и уровень гибкости в обучении. Эти данные могут быть использованы для анализа влияния различных факторов на успеваемость студентов, оптимизации образовательных программ и разработки стратегий поддержки студентов в условиях цифровизации образования." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Онлайн обучение\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Education Level', 'Institution Type', 'Gender', 'Age', 'Device',\n", + " 'IT Student', 'Location', 'Financial Condition', 'Internet Type',\n", + " 'Network Type', 'Flexibility Level'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "df = pd.read_csv(\"..//static//csv//students_adaptability_level_online_education.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "При помощи ящика с усами и колонки возраста проверим набор на баланс." + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Box plot для столбца 'Age'\n", + "plt.figure(figsize=(10, 6))\n", + "sns.boxplot(x=df['Age'])\n", + "plt.title('Box Plot для Age')\n", + "plt.xlabel('Age')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Теперь проверим на шум" + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "# Scatter plot для столбцов 'Age' и 'Financial Condition'\n", + "plt.figure(figsize=(10, 6))\n", + "sns.scatterplot(x='Age', y='Financial Condition', data=df)\n", + "plt.title('Scatter Plot для Age и Financial Condition')\n", + "plt.xlabel('Age')\n", + "plt.ylabel('Financial Condition')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Удаление строк с пустыми значениями" + ] + }, + { + "cell_type": "code", + "execution_count": 64, + "metadata": {}, + "outputs": [], + "source": [ + "df_cleaned = df.dropna()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разбиение набора данных на обучающую, контрольную и тестовую выборки" + ] + }, + { + "cell_type": "code", + "execution_count": 65, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Размер обучающей выборки: 723\n", + "Размер контрольной выборки: 241\n", + "Размер тестовой выборки: 241\n" + ] + } + ], + "source": [ + "# Разделение на обучающую и тестовую выборки\n", + "train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)\n", + "\n", + "# Разделение обучающей выборки на обучающую и контрольную\n", + "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", + "\n", + "print(\"Размер обучающей выборки:\", len(train_df))\n", + "print(\"Размер контрольной выборки:\", len(val_df))\n", + "print(\"Размер тестовой выборки:\", len(test_df))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Применение методов приращения данных (аугментации)" + ] + }, + { + "cell_type": "code", + "execution_count": 66, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Распределение Gender в обучающей выборке после oversampling:\n", + "Gender\n", + "Male 397\n", + "Female 397\n", + "Name: count, dtype: int64\n", + "\n", + "Распределение Gender в контрольной выборке после oversampling:\n", + "Gender\n", + "Male 140\n", + "Female 140\n", + "Name: count, dtype: int64\n", + "\n", + "Распределение Gender в тестовой выборке после oversampling:\n", + "Gender\n", + "Female 126\n", + "Male 126\n", + "Name: count, dtype: int64\n", + "\n", + "Распределение Gender в обучающей выборке после undersampling:\n", + "Gender\n", + "Female 326\n", + "Male 326\n", + "Name: count, dtype: int64\n", + "\n", + "Распределение Gender в контрольной выборке после undersampling:\n", + "Gender\n", + "Female 101\n", + "Male 101\n", + "Name: count, dtype: int64\n", + "\n", + "Распределение Gender в тестовой выборке после undersampling:\n", + "Gender\n", + "Female 115\n", + "Male 115\n", + "Name: count, dtype: int64\n", + "\n" + ] + } + ], + "source": [ + "# Разделение на обучающую и тестовую выборки\n", + "train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)\n", + "\n", + "# Разделение обучающей выборки на обучающую и контрольную\n", + "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", + "\n", + "def check_balance(df, name):\n", + " counts = df['Gender'].value_counts()\n", + " print(f\"Распределение Gender в {name}:\")\n", + " print(counts)\n", + " print()\n", + "\n", + "def oversample(df):\n", + " X = df.drop('Gender', axis=1)\n", + " y = df['Gender']\n", + " \n", + " oversampler = RandomOverSampler(random_state=42)\n", + " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "train_df_oversampled = oversample(train_df)\n", + "val_df_oversampled = oversample(val_df)\n", + "test_df_oversampled = oversample(test_df)\n", + "\n", + "check_balance(train_df_oversampled, \"обучающей выборке после oversampling\")\n", + "check_balance(val_df_oversampled, \"контрольной выборке после oversampling\")\n", + "check_balance(test_df_oversampled, \"тестовой выборке после oversampling\")\n", + "\n", + "def undersample(df):\n", + " X = df.drop('Gender', axis=1)\n", + " y = df['Gender']\n", + " \n", + " undersampler = RandomUnderSampler(random_state=42)\n", + " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", + " \n", + " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", + " return resampled_df\n", + "\n", + "train_df_undersampled = undersample(train_df)\n", + "val_df_undersampled = undersample(val_df)\n", + "test_df_undersampled = undersample(test_df)\n", + "\n", + "check_balance(train_df_undersampled, \"обучающей выборке после undersampling\")\n", + "check_balance(val_df_undersampled, \"контрольной выборке после undersampling\")\n", + "check_balance(test_df_undersampled, \"тестовой выборке после undersampling\")" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} From da01b7ab8fe173e6e8a7bd3535989f97376fa04b Mon Sep 17 00:00:00 2001 From: "a.puchkina" Date: Sat, 12 Oct 2024 15:52:04 +0400 Subject: [PATCH 2/3] =?UTF-8?q?=D1=80=D0=B8=D0=B4=D0=BC=D0=B8?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 724296a..90c8c3e 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,8 @@ # AIM-PIbd-32-Puchkina-A-A -МИИ \ No newline at end of file +## МИИ + +ФИО: Пучкина Анна\ +Группа: ПИбд-32\ +Вариант: 18 (Цена на мобильные устройства)\ +Сслыка на dataset: https://www.kaggle.com/datasets/dewangmoghe/mobile-phone-price-prediction \ No newline at end of file From ad2efbc759fb81959edc275b06dae6b08eda2713 Mon Sep 17 00:00:00 2001 From: "a.puchkina" Date: Sat, 12 Oct 2024 15:55:29 +0400 Subject: [PATCH 3/3] =?UTF-8?q?=D1=80=D0=B8=D0=B4=D0=BC=D0=B82?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 90c8c3e..0a33ff3 100644 --- a/README.md +++ b/README.md @@ -4,5 +4,7 @@ ФИО: Пучкина Анна\ Группа: ПИбд-32\ -Вариант: 18 (Цена на мобильные устройства)\ -Сслыка на dataset: https://www.kaggle.com/datasets/dewangmoghe/mobile-phone-price-prediction \ No newline at end of file +Ссылки на dataset: +1. https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge +2. https://www.kaggle.com/datasets/thebumpkin/14400-classic-rock-tracks-with-spotify-data +3. https://www.kaggle.com/datasets/shariful07/student-flexibility-in-online-learning \ No newline at end of file