{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Лабораторная работа №2" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [], "source": [ "import pandas as pd \n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from sklearn.model_selection import train_test_split\n", "from imblearn.over_sampling import RandomOverSampler\n", "from imblearn.under_sampling import RandomUnderSampler\n", "from sklearn.preprocessing import LabelEncoder\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **Цены на автомобили**\n", "https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge\n", "\n", "Этот набор данных предоставляет подробную информацию о продаже автомобилей, включая их уникальные идентификаторы, цены, сборы и налоги, а также характеристики производителя и модели. В данных представлены год производства, категория автомобиля, наличие кожаного салона, тип топлива, объем двигателя, пробег, количество цилиндров, тип коробки передач, привод, количество дверей, расположение руля, цвет и количество подушек безопасности. Эти данные могут быть использованы для анализа рынка автомобилей, прогнозирования цен на основе различных факторов, а также для изучения влияния технических и визуальных характеристик на стоимость автомобилей." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выгрузка данных из csv файла \"Цены на автомобили\" в датафрейм" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['ID', 'Price', 'Levy', 'Manufacturer', 'Model', 'Prod. year',\n", " 'Category', 'Leather interior', 'Fuel type', 'Engine volume', 'Mileage',\n", " 'Cylinders', 'Gear box type', 'Drive wheels', 'Doors', 'Wheel', 'Color',\n", " 'Airbags'],\n", " dtype='object')\n" ] } ], "source": [ "df1 = pd.read_csv(\"..//static//csv//car_price_prediction.csv\")\n", "print(df1.columns)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Преобразуем год производства в целочисленный тип\n", "df1['Prod. year'] = df1['Prod. year'].astype(int)\n", "\n", "# Визуализация данных\n", "plt.figure(figsize=(10, 6))\n", "plt.scatter(df1['Prod. year'], df1['Price'])\n", "plt.xlabel('Production Year')\n", "plt.ylabel('Price')\n", "plt.title('Scatter Plot of Price vs Production Year')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Зашумленность не очень высокая. Покрытие данных высокое и подошло бы для поставленной задачи по актуальности." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Выбросы:\n", " ID Price Levy Manufacturer Model Prod. year \\\n", "14 45732604 59464 891 HYUNDAI Santa FE 2016 \n", "36 45369569 51746 1077 TOYOTA CHR Limited 2019 \n", "47 45732544 55390 1017 HYUNDAI Santa FE 2017 \n", "56 44316016 87112 - MERCEDES-BENZ GLA 250 2019 \n", "73 45732043 53154 891 HYUNDAI Santa FE 2016 \n", "... ... ... ... ... ... ... \n", "19144 45733642 56814 1017 HYUNDAI Sonata 2017 \n", "19161 45677230 64290 - LEXUS RX 450 F SPORT 2012 \n", "19180 45803164 63886 1076 HYUNDAI Sonata 2020 \n", "19188 45571892 61154 579 TOYOTA RAV 4 2017 \n", "19211 45802856 50037 891 HYUNDAI Santa FE 2016 \n", "\n", " Category Leather interior Fuel type Engine volume Mileage Cylinders \\\n", "14 Jeep Yes Diesel 2 76000 km 4.0 \n", "36 Jeep No Petrol 2 10200 km 4.0 \n", "47 Jeep Yes Diesel 2 100734 km 4.0 \n", "56 Jeep Yes Petrol 2.0 Turbo 5323 km 4.0 \n", "73 Jeep Yes Diesel 2 84506 km 4.0 \n", "... ... ... ... ... ... ... \n", "19144 Sedan Yes Petrol 2 67365 km 4.0 \n", "19161 Jeep Yes Hybrid 3.5 97000 km 6.0 \n", "19180 Sedan Yes LPG 2 5305 km 4.0 \n", "19188 Jeep No Hybrid 2.5 71234 km 4.0 \n", "19211 Jeep Yes Diesel 2 121902 km 4.0 \n", "\n", " Gear box type Drive wheels Doors Wheel Color Airbags \n", "14 Automatic Front 04-May Left wheel White 4 \n", "36 Tiptronic Front 04-May Left wheel Red 12 \n", "47 Automatic Front 04-May Left wheel Black 4 \n", "56 Tiptronic 4x4 04-May Left wheel Grey 0 \n", "73 Automatic Front 04-May Left wheel Silver 4 \n", "... ... ... ... ... ... ... \n", "19144 Automatic Front 04-May Left wheel Black 4 \n", "19161 Variator 4x4 04-May Left wheel Black 12 \n", "19180 Automatic Front 04-May Left wheel Silver 4 \n", "19188 Tiptronic 4x4 04-May Left wheel White 12 \n", "19211 Automatic Front 04-May Left wheel Black 4 \n", "\n", "[1073 rows x 18 columns]\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Преобразуем год производства в целочисленный тип\n", "df1['Prod. year'] = df1['Prod. year'].astype(int)\n", "\n", "# Статистический анализ для определения выбросов\n", "Q1 = df1['Price'].quantile(0.25)\n", "Q3 = df1['Price'].quantile(0.75)\n", "IQR = Q3 - Q1\n", "\n", "# Определение порога для выбросов\n", "threshold = 1.5 * IQR\n", "outliers = (df1['Price'] < (Q1 - threshold)) | (df1['Price'] > (Q3 + threshold))\n", "\n", "# Вывод выбросов\n", "print(\"Выбросы:\")\n", "print(df1[outliers])\n", "\n", "# Обработка выбросов\n", "# В данном случае мы заменим выбросы на медианное значение\n", "median_price = df1['Price'].median()\n", "df1.loc[outliers, 'Price'] = median_price\n", "\n", "# Визуализация данных после обработки\n", "plt.figure(figsize=(10, 6))\n", "plt.scatter(df1['Prod. year'], df1['Price'])\n", "plt.xlabel('Production Year')\n", "plt.ylabel('Price')\n", "plt.title('Scatter Plot of Price vs Production Year (After Handling Outliers)')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Очистим от строк с пустыми значениями наш датасет" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Количество удаленных строк: 0\n", "\n", "DataFrame после удаления строк с пропущенными значениями:\n", " ID Price Levy Manufacturer Model Prod. year Category \\\n", "0 45654403 13328 1399 LEXUS RX 450 2010 Jeep \n", "1 44731507 16621 1018 CHEVROLET Equinox 2011 Jeep \n", "2 45774419 8467 - HONDA FIT 2006 Hatchback \n", "3 45769185 3607 862 FORD Escape 2011 Jeep \n", "4 45809263 11726 446 HONDA FIT 2014 Hatchback \n", "... ... ... ... ... ... ... ... \n", "19232 45798355 8467 - MERCEDES-BENZ CLK 200 1999 Coupe \n", "19233 45778856 15681 831 HYUNDAI Sonata 2011 Sedan \n", "19234 45804997 26108 836 HYUNDAI Tucson 2010 Jeep \n", "19235 45793526 5331 1288 CHEVROLET Captiva 2007 Jeep \n", "19236 45813273 470 753 HYUNDAI Sonata 2012 Sedan \n", "\n", " Leather interior Fuel type Engine volume Mileage Cylinders \\\n", "0 Yes Hybrid 3.5 186005 km 6.0 \n", "1 No Petrol 3 192000 km 6.0 \n", "2 No Petrol 1.3 200000 km 4.0 \n", "3 Yes Hybrid 2.5 168966 km 4.0 \n", "4 Yes Petrol 1.3 91901 km 4.0 \n", "... ... ... ... ... ... \n", "19232 Yes CNG 2.0 Turbo 300000 km 4.0 \n", "19233 Yes Petrol 2.4 161600 km 4.0 \n", "19234 Yes Diesel 2 116365 km 4.0 \n", "19235 Yes Diesel 2 51258 km 4.0 \n", "19236 Yes Hybrid 2.4 186923 km 4.0 \n", "\n", " Gear box type Drive wheels Doors Wheel Color Airbags \n", "0 Automatic 4x4 04-May Left wheel Silver 12 \n", "1 Tiptronic 4x4 04-May Left wheel Black 8 \n", "2 Variator Front 04-May Right-hand drive Black 2 \n", "3 Automatic 4x4 04-May Left wheel White 0 \n", "4 Automatic Front 04-May Left wheel Silver 4 \n", "... ... ... ... ... ... ... \n", "19232 Manual Rear 02-Mar Left wheel Silver 5 \n", "19233 Tiptronic Front 04-May Left wheel Red 8 \n", "19234 Automatic Front 04-May Left wheel Grey 4 \n", "19235 Automatic Front 04-May Left wheel Black 4 \n", "19236 Automatic Front 04-May Left wheel White 12 \n", "\n", "[19237 rows x 18 columns]\n" ] } ], "source": [ "# Удаление строк с пропущенными значениями\n", "df_dropna = df1.dropna()\n", "\n", "# Вывод количества удаленных строк\n", "num_deleted_rows = len(df1) - len(df_dropna)\n", "print(f\"\\nКоличество удаленных строк: {num_deleted_rows}\")\n", "\n", "print(\"\\nDataFrame после удаления строк с пропущенными значениями:\")\n", "print(df_dropna)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь создадим выборки" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: 11542\n", "Размер контрольной выборки: 3847\n", "Размер тестовой выборки: 3848\n" ] } ], "source": [ "# Загрузка данных\n", "df = pd.read_csv(\"..//static//csv//car_price_prediction.csv\")\n", "\n", "# Разделение данных на обучающую и временную выборки\n", "train_df, temp_df = train_test_split(df, test_size=0.4, random_state=42)\n", "\n", "# Разделение остатка на контрольную и тестовую выборки\n", "val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)\n", "\n", "# Проверка размеров выборок\n", "print(\"Размер обучающей выборки:\", len(train_df))\n", "print(\"Размер контрольной выборки:\", len(val_df))\n", "print(\"Размер тестовой выборки:\", len(test_df))\n", "\n", "# Сохранение выборок в файлы\n", "train_df.to_csv(\"..//static//csv//train_data.csv\", index=False)\n", "val_df.to_csv(\"..//static//csv//val_data.csv\", index=False)\n", "test_df.to_csv(\"..//static//csv//test_data.csv\", index=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Проанализируем сбалансированность выборок" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение Category в обучающей выборке:\n", "Category\n", "Sedan 5289\n", "Jeep 3246\n", "Hatchback 1684\n", "Minivan 396\n", "Coupe 318\n", "Universal 216\n", "Microbus 184\n", "Goods wagon 151\n", "Pickup 31\n", "Cabriolet 20\n", "Limousine 7\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 45.82%\n", "Процент автомобилей категории 'Джип': 28.12%\n", "\n", "Распределение Category в контрольной выборке:\n", "Category\n", "Sedan 1697\n", "Jeep 1109\n", "Hatchback 608\n", "Minivan 129\n", "Coupe 105\n", "Universal 73\n", "Microbus 57\n", "Goods wagon 42\n", "Pickup 17\n", "Cabriolet 9\n", "Limousine 1\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 44.11%\n", "Процент автомобилей категории 'Джип': 28.83%\n", "\n", "Распределение Category в тестовой выборке:\n", "Category\n", "Sedan 1750\n", "Jeep 1118\n", "Hatchback 555\n", "Minivan 122\n", "Coupe 109\n", "Universal 75\n", "Microbus 65\n", "Goods wagon 40\n", "Cabriolet 7\n", "Pickup 4\n", "Limousine 3\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 45.48%\n", "Процент автомобилей категории 'Джип': 29.05%\n", "\n", "Необходима аугментация данных для балансировки классов.\n", "Необходима аугментация данных для балансировки классов.\n", "Необходима аугментация данных для балансировки классов.\n" ] } ], "source": [ "train_df = pd.read_csv(\"..//static//csv//train_data.csv\")\n", "val_df = pd.read_csv(\"..//static//csv//val_data.csv\")\n", "test_df = pd.read_csv(\"..//static//csv//test_data.csv\")\n", "\n", "# Оценка сбалансированности\n", "def check_balance(df, name):\n", " counts = df['Category'].value_counts()\n", " print(f\"Распределение Category в {name}:\")\n", " print(counts)\n", " print(f\"Процент автомобилей категории 'Седан': {counts['Sedan'] / len(df) * 100:.2f}%\")\n", " print(f\"Процент автомобилей категории 'Джип': {counts['Jeep'] / len(df) * 100:.2f}%\")\n", " print()\n", "\n", "# Определение необходимости аугментации данных\n", "def need_augmentation(df):\n", " counts = df['Category'].value_counts()\n", " ratio = counts['Sedan'] / counts['Jeep']\n", " if ratio > 1.5 or ratio < 0.67:\n", " print(\"Необходима аугментация данных для балансировки классов.\")\n", " else:\n", " print(\"Аугментация данных не требуется.\")\n", " \n", "check_balance(train_df, \"обучающей выборке\")\n", "check_balance(val_df, \"контрольной выборке\")\n", "check_balance(test_df, \"тестовой выборке\")\n", "\n", "need_augmentation(train_df)\n", "need_augmentation(val_df)\n", "need_augmentation(test_df)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "По результатам анализа требуется приращение, соотношения отзывов вне допустимого диапазона" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Оверсэмплинг:\n", "Распределение Category в обучающей выборке:\n", "Category\n", "Jeep 5289\n", "Hatchback 5289\n", "Sedan 5289\n", "Goods wagon 5289\n", "Cabriolet 5289\n", "Universal 5289\n", "Minivan 5289\n", "Microbus 5289\n", "Coupe 5289\n", "Pickup 5289\n", "Limousine 5289\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n", "Распределение Category в контрольной выборке:\n", "Category\n", "Jeep 1697\n", "Sedan 1697\n", "Minivan 1697\n", "Coupe 1697\n", "Hatchback 1697\n", "Goods wagon 1697\n", "Universal 1697\n", "Microbus 1697\n", "Pickup 1697\n", "Cabriolet 1697\n", "Limousine 1697\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n", "Распределение Category в тестовой выборке:\n", "Category\n", "Jeep 1750\n", "Hatchback 1750\n", "Sedan 1750\n", "Coupe 1750\n", "Minivan 1750\n", "Goods wagon 1750\n", "Microbus 1750\n", "Universal 1750\n", "Cabriolet 1750\n", "Pickup 1750\n", "Limousine 1750\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n", "Андерсэмплинг:\n", "Распределение Category в обучающей выборке:\n", "Category\n", "Cabriolet 7\n", "Coupe 7\n", "Goods wagon 7\n", "Hatchback 7\n", "Jeep 7\n", "Limousine 7\n", "Microbus 7\n", "Minivan 7\n", "Pickup 7\n", "Sedan 7\n", "Universal 7\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n", "Распределение Category в контрольной выборке:\n", "Category\n", "Cabriolet 1\n", "Coupe 1\n", "Goods wagon 1\n", "Hatchback 1\n", "Jeep 1\n", "Limousine 1\n", "Microbus 1\n", "Minivan 1\n", "Pickup 1\n", "Sedan 1\n", "Universal 1\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n", "Распределение Category в тестовой выборке:\n", "Category\n", "Cabriolet 3\n", "Coupe 3\n", "Goods wagon 3\n", "Hatchback 3\n", "Jeep 3\n", "Limousine 3\n", "Microbus 3\n", "Minivan 3\n", "Pickup 3\n", "Sedan 3\n", "Universal 3\n", "Name: count, dtype: int64\n", "Процент автомобилей категории 'Седан': 9.09%\n", "Процент автомобилей категории 'Джип': 9.09%\n", "\n" ] } ], "source": [ "# Загрузка данных\n", "train_df = pd.read_csv(\"..//static//csv//train_data.csv\")\n", "val_df = pd.read_csv(\"..//static//csv//val_data.csv\")\n", "test_df = pd.read_csv(\"..//static//csv//test_data.csv\")\n", "\n", "# Преобразование категориальных признаков в числовые\n", "def encode(df):\n", " label_encoders = {}\n", " for column in df.select_dtypes(include=['object']).columns:\n", " if column != 'Category': # Пропускаем целевую переменную\n", " le = LabelEncoder()\n", " df[column] = le.fit_transform(df[column])\n", " label_encoders[column] = le\n", " return label_encoders\n", "\n", "# Преобразование целевой переменной в числовые значения\n", "def encode_target(df):\n", " le = LabelEncoder()\n", " df['Category'] = le.fit_transform(df['Category'])\n", " return le\n", "\n", "# Применение кодирования\n", "label_encoders = encode(train_df)\n", "encode(val_df)\n", "encode(test_df)\n", "\n", "# Кодирование целевой переменной\n", "le_target = encode_target(train_df)\n", "encode_target(val_df)\n", "encode_target(test_df)\n", "\n", "# Проверка типов данных\n", "def check_data_types(df):\n", " for column in df.columns:\n", " if df[column].dtype == 'object':\n", " print(f\"Столбец '{column}' содержит строковые данные.\")\n", "\n", "check_data_types(train_df)\n", "check_data_types(val_df)\n", "check_data_types(test_df)\n", "\n", "# Функция для выполнения oversampling\n", "def oversample(df):\n", " if 'Category' not in df.columns:\n", " print(\"Столбец 'Category' отсутствует.\")\n", " return df\n", " \n", " X = df.drop('Category', axis=1)\n", " y = df['Category']\n", " \n", " oversampler = RandomOverSampler(random_state=42)\n", " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "# Функция для выполнения undersampling\n", "def undersample(df):\n", " if 'Category' not in df.columns:\n", " print(\"Столбец 'Category' отсутствует.\")\n", " return df\n", " \n", " X = df.drop('Category', axis=1)\n", " y = df['Category']\n", " \n", " undersampler = RandomUnderSampler(random_state=42)\n", " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "# Применение oversampling и undersampling к каждой выборке\n", "train_df_oversampled = oversample(train_df)\n", "val_df_oversampled = oversample(val_df)\n", "test_df_oversampled = oversample(test_df)\n", "\n", "train_df_undersampled = undersample(train_df)\n", "val_df_undersampled = undersample(val_df)\n", "test_df_undersampled = undersample(test_df)\n", "\n", "# Обратное преобразование целевой переменной в строковые метки\n", "def decode_target(df, le_target):\n", " df['Category'] = le_target.inverse_transform(df['Category'])\n", "\n", "decode_target(train_df_oversampled, le_target)\n", "decode_target(val_df_oversampled, le_target)\n", "decode_target(test_df_oversampled, le_target)\n", "\n", "decode_target(train_df_undersampled, le_target)\n", "decode_target(val_df_undersampled, le_target)\n", "decode_target(test_df_undersampled, le_target)\n", "\n", "# Проверка результатов\n", "def check_balance(df, name):\n", " if 'Category' not in df.columns:\n", " print(f\"Столбец 'Category' отсутствует в {name}.\")\n", " return\n", " \n", " counts = df['Category'].value_counts()\n", " print(f\"Распределение Category в {name}:\")\n", " print(counts)\n", " \n", " if 'Sedan' in counts and 'Jeep' in counts:\n", " print(f\"Процент автомобилей категории 'Седан': {counts['Sedan'] / len(df) * 100:.2f}%\")\n", " print(f\"Процент автомобилей категории 'Джип': {counts['Jeep'] / len(df) * 100:.2f}%\")\n", " else:\n", " print(\"Отсутствуют одна или обе категории (Седан/Внедорожник).\")\n", " print()\n", "\n", "# Проверка сбалансированности после oversampling\n", "print(\"Оверсэмплинг:\")\n", "check_balance(train_df_oversampled, \"обучающей выборке\")\n", "check_balance(val_df_oversampled, \"контрольной выборке\")\n", "check_balance(test_df_oversampled, \"тестовой выборке\")\n", "\n", "# Проверка сбалансированности после undersampling\n", "print(\"Андерсэмплинг:\")\n", "check_balance(train_df_undersampled, \"обучающей выборке\")\n", "check_balance(val_df_undersampled, \"контрольной выборке\")\n", "check_balance(test_df_undersampled, \"тестовой выборке\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **Классические рок-треки (по данным Spotify)**\n", "https://www.kaggle.com/datasets/thebumpkin/14400-classic-rock-tracks-with-spotify-data\n", "\n", " Этот набор данных, содержащий 1200 уникальных альбомов и 14 400 треков, представляет собой не просто коллекцию — это хроника эволюции классического рока. Каждый трек тщательно каталогизирован с 18 столбцами данных, включая ключевые метаданные, такие как название трека, исполнитель, альбом и год выпуска, наряду с функциями Spotify audio, которые позволяют получить представление о звуковом ландшафте этих неподвластных времени мелодий. Бизнес-цель может заключаться в улучшении стратегии маркетинга и продвижения музыкальных треков. Предположим как этот набор может быть полезен для бизнеса: Персонализированные рекомендации: Создание алгоритмов, которые будут рекомендовать пользователям музыку на основе их предпочтений. Цель технического проекта: Разработать и внедрить систему рекомендаций, которая будет предсказывать и рекомендовать пользователям музыкальные треки на основе их предпочтений и поведения. Входные данные: Данные о пользователях: Идентификатор пользователя, история прослушиваний, оценки треков, время прослушивания, частота прослушивания. Данные о треках: Атрибуты треков (название, исполнитель, альбом, год, длительность, танцевальность, энергичность, акустичность и т.д.). Данные о взаимодействии: Время и частота взаимодействия пользователя с определенными треками. Целевой признак: Рекомендации: Булева переменная, указывающая, должен ли конкретный трек быть рекомендован пользователю (1 - рекомендуется, 0 - не рекомендуется)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выгрузка данных из csv файла \"Данные о клиентах\" в датафрейм" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['Track', 'Artist', 'Album', 'Year', 'Duration', 'Time_Signature',\n", " 'Danceability', 'Energy', 'Key', 'Loudness', 'Mode', 'Speechiness',\n", " 'Acousticness', 'Instrumentalness', 'Liveness', 'Valence', 'Tempo',\n", " 'Popularity'],\n", " dtype='object')\n" ] } ], "source": [ "df = pd.read_csv(\"..//static//csv//UltimateClassicRock.csv\")\n", "print(df.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Анализируем датафрейм при помощи \"ящика с усами\". Есть смещение в сторону меньших значений, это можно исправить при помощи oversampling и undersampling." ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Box plot для столбца 'Popularity'\n", "plt.figure(figsize=(10, 6))\n", "sns.boxplot(x=df['Popularity'])\n", "plt.title('Box Plot для Popularity')\n", "plt.xlabel('Popularity')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Решим проблему пустых значений при помощи удаления таких строк." ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [], "source": [ "df_cleaned = df.dropna()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Разбиение набора данных на обучающую, контрольную и тестовую выборки" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: 8650\n", "Размер контрольной выборки: 2884\n", "Размер тестовой выборки: 2884\n" ] } ], "source": [ "# Разделение на обучающую и тестовую выборки\n", "train_df, test_df = train_test_split(df_cleaned, test_size=0.2, random_state=42)\n", "\n", "# Разделение обучающей выборки на обучающую и контрольную\n", "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", "\n", "print(\"Размер обучающей выборки:\", len(train_df))\n", "print(\"Размер контрольной выборки:\", len(val_df))\n", "print(\"Размер тестовой выборки:\", len(test_df))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Оценка сбалансированности выборок, по результатам видно что баланса тут мало" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение Popularity в обучающей выборке:\n", "Popularity\n", "23 258\n", "15 250\n", "26 246\n", "21 245\n", "14 245\n", " ... \n", "84 1\n", "87 1\n", "91 1\n", "79 1\n", "86 1\n", "Name: count, Length: 88, dtype: int64\n", "\n", "Распределение Popularity в контрольной выборке:\n", "Popularity\n", "17 90\n", "26 86\n", "21 83\n", "24 83\n", "28 80\n", " ..\n", "85 1\n", "83 1\n", "84 1\n", "80 1\n", "77 1\n", "Name: count, Length: 85, dtype: int64\n", "\n", "Распределение Popularity в тестовой выборке:\n", "Popularity\n", "22 86\n", "21 85\n", "12 84\n", "20 82\n", "26 81\n", " ..\n", "76 2\n", "71 2\n", "79 1\n", "82 1\n", "80 1\n", "Name: count, Length: 80, dtype: int64\n", "\n" ] } ], "source": [ "def check_balance(df, name):\n", " counts = df['Popularity'].value_counts()\n", " print(f\"Распределение Popularity в {name}:\")\n", " print(counts)\n", " print()\n", "\n", "check_balance(train_df, \"обучающей выборке\")\n", "check_balance(val_df, \"контрольной выборке\")\n", "check_balance(test_df, \"тестовой выборке\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выполним овер- и андер- слемпинг." ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение Popularity в обучающей выборке после oversampling:\n", "Popularity\n", "44 258\n", "20 258\n", "30 258\n", "27 258\n", "8 258\n", " ... \n", "78 258\n", "79 258\n", "74 258\n", "81 258\n", "86 258\n", "Name: count, Length: 88, dtype: int64\n", "\n", "Распределение Popularity в контрольной выборке после oversampling:\n", "Popularity\n", "21 90\n", "11 90\n", "28 90\n", "23 90\n", "37 90\n", " ..\n", "61 90\n", "84 90\n", "80 90\n", "77 90\n", "0 90\n", "Name: count, Length: 85, dtype: int64\n", "\n", "Распределение Popularity в тестовой выборке после oversampling:\n", "Popularity\n", "14 86\n", "47 86\n", "27 86\n", "13 86\n", "66 86\n", " ..\n", "63 86\n", "79 86\n", "71 86\n", "82 86\n", "80 86\n", "Name: count, Length: 80, dtype: int64\n", "\n" ] } ], "source": [ "def oversample(df):\n", " X = df.drop('Popularity', axis=1)\n", " y = df['Popularity']\n", " \n", " oversampler = RandomOverSampler(random_state=42)\n", " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "train_df_oversampled = oversample(train_df)\n", "val_df_oversampled = oversample(val_df)\n", "test_df_oversampled = oversample(test_df)\n", "\n", "check_balance(train_df_oversampled, \"обучающей выборке после oversampling\")\n", "check_balance(val_df_oversampled, \"контрольной выборке после oversampling\")\n", "check_balance(test_df_oversampled, \"тестовой выборке после oversampling\")" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение Popularity в обучающей выборке после undersampling:\n", "Popularity\n", "0 1\n", "1 1\n", "2 1\n", "3 1\n", "4 1\n", " ..\n", "84 1\n", "85 1\n", "86 1\n", "87 1\n", "91 1\n", "Name: count, Length: 88, dtype: int64\n", "\n", "Распределение Popularity в контрольной выборке после undersampling:\n", "Popularity\n", "0 1\n", "1 1\n", "2 1\n", "3 1\n", "4 1\n", " ..\n", "82 1\n", "83 1\n", "84 1\n", "85 1\n", "87 1\n", "Name: count, Length: 85, dtype: int64\n", "\n", "Распределение Popularity в тестовой выборке после undersampling:\n", "Popularity\n", "0 1\n", "1 1\n", "2 1\n", "3 1\n", "4 1\n", " ..\n", "76 1\n", "77 1\n", "79 1\n", "80 1\n", "82 1\n", "Name: count, Length: 80, dtype: int64\n", "\n" ] } ], "source": [ "def undersample(df):\n", " X = df.drop('Popularity', axis=1)\n", " y = df['Popularity']\n", " \n", " undersampler = RandomUnderSampler(random_state=42)\n", " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "train_df_undersampled = undersample(train_df)\n", "val_df_undersampled = undersample(val_df)\n", "test_df_undersampled = undersample(test_df)\n", "\n", "check_balance(train_df_undersampled, \"обучающей выборке после undersampling\")\n", "check_balance(val_df_undersampled, \"контрольной выборке после undersampling\")\n", "check_balance(test_df_undersampled, \"тестовой выборке после undersampling\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### **Онлайн обучение**\n", "\n", "https://www.kaggle.com/datasets/shariful07/student-flexibility-in-online-learning\n", "\n", "\n", "Этот набор данных предоставляет информацию о студентах и их характеристиках, связанных с обучением и использованием технологий. В данных представлены следующие атрибуты: уровень образования студента (например, бакалавриат, магистратура), тип учебного заведения (государственное или частное), пол, возраст, тип используемого устройства, является ли студент IT-специалистом, местоположение, финансовое состояние, тип интернета, тип сети и уровень гибкости в обучении. Эти данные могут быть использованы для анализа влияния различных факторов на успеваемость студентов, оптимизации образовательных программ и разработки стратегий поддержки студентов в условиях цифровизации образования." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Выгрузка данных из csv файла \"Онлайн обучение\" в датафрейм" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['Education Level', 'Institution Type', 'Gender', 'Age', 'Device',\n", " 'IT Student', 'Location', 'Financial Condition', 'Internet Type',\n", " 'Network Type', 'Flexibility Level'],\n", " dtype='object')\n" ] } ], "source": [ "df = pd.read_csv(\"..//static//csv//students_adaptability_level_online_education.csv\")\n", "print(df.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "При помощи ящика с усами и колонки возраста проверим набор на баланс." ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Box plot для столбца 'Age'\n", "plt.figure(figsize=(10, 6))\n", "sns.boxplot(x=df['Age'])\n", "plt.title('Box Plot для Age')\n", "plt.xlabel('Age')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь проверим на шум" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Scatter plot для столбцов 'Age' и 'Financial Condition'\n", "plt.figure(figsize=(10, 6))\n", "sns.scatterplot(x='Age', y='Financial Condition', data=df)\n", "plt.title('Scatter Plot для Age и Financial Condition')\n", "plt.xlabel('Age')\n", "plt.ylabel('Financial Condition')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Удаление строк с пустыми значениями" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [], "source": [ "df_cleaned = df.dropna()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Разбиение набора данных на обучающую, контрольную и тестовую выборки" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Размер обучающей выборки: 723\n", "Размер контрольной выборки: 241\n", "Размер тестовой выборки: 241\n" ] } ], "source": [ "# Разделение на обучающую и тестовую выборки\n", "train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)\n", "\n", "# Разделение обучающей выборки на обучающую и контрольную\n", "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", "\n", "print(\"Размер обучающей выборки:\", len(train_df))\n", "print(\"Размер контрольной выборки:\", len(val_df))\n", "print(\"Размер тестовой выборки:\", len(test_df))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Применение методов приращения данных (аугментации)" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Распределение Gender в обучающей выборке после oversampling:\n", "Gender\n", "Male 397\n", "Female 397\n", "Name: count, dtype: int64\n", "\n", "Распределение Gender в контрольной выборке после oversampling:\n", "Gender\n", "Male 140\n", "Female 140\n", "Name: count, dtype: int64\n", "\n", "Распределение Gender в тестовой выборке после oversampling:\n", "Gender\n", "Female 126\n", "Male 126\n", "Name: count, dtype: int64\n", "\n", "Распределение Gender в обучающей выборке после undersampling:\n", "Gender\n", "Female 326\n", "Male 326\n", "Name: count, dtype: int64\n", "\n", "Распределение Gender в контрольной выборке после undersampling:\n", "Gender\n", "Female 101\n", "Male 101\n", "Name: count, dtype: int64\n", "\n", "Распределение Gender в тестовой выборке после undersampling:\n", "Gender\n", "Female 115\n", "Male 115\n", "Name: count, dtype: int64\n", "\n" ] } ], "source": [ "# Разделение на обучающую и тестовую выборки\n", "train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)\n", "\n", "# Разделение обучающей выборки на обучающую и контрольную\n", "train_df, val_df = train_test_split(train_df, test_size=0.25, random_state=42)\n", "\n", "def check_balance(df, name):\n", " counts = df['Gender'].value_counts()\n", " print(f\"Распределение Gender в {name}:\")\n", " print(counts)\n", " print()\n", "\n", "def oversample(df):\n", " X = df.drop('Gender', axis=1)\n", " y = df['Gender']\n", " \n", " oversampler = RandomOverSampler(random_state=42)\n", " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "train_df_oversampled = oversample(train_df)\n", "val_df_oversampled = oversample(val_df)\n", "test_df_oversampled = oversample(test_df)\n", "\n", "check_balance(train_df_oversampled, \"обучающей выборке после oversampling\")\n", "check_balance(val_df_oversampled, \"контрольной выборке после oversampling\")\n", "check_balance(test_df_oversampled, \"тестовой выборке после oversampling\")\n", "\n", "def undersample(df):\n", " X = df.drop('Gender', axis=1)\n", " y = df['Gender']\n", " \n", " undersampler = RandomUnderSampler(random_state=42)\n", " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", " \n", " resampled_df = pd.concat([X_resampled, y_resampled], axis=1)\n", " return resampled_df\n", "\n", "train_df_undersampled = undersample(train_df)\n", "val_df_undersampled = undersample(val_df)\n", "test_df_undersampled = undersample(test_df)\n", "\n", "check_balance(train_df_undersampled, \"обучающей выборке после undersampling\")\n", "check_balance(val_df_undersampled, \"контрольной выборке после undersampling\")\n", "check_balance(test_df_undersampled, \"тестовой выборке после undersampling\")" ] } ], "metadata": { "kernelspec": { "display_name": "aimenv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.12.5" } }, "nbformat": 4, "nbformat_minor": 2 }