2023-10-28 11:48:34 +04:00
4 changed files with 119484 additions and 0 deletions
--- a/kurmyza_pavel_lab_4/README.md
+++ b/kurmyza_pavel_lab_4/README.md
@ -0,0 +1,46 @@
 # Лабораторная работа №4
 ## ПИбд-41, Курмыза Павел
 Датасет по варианту: https://www.kaggle.com/datasets/jessemostipak/hotel-booking-demand.
 Данный набор данных содержит информацию о бронировании городской и курортной гостиниц и включает в себя такие
 сведения, как время бронирования, продолжительность пребывания, количество взрослых, детей и/или младенцев, количество
 свободных парковочных мест и т.д.
 ## Как запустить ЛР
 - Запустить файл main.py
 ## Используемые технологии
 - Язык программирования Python
 - Библиотеки: sklearn, numpy, pandas
 ## Что делает программа
 Программа решает задачу регрессии на выбранном датасете: предсказание возможности бронирования номера в отеле
 определенного типа (курортный отель или гостиничный). Решение достигается в несколько этапов:
 - Предобработка данных
 - Стандартизация данных и приведение их к виду, удобном для работы с моделями ML
 - Использование модели логистической регрессии
 - Оценка точности модели для решения данной задачи
 ## Тестирование
 Для решения задачи регрессии была выбрана модель LogisticRegression.
 LogisticRegression - это статистическая модель, которая в своей базовой форме использует логистическую функцию для
 моделирования двоичной зависимой переменной. В анализе регрессии, логистическая регрессия оценивает параметры
 логистической модели (вид бинарной регрессии).
 Оценка точности модели:
 ![Отчет](report.jpg)
 ## Вывод
 По итогу тестирования было выявлено, что данная модель может быть использована для решения задачи предсказания
 возможности бронирования номера в отеле определенного типа. Однако, оценка точности модели и матрица неточностей
 указывают на то, что в 20-30% случаев модель будет ошибаться. 
--- a/kurmyza_pavel_lab_4/hotel_bookings.csv
+++ b/kurmyza_pavel_lab_4/hotel_bookings.csv
--- a/kurmyza_pavel_lab_4/main.py
+++ b/kurmyza_pavel_lab_4/main.py
@ -0,0 +1,47 @@
 import pandas as pd
 from sklearn.metrics import accuracy_score, confusion_matrix
 from sklearn.metrics import classification_report
 from sklearn.preprocessing import LabelEncoder
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LogisticRegression
 # Считываем данные датасета
 data = pd.read_csv('hotel_bookings.csv')
 # Удаляем столбцы, содержащие неопределенные данные
 data = data.drop(['country', 'agent', 'company'], axis=1)
 data = data.dropna()
 # Находим категориальные признаки
 list_1 = list(data.columns)
 list_cate = []
 for i in list_1:
    if data[i].dtype == 'object':
        list_cate.append(i)
 # Производим кодирование признаков в числовой формат для того, чтобы модель могла с ними работать
 le = LabelEncoder()
 for i in list_cate:
    data[i] = le.fit_transform(data[i])
 # Исключаем тип отеля из набора входных данных
 y = data['hotel']
 x = data.drop('hotel', axis=1)
 # Выделяем данные для обучения и тестирования
 x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0, test_size=0.2)
 # Создаем и обучаем модель логистической регрессии
 reg = LogisticRegression()
 reg.fit(x_train, y_train)
 # Используем модель на тестовой выборке и оцениваем точность
 y_pred_reg = reg.predict(x_test)
 acc_reg = accuracy_score(y_test, y_pred_reg)
 # Выводим результаты оценки точности и обучения
 print("Classification Report is:\n", classification_report(y_test, y_pred_reg))
 print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_reg))
 print("\nTraining Score:", reg.score(x_train, y_train) * 100)
 print(f"Accuracy Score of Logistic Regression is {acc_reg}")
--- a/kurmyza_pavel_lab_4/report.jpg
+++ b/kurmyza_pavel_lab_4/report.jpg