56 lines
3.6 KiB
Markdown
56 lines
3.6 KiB
Markdown
# Лабораторная работа №3
|
||
|
||
## ПИбд-41, Курмыза Павел
|
||
|
||
Датасет по варианту: https://www.kaggle.com/datasets/jessemostipak/hotel-booking-demand.
|
||
|
||
Данный набор данных содержит информацию о бронировании городской и курортной гостиниц и включает в себя такие
|
||
сведения, как время бронирования, продолжительность пребывания, количество взрослых, детей и/или младенцев, количество
|
||
свободных парковочных мест и т.д.
|
||
|
||
## Как запустить ЛР
|
||
|
||
- Запустить файл main.py
|
||
|
||
## Используемые технологии
|
||
|
||
- Язык программирования Python
|
||
- Библиотеки: sklearn, numpy, pandas, xgboost, matplotlib, seaborn
|
||
|
||
## Что делает программа
|
||
|
||
Программа решает задачу классификации на выбранном датасете: определение гостиничного класса отеля (городской отель или
|
||
курортный отель). Решение достигается в несколько этапов:
|
||
|
||
- Предобработка данных
|
||
- Балансировка данных
|
||
- Стандартизация данных и приведение их к виду, удобном для работы с моделями ML
|
||
- Использование нескольких моделей классификации
|
||
- Сравнение оценок и поиск наиболее подходящей модели
|
||
- Оценка специфичности наилучшей модели классификации
|
||
|
||
## Тестирование
|
||
|
||
Для решения задачи классификации были выбраны 3 модели: XGBClassifier, RandomForestClassifier, DecisionTreeClassifier.
|
||
|
||
Оценка точности моделей:
|
||
|
||
- XGBClassifier: 0.970565942395149
|
||
- RandomForestClassifier: 0.9901465386558869
|
||
- DecisionTreeClassifier: 0.9714502273875695
|
||
|
||
Оцека способности модели RandomForestClassifier предсказывать истинные положительные результаты (TP / (TP + FN)), также
|
||
известные как коэффициент чувствительности, и истинные отрицательные результаты (TN / (TN + FP)), также известный как
|
||
коэффициент специфичности через матрицу неточностей:
|
||
|
||
![Матрица неточностей](confusion_matrix.jpg)
|
||
|
||
Матрица неточностей подтверждает приведенную ранее оценку модели RandomForestClassifier. Кроме того, она указывает на
|
||
то, что помимо высокой точности, модель также имеет высокую специфичность.
|
||
|
||
## Вывод
|
||
|
||
По итогу тестирования было выявлено, что наилучше всего с задачей классификации данного набора данных справляется модель
|
||
RandomForestClassifier, так как имеет наивысшую оценку точности. Тем не менее, все из выбранных моделей показали высокие
|
||
результаты. Из этого следует, что задача классификации для данного набора решена.
|