84 lines
4.0 KiB
Markdown
84 lines
4.0 KiB
Markdown
|
# Лабораторная работа №3
|
|||
|
|
|||
|
> Деревья решений
|
|||
|
|
|||
|
### Как запустить лабораторную работу
|
|||
|
|
|||
|
1. Установить python, numpy, sklearn
|
|||
|
1. Для запуска на наборе данных первого задания `python titanic.py`
|
|||
|
1. Для запуска на наборе данных второго задания `python cars.py`
|
|||
|
|
|||
|
### Использованные технологии
|
|||
|
|
|||
|
* Язык программирования `python`
|
|||
|
* Библиотеки `numpy, sklearn`
|
|||
|
* Среда разработки `PyCharm`
|
|||
|
|
|||
|
### Что делает программа?
|
|||
|
|
|||
|
#### Часть 1
|
|||
|
|
|||
|
По данным о пассажирах Титаника решите задачу классификации (с помощью дерева решений), в которой по различным характеристикам пассажиров требуется найти у выживших пассажиров два наиболее важных признака из трех рассматриваемых (по варианту).
|
|||
|
|
|||
|
Вариант 18 Pclass, Age, Ticket.
|
|||
|
|
|||
|
Была использована модель DecisionTreeClassifier
|
|||
|
|
|||
|
#### Набор данных titanic.csv
|
|||
|
|
|||
|
![alt text](titanic.png "titanic results")
|
|||
|
|
|||
|
Оценка модели 0.68
|
|||
|
|
|||
|
2 ключевых параметра, выделенных моделью: Age, Ticket(Fare)
|
|||
|
|
|||
|
#### Часть 2
|
|||
|
|
|||
|
Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
|
|||
|
|
|||
|
#### Данные
|
|||
|
|
|||
|
Набор данных о машинах на вторичном рынке.
|
|||
|
> Ссылка на набор данных: https://www.kaggle.com/datasets/harikrishnareddyb/used-car-price-predictions
|
|||
|
|
|||
|
#### Цель
|
|||
|
|
|||
|
С помощью дерева решений классифицировать цену автомобилей
|
|||
|
|
|||
|
#### Модель
|
|||
|
|
|||
|
Модель использованная в ходе эксперимента DecisionTreeClassifier из пакета sklearn
|
|||
|
|
|||
|
#### Набор данных true_car_listings.csv
|
|||
|
|
|||
|
![alt text](cars.png "cars results")
|
|||
|
|
|||
|
Выбранный начальный набор параметров:
|
|||
|
|
|||
|
- Mileage
|
|||
|
- Year
|
|||
|
- Model
|
|||
|
|
|||
|
**Количество данных:**
|
|||
|
[30000 rows x 3 columns]
|
|||
|
|
|||
|
**Оценка:**
|
|||
|
0.01
|
|||
|
|
|||
|
**Важность параметров:**
|
|||
|
[0.8780813 0.04707369 0.074845 ]
|
|||
|
|
|||
|
Качество неудовлетворительное.
|
|||
|
|
|||
|
Параметр, имеющий самую большую значимость: Mileage(пробег)
|
|||
|
|
|||
|
### Вывод
|
|||
|
|
|||
|
Главный вывод работы, состоит в том, что модель DecisionTreeClassifier
|
|||
|
не подходит для решения 2 части данной задачи, поэтому решение не может быть применено на практике.
|
|||
|
|
|||
|
Причина низкой точности модели заключается в том, что цена автомобиля на вторичном рынке зависит не только от пробега,
|
|||
|
но и от множества других факторов, таких как кол-во аварий, общего состояние автомобиля и экономической обстановке на рынке -
|
|||
|
и эти фаткоры могут оказывать такое же существенное воздействие на конечную цену. Однако, можно сделать выводы по влиянию
|
|||
|
пробега автомобиля на его стоимость и использовать это в дальнейшем при реализации задач.
|