IIS_2023_1/malkova_anastasia_lab_3/README.md
2023-11-11 22:55:33 +04:00

84 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа №3
> Деревья решений
### Как запустить лабораторную работу
1. Установить python, numpy, sklearn
1. Для запуска на наборе данных первого задания `python titanic.py`
1. Для запуска на наборе данных второго задания `python cars.py`
### Использованные технологии
* Язык программирования `python`
* Библиотеки `numpy, sklearn`
* Среда разработки `PyCharm`
### Что делает программа?
#### Часть 1
По данным о пассажирах Титаника решите задачу классификации (с помощью дерева решений), в которой по различным характеристикам пассажиров требуется найти у выживших пассажиров два наиболее важных признака из трех рассматриваемых (по варианту).
Вариант 18 Pclass, Age, Ticket.
Была использована модель DecisionTreeClassifier
#### Набор данных titanic.csv
![alt text](titanic.png "titanic results")
Оценка модели 0.68
2 ключевых параметра, выделенных моделью: Age, Ticket(Fare)
#### Часть 2
Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
#### Данные
Набор данных о машинах на вторичном рынке.
> Ссылка на набор данных: https://www.kaggle.com/datasets/harikrishnareddyb/used-car-price-predictions
#### Цель
С помощью дерева решений классифицировать цену автомобилей
#### Модель
Модель использованная в ходе эксперимента DecisionTreeClassifier из пакета sklearn
#### Набор данных true_car_listings.csv
![alt text](cars.png "cars results")
Выбранный начальный набор параметров:
- Mileage
- Year
- Model
**Количество данных:**
[30000 rows x 3 columns]
**Оценка:**
0.01
**Важность параметров:**
[0.8780813 0.04707369 0.074845 ]
Качество неудовлетворительное.
Параметр, имеющий самую большую значимость: Mileage(пробег)
### Вывод
Главный вывод работы, состоит в том, что модель DecisionTreeClassifier
не подходит для решения 2 части данной задачи, поэтому решение не может быть применено на практике.
Причина низкой точности модели заключается в том, что цена автомобиля на вторичном рынке зависит не только от пробега,
но и от множества других факторов, таких как кол-во аварий, общего состояние автомобиля и экономической обстановке на рынке -
и эти фаткоры могут оказывать такое же существенное воздействие на конечную цену. Однако, можно сделать выводы по влиянию
пробега автомобиля на его стоимость и использовать это в дальнейшем при реализации задач.