IIS_2023_1/malkova_anastasia_lab_3/README.md
2023-11-11 22:55:33 +04:00

4.0 KiB
Raw Permalink Blame History

Лабораторная работа №3

Деревья решений

Как запустить лабораторную работу

  1. Установить python, numpy, sklearn
  2. Для запуска на наборе данных первого задания python titanic.py
  3. Для запуска на наборе данных второго задания python cars.py

Использованные технологии

  • Язык программирования python
  • Библиотеки numpy, sklearn
  • Среда разработки PyCharm

Что делает программа?

Часть 1

По данным о пассажирах Титаника решите задачу классификации (с помощью дерева решений), в которой по различным характеристикам пассажиров требуется найти у выживших пассажиров два наиболее важных признака из трех рассматриваемых (по варианту).

Вариант 18 Pclass, Age, Ticket.

Была использована модель DecisionTreeClassifier

Набор данных titanic.csv

alt text

Оценка модели 0.68

2 ключевых параметра, выделенных моделью: Age, Ticket(Fare)

Часть 2

Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.

Данные

Набор данных о машинах на вторичном рынке.

Ссылка на набор данных: https://www.kaggle.com/datasets/harikrishnareddyb/used-car-price-predictions

Цель

С помощью дерева решений классифицировать цену автомобилей

Модель

Модель использованная в ходе эксперимента DecisionTreeClassifier из пакета sklearn

Набор данных true_car_listings.csv

alt text

Выбранный начальный набор параметров:

  • Mileage
  • Year
  • Model

Количество данных: [30000 rows x 3 columns]

Оценка: 0.01

Важность параметров: [0.8780813 0.04707369 0.074845 ]

Качество неудовлетворительное.

Параметр, имеющий самую большую значимость: Mileage(пробег)

Вывод

Главный вывод работы, состоит в том, что модель DecisionTreeClassifier не подходит для решения 2 части данной задачи, поэтому решение не может быть применено на практике.

Причина низкой точности модели заключается в том, что цена автомобиля на вторичном рынке зависит не только от пробега, но и от множества других факторов, таких как кол-во аварий, общего состояние автомобиля и экономической обстановке на рынке - и эти фаткоры могут оказывать такое же существенное воздействие на конечную цену. Однако, можно сделать выводы по влиянию пробега автомобиля на его стоимость и использовать это в дальнейшем при реализации задач.