IIS_2023_1/martysheva_tamara_lab_3/README.md

4.3 KiB
Raw Blame History

Лабораторная работа 3. Деревья решений

Вариант № 18

Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных.
Проверьте работу модели на оставшемся проценте, сделайте вывод.


Как запустить лабораторную работу:

Чтобы запустить программу, открываем файл lab3 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.


Использованные технологии:

Scikit-learn - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.

Pandas — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.


Что делает ЛР:

В данной работе анализируется работа дерева решений DecisionTreeClassifier и решается задача классификации ответчиков на регулярно занимающихся и не занимающихся физическими упражнениями на основе характеристик. Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 5 признаков:

  • age - возраст респондента;
  • weight - вес респондента;
  • work - уровень физ. активности на работе;
  • phy_health - оценка состояния здоровья;
  • gymtime - время, проведенное в тренажерном зале.

Среди них необходимо выявить 2 наиболее важных признака по целевой переменной exercise_reg - занимается или не занимается респондент физ. упражнениями, построенной на основе признака phy_ex - оценка важности физических упражнений. Значение exercise_reg = 1, если значение phy_ex >= 7, и 0 - в остальных случаях. Необходимо обучить модель на 99% данных и оценить качество модели на оставшемся проценте.

Результатом работы программы являются: вывод первых 15 строк подготовленных данных, вывод оценок важности признаков и вывод оценки качества модели (в консоли).


Пример выходных данных:

Вывод в консоли:


Вывод:

Модель DecisionTreeClassifier выделила 2 наиболее важных параметра, а именно вес и оценка важности физ. упражнений, остальные признаки имеют минимальную значимость, однако возраст достаточно близок по оценке важности к весу. Оценка качества модели говорит о том, что модель достаточно точно предсказывает классы для данных по характеристикам.