IIS_2023_1/martysheva_tamara_lab_3/README.md

43 lines
4.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа 3. Деревья решений
### Вариант № 18
Решите с помощью библиотечной реализации дерева решений задачу
из лабораторной работы «Веб-сервис «Дерево решений» по предмету
«Методы искусственного интеллекта» на 99% ваших данных.
Проверьте работу модели на оставшемся проценте, сделайте вывод.
***
## *Как запустить лабораторную работу:*
Чтобы запустить программу, открываем файл lab3 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
***
## *Использованные технологии:*
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
***
## *Что делает ЛР:*
В данной работе анализируется работа дерева решений DecisionTreeClassifier и решается задача классификации ответчиков на регулярно занимающихся
и не занимающихся физическими упражнениями на основе характеристик. Имеется набор данных (clean_data),
содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 5 признаков:
* age - возраст респондента;
* weight - вес респондента;
* work - уровень физ. активности на работе;
* phy_health - оценка состояния здоровья;
* gymtime - время, проведенное в тренажерном зале.
Среди них необходимо выявить 2 наиболее важных признака по целевой переменной exercise_reg - занимается или не занимается респондент физ. упражнениями,
построенной на основе признака phy_ex - оценка важности физических упражнений. Значение exercise_reg = 1, если значение phy_ex >= 7, и 0 - в остальных случаях.
Необходимо обучить модель на 99% данных и оценить качество модели на оставшемся проценте.
**Результатом работы программы** являются: вывод первых 15 строк подготовленных данных, вывод оценок важности признаков и вывод оценки качества модели (в консоли).
***
## *Пример выходных данных:*
>Вывод в консоли:
![](https://sun9-15.userapi.com/impg/Wq3qiVmaNYVI4CUX6SmFpRMJn3UZDJIbniFUMA/nsSbL7Xjcn4.jpg?size=492x421&quality=96&sign=772aa2b9ae8b708139b75a1ccc46d524&type=album)
***
**Вывод**:
Модель DecisionTreeClassifier выделила 2 наиболее важных параметра, а именно **вес** и **оценка важности физ. упражнений**, остальные
признаки имеют минимальную значимость, однако возраст достаточно близок по оценке важности к весу. Оценка качества модели говорит о том, что
модель достаточно точно предсказывает классы для данных по характеристикам.