43 lines
4.3 KiB
Markdown
43 lines
4.3 KiB
Markdown
|
# Лабораторная работа 3. Деревья решений
|
|||
|
### Вариант № 18
|
|||
|
Решите с помощью библиотечной реализации дерева решений задачу
|
|||
|
из лабораторной работы «Веб-сервис «Дерево решений» по предмету
|
|||
|
«Методы искусственного интеллекта» на 99% ваших данных.
|
|||
|
Проверьте работу модели на оставшемся проценте, сделайте вывод.
|
|||
|
|
|||
|
***
|
|||
|
## *Как запустить лабораторную работу:*
|
|||
|
Чтобы запустить программу, открываем файл lab3 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
|
|||
|
***
|
|||
|
## *Использованные технологии:*
|
|||
|
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
|
|||
|
|
|||
|
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
|
|||
|
|
|||
|
***
|
|||
|
## *Что делает ЛР:*
|
|||
|
В данной работе анализируется работа дерева решений DecisionTreeClassifier и решается задача классификации ответчиков на регулярно занимающихся
|
|||
|
и не занимающихся физическими упражнениями на основе характеристик. Имеется набор данных (clean_data),
|
|||
|
содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 5 признаков:
|
|||
|
* age - возраст респондента;
|
|||
|
* weight - вес респондента;
|
|||
|
* work - уровень физ. активности на работе;
|
|||
|
* phy_health - оценка состояния здоровья;
|
|||
|
* gymtime - время, проведенное в тренажерном зале.
|
|||
|
|
|||
|
Среди них необходимо выявить 2 наиболее важных признака по целевой переменной exercise_reg - занимается или не занимается респондент физ. упражнениями,
|
|||
|
построенной на основе признака phy_ex - оценка важности физических упражнений. Значение exercise_reg = 1, если значение phy_ex >= 7, и 0 - в остальных случаях.
|
|||
|
Необходимо обучить модель на 99% данных и оценить качество модели на оставшемся проценте.
|
|||
|
|
|||
|
**Результатом работы программы** являются: вывод первых 15 строк подготовленных данных, вывод оценок важности признаков и вывод оценки качества модели (в консоли).
|
|||
|
***
|
|||
|
## *Пример выходных данных:*
|
|||
|
>Вывод в консоли:
|
|||
|
|
|||
|
![](https://sun9-15.userapi.com/impg/Wq3qiVmaNYVI4CUX6SmFpRMJn3UZDJIbniFUMA/nsSbL7Xjcn4.jpg?size=130x111&quality=96&sign=1c8ee3191c3dd46aba0f80e0876e1f6b&type=album)
|
|||
|
***
|
|||
|
**Вывод**:
|
|||
|
|
|||
|
Модель DecisionTreeClassifier выделила 2 наиболее важных параметра, а именно **вес** и **оценка важности физ. упражнений**, остальные
|
|||
|
признаки имеют минимальную значимость, однако возраст достаточно близок по оценке важности к весу. Оценка качества модели говорит о том, что
|
|||
|
модель достаточно точно предсказывает классы для данных по характеристикам.
|