IIS_2023_1/istyukov_timofey_lab_3/README.md
2024-01-06 00:54:29 +04:00

73 lines
4.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа №3. Деревья решений
## 12 вариант
___
### Задание:
Решите с помощью библиотечной реализации дерева решений задачу из
лабораторной работы «Веб-сервис «Дерево решений» по предмету
«Методы искусственного интеллекта» на 99% ваших данных.
Проверьте работу модели на оставшемся проценте, сделайте вывод.
### Вариант набора данных по курсовой работе:
- Прогнозирование музыкальных жанров
___
### Запуск
- Запустить файл lab3.py
### Используемые технологии
- Язык программирования **Python**
- Среда разработки **PyCharm**
- Библиотеки:
* pandas
* sklearn
### Описание программы
**Набор данных (Kaggle):** Полный список жанров, включенных в CSV:
«Электронная музыка», «Аниме», «Джаз», «Альтернатива», «Кантри», «Рэп»,
«Блюз», «Рок», «Классика», «Хип-хоп».
**Задача, решаемая деревом решений:** Классификация музыкальных треков на
основе их характеристик, таких как темп, инструментальность, акустичность,
речевость, танцевальность, энергичность, живость. Дерево решений может
предсказывать жанр трека, основываясь на его характеристиках.
**Задачи оценки:** оценить качество работы модели дерева решений и выявить
наиболее значимые признаки набора данных.
---
### Пример работы
*Датасет, сформированный из случайных строк csv-файла.*
![Graphics](1_dataset.jpg)
---
*Сравнение на оставшихся неиспользованных 0,5% строк датасета
предсказнных и действительных жанров.*
![Graphics](2_accuracy_score.jpg)
---
*Вычисленнные коэффициенты влияния признаков на прогноз жанра*
![Graphics](3_feature_importances.jpg)
---
### Вывод
Посредством предобработки датасета дерево решений без проблем обучилось и
частично верно предсказало некоторые жанры (в частности, Электро, Классику
и Рэп). Также модель показала оценку влиятельности признаков на прогноз
жанра. Самым влиятельным признаком оказалась **акустичность** музыкального
трека. Менее значимыми оказались речевость (преобладание голосов в треке) и
инструментальность (преобладание живых инструментов в треке), что звучит
вполне разумно.
На практике дерево решений по качеству классификации уступает некоторым
другим методам. Помимо этого, небольшие изменения в данных могут существенно
изменять построенное дерево решений. На примере моего датасета дерево решений
справилось не очень успешно. Это можно объяснить тем, что данных в нём
недостаточно для предсказания жанра. Но также стоит отметить, что
жанр одно из самых неоднозначных, самых многосоставных музыкальных понятий.