IIS_2023_1/gordeeva_anna_lab_3/README.md
2023-11-17 17:49:09 +04:00

1.8 KiB
Raw Permalink Blame History

Задание

С помощью библиотечной реализации дерева решений решить задачу классификации на своих данных.

Мои данные представляют собой описание картин по номерам. Данные собираю с маркетплейса путем веб-скрапинга. Собранные данные буду использовать в дальнейшем для курсовой и дипломной работы.

Данные имеют следующие поля:

  • Ссылка на изображение
  • Размер
  • Стоимость
  • Средняя оценка по отзывам
  • Количество отзывов
  • Жанр
  • Поджанр
  • Фандом
  • Персонаж

Решение задачи классификации

Классифицировать данные буду на популярные и не популярные картины. Поэтому разбиваю все данные на основе кол-ва отзывов. Если отзывов меньше 100, то картина не популярна. Если больше, то популярна.

На вход подается размер и жанр картины, на выходе предсказание - популярно/не популярно.

Скриншоты работы

Alt text

F1 мера - гармоническое среднее между точностью и полнотой. Она учитывает обе метрики и дает одно число, которое учитывает их обе.

F1-мера равна 0.74, она показывает то, что модель предсказывает популярность довольно хорошо.