IIS_2023_1/madyshev_egor_lab_3/readme.md

4.6 KiB
Raw Blame History

Задание

Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод

Задание по варианту

Задача для дерева решений. Предсказание уровня образования родителей по всем остальных данным.

Решение

Запуск программы

Для запуска программы необходимо запустить файл main.py, содержащий код программы

Используемые технологии

Программа использует следующие библиотеки:

  • numpy - библиотека для работы с массивами и матрицами.
  • matplotlib - библиотека для создания графиков и визуализации данных.
  • sklearn - библиотека для машинного обучения и анализа данных.

Что делает программа

Программа читает данные из csv файла. Подготавливает их для работы модели, приводя текстовые параметры к числам. И пытается научиться предсказывать уровень образования родителей по данным об их детях.

Тесты

Данные без подготовки:
gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
0 female group B bachelor's degree standard none 72 72 74
1 female group C some college standard completed 69 90 88
2 female group B master's degree standard none 90 95 93
3 male group A associate's degree free/reduced none 47 57 44
4 male group C some college standard none 76 78 75

Данные после подготовки:
gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
0 0 0 0 0 0 72 72 74
1 0 1 1 0 1 69 90 88
2 0 0 2 0 0 90 95 93
3 1 2 3 1 0 47 57 44
4 1 1 1 0 0 76 78 75

Результат дерева классификации на учебных данных: 0.998989898989899
Результат дерева классификации на тестовых данных: 0.2

Результат дерева регрессии на учебных данных: 0.9984005221729634
Результат дерева регрессии на тестовых данных: -1.2264150943396226

По результатам двух типов моделей деревьев видно, что модель дерева решений не подходит для предсказания уровня образования родителей по этим данным. Или на практике не существует такой зависимости.
С целью проверки не переобучилась ли модель были проведены тесты с изменением параметров программы.
Изменение объема обучающей выборки и регулирование параметров моделей деревьев результат не поменяло.
Это значит, что модель не была переобучена.