IIS_2023_1/verina_daria_lab_3/README.md

41 lines
4.8 KiB
Markdown
Raw Normal View History

2023-11-23 00:35:34 +04:00
# Лабораторная работа 3. Деревья решений
### Задание на лабораторную:
Часть 1. По данным о пассажирах Титаника решите задачу классификации (с помощью дерева решений), в которой по различным характеристикам пассажиров требуется найти у выживших пассажиров два наиболее важных признака из трех рассматриваемых (по варианту).
**Вариант 7.**
Ticket,Fare,Cabin
Часть 2. Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
***
### Как запустить лабораторную работу:
Для запуска первой части лабораторной работы необходимо открыть файл `laba3_titanic.py`, нажать на ПКМ и в выпадающем списке выбрать опцию "Run". Для запуска второй части - то же самое, но файл "laba3_economica"
***
### Технологии:
**NumPy (Numerical Python)** - это библиотека для научных вычислений в Python, которая обеспечивает эффективные вычисления и манипуляции с данными.
**Pandas** - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.
**Scikit-learn (Sklearn)** - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.
***
### Что делает лабораторная работа:
Часть 1:
- Загружается выборка из файла titanic_data.csv с помощью пакета
Pandas
- Отбирается в выборку 3 признака: Ticket,Fare,Cabin
- Определяется целевая переменная (Survived)
- Обучается решающее дерево
- Выводятся важности признаков
Часть 2:
Код использует дерево решений для прогнозирования цены на нефть на основе страны и года. Данные разделены на тренировочный (99%) и тестовый (1%) наборы. Модель обучается на тренировочных данных и оценивается на тестовых данных. Затем модель применяется к оставшимся 1% данных для дополнительной оценки. Результаты выражены в процентах ошибки относительно среднего значения цены на нефть.
***
### Пример выходных данных:
***Часть 1:***
![result1.png](result1.png)
***Часть 2:***
![result2.png](result2.png)
***
**Вывод**: результаты первой части лабораторной работы показали, что у выживших пассажиров наиболее важными признаками являются *Fare* и Ticket.
Во второй части лаб. работы ошибка составила 3.1554436208840472e-30 (очень близка к нулю), это означает, что модель идеально соответствует тестовым данным. Она абсолютно точно предсказывает цены на нефть на тестовом наборе.