IIS_2023_1/verina_daria_lab_3/README.md
2023-11-23 00:35:34 +04:00

41 lines
4.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа 3. Деревья решений
### Задание на лабораторную:
Часть 1. По данным о пассажирах Титаника решите задачу классификации (с помощью дерева решений), в которой по различным характеристикам пассажиров требуется найти у выживших пассажиров два наиболее важных признака из трех рассматриваемых (по варианту).
**Вариант 7.**
Ticket,Fare,Cabin
Часть 2. Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
***
### Как запустить лабораторную работу:
Для запуска первой части лабораторной работы необходимо открыть файл `laba3_titanic.py`, нажать на ПКМ и в выпадающем списке выбрать опцию "Run". Для запуска второй части - то же самое, но файл "laba3_economica"
***
### Технологии:
**NumPy (Numerical Python)** - это библиотека для научных вычислений в Python, которая обеспечивает эффективные вычисления и манипуляции с данными.
**Pandas** - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.
**Scikit-learn (Sklearn)** - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.
***
### Что делает лабораторная работа:
Часть 1:
- Загружается выборка из файла titanic_data.csv с помощью пакета
Pandas
- Отбирается в выборку 3 признака: Ticket,Fare,Cabin
- Определяется целевая переменная (Survived)
- Обучается решающее дерево
- Выводятся важности признаков
Часть 2:
Код использует дерево решений для прогнозирования цены на нефть на основе страны и года. Данные разделены на тренировочный (99%) и тестовый (1%) наборы. Модель обучается на тренировочных данных и оценивается на тестовых данных. Затем модель применяется к оставшимся 1% данных для дополнительной оценки. Результаты выражены в процентах ошибки относительно среднего значения цены на нефть.
***
### Пример выходных данных:
***Часть 1:***
![result1.png](result1.png)
***Часть 2:***
![result2.png](result2.png)
***
**Вывод**: результаты первой части лабораторной работы показали, что у выживших пассажиров наиболее важными признаками являются *Fare* и Ticket.
Во второй части лаб. работы ошибка составила 3.1554436208840472e-30 (очень близка к нулю), это означает, что модель идеально соответствует тестовым данным. Она абсолютно точно предсказывает цены на нефть на тестовом наборе.