IIS_2023_1/tsyppo_anton_lab_2/README.md
2023-12-06 15:02:51 +04:00

74 lines
5.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа №2: Ранжирование признаков
## Задание. Вариант 8
Всего вариантов 20, мой вариант 28, поэтому взял 8 вариант
Задание:
Используя код из [1](пункт «Решение задачи ранжирования признаков», стр. 205), выполните ранжирование признаков с
помощью указанных по варианту моделей. Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью
и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по
среднему значению? (Названия\индексы признаков и будут ответом на задание).
8.Лассо (Lasso), Рекурсивное сокращение признаков (Recursive Feature Elimination RFE), Сокращение признаков
Случайными деревьями (Random Forest Regressor)
## Описание программы
Программа выполняет ранжирование признаков с использованием трех методов: Lasso (лассо), Рекурсивное сокращение
признаков (RFE), и Сокращение признаков Случайными деревьями (Random Forest Regressor). Вводится набор случайных данных,
содержащих 10 признаков, и генерируется целевая переменная на основе линейной комбинации этих признаков.
В конце выводится 4 самых важных признака.
## Как запустить лабораторную работу
1. Установите необходимые библиотеки:
```bash
pip install numpy pandas scikit-learn
```
2. Запустите скрипт:
```bash
python main.py
```
## Использованные технологии
- Python
- NumPy
- Pandas
- scikit-learn
## Что программа делает
Программа выполняет ранжирование признаков в данных с использованием трех различных методов:
1. Lasso (лассо): стремится уменьшить веса некоторых признаков до нуля, что может служить признаком их неважности.
2. Рекурсивное сокращение признаков (RFE): удаляет наименее значимые признаки на каждом шаге, создавая ранжированный
список признаков.
3. Сокращение признаков Случайными деревьями (Random Forest Regressor): оценивает важность каждого признака на том,
как часто признак используется для разделения данных в деревьях случайного леса.
4. Средняя оценка: Для каждого признака вычисляется среднее значение его оценок важности по трем методам.
Это создает обобщенную меру важности для каждого признака.
Итоговый результат представлен в виде таблицы, где для каждого признака указаны его оценки важности по каждому методу,
а также средняя оценка важности. Программа также выводит четыре признака с наивысшими средними оценками, считая их
наиболее важными.
## Тесты
![Графики моделей](img.png)
## Вывод
_Анализ оценок признаков, проведенный с использованием трех различных методов ранжирования, выявил следующие ключевые
выводы:
Feature_8 оценен как наиболее важный признак по всем трем методам. Feature_1, Feature_7 и Feature_3 также считаются
важными, занимая второе, третье и четвертое место соответственно. Оценки признаков варьируются в зависимости от метода,
что подчеркивает важность использования нескольких подходов для достоверного определения важности признаков. Важность
признаков оценивается как среднее значение оценок по трем методам._
---