74 lines
5.1 KiB
Markdown
74 lines
5.1 KiB
Markdown
|
# Лабораторная работа №2: Ранжирование признаков
|
|||
|
## Задание. Вариант 8
|
|||
|
Всего вариантов 20, мой вариант 28, поэтому взял 8 вариант
|
|||
|
|
|||
|
Задание:
|
|||
|
Используя код из [1](пункт «Решение задачи ранжирования признаков», стр. 205), выполните ранжирование признаков с
|
|||
|
помощью указанных по варианту моделей. Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью
|
|||
|
и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по
|
|||
|
среднему значению? (Названия\индексы признаков и будут ответом на задание).
|
|||
|
|
|||
|
8.Лассо (Lasso), Рекурсивное сокращение признаков (Recursive Feature Elimination –RFE), Сокращение признаков
|
|||
|
Случайными деревьями (Random Forest Regressor)
|
|||
|
|
|||
|
## Описание программы
|
|||
|
|
|||
|
Программа выполняет ранжирование признаков с использованием трех методов: Lasso (лассо), Рекурсивное сокращение
|
|||
|
признаков (RFE), и Сокращение признаков Случайными деревьями (Random Forest Regressor). Вводится набор случайных данных,
|
|||
|
содержащих 10 признаков, и генерируется целевая переменная на основе линейной комбинации этих признаков.
|
|||
|
В конце выводится 4 самых важных признака.
|
|||
|
|
|||
|
|
|||
|
## Как запустить лабораторную работу
|
|||
|
|
|||
|
1. Установите необходимые библиотеки:
|
|||
|
|
|||
|
```bash
|
|||
|
pip install numpy pandas scikit-learn
|
|||
|
```
|
|||
|
|
|||
|
2. Запустите скрипт:
|
|||
|
|
|||
|
```bash
|
|||
|
python main.py
|
|||
|
```
|
|||
|
|
|||
|
## Использованные технологии
|
|||
|
|
|||
|
- Python
|
|||
|
- NumPy
|
|||
|
- Pandas
|
|||
|
- scikit-learn
|
|||
|
|
|||
|
## Что программа делает
|
|||
|
|
|||
|
Программа выполняет ранжирование признаков в данных с использованием трех различных методов:
|
|||
|
|
|||
|
1. Lasso (лассо): стремится уменьшить веса некоторых признаков до нуля, что может служить признаком их неважности.
|
|||
|
2. Рекурсивное сокращение признаков (RFE): удаляет наименее значимые признаки на каждом шаге, создавая ранжированный
|
|||
|
список признаков.
|
|||
|
3. Сокращение признаков Случайными деревьями (Random Forest Regressor): оценивает важность каждого признака на том,
|
|||
|
как часто признак используется для разделения данных в деревьях случайного леса.
|
|||
|
4. Средняя оценка: Для каждого признака вычисляется среднее значение его оценок важности по трем методам.
|
|||
|
Это создает обобщенную меру важности для каждого признака.
|
|||
|
|
|||
|
Итоговый результат представлен в виде таблицы, где для каждого признака указаны его оценки важности по каждому методу,
|
|||
|
а также средняя оценка важности. Программа также выводит четыре признака с наивысшими средними оценками, считая их
|
|||
|
наиболее важными.
|
|||
|
|
|||
|
## Тесты
|
|||
|
|
|||
|
![Графики моделей](img.png)
|
|||
|
|
|||
|
## Вывод
|
|||
|
|
|||
|
_Анализ оценок признаков, проведенный с использованием трех различных методов ранжирования, выявил следующие ключевые
|
|||
|
выводы:
|
|||
|
Feature_8 оценен как наиболее важный признак по всем трем методам. Feature_1, Feature_7 и Feature_3 также считаются
|
|||
|
важными, занимая второе, третье и четвертое место соответственно. Оценки признаков варьируются в зависимости от метода,
|
|||
|
что подчеркивает важность использования нескольких подходов для достоверного определения важности признаков. Важность
|
|||
|
признаков оценивается как среднее значение оценок по трем методам._
|
|||
|
|
|||
|
---
|
|||
|
|