IIS_2023_1/faskhutdinov_idris_lab_2/Readme.md

58 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа №2. Работа с типовыми наборами данных и различными моделями
## 6 вариант
### Задание:
Используя код из источника (пункт «Решение задачи ранжирования признаков»,
стр. 205), выполните ранжирование признаков с помощью указанных по
варианту моделей. Отобразите получившиеся значения\оценки каждого
признака каждым методом\моделью и среднюю оценку. Проведите анализ
получившихся результатов. Какие четыре признака оказались самыми
важными по среднему значению? (Названия\индексы признаков и будут
ответом на задание).
* Гребневая регрессия (Ridge)
* Сокращение признаков
Случайными деревьями (Random Forest Regressor)
* Линейная корреляция (f_regression)
### Как запустить лабораторную
1. Запустить файл main.py
### Используемые технологии
1. Библиотека numpy
2. Библиотека scikit-learn
3. Python
4. IDE PyCharm
### Описание лабораторной работы
Программа выполняет ранжирование признаков в задаче регрессии. Сначала происходит генерация исходных данных с использованием 14 признаков X
Задается функция-выход: регрессионная проблема Фридмана. Добавляется зависимость признаков, после чего используются модели по варианту. Результаты обработки
сохраняются в словаре ranks, после чего сортируются и выводятся в консоль.
### Результат
Программа выводит в консоль следующие данные:
* Ridge
[('x4', 1.0), ('x14', 0.92), ('x1', 0.76), ('x2', 0.75), ('x12', 0.67), ('x5', 0.61), ('x11', 0.59), ('x6', 0.08), ('x8', 0.08), ('x3', 0.06), ('x7', 0.03), ('x10', 0.01), ('x9', 0.0), ('x13', 0.0)]
* Random Forest
[('x14', 1.0), ('x2', 0.76), ('x1', 0.66), ('x4', 0.55), ('x11', 0.29), ('x12', 0.28), ('x5', 0.23), ('x3', 0.1), ('x13', 0.09), ('x7', 0.01), ('x6', 0.0), ('x8', 0.0), ('x9', 0.0), ('x10', 0.0)]
* Linear Correlation
[('x4', 1.0), ('x14', 0.98), ('x2', 0.45), ('x12', 0.44), ('x1', 0.3), ('x11', 0.29), ('x5', 0.04), ('x8', 0.02), ('x7', 0.01), ('x9', 0.01), ('x3', 0.0), ('x6', 0.0), ('x10', 0.0), ('x13', 0.0)]
1. x4: 1.0
2. x14: 0.92
3. x1: 0.76
4. x2: 0.75
5. x12: 0.67
6. x5: 0.61
7. x11: 0.59
8. x6: 0.08
9. x8: 0.08
10. x3: 0.06
11. x7: 0.03
12. x10: 0.01
13. x9: 0.0
14. x13: 0.0
В результате работы программы видно, что наиболее важными признаками оказались x4 и x14, другие оказались намного менее важными. Стоит отметить, что случайные деревья оказали существенно отличающийся результат, в сравнении с гребневой регрессией и линейной корреляцией.