IIS_2023_1/kutygin_andrey_lab_2/README.md

71 lines
4.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

**Задание**
***
Используя код из пункта «Решение задачи ранжирования признаков», выполните ранжирование признаков с помощью указанных по варианту моделей. Отобразите получившиеся оценки каждого признака каждой моделью и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? (Названия\индексы признаков и будут ответом на задание).
**Вариант 16:**
Линейная регрессия (LinearRegression)
Случайное Лассо (RandomizedLasso)
Линейная корреляция (f_regression)
**Как запустить лабораторную**
***
Запустить файл main.py
**Используемые технологии**
***
Библиотеки numpy, scikit-learn, их компоненты
**Описание лабораторной (программы)**
***
Этот код демонстрирует, как выполнить ранжирование признаков в задаче регрессии с использованием моделей Linear Regression и Random Forest Regression, а также метода f_regression.
Первым этапом является создание случайных данных с помощью функции make_regression. Затем мы обучаем модель Linear Regression на этих данных и сохраняем оценки весов признаков. То же самое мы делаем и с моделью Random Forest Regression, сохраняя значения "важности" признаков, полученные от этой модели. Кроме того, мы применяем метод f_regression для получения оценок важности каждого признака.
Далее мы вычисляем среднее значение оценок признаков от трех методов / моделей. Затем мы выводим все оценки важности признаков.
В конце кода мы выбираем четыре наиболее важных признака на основе средних оценок и выводим их значения.
Важность признака определяется по его оценке/значению, где более высокие значения указывают на бОльшую важность. Очевидно, что самые важные признаки будут те, у которых оценки/значения выше всего.
**Результат**
***
В результате получаем следующее:
Признак 0: 0.8672604223819891
Признак 1: 0.7708510602186707
Признак 2: 0.03116023013554309
Признак 3: 0.6998726361290992
Признак 4: 1.0
Признак 5: 0.08986896281166205
Признак 6: 0.669155851030746
Признак 7: 0.1410044322180913
Признак 8: 0.043892111747763814
Признак 9: 0.5011547461825057
4 Наиболее значимых признака:
Признак 3: 0.6998726361290992
Признак 1: 0.7708510602186707
Признак 0: 0.8672604223819891
Признак 4: 1.0
Вывод: Исходя из выполненного кода, мы получили оценки важности признаков для задачи регрессии с использованием моделей Linear Regression, Random Forest Regression и метода f_regression.
Наиболее важные признаки, определенные на основе средних оценок, оказались: признак 1, признак 6, признак 0 и признак 4.
Эти признаки имеют наибольшее влияние на результат задачи регрессии и следует обратить на них особое внимание при анализе данных и принятии решений.