71 lines
4.3 KiB
Markdown
71 lines
4.3 KiB
Markdown
**Задание**
|
||
***
|
||
Используя код из пункта «Решение задачи ранжирования признаков», выполните ранжирование признаков с помощью указанных по варианту моделей. Отобразите получившиеся оценки каждого признака каждой моделью и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? (Названия\индексы признаков и будут ответом на задание).
|
||
|
||
**Вариант 16:**
|
||
|
||
Линейная регрессия (LinearRegression)
|
||
|
||
Случайное Лассо (RandomizedLasso)
|
||
|
||
Линейная корреляция (f_regression)
|
||
|
||
|
||
**Как запустить лабораторную**
|
||
***
|
||
Запустить файл main.py
|
||
|
||
**Используемые технологии**
|
||
***
|
||
Библиотеки numpy, scikit-learn, их компоненты
|
||
|
||
**Описание лабораторной (программы)**
|
||
***
|
||
Этот код демонстрирует, как выполнить ранжирование признаков в задаче регрессии с использованием моделей Linear Regression и Random Forest Regression, а также метода f_regression.
|
||
|
||
Первым этапом является создание случайных данных с помощью функции make_regression. Затем мы обучаем модель Linear Regression на этих данных и сохраняем оценки весов признаков. То же самое мы делаем и с моделью Random Forest Regression, сохраняя значения "важности" признаков, полученные от этой модели. Кроме того, мы применяем метод f_regression для получения оценок важности каждого признака.
|
||
|
||
Далее мы вычисляем среднее значение оценок признаков от трех методов / моделей. Затем мы выводим все оценки важности признаков.
|
||
|
||
В конце кода мы выбираем четыре наиболее важных признака на основе средних оценок и выводим их значения.
|
||
|
||
Важность признака определяется по его оценке/значению, где более высокие значения указывают на бОльшую важность. Очевидно, что самые важные признаки будут те, у которых оценки/значения выше всего.
|
||
**Результат**
|
||
***
|
||
В результате получаем следующее:
|
||
|
||
Признак 0: 0.8672604223819891
|
||
|
||
Признак 1: 0.7708510602186707
|
||
|
||
Признак 2: 0.03116023013554309
|
||
|
||
Признак 3: 0.6998726361290992
|
||
|
||
Признак 4: 1.0
|
||
|
||
Признак 5: 0.08986896281166205
|
||
|
||
Признак 6: 0.669155851030746
|
||
|
||
Признак 7: 0.1410044322180913
|
||
|
||
Признак 8: 0.043892111747763814
|
||
|
||
Признак 9: 0.5011547461825057
|
||
|
||
4 Наиболее значимых признака:
|
||
|
||
Признак 3: 0.6998726361290992
|
||
|
||
Признак 1: 0.7708510602186707
|
||
|
||
Признак 0: 0.8672604223819891
|
||
|
||
Признак 4: 1.0
|
||
|
||
Вывод: Исходя из выполненного кода, мы получили оценки важности признаков для задачи регрессии с использованием моделей Linear Regression, Random Forest Regression и метода f_regression.
|
||
|
||
Наиболее важные признаки, определенные на основе средних оценок, оказались: признак 1, признак 6, признак 0 и признак 4.
|
||
|
||
Эти признаки имеют наибольшее влияние на результат задачи регрессии и следует обратить на них особое внимание при анализе данных и принятии решений. |