.. | ||
lab2.py | ||
README.md |
Задание
Используя код из пункта «Решение задачи ранжирования признаков», выполните ранжирование признаков с помощью указанных по варианту моделей. Отобразите получившиеся оценки каждого признака каждой моделью и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? (Названия\индексы признаков и будут ответом на задание).
Вариант 16:
Линейная регрессия (LinearRegression)
Случайное Лассо (RandomizedLasso)
Линейная корреляция (f_regression)
Как запустить лабораторную
Запустить файл main.py
Используемые технологии
Библиотеки numpy, scikit-learn, их компоненты
Описание лабораторной (программы)
Этот код демонстрирует, как выполнить ранжирование признаков в задаче регрессии с использованием моделей Linear Regression и Random Forest Regression, а также метода f_regression.
Первым этапом является создание случайных данных с помощью функции make_regression. Затем мы обучаем модель Linear Regression на этих данных и сохраняем оценки весов признаков. То же самое мы делаем и с моделью Random Forest Regression, сохраняя значения "важности" признаков, полученные от этой модели. Кроме того, мы применяем метод f_regression для получения оценок важности каждого признака.
Далее мы вычисляем среднее значение оценок признаков от трех методов / моделей. Затем мы выводим все оценки важности признаков.
В конце кода мы выбираем четыре наиболее важных признака на основе средних оценок и выводим их значения.
Важность признака определяется по его оценке/значению, где более высокие значения указывают на бОльшую важность. Очевидно, что самые важные признаки будут те, у которых оценки/значения выше всего. Результат
В результате получаем следующее:
Признак 0: 0.8672604223819891
Признак 1: 0.7708510602186707
Признак 2: 0.03116023013554309
Признак 3: 0.6998726361290992
Признак 4: 1.0
Признак 5: 0.08986896281166205
Признак 6: 0.669155851030746
Признак 7: 0.1410044322180913
Признак 8: 0.043892111747763814
Признак 9: 0.5011547461825057
4 Наиболее значимых признака:
Признак 3: 0.6998726361290992
Признак 1: 0.7708510602186707
Признак 0: 0.8672604223819891
Признак 4: 1.0
Вывод: Исходя из выполненного кода, мы получили оценки важности признаков для задачи регрессии с использованием моделей Linear Regression, Random Forest Regression и метода f_regression.
Наиболее важные признаки, определенные на основе средних оценок, оказались: признак 1, признак 6, признак 0 и признак 4.
Эти признаки имеют наибольшее влияние на результат задачи регрессии и следует обратить на них особое внимание при анализе данных и принятии решений.