.. | ||
lab2.py | ||
readme.md |
Лабораторная работа 2. Ранжирование признаков
Задание
Выполнить ранжирование признаков с помощью указанных по варианту моделей. Отобразить получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку. Провести анализ получившихся результатов. Определить, какие четыре признака оказались самыми важными по среднему значению.
Вариант 4 (24). Модели:
- Гребневая регрессия (Ridge)
- Случайное Лассо (RandomizedLasso)
- Рекурсивное сокращение признаков (Recursive Feature Elimination – RFE)
Запуск программы
Файл lab2.py содержит и запускает программу
Описание программы
Программа создаёт набор данных с 10 (n_features) признаками для последующего их ранжирования и обрабатывает тремя моделями по варианту. Программа строит столбчатые диаграммы, которые показывают как распределились оценки важности признаков и выводит в консоль отсортированные по убыванию важности признаки. Таким образом можно легко определить наиважнейшие признаки.
Результаты тестирования
По результатам тестирования, можно сказать следующее:
- Гребневая регрессия показывает хорошие результаты, выделяет все 8 значимых признаков.
- Случайное лассо справляется хуже других моделей, выделяет только 4 значимых признака.
- Рекурсивное сокращение признаков показывает хорошие результаты, правильно выделяя 9 значимых признаков.
- Среднее значение позволяет c хорошей уверенностью определять истинные значимые признаки. (x4, x2, x1, x5)
Вывод: Если вы хотите уменьшить размерность данных и выбрать определенное количество признаков, рассмотрите модель RFE. Если вам важно сохранить все признаки, но учитывать их важность, модель Ridge может быть подходящей. Если вам нужно сильно ужать данные и выбрать только наиболее важные признаки, рассмотрите модель Lasso.
Пример консольных результатов:
Ridge Lasso RFE Mean
x4 1.00 1.00 1.00 0.33 x2 0.73 0.68 1.00 0.24 x1 0.65 0.66 1.00 0.22 x5 0.40 0.26 0.50 0.13 x10 0.32 0.00 0.83 0.11 x7 0.24 0.00 0.67 0.08 x8 0.19 0.00 1.00 0.06 x9 0.03 0.00 0.33 0.01 x3 0.00 0.00 0.17 0.00 x6 0.00 0.00 0.00 0.00
По данным результатам можно заключить, что наиболее влиятельные признаки по убыванию: x4, x2, x1, x5.