Лаб 2
Ранжирование признаков
Используя код из (пункт «Решение задачи ранжирования признаков», стр. 205), выполните ранжирование признаков с помощью указанных по варианту моделей. Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? (Названия\индексы признаков и будут ответом на задание).
Вариант 3
Линейная регрессия (LinearRegression) , Сокращение признаков Случайными деревьями (Random Forest Regressor), Линейная корреляция (f_regression)
Запуск
Выполнением скрипта файла (вывод в консоль).
Модели:
- Линейная регрессия (LinearRegression)
- Сокращение признаков cлучайными деревьями (Random Forest Regressor)
- Линейная корреляция (f_regression)
Пояснения
Линейная регрессия - это простой и понятный метод, который может быть использован для предсказания значений. Он хорошо работает, если зависимость между переменными является линейной. Однако, если данные содержат сложные нелинейные зависимости, линейная регрессия может оказаться не очень эффективной.
Уменьшение признаков с помощью случайных деревьев (Random Forest Regressor) - это мощный метод, который способен обрабатывать сложные взаимосвязи в данных, даже если они нелинейные. Он основан на идее создания ансамбля деревьев решений, каждое из которых дает свой голос за наиболее подходящий ответ. Случайные леса обычно дают хорошие результаты и являются устойчивыми к переобучению.
Линейная корреляция или f_regression - это статистический метод, который используется для измерения степени связи между двумя переменными. Он может помочь определить, есть ли вообще связь между переменными, но не подходит для ранжирования объектов.