5.3 KiB
Лаб 2
Ранжирование признаков
Выполните ранжирование признаков с помощью указанных по варианту моделей. Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку. Проведите анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? (Названия\индексы признаков и будут ответом на задание).
Вариант 3
Линейная регрессия (LinearRegression) , Сокращение признаков Случайными деревьями (Random Forest Regressor), Линейная корреляция (f_regression)
Я использовал датасет Predict students' dropout and academic success https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention Он используется мной по заданию на курсовую работу
Запуск
Выполнением скрипта файла (вывод в консоль).
Модели:
- Линейная регрессия (LinearRegression)
- Сокращение признаков cлучайными деревьями (Random Forest Regressor)
- Линейная корреляция (f_regression)
Пояснения
Линейная регрессия - это простой и понятный метод, который может быть использован для предсказания значений. Он хорошо работает, если зависимость между переменными является линейной. Однако, если данные содержат сложные нелинейные зависимости, линейная регрессия может оказаться не очень эффективной.
Уменьшение признаков с помощью случайных деревьев (Random Forest Regressor) - это мощный метод, который способен обрабатывать сложные взаимосвязи в данных, даже если они нелинейные. Он основан на идее создания ансамбля деревьев решений, каждое из которых дает свой голос за наиболее подходящий ответ. Случайные леса обычно дают хорошие результаты и являются устойчивыми к переобучению.
Линейная корреляция или f_regression - это статистический метод, который используется для измерения степени связи между двумя переменными. Он может помочь определить, есть ли вообще связь между переменными, но не подходит для ранжирования объектов.
4 самых важных признака в среднем:
- Признак: Curricular units 2nd sem (approved), Оценка: 0.8428
- Признак: Tuition fees up to date, Оценка: 0.4797
- Признак: Curricular units 1st sem (approved), Оценка: 0.2986
- Признак: Curricular units 2nd sem (grade), Оценка: 0.2778
4 самых важных для lr_scores линейной регрессии:
- 0.3917 'Tuition fees up to date'
- 0.2791 'International'
- 0.2075 'Curricular units 2nd sem (approved)'
- 0.1481 'Debtor'
4 самых важных для rf_scores рандом forests:
- 0.4928 'Curricular units 2nd sem (approved)'
- 0.061 'Tuition fees up to date'
- 0.0458 'Curricular units 2nd sem (grade)'
- 0.0308 'Curricular units 1st sem (grade)'
4 самых важных для f_regression:
- 2822.104 'Curricular units 2nd sem (approved)'
- 2093.3315 'Curricular units 2nd sem (grade)'
- 1719.4229 'Curricular units 1st sem (approved)'
- 1361.6144 'Curricular units 1st sem (grade)'