IIS_2023_1/antonov_dmitry_lab_2/README.md

84 lines
5.3 KiB
Markdown
Raw Permalink Normal View History

2023-10-08 14:01:37 +04:00
# Лаб 2
Ранжирование признаков
Выполните ранжирование признаков с помощью указанных по варианту моделей.
Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку.
Проведите анализ получившихся результатов.
Какие четыре признака оказались самыми важными по среднему значению?
(Названия\индексы признаков и будут ответом на задание).
# Вариант 3
Линейная регрессия (LinearRegression) , Сокращение признаков
Случайными деревьями (Random Forest Regressor), Линейная корреляция
(f_regression)
Я использовал датасет Predict students' dropout and academic success
https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention
Он используется мной по заданию на курсовую работу
# Запуск
Выполнением скрипта файла (вывод в консоль).
# Модели:
1. Линейная регрессия (LinearRegression)
1. Сокращение признаков cлучайными деревьями (Random Forest Regressor)
1. Линейная корреляция (f_regression)
# Пояснения
<div>
Выбор наиболее подходящего метода ранжирования объектов зависит от специфики набора данных и требований
к модели.
Линейная регрессия - это простой и понятный метод, который может быть использован для предсказания значений.
Он хорошо работает, если зависимость между переменными является линейной.
Однако, если данные содержат сложные нелинейные зависимости, линейная регрессия может
оказаться не очень эффективной.
Уменьшение признаков с помощью случайных деревьев (Random Forest Regressor) - это мощный метод,
который способен обрабатывать сложные взаимосвязи в данных, даже если они нелинейные.
Он основан на идее создания ансамбля деревьев решений, каждое из которых дает свой голос за
наиболее подходящий ответ. Случайные леса обычно дают хорошие результаты и являются устойчивыми
к переобучению.
Линейная корреляция или f_regression - это статистический метод, который используется для измерения
степени связи между двумя переменными. Он может помочь определить, есть ли вообще связь между переменными,
но не подходит для ранжирования объектов.
</div>
### 4 самых важных признака в среднем:
1. Признак: Curricular units 2nd sem (approved), Оценка: 0.8428
2. Признак: Tuition fees up to date, Оценка: 0.4797
3. Признак: Curricular units 1st sem (approved), Оценка: 0.2986
4. Признак: Curricular units 2nd sem (grade), Оценка: 0.2778
### 4 самых важных для lr_scores линейной регрессии:
1. 0.3917 'Tuition fees up to date'
2. 0.2791 'International'
3. 0.2075 'Curricular units 2nd sem (approved)'
4. 0.1481 'Debtor'
### 4 самых важных для rf_scores рандом forests:
1. 0.4928 'Curricular units 2nd sem (approved)'
2. 0.061 'Tuition fees up to date'
3. 0.0458 'Curricular units 2nd sem (grade)'
4. 0.0308 'Curricular units 1st sem (grade)'
### 4 самых важных для f_regression:
1. 2822.104 'Curricular units 2nd sem (approved)'
2. 2093.3315 'Curricular units 2nd sem (grade)'
3. 1719.4229 'Curricular units 1st sem (approved)'
4. 1361.6144 'Curricular units 1st sem (grade)'
### Объяснение:
<div>
В общем, выбор между линейной регрессией и случайными лесами зависит от характеристик данных.
Если данные имеют линейную зависимость, то линейная регрессия будет предпочтительнее.
Если данные содержат сложные, возможно нелинейные взаимосвязи, то Random Forest может быть лучшим выбором.
В любом случае, важно провести предварительное исследование данных и тестирование различных моделей,
чтобы выбрать наиболее подходящую.
</div>