basharin_sevastyan_lab_2 is ready

2023-10-29 17:07:56 +04:00 · 2023-10-29 17:07:56 +04:00 · 5e0058b82e
commit 5e0058b82e
parent faeeecf1ef
7 changed files with 80 additions and 9 deletions
--- a/.gitignore
+++ b/.gitignore
@ -138,3 +138,4 @@ dmypy.json
 # Cython debug symbols
 cython_debug/

+.idea
--- a/basharin_sevastyan_lab_2/README.md
+++ b/basharin_sevastyan_lab_2/README.md
@ -0,0 +1,42 @@
+## Лабораторная работа 2. Вариант 5.
+### Задание 
+Выполнить ранжирование признаков. Отобразить получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку. Провести анализ получившихся результатов. Какие четыре признака оказались самыми важными по среднему значению? 
+
+Модели:
+
+- Гребневая регрессия `Ridge`, 
+- Рекурсивное сокращение признаков `Recursive Feature Elimination – RFE`, 
+- Сокращение признаков Случайными деревьями `Random Forest Regressor`
+
+### Как запустить
+Для запуска программы необходимо с помощью командной строки в корневой директории файлов прокета прописать:
+```
+python main.py
+```
+
+### Используемые технологии
+- `numpy` (псевдоним `np`): NumPy - это библиотека для научных вычислений в Python.
+- `sklearn` (scikit-learn): Scikit-learn - это библиотека для машинного обучения и анализа данных в Python. Из данной библиотеки были использованы следующие модули:
+  - `LinearRegression` - линейная регрессия - это алгоритм машинного обучения, используемый для задач бинарной классификации.
+  - `Ridge` - инструмент работы с моделью "Гребневая регрессия"
+  - `RFE` - инструмент оценки важности признаков "Рекурсивное сокращение признаков"
+  - `RandomForestRegressor` - инструмент работы с моделью "Регрессор случайного леса"
+
+### Описание работы
+1. Программа генерирует данные для обучения моделей, содержащие матрицу признаков X и вектор целевой переменной y.
+1. Создает DataFrame data, в котором столбцы представляют признаки, а последний столбец - целевую переменную.
+1. Разделяет данные на матрицу признаков X и вектор целевой переменной y
+1. Создает список обученных моделей для ранжирования признаков: гребневой регрессии, рекурсивного сокращения признаков и сокращения признаков случайными деревьями.
+1. Создает словарь model_scores для хранения оценок каждой модели.
+1. Выводит оценки признаков каждой модели и их средние оценки.
+1. Находит четыре наиболее важных признака по средней оценке и выводит их индексы и значения.
+
+### Результат работы
+![](ridge.png "Гребневая регрессия")
+![](rfe.png "Рекурсивное сокращение признаков")
+![](rfr.png "Сокращение признаков Случайными деревьями")
+![](res.png "Четыре самых важных")
+
+### Вывод
+Четыре наиболее важных признака, определенных на основе средних оценок, включают 
+Признак 1, Признак 3, Признак 12 и Признак 6.
--- a/basharin_sevastyan_lab_2/main.py
+++ b/basharin_sevastyan_lab_2/main.py
@ -1,7 +1,10 @@
 import numpy as np
+import pandas as pd
+from sklearn.datasets import make_regression
 from sklearn.linear_model import Ridge, LinearRegression
 from sklearn.ensemble import RandomForestRegressor
 from sklearn.feature_selection import RFE
+from sklearn.preprocessing import MinMaxScaler

 ''' Задание
 Используя код из [1](пункт «Решение задачи ранжирования признаков», стр. 205), выполните ранжирование признаков с 
@ -15,25 +18,50 @@ from sklearn.feature_selection import RFE
 '''

 # создание данных
-rs = np.random.RandomState(2)
+random_state = np.random.RandomState(2)
 X, y = make_regression(n_samples=750, n_features=15, noise=0.1, random_state=random_state)
 data = pd.DataFrame(X, columns=[f'Признак {i}' for i in range(X.shape[1])])
 data['Целевая переменная'] = y
 X = data.drop('Целевая переменная', axis=1)
 y = data['Целевая переменная']

-ridge = Ridge(alpha=1)  # Создаём модель гребневой регрессии и обучаем её
-ridge.fit(X, Y)
+ridge = Ridge(alpha=1)  # Гребневая регрессия
+ridge.fit(X, y)

-recFE = RFE(LinearRegression(), n_features_to_select=1)  #
-recFE.fit(X, Y)
+recFE = RFE(LinearRegression(), n_features_to_select=1)  # Рекурсивное сокращение признаков
+recFE.fit(X, y)

-rfr = RandomForestRegressor()  # Создаём и обучаем регрессор случайного леса
-rfr.fit(X, Y)
+rfr = RandomForestRegressor()  # Сокращение признаков Случайными деревьями
+rfr.fit(X, y)

-models = [('Гребневая регрессия', ridge),
+models = [('Ridge', ridge),
          ('RFE', recFE),
          ('RFR', rfr)]
+model_scores = []

 for name, model in models:
-    pass
+    if name == 'Ridge':
+        coef = model.coef_
+        normalized_coef = MinMaxScaler().fit_transform(coef.reshape(-1, 1))
+        model_scores.append((name, normalized_coef.flatten()))
+    elif name == 'RFE':
+        rankings = model.ranking_
+        normalized_rankings = 1 - (rankings - 1) / (np.max(rankings) - 1)
+        model_scores.append((name, normalized_rankings))
+    elif name == 'RFR':
+        feature_importances = model.feature_importances_
+        normalized_importances = MinMaxScaler().fit_transform(feature_importances.reshape(-1, 1))
+        model_scores.append((name, normalized_importances.flatten()))
+
+for name, scores in model_scores:
+    print(f"{name} оценки признаков:")
+    for feature, score in enumerate(scores, start=1):
+        print(f"Признак {feature}: {score:.2f}")
+    print(f"Средняя оценка: {np.mean(scores):.2f}")
+
+all_feature_scores = np.mean(list(map(lambda x: x[1], model_scores)), axis=0)
+sorted_features = sorted(enumerate(all_feature_scores, start=1), key=lambda x: x[1], reverse=True)
+top_features = sorted_features[:4]
+print("Четыре наиболее важных признака:")
+for feature, score in top_features:
+    print(f"Признак {feature}: {score:.2f}")
--- a/basharin_sevastyan_lab_2/res.png
+++ b/basharin_sevastyan_lab_2/res.png
--- a/basharin_sevastyan_lab_2/rfe.png
+++ b/basharin_sevastyan_lab_2/rfe.png
--- a/basharin_sevastyan_lab_2/rfr.png
+++ b/basharin_sevastyan_lab_2/rfr.png
--- a/basharin_sevastyan_lab_2/ridge.png
+++ b/basharin_sevastyan_lab_2/ridge.png