degtyarev_mikhail_lab_2_is_ready

2023-12-03 15:05:18 +04:00 · 2023-12-03 15:05:18 +04:00 · 3e32d676e0
commit 3e32d676e0
parent a8c58683dd
2 changed files with 131 additions and 0 deletions
--- a/degtyarev_mikhail_lab_2/Readme.md
+++ b/degtyarev_mikhail_lab_2/Readme.md
@ -0,0 +1,60 @@
+# Лабораторная 2
+## Вариант 9
+
+## Задание
+Выполните  ранжирование  признаков  с  помощью  указанных  по вариантумоделей.  Отобразите  получившиеся  значения\оценки  каждого признака  каждым  методом\моделью  и  среднюю  оценку. Проведите анализ получившихся результатов.
+## Модели
+
+- Лассо (Lasso)
+- Сокращение признаков Случайными деревьями (Random Forest Regressor)
+- Линейная корреляция (f_regression)
+
+## Описание Программы
+Данная программа решает задачу ранжирования признаков в задаче регрессии, используя три различные модели: Lasso, случайные деревья (Random Forest) и линейную корреляцию (f_regression). Каждая модель ранжирует признаки в соответствии с их важностью, а затем производится вычисление среднего ранжирования для каждого признака на основе результатов всех моделей.
+
+
+### Используемые библиотеки
+- `numpy`: Для работы с массивами и вычислений.
+- `scikit-learn`: Библиотека машинного обучения для реализации моделей регрессии и методов ранжирования признаков.
+
+### Шаги программы
+
+Исходные данные: Генерация случайных данных для задачи регрессии, состоящей из 750 строк и 14 признаков.
+
+Модели:
+
+Lasso: Применение линейной модели Lasso с параметром альфа равным 0.05.
+Random Forest: Использование ансамбля случайных деревьев с 100 деревьями.
+Линейная корреляция (f_regression): Расчет коэффициентов корреляции между признаками и целевой переменной.
+Ранжирование признаков:
+
+Каждая модель ранжирует признаки в соответствии с их важностью.
+Используется MinMaxScaler для нормализации значений рангов.
+Среднее ранжирование:
+
+Для каждого признака рассчитывается среднее значение его ранга по всем моделям.
+Вывод результатов:
+
+Выводится среднее ранжирование для каждого признака.
+Показываются результаты ранжирования для каждой модели.
+Выводится топ-4 признака с их значениями на основе среднего ранжирования.
+
+### Запуск программы
+- Склонировать или скачать код `main.py`.
+- Запустите файл в среде, поддерживающей выполнение Python. `python main.py`
+
+### Результаты
+- Lasso
+{'x1': 0.69, 'x2': 0.72, 'x3': 0.0, 'x4': 1.0, 'x5': 0.29, 'x6': 0.0, 'x7': 0.0, 'x8': 0.0, 'x9': 0.0, 'x10': 0.0, 'x11': 0.0, 'x12': 0.0, 'x13': 0.0, 'x14': 0.0}
+- Random Forest
+{'x1': 0.66, 'x2': 0.76, 'x3': 0.1, 'x4': 0.55, 'x5': 0.23, 'x6': 0.0, 'x7': 0.01, 'x8': 0.0, 'x9': 0.0, 'x10': 0.0, 'x11': 0.29, 'x12': 0.28, 'x13': 0.09, 'x14': 1.0}
+- Correlation
+{'x1': 0.3, 'x2': 0.45, 'x3': 0.0, 'x4': 1.0, 'x5': 0.04, 'x6': 0.0, 'x7': 0.01, 'x8': 0.02, 'x9': 0.01, 'x10': 0.0, 'x11': 0.29, 'x12': 0.44, 'x13': 0.0, 'x14': 0.98}
+- Среднее
+{'x1': 0.55, 'x2': 0.64, 'x3': 0.03, 'x4': 0.85, 'x5': 0.19, 'x6': 0.0, 'x7': 0.01, 'x8': 0.01, 'x9': 0.0, 'x10': 0.0, 'x11': 0.19, 'x12': 0.24, 'x13': 0.03, 'x14': 0.66}
+- Топ 4 признака с их значениями на основе среднего ранжирования:
+1. **x4:** 0.85
+2. **x14:** 0.66
+3. **x2:** 0.64
+4. **x1:** 0.55
+
--- a/degtyarev_mikhail_lab_2/main.py
+++ b/degtyarev_mikhail_lab_2/main.py
@ -0,0 +1,71 @@
+from sklearn.linear_model import Lasso
+from sklearn.ensemble import RandomForestRegressor
+from sklearn.feature_selection import f_regression
+from sklearn.preprocessing import MinMaxScaler
+import numpy as np
+
+# Генерация исходных данных
+np.random.seed(0)
+size = 750
+X = np.random.uniform(0, 1, (size, 14))
+Y = (10 * np.sin(np.pi*X[:, 0]*X[:, 1]) + 20*(X[:, 2] - .5)**2 +
+     10*X[:, 3] + 5*X[:, 4]**5 + np.random.normal(0, 1))
+X[:, 10:] = X[:, :4] + np.random.normal(0, .025, (size, 4))
+
+# Лассо
+lasso = Lasso(alpha=0.05)
+lasso.fit(X, Y)
+
+# Случайные деревья
+rf = RandomForestRegressor(n_estimators=100, random_state=0)
+rf.fit(X, Y)
+
+# Линейная корреляция (f_regression)
+correlation_coeffs, _ = f_regression(X, Y)
+
+# Ранжирование с использованием MinMaxScaler
+def rank_to_dict(ranks, names):
+    ranks = np.abs(ranks)
+    minmax = MinMaxScaler()
+    ranks = minmax.fit_transform(np.array(ranks).reshape(14, 1)).ravel()
+    ranks = map(lambda x: round(x, 2), ranks)
+    return dict(zip(names, ranks))
+
+# Ранжирование для каждой модели
+ranks = {}
+names = ["x%s" % i for i in range(1, 15)]
+
+ranks["Lasso"] = rank_to_dict(lasso.coef_, names)
+ranks["Random Forest"] = rank_to_dict(rf.feature_importances_, names)
+ranks["Correlation"] = rank_to_dict(correlation_coeffs, names)
+
+# Создание пустого словаря для данных
+mean = {}
+
+# Обработка словаря ranks
+for key, value in ranks.items():
+    for item in value.items():
+        if item[0] not in mean:
+            mean[item[0]] = 0
+        mean[item[0]] += item[1]
+
+# Нахождение среднего по каждому признаку
+for key, value in mean.items():
+    res = value / len(ranks)
+    mean[key] = round(res, 2)
+
+# Сортировка и вывод списка средних значений
+mean_dict = dict(mean)
+print("MEAN")
+print(mean_dict)
+
+# Вывод результатов ранжирования для каждой модели
+for key, value in ranks.items():
+    print(key)
+    print(value)
+
+# Вывод топ-4 признаков с их значениями
+top_features = sorted(mean.items(), key=lambda x: x[1], reverse=True)[:4]
+print("Top 4 features with values:")
+for feature, value in top_features:
+    print(f"{feature}: {value}")