Merge pull request 'laba 2 ready!!!' (#187) from verina_daria_lab_2 into main

Reviewed-on: http://student.git.athene.tech/Alexey/IIS_2023_1/pulls/187
2023-12-05 23:16:36 +04:00 · 2023-12-05 23:16:36 +04:00 · 8b39205604
commit 8b39205604
parent ac83aa892a cc1802b4f0
4 changed files with 106 additions and 0 deletions
--- a/verina_daria_lab_2/README.md
+++ b/verina_daria_lab_2/README.md
@ -0,0 +1,35 @@
+# IIS_2023_1
+<h4>Задание</h4>
+<p>
+Используя код из [1](пункт «Решение задачи ранжирования признаков», стр.  205),  выполните  ранжирование  признаков  с  помощью  указанных  по варианту моделей.  Отобразите  получившиеся  значения\оценки  каждого признака  каждым  методом\моделью  и  среднюю  оценку.  Проведите  анализ получившихся  результатов.  Какие четыре признака  оказались  самыми важными  по  среднему  значению?  (Названия\индексы  признаков и  будут ответом на задание).
+</p>
+<p>
+7 Вариант.
+<ul>
+    <li>Лассо (Lasso)</li>
+    <li>Случайное лассо (RandomizedLasso) </li>
+    <li>Рекурсивное сокращение признаков (Recursive Feature Elimination –RFE)</li>
+</ul>
+<h4>Как запустить программу</h4>
+Запустить скрипт verina_daria_lab_2/main.py, после чего в консоль будут выведены результаты выполнения программы.
+<h4>Стек технологий</h4>
+<p>
+    <ul>
+        <li>NumPy - это библиотека Python, предоставляющая поддержку для больших, многомерных массивов и матриц, а также набор функций для их манипуляции и обработки.</li>
+        <li>Sklearn - предоставляет ряд инструментов для моделирования данных, включая классификацию, регрессию, кластеризацию и уменьшение размерности. </li>
+        <li>pandas - программная библиотека на языке Python для обработки и анализа данных.</li>
+</ul>
+
+<h4>Описание кода</h4>
+<p>
+Программа выполняет ранжирование и сравнение признаков с использованием трех различных методов: LassoCV, Lasso и Random Forest для последующего их ранжирования и обрабатывает тремя моделями по варианту.
+Таким образом можно легко определить наиважнейшие признаки.
+</p>
+<h6>Результат: </h6>
+<img src="result1.png">
+<img src="result2.png">
+<p>
+<ul>
+   <li>Вывод: по среднему значению самыми важными признаками являются 2, 4, 12 и 13 признаки</li>
+</ul>
+</p>
--- a/verina_daria_lab_2/main.py
+++ b/verina_daria_lab_2/main.py
@ -0,0 +1,71 @@
+from sklearn.linear_model import LassoCV
+from sklearn.ensemble import RandomForestRegressor
+from sklearn.feature_selection import RFE
+from sklearn.preprocessing import MinMaxScaler
+import numpy as np
+import pandas as pd
+
+def rank_to_dict(ranks, names):
+    ranks = np.abs(ranks)
+    minmax = MinMaxScaler()
+    ranks = minmax.fit_transform(np.array(ranks).reshape(14, 1)).ravel()
+    ranks = map(lambda x: round(x, 2), ranks)
+    return dict(zip(names, ranks))
+
+np.random.seed(0)
+size = 750
+X = np.random.uniform(0, 1, (size, 14))
+
+Y = (10 * np.sin(np.pi * X[:, 0] * X[:, 1]) + 20 * (X[:, 2] - .5) ** 2 +
+     10 * X[:, 3] + 5 * X[:, 4] ** 5 + np.random.normal(0, 1, size))
+
+X[:, 10:] = X[:, :4] + np.random.normal(0, .025, (size, 4))
+
+lasso_cv = LassoCV(alphas=np.linspace(0.001, 1, 100), cv=5)
+lasso_cv.fit(X, Y)
+
+rf = RandomForestRegressor(n_estimators=100)
+rfe = RFE(estimator=rf, n_features_to_select=1, step=1)
+rfe.fit(X, Y)
+
+#  названия признаков
+names = ["x%s" % i for i in range(1, 15)]
+
+# Stable Randomized Lasso Simulation
+n_resampling = 200
+rlasso_coefs = np.zeros((X.shape[1], n_resampling))
+for i in range(n_resampling):
+    Y_permuted = np.random.permutation(Y)
+    rlasso = LassoCV(alphas=np.linspace(0.001, 1, 100), cv=5)
+    rlasso.fit(X, Y_permuted)
+    rlasso_coefs[:, i] = rlasso.coef_
+
+rlasso_scores = np.std(rlasso_coefs, axis=1)
+
+#  словарь для ранжирования
+ranks = {"Lasso": rank_to_dict(lasso_cv.coef_, names),
+         "RFE": rank_to_dict(rfe.ranking_, names),
+         "RandomizedLassoSim": rank_to_dict(rlasso_scores, names)}
+
+mean = {}
+for method, values in ranks.items():
+    for feature, score in values.items():
+        # Если элемента с текущим ключом в mean нет - добавляем
+        if feature not in mean:
+            mean[feature] = 0
+        # Суммируем значения по каждому ключу-имени признака
+        mean[feature] += score
+df_ranks = pd.DataFrame(ranks)
+
+# Выводим ранжирование
+print("ПО КАЖДОМУ МЕТОДУ:")
+print(df_ranks)
+
+# Находим среднее по каждому признаку
+for feature, score in mean.items():
+    mean[feature] = round(score / len(ranks), 2)
+
+# Отсортированные средние значени
+mean = sorted(mean.items(), key=lambda x: x[1], reverse=True)
+print("СРЕДНИЕ")
+print(mean)
--- a/verina_daria_lab_2/result1.png
+++ b/verina_daria_lab_2/result1.png
--- a/verina_daria_lab_2/result2.png
+++ b/verina_daria_lab_2/result2.png