mashkova_margarita_lab_2 ready

2023-11-22 00:31:35 +04:00 · 2023-11-22 00:31:35 +04:00 · 27d25c8f14
commit 27d25c8f14
parent a8c58683dd
5 changed files with 161 additions and 0 deletions
--- a/mashkova_margarita_lab_2/README.md
+++ b/mashkova_margarita_lab_2/README.md
@ -0,0 +1,61 @@
+# Лабораторная работа №2
+## ПИбд-42 Машкова Маргарита (Вариант 19)
+## Задание
+Выполнить  ранжирование  признаков  с  помощью  указанных  по варианту моделей.
+Отобразить  получившиеся значения\оценки каждого признака  каждым  методом\моделью  и  среднюю  оценку.
+Провести  анализ получившихся  результатов.  Какие четыре признака  оказались  самыми важными  по  среднему  значению?
+
+### Модели:
+
+> - Линейная регрессия (LinearRegression)
+> - Гребневая регрессия (Ridge)
+> - Лассо (Lasso)
+> - Случайное Лассо (RandomizedLasso)
+
+> **Important**
+>
+> Модель `RandomizedLasso` была признана устаревшей в scikit-learn 0.19 и удалена в 0.21.
+Вместо нее будет использоваться регрессор случайного леса `RandomForestRegressor`.
+
+## Запуск программы
+Для запуска программы необходимо запустить файл main.py
+
+## Используемые технологии
+> **Язык программирования:** python
+> 
+> **Библиотеки:**
+> - `numpy` - используется для работы с массивами.
+> - `sklearn` - предоставляет широкий спектр инструментов для машинного обучения, статистики и анализа данных.
+## Описание работы программы
+
+Для начала необходимо сгенерировать исходные данные (Х) - 750 строк-наблюдений и 14 столбцов-признаков.
+Затем задать функцию-выход (Y): регрессионную проблему Фридмана, когда на вход моделей подается 14 факторов, 
+выход рассчитывается по формуле, использующей только пять факторов, но факторы 11-14 зависят от факторов 1-4.
+Соотвественно, далее добавляется зависимость для признаков (факторов) х11, х12, х13, х14 от х1, х2, х3, х4.
+
+Далее создаются модели, указанные в варианте задания, и выполняется их обучение.
+
+После чего в единый массив размера 4×14 (количество_моделей и количество_признаков) выгружаются все оценки
+моделей по признакам. Находятся средние оценки и выводится результат в формате списка пар `{номер_признака – средняя_оценка}`,
+отсортированном по убыванию. Оценки признаков получаются через поле `coef_` у моделей LinearRegression, Ridge и Lasso.
+У модели RandomForestRegressor - через поле `feature_importances_`.
+Для удобства отображения данных оценки помещаются в конструкцию вида:
+`[имя_модели : [{имя_признака : оценка},{имя_признака : оценка}...]]`.
+Таким образом, получаем словарь, в котором располагаются 4 записи из четырнадцати пар каждая.
+Ключом является имя модели.
+
+## Тесты
+
+### Оценки важности признаков моделями
+![Оценки важности признаков моделями](ranks.png)
+### Оценки важности признаков моделями, отсортированные по убыванию
+![Оценки важности признаков моделями, отсортированные по убыванию](ranks_sorted.png)
+### Средние оценки важности признаков
+![Средние оценки важности признаков](means.png)
+ 
+**Вывод:** основываясь на средних оценках, четырьмя наиболее важными празнаками оказались: 
+`x4 (0.86), x1 (0.8), x2 (0.73), x14 (0.51)`.
+Все модели оценили как наиболее важные признаки  x1, x2, x4, и четвертым важным признаком выбрали зависимые признаки:
+LinearRegression - х11, Ridge - х14, RandomForestRegressor - х14. Модель Lasso включила также независимый признак - х5.
+
+
--- a/mashkova_margarita_lab_2/main.py
+++ b/mashkova_margarita_lab_2/main.py
@ -0,0 +1,100 @@
+from sklearn.linear_model import LinearRegression, Ridge, Lasso
+from sklearn.ensemble import RandomForestRegressor
+from sklearn.preprocessing import MinMaxScaler
+import numpy as np
+
+# Генерация исходных данных: 750 строк-наблюдений и 14 столбцов-признаков
+np.random.seed(0)
+size = 750
+X = np.random.uniform(0, 1, (size, 14))
+
+# Задаем функцию-выход: регрессионную проблему Фридмана
+Y = (10 * np.sin(np.pi * X[:, 0] * X[:, 1]) + 20 * (X[:, 2] - .5) ** 2 + 10 * X[:, 3] + 5 * X[:, 4] ** 5
+     + np.random.normal(0, 1))
+
+# Добавление зависимости признаков
+X[:, 10:] = X[:, :4] + np.random.normal(0, .025, (size, 4))
+
+# Создание моделей и их обучение
+# Линейная модель
+lr = LinearRegression()
+lr.fit(X, Y)
+# Гребневая модель
+ridge = Ridge(alpha=7)
+ridge.fit(X, Y)
+# Лассо
+lasso = Lasso(alpha=.05)
+lasso.fit(X, Y)
+# Регрессор случайного леса
+rfr = RandomForestRegressor()
+rfr.fit(X, Y)
+
+# Список, содержащий имена признаков
+names = ["x%s" % i for i in range(1, 15)]
+
+
+# Функция создания записи в словаре оценок важности признаков
+def rank_to_dict(ranks):
+    ranks = np.abs(ranks)
+    minmax = MinMaxScaler()
+    ranks = minmax.fit_transform(np.array(ranks).reshape(14, 1)).ravel()
+    ranks = map(lambda x: round(x, 2), ranks)
+    return dict(zip(names, ranks))
+
+
+# Словарь, содержащий оценки важности признаков
+ranks_dict = dict()
+# Добавление записей в словарь
+ranks_dict["Linear regression"] = rank_to_dict(lr.coef_)
+ranks_dict["Ridge"] = rank_to_dict(ridge.coef_)
+ranks_dict["Lasso"] = rank_to_dict(lasso.coef_)
+ranks_dict["Random Forest Regressor"] = rank_to_dict(rfr.feature_importances_)
+
+
+def print_ranks():
+    for key, value in ranks_dict.items():
+        print(key)
+        print(value)
+
+
+def print_ranks_sorted():
+    for key, value in ranks_dict.items():
+        print(key)
+        value_sorted = sorted(value.items(), key=lambda x: x[1], reverse=True)
+        print(value_sorted)
+
+
+def get_means():
+    # Создаем пустой список для средних оценок
+    mean = {}
+    for key, value in ranks_dict.items():
+        # Пробегаемся по словарю значений ranks, которые являются парой имя:оценка
+        for item in value.items():
+            # Имя будет ключом для нашего mean
+            # Если элемента с текущим ключом в mean нет - добавляем
+            if item[0] not in mean:
+                mean[item[0]] = 0
+            # Суммируем значения по каждому ключу-имени признака
+            mean[item[0]] += item[1]
+
+    # Находим среднее по каждому признаку
+    for key, value in mean.items():
+        res = value / len(ranks_dict)
+        mean[key] = round(res, 2)
+    # сортируем список
+    mean_sorted = sorted(mean.items(), key=lambda x: x[1], reverse=True)
+    return mean_sorted
+
+
+def print_means():
+    for item in get_means():
+        print(item)
+
+
+print("Оценки каждого признака каждой моделью:")
+print_ranks()
+print("\nОценки каждого признака каждой моделью, отсортированные по убыванию:")
+print_ranks_sorted()
+print("\nСредние оценки признаков:")
+print_means()
+
--- a/mashkova_margarita_lab_2/means.png
+++ b/mashkova_margarita_lab_2/means.png
--- a/mashkova_margarita_lab_2/ranks.png
+++ b/mashkova_margarita_lab_2/ranks.png
--- a/mashkova_margarita_lab_2/ranks_sorted.png
+++ b/mashkova_margarita_lab_2/ranks_sorted.png