mashkova_margarita_lab_2 ready

2023-11-22 00:31:35 +04:00 · 2023-11-22 00:31:35 +04:00 · 27d25c8f14
commit 27d25c8f14
parent a8c58683dd
5 changed files with 161 additions and 0 deletions
--- a/mashkova_margarita_lab_2/README.md
+++ b/mashkova_margarita_lab_2/README.md
@ -0,0 +1,61 @@
 # Лабораторная работа №2
 ## ПИбд-42 Машкова Маргарита (Вариант 19)
 ## Задание
 Выполнить  ранжирование  признаков  с  помощью  указанных  по варианту моделей.
 Отобразить  получившиеся значения\оценки каждого признака  каждым  методом\моделью  и  среднюю  оценку.
 Провести  анализ получившихся  результатов.  Какие четыре признака  оказались  самыми важными  по  среднему  значению?
 ### Модели:
 > - Линейная регрессия (LinearRegression)
 > - Гребневая регрессия (Ridge)
 > - Лассо (Lasso)
 > - Случайное Лассо (RandomizedLasso)
 > **Important**
 >
 > Модель `RandomizedLasso` была признана устаревшей в scikit-learn 0.19 и удалена в 0.21.
 Вместо нее будет использоваться регрессор случайного леса `RandomForestRegressor`.
 ## Запуск программы
 Для запуска программы необходимо запустить файл main.py
 ## Используемые технологии
 > **Язык программирования:** python
 > 
 > **Библиотеки:**
 > - `numpy` - используется для работы с массивами.
 > - `sklearn` - предоставляет широкий спектр инструментов для машинного обучения, статистики и анализа данных.
 ## Описание работы программы
 Для начала необходимо сгенерировать исходные данные (Х) - 750 строк-наблюдений и 14 столбцов-признаков.
 Затем задать функцию-выход (Y): регрессионную проблему Фридмана, когда на вход моделей подается 14 факторов, 
 выход рассчитывается по формуле, использующей только пять факторов, но факторы 11-14 зависят от факторов 1-4.
 Соотвественно, далее добавляется зависимость для признаков (факторов) х11, х12, х13, х14 от х1, х2, х3, х4.
 Далее создаются модели, указанные в варианте задания, и выполняется их обучение.
 После чего в единый массив размера 4×14 (количество_моделей и количество_признаков) выгружаются все оценки
 моделей по признакам. Находятся средние оценки и выводится результат в формате списка пар `{номер_признака – средняя_оценка}`,
 отсортированном по убыванию. Оценки признаков получаются через поле `coef_` у моделей LinearRegression, Ridge и Lasso.
 У модели RandomForestRegressor - через поле `feature_importances_`.
 Для удобства отображения данных оценки помещаются в конструкцию вида:
 `[имя_модели : [{имя_признака : оценка},{имя_признака : оценка}...]]`.
 Таким образом, получаем словарь, в котором располагаются 4 записи из четырнадцати пар каждая.
 Ключом является имя модели.
 ## Тесты
 ### Оценки важности признаков моделями
 ![Оценки важности признаков моделями](ranks.png)
 ### Оценки важности признаков моделями, отсортированные по убыванию
 ![Оценки важности признаков моделями, отсортированные по убыванию](ranks_sorted.png)
 ### Средние оценки важности признаков
 ![Средние оценки важности признаков](means.png)
 **Вывод:** основываясь на средних оценках, четырьмя наиболее важными празнаками оказались: 
 `x4 (0.86), x1 (0.8), x2 (0.73), x14 (0.51)`.
 Все модели оценили как наиболее важные признаки  x1, x2, x4, и четвертым важным признаком выбрали зависимые признаки:
 LinearRegression - х11, Ridge - х14, RandomForestRegressor - х14. Модель Lasso включила также независимый признак - х5.
--- a/mashkova_margarita_lab_2/main.py
+++ b/mashkova_margarita_lab_2/main.py
@ -0,0 +1,100 @@
 from sklearn.linear_model import LinearRegression, Ridge, Lasso
 from sklearn.ensemble import RandomForestRegressor
 from sklearn.preprocessing import MinMaxScaler
 import numpy as np
 # Генерация исходных данных: 750 строк-наблюдений и 14 столбцов-признаков
 np.random.seed(0)
 size = 750
 X = np.random.uniform(0, 1, (size, 14))
 # Задаем функцию-выход: регрессионную проблему Фридмана
 Y = (10 * np.sin(np.pi * X[:, 0] * X[:, 1]) + 20 * (X[:, 2] - .5) ** 2 + 10 * X[:, 3] + 5 * X[:, 4] ** 5
     + np.random.normal(0, 1))
 # Добавление зависимости признаков
 X[:, 10:] = X[:, :4] + np.random.normal(0, .025, (size, 4))
 # Создание моделей и их обучение
 # Линейная модель
 lr = LinearRegression()
 lr.fit(X, Y)
 # Гребневая модель
 ridge = Ridge(alpha=7)
 ridge.fit(X, Y)
 # Лассо
 lasso = Lasso(alpha=.05)
 lasso.fit(X, Y)
 # Регрессор случайного леса
 rfr = RandomForestRegressor()
 rfr.fit(X, Y)
 # Список, содержащий имена признаков
 names = ["x%s" % i for i in range(1, 15)]
 # Функция создания записи в словаре оценок важности признаков
 def rank_to_dict(ranks):
    ranks = np.abs(ranks)
    minmax = MinMaxScaler()
    ranks = minmax.fit_transform(np.array(ranks).reshape(14, 1)).ravel()
    ranks = map(lambda x: round(x, 2), ranks)
    return dict(zip(names, ranks))
 # Словарь, содержащий оценки важности признаков
 ranks_dict = dict()
 # Добавление записей в словарь
 ranks_dict["Linear regression"] = rank_to_dict(lr.coef_)
 ranks_dict["Ridge"] = rank_to_dict(ridge.coef_)
 ranks_dict["Lasso"] = rank_to_dict(lasso.coef_)
 ranks_dict["Random Forest Regressor"] = rank_to_dict(rfr.feature_importances_)
 def print_ranks():
    for key, value in ranks_dict.items():
        print(key)
        print(value)
 def print_ranks_sorted():
    for key, value in ranks_dict.items():
        print(key)
        value_sorted = sorted(value.items(), key=lambda x: x[1], reverse=True)
        print(value_sorted)
 def get_means():
    # Создаем пустой список для средних оценок
    mean = {}
    for key, value in ranks_dict.items():
        # Пробегаемся по словарю значений ranks, которые являются парой имя:оценка
        for item in value.items():
            # Имя будет ключом для нашего mean
            # Если элемента с текущим ключом в mean нет - добавляем
            if item[0] not in mean:
                mean[item[0]] = 0
            # Суммируем значения по каждому ключу-имени признака
            mean[item[0]] += item[1]
    # Находим среднее по каждому признаку
    for key, value in mean.items():
        res = value / len(ranks_dict)
        mean[key] = round(res, 2)
    # сортируем список
    mean_sorted = sorted(mean.items(), key=lambda x: x[1], reverse=True)
    return mean_sorted
 def print_means():
    for item in get_means():
        print(item)
 print("Оценки каждого признака каждой моделью:")
 print_ranks()
 print("\nОценки каждого признака каждой моделью, отсортированные по убыванию:")
 print_ranks_sorted()
 print("\nСредние оценки признаков:")
 print_means()
--- a/mashkova_margarita_lab_2/means.png
+++ b/mashkova_margarita_lab_2/means.png
--- a/mashkova_margarita_lab_2/ranks.png
+++ b/mashkova_margarita_lab_2/ranks.png
--- a/mashkova_margarita_lab_2/ranks_sorted.png
+++ b/mashkova_margarita_lab_2/ranks_sorted.png