Merge pull request 'antonov_dmitry_lab_2_without_conflicts' (#24) from antonov_dmitry_lab_2_without_conflicts into main

Reviewed-on: http://student.git.athene.tech/Alexey/IIS_2023_1/pulls/24
2023-10-11 20:09:51 +04:00 · 2023-10-11 20:09:51 +04:00 · d4d25953d2
commit d4d25953d2
parent d09383f064 2065c480df
3 changed files with 4615 additions and 0 deletions
--- a/antonov_dmitry_lab_2/README.md
+++ b/antonov_dmitry_lab_2/README.md
@ -0,0 +1,84 @@
 # Лаб 2
 Ранжирование признаков
 Выполните ранжирование признаков с помощью указанных по варианту моделей. 
 Отобразите получившиеся значения\оценки каждого признака каждым методом\моделью и среднюю оценку. 
 Проведите анализ получившихся результатов. 
 Какие четыре признака оказались самыми важными по среднему значению? 
 (Названия\индексы признаков и будут ответом на задание).
 # Вариант 3
 Линейная регрессия (LinearRegression) , Сокращение признаков
 Случайными деревьями (Random Forest Regressor), Линейная корреляция
 (f_regression)
 Я использовал датасет Predict students' dropout and academic success
 https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention
 Он используется мной по заданию на курсовую работу
 # Запуск
 Выполнением скрипта файла (вывод в консоль).
 # Модели:
 1. Линейная регрессия (LinearRegression)
 1. Сокращение признаков cлучайными деревьями (Random Forest Regressor)
 1. Линейная корреляция (f_regression)
 # Пояснения
 <div>
 Выбор наиболее подходящего метода ранжирования объектов зависит от специфики набора данных и требований 
 к модели.
 Линейная регрессия - это простой и понятный метод, который может быть использован для предсказания значений.
 Он хорошо работает, если зависимость между переменными является линейной. 
 Однако, если данные содержат сложные нелинейные зависимости, линейная регрессия может 
 оказаться не очень эффективной.
 Уменьшение признаков с помощью случайных деревьев (Random Forest Regressor) - это мощный метод, 
 который способен обрабатывать сложные взаимосвязи в данных, даже если они нелинейные. 
 Он основан на идее создания ансамбля деревьев решений, каждое из которых дает свой голос за 
 наиболее подходящий ответ. Случайные леса обычно дают хорошие результаты и являются устойчивыми 
 к переобучению.
 Линейная корреляция или f_regression - это статистический метод, который используется для измерения 
 степени связи между двумя переменными. Он может помочь определить, есть ли вообще связь между переменными, 
 но не подходит для ранжирования объектов.
 </div>
 ### 4 самых важных признака в среднем:
 1. Признак: Curricular units 2nd sem (approved), Оценка: 0.8428
 2. Признак: Tuition fees up to date, Оценка: 0.4797
 3. Признак: Curricular units 1st sem (approved), Оценка: 0.2986
 4. Признак: Curricular units 2nd sem (grade), Оценка: 0.2778
 ### 4 самых важных для lr_scores линейной регрессии:
 1. 0.3917 'Tuition fees up to date'
 2. 0.2791 'International'
 3. 0.2075 'Curricular units 2nd sem (approved)'
 4. 0.1481 'Debtor'
 ### 4 самых важных для rf_scores рандом forests:
 1. 0.4928 'Curricular units 2nd sem (approved)'
 2. 0.061 'Tuition fees up to date'
 3. 0.0458 'Curricular units 2nd sem (grade)'
 4. 0.0308 'Curricular units 1st sem (grade)'
 ### 4 самых важных для f_regression:
 1. 2822.104 'Curricular units 2nd sem (approved)'
 2. 2093.3315 'Curricular units 2nd sem (grade)'
 3. 1719.4229 'Curricular units 1st sem (approved)'
 4. 1361.6144 'Curricular units 1st sem (grade)'
 ### Объяснение:
 <div>
 В общем, выбор между линейной регрессией и случайными лесами зависит от характеристик данных. 
 Если данные имеют линейную зависимость, то линейная регрессия будет предпочтительнее.
 Если данные содержат сложные, возможно нелинейные взаимосвязи, то Random Forest может быть лучшим выбором. 
 В любом случае, важно провести предварительное исследование данных и тестирование различных моделей, 
 чтобы выбрать наиболее подходящую.
 </div>
--- a/antonov_dmitry_lab_2/dataset.csv
+++ b/antonov_dmitry_lab_2/dataset.csv
--- a/antonov_dmitry_lab_2/lab2.py
+++ b/antonov_dmitry_lab_2/lab2.py
@ -0,0 +1,106 @@
 import numpy as np
 import pandas as pd
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LinearRegression
 from sklearn.ensemble import RandomForestRegressor
 from sklearn.feature_selection import f_regression
 from sklearn.preprocessing import MinMaxScaler
 # загрузка dataset
 data = pd.read_csv('dataset.csv')
 # разделение dataset на тренировочную и тестовую выборки
 X = data.drop(['Target'], axis=1)
 y = data['Target']
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 # Тренировка моделей
 # Линейная регрессия
 lr = LinearRegression()
 lr.fit(X_train, y_train)
 # Сокращение признаков случайными деревьями с помощью Random Forest Regressor
 rf = RandomForestRegressor()
 rf.fit(X_train, y_train)
 # Ранжирование признаков использую каждую модель/метод
 # Получение абсолютных значений коэффициентов в качестве оценок важности признаков
 lr_scores = abs(lr.coef_)
 # Получение оценок важности объектов из модели Random Forest Regressor
 rf_scores = rf.feature_importances_
 # Отображение итоговых оценок по каждой колонке
 feature_names = X.columns.tolist()
 # показать оценки рангов по модели линейной регрессии
 print("оценки линейной регрессии:")
 for feature, score in zip(feature_names, lr_scores):
    print(f"{feature}: {round(score, 4)}")
 # оценки метода рандомных лесов
 print("\nоценки Random Forest:")
 for feature, score in zip(feature_names, rf_scores):
    print(f"{feature}: {round(score, 4)}")
 # вычисление значений оценки для f_regression
 f_scores, p_values = f_regression(X, y)
 # оценки f_regression
 print("\nоценки f_regression:")
 for feature, score in zip(feature_names, f_scores):
    print(f"{feature}: {round(score, 4)}")
 # использую MinMaxScaler для точных средних значений рангов
 scaler = MinMaxScaler()
 lr_scores_scaled = scaler.fit_transform(lr_scores.reshape(-1, 1)).flatten()
 rf_scores_scaled = scaler.fit_transform(rf_scores.reshape(-1, 1)).flatten()
 f_scores_scaled = scaler.fit_transform(f_scores.reshape(-1, 1)).flatten()
 # вычисление средних оценок для каждого признака
 average_scores = {}
 for feature in feature_names:
    average_scores[feature] = (lr_scores_scaled[feature_names.index(feature)] +
                              rf_scores_scaled[feature_names.index(feature)] +
                              f_scores_scaled[feature_names.index(feature)]) / 3
 # получаем среднюю оценку признаков
 sorted_features = sorted(average_scores.items(), key=lambda x: x[1], reverse=True)
 # получаем самых важных признака
 top_4_features = sorted_features[:4]
 # отображаем 4 самые важные
 print("\n4 самых важных признака в среднем:")
 for feature, score in top_4_features:
    print(f"Признак: {feature}, Оценка: {round(score, 4)}")
 # отображаем самых важных признака для каждого метода/модели
 top_lr_indices = np.argsort(lr_scores)[-4:][::-1]
 top_rf_indices = np.argsort(rf_scores)[-4:][::-1]
 top_f_indices = np.argsort(f_scores)[-4:][::-1]
 top_lr_features = [feature_names[i] for i in top_lr_indices]
 top_rf_features = [feature_names[i] for i in top_rf_indices]
 top_f_features = [feature_names[i] for i in top_f_indices]
 top_lr_features_score = [lr_scores[i] for i in top_lr_indices]
 top_rf_features_score = [rf_scores[i] for i in top_rf_indices]
 top_f_features_score = [f_scores[i] for i in top_f_indices]
 print("\n4 самых важных для lr_scores:")
 print(top_lr_features)
 for i in top_lr_features_score:
    print(round(i, 4))
 print("\n4 самых важных для rf_scores:")
 print(top_rf_features)
 for i in top_rf_features_score:
    print(round(i, 4))
 print("\n4 самых важных для f_scores:")
 print(top_f_features)
 for i in top_f_features_score:
    print(round(i, 4))