madyshev_egor_lab_3 is ready

2023-10-09 10:18:50 +04:00 · 2023-10-09 10:18:50 +04:00 · 516c7aea4f
commit 516c7aea4f
parent 7ce7f86d4b
3 changed files with 1088 additions and 0 deletions
--- a/madyshev_egor_lab_3/StudentsPerformance.csv
+++ b/madyshev_egor_lab_3/StudentsPerformance.csv
--- a/madyshev_egor_lab_3/main.py
+++ b/madyshev_egor_lab_3/main.py
@ -0,0 +1,46 @@
+import numpy as np
+import pandas as pb
+import matplotlib.pyplot as plt
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression, Perceptron
+from sklearn.neural_network import MLPClassifier, MLPRegressor
+from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler
+from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
+
+df = pb.read_csv("StudentsPerformance.csv", sep=",", encoding="windows-1251")
+df1 = df
+print("Данные без подготовки:")
+with pb.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
+    print(df[:5])
+
+def prepareStringData(columnName):
+    uniq = df[columnName].unique()
+    mp = {}
+    for i in uniq:
+        mp[i] = len(mp)
+    df[columnName] = df[columnName].map(mp)
+
+
+print()
+print("Данные после подготовки:")
+prepareStringData("gender")
+prepareStringData("race/ethnicity")
+prepareStringData("parental level of education")
+prepareStringData("lunch")
+prepareStringData("test preparation course")
+with pb.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
+    print(df[:5])
+
+X = df[["gender", "race/ethnicity", "lunch", "test preparation course", "math score", "reading score", "writing score"]]
+y = df["parental level of education"]
+X_train, X_Test, y_train, y_test = train_test_split(X, y, test_size=0.01, random_state=42)
+dtc = DecisionTreeClassifier()
+dtc = dtc.fit(X_train, y_train)
+dtr = DecisionTreeRegressor()
+dtr = dtr.fit(X_train, y_train)
+print()
+print("Результат дерева класификации на учебных данных: ", dtc.score(X_train, y_train))
+print("Результат дерева класификации на тестовых данных: ", dtc.score(X_Test, y_test))
+print()
+print("Результат дерева регрессии на учебных данных: ", dtr.score(X_train, y_train))
+print("Результат дерева регрессии на тестовых данных: ", dtr.score(X_Test, y_test))
--- a/madyshev_egor_lab_3/readme.md
+++ b/madyshev_egor_lab_3/readme.md
@ -0,0 +1,41 @@
+# Задание
+Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод  
+## Задание по варианту
+Задача для дерева решений. Предсказание уровня образования родителей по всем остальных данным.  
+## Решение
+### Запуск программы
+Для запуска программы необходимо запустить файл main.py, содержащий код программы  
+### Используемые технологии
+Программа использует следующие библиотеки:  
+- numpy - библиотека для работы с массивами и матрицами.
+- matplotlib - библиотека для создания графиков и визуализации данных.
+- sklearn - библиотека для машинного обучения и анализа данных.
+### Что делает программа
+Программа читает данные из csv файла. Подготавливает их для работы модели, приводя текстовые параметры к числам.  И пытается научиться предсказывать уровень образования родителей по данным об их детях.
+### Тесты
+Данные без подготовки:  
+   gender race/ethnicity parental level of education         lunch test preparation course  math score  reading score  writing score  
+0  female        group B           bachelor's degree      standard                    none          72             72             74  
+1  female        group C                some college      standard               completed          69             90             88  
+2  female        group B             master's degree      standard                    none          90             95             93  
+3    male        group A          associate's degree  free/reduced                    none          47             57             44  
+4    male        group C                some college      standard                    none          76             78             75  
+  
+Данные после подготовки:  
+   gender  race/ethnicity  parental level of education  lunch  test preparation course  math score  reading score  writing score  
+0       0               0                            0      0                        0          72             72             74  
+1       0               1                            1      0                        1          69             90             88  
+2       0               0                            2      0                        0          90             95             93  
+3       1               2                            3      1                        0          47             57             44  
+4       1               1                            1      0                        0          76             78             75  
+  
+Результат дерева классификации на учебных данных:  0.998989898989899  
+Результат дерева классификации на тестовых данных:  0.2  
+  
+Результат дерева регрессии на учебных данных:  0.9984005221729634  
+Результат дерева регрессии на тестовых данных:  -1.2264150943396226  
+
+По результатам двух типов моделей деревьев видно, что модель дерева решений не подходит для предсказания уровня образования родителей по этим данным. Или на практике не существует такой зависимости.  
+С целью проверки не переобучилась ли модель были проведены тесты с изменением параметров программы.  
+Изменение объема обучающей выборки и регулирование параметров моделей деревьев результат не поменяло.  
+Это значит, что модель не была переобучена.