faskhutdinov_idris_lab_5 is ready #308

Open
CptNemo wants to merge 3 commits from faskhutdinov_idris_lab_5 into main
3 changed files with 46146 additions and 0 deletions
Showing only changes of commit 2cc422ae74 - Show all commits

File diff suppressed because it is too large Load Diff

View File

@ -0,0 +1,84 @@
# Лабораторная работа №3. Деревья решений
## 6 вариант
### Задание:
Решите с помощью библиотечной реализации дерева решений
задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету
«Методы искусственного интеллекта» на 99% ваших данных. Проверьте
работу модели на оставшемся проценте, сделайте вывод
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
* id
* Company Name
* Model Name
* Price
* Model Year
* Location
* Mileage
* Engine Type
* Engine Capacity
* Color
* Assembly
* Body Type
* Transmission Type
* Registration Status
### Как запустить лабораторную
1. Запустить файл main.py
### Используемые технологии
1. Библиотека pandas
2. Библиотека scikit-learn
3. Python
4. IDE PyCharm
### Описание лабораторной работы
Программа загружает данные из файла Clean_Data_pakwheels.csv, после чего выбирает необходимые для создания модели столбцы.
Выбранные столбцы разделяются на целевую переменную (Y) и признаки (X). Некоторые столбцы в датасете представлены в виде текстовых значений, поэтому мы представляем их как численные значения
Затем программа обучает модель, выполняет прогнозы и оценивает точность. В консоль выводятся признаки по их важности
Целевой признак - Registration Status
### Результат
Accuracy: 0.9327548806941431
* Признак Важность
* 1 Mileage 0.332722
* 2 Price 0.332358
* 0 Model Year 0.175522
* 34 Transmission Type_Automatic 0.086699
* 13 Company Name_Honda 0.021243
* 31 Company Name_Toyota 0.015743
* 30 Company Name_Suzuki 0.008819
* 10 Company Name_Daihatsu 0.007749
* 25 Company Name_Nissan 0.007616
* 4 Company Name_Audi 0.003018
* 23 Company Name_Mercedes 0.001886
* 22 Company Name_Mazda 0.001800
* 18 Company Name_KIA 0.001416
* 24 Company Name_Mitsubishi 0.001044
* 29 Company Name_Subaru 0.000787
* 5 Company Name_BMW 0.000458
* 19 Company Name_Land 0.000407
* 27 Company Name_Range 0.000332
* 26 Company Name_Porsche 0.000331
* 35 Transmission Type_Manual 0.000050
* 20 Company Name_Lexus 0.000000
* 21 Company Name_MINI 0.000000
* 9 Company Name_Daewoo 0.000000
* 8 Company Name_DFSK 0.000000
* 14 Company Name_Hummer 0.000000
* 7 Company Name_Chevrolet 0.000000
* 11 Company Name_FAW 0.000000
* 17 Company Name_Jeep 0.000000
* 28 Company Name_SsangYong 0.000000
* 16 Company Name_Jaguar 0.000000
* 6 Company Name_Chery 0.000000
* 15 Company Name_Hyundai 0.000000
* 32 Company Name_United 0.000000
* 33 Company Name_Volvo 0.000000
* 3 Company Name_Adam 0.000000
* 12 Company Name_Fiat 0.000000
### Вывод
Исходя из результатов работы программы можно сделать вывод, что наиболее важным признаком, отвечающим за
то, зарегистрирована машина или нет, является её пробег, а так же её цена на рынке. Точность модели составляет 93%, что говорит о том,
что она классифицирует данные при заданных условиях с высокой точностью.

View File

@ -0,0 +1,39 @@
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
def main():
# Чтение данных из csv файла
data = pd.read_csv("Clean_Data_pakwheels.csv")
# Выбор необходимых для создания модели столбцов
selected_columns = ['Company Name', 'Model Year', 'Mileage', 'Transmission Type', 'Price', 'Registration Status']
data = data[selected_columns]
# Разделение данных на признаки (X) и целевую переменную (y), целевая переменная в данном случае Registration Status
y = data['Registration Status']
data = data.drop(columns=['Registration Status'])
# В связи с тем, что некоторые столбцы представляют из себя текстовые значения, мы представляем их в виде числовых значений
X = pd.get_dummies(data)
# Тестовый набор в данном случае - 1%, обучающий - 99%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.01)
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
# Предсказание на тестовом наборе
y_pred = model.predict(X_test)
# Оценка точности модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
# Важность признаков
importance = pd.DataFrame({'Признак': X.columns, 'Важность': model.feature_importances_})
importance = importance.sort_values(by='Важность', ascending=False)
print(importance)
main()