IIS_2023_1/basharin_sevastyan_lab_3/main.py

79 lines
5.0 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
''' Названия столбцов набора данных и их описание:
Id: Уникальный идентификатор для каждого автомобиля в списке.
Price: Ценовой диапазон автомобилей с конкретными ценниками и подсчетами. (111000 - 77500000)
Company Name: Название компании-производителя автомобилей с указанием процентной доли представительства каждой компании.
Model Name: Название модели автомобилей с указанием процентного соотношения каждой модели.
Model Year: Диапазон лет выпуска автомобилей с указанием количества и процентных соотношений. (1990 - 2019)
Location: Местоположение автомобилей с указанием регионов, где они доступны для покупки, а также их процентное соотношение.
Mileage: Информация о пробеге автомобилей с указанием диапазонов пробега, количества и процентов. (1 - 999999)
Engine Type: Описания типов двигателей с процентными соотношениями для каждого типа.
Engine Capacity: Мощность двигателя варьируется в зависимости от количества и процентов. (16 - 6600)
Color: Цветовое распределение автомобилей с указанием процентных соотношений для каждого цвета.
'''
# Загрузите данные из вашей курсовой работы, предположим, что у вас есть файл CSV.
data = pd.read_csv('Data_pakwheels.csv')
data.pop("Id")
data.dropna(inplace=True) # Удаление строки с пропущенными значениями.
# Преобразуйте категориальные признаки в числовые. Используйте, например, one-hot encoding.
# data = pd.get_dummies(data, columns=['Company Name', 'Model Name', 'Location', 'Engine Type', 'Color'])
# Создайте объект LabelEncoder
label_encoder = LabelEncoder()
data['Location'] = label_encoder.fit_transform(data['Location'])
data['Company Name'] = label_encoder.fit_transform(data['Company Name'])
data['Model Name'] = label_encoder.fit_transform(data['Model Name'])
data['Engine Type'] = label_encoder.fit_transform(data['Engine Type'])
data['Color'] = label_encoder.fit_transform(data['Color'])
data['Assembly'] = label_encoder.fit_transform(data['Assembly'])
data['Body Type'] = label_encoder.fit_transform(data['Body Type'])
data['Transmission Type'] = label_encoder.fit_transform(data['Transmission Type'])
data['Registration Status'] = label_encoder.fit_transform(data['Registration Status'])
# Разделение данных на обучающий набор и тестовый набор. Мы будем использовать 99% данных для обучения.
train_data, test_data = train_test_split(data, test_size=0.01, random_state=42)
# Определите целевую переменную (то, что вы пытаетесь предсказать, например, 'Price').
X_train = train_data.drop(columns=['Price'])
y_train = train_data['Price']
X_test = test_data.drop(columns=['Price'])
y_test = test_data['Price']
# Создание и обучение модели DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)
# Оценка важности признаков
feature_importances = clf.feature_importances_
# Создание DataFrame с именами признаков и их важностью
feature_importance_df = pd.DataFrame({'Feature': X_train.columns, 'Importance': feature_importances})
# Сортировка признаков по убыванию важности
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)
# Вывод ранжированных признаков
print(feature_importance_df)
clf = DecisionTreeClassifier(max_depth=5, random_state=42)
# Обучите модель на обучающем наборе данных
clf.fit(X_train, y_train)
# Предсказание целевой переменной на тестовом наборе данных
y_pred = clf.predict(X_test)
# Оцените производительность модели с помощью различных метрик
accuracy = accuracy_score(y_test, y_pred)
print(f'Точность модели: {accuracy}')