faskhutdinov_idris_lab_5 is ready
This commit is contained in:
parent
e4edd7a112
commit
f98920fda4
46023
faskhutdinov_idris_lab_5/Clean Data_pakwheels.csv
Normal file
46023
faskhutdinov_idris_lab_5/Clean Data_pakwheels.csv
Normal file
File diff suppressed because it is too large
Load Diff
45
faskhutdinov_idris_lab_5/Readme.md
Normal file
45
faskhutdinov_idris_lab_5/Readme.md
Normal file
@ -0,0 +1,45 @@
|
||||
# Лабораторная работа №5. Регрессия
|
||||
## 2 вариант(27 % 5 = 2)
|
||||
### Задание:
|
||||
Использовать регрессию по варианту для данных из таблицы 1 по
|
||||
варианту (таблица 10), самостоятельно сформулировав задачу. Оценить,
|
||||
насколько хорошо она подходит для решения сформулированной вами задачи.
|
||||
|
||||
Используемый метод: Логистическая регрессия
|
||||
|
||||
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
|
||||
* id
|
||||
* Company Name
|
||||
* Model Name
|
||||
* Price
|
||||
* Model Year
|
||||
* Location
|
||||
* Mileage
|
||||
* Engine Type
|
||||
* Engine Capacity
|
||||
* Color
|
||||
* Assembly
|
||||
* Body Type
|
||||
* Transmission Type
|
||||
* Registration Status
|
||||
|
||||
### Как запустить лабораторную
|
||||
1. Запустить файл main.py
|
||||
|
||||
### Используемые технологии
|
||||
1. Библиотека matplotlib
|
||||
2. Библиотека scikit-learn
|
||||
3. Библиотека pandas
|
||||
3. Python
|
||||
4. IDE PyCharm
|
||||
|
||||
### Описание лабораторной работы
|
||||
Программа выполняет решение задачи регрессии методом логистической регрессии, используя для своей работы признаки "Registration Status", 'Model Year', 'Mileage'. Предсказывается вероятность регистрации автомобиля на основе данных о его пробеге и годе выпуска.
|
||||
Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), затем строковые значения преобразуются в числовые. Данные разделяются на тестовый и тренировочный наборы,
|
||||
строится модель логистической регрессии, после чего оценивается её качество.
|
||||
После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
|
||||
Точность: 0.04852728150651859
|
||||
Скриншот работы программы представлен в папке проекта.
|
||||
### Результат
|
||||
|
||||
Модель логистической регрессии показала весьма низкие результаты, в связи с этим можно сделать вывод ,что она не подходит для решения сформулированной задачи.
|
BIN
faskhutdinov_idris_lab_5/image.png
Normal file
BIN
faskhutdinov_idris_lab_5/image.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 18 KiB |
55
faskhutdinov_idris_lab_5/main.py
Normal file
55
faskhutdinov_idris_lab_5/main.py
Normal file
@ -0,0 +1,55 @@
|
||||
from sklearn.linear_model import LogisticRegression
|
||||
from sklearn.preprocessing import StandardScaler, LabelEncoder
|
||||
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
|
||||
import matplotlib.pyplot as plt
|
||||
import pandas as pd
|
||||
from sklearn.model_selection import train_test_split
|
||||
|
||||
|
||||
def main():
|
||||
# Чтение данных из датасета
|
||||
data = pd.read_csv('Clean Data_pakwheels.csv')
|
||||
|
||||
# Выбор переменных для модели
|
||||
features = ['Registration Status', 'Model Year', 'Mileage']
|
||||
# Выбор лишь части значений для оптимизации работы программы
|
||||
data = data.sample(frac=.1)
|
||||
|
||||
# Отбор нужных столбцов
|
||||
df = data[features]
|
||||
|
||||
# Преобразование строковых значений о регистрации авто в числовые
|
||||
labelencoder = LabelEncoder()
|
||||
df['Registration Status'] = labelencoder.fit_transform(df['Registration Status'])
|
||||
|
||||
# Разделение на признаки и целевую переменную, представленную как Mileage
|
||||
X = df.drop('Mileage', axis=1)
|
||||
y = df['Mileage']
|
||||
|
||||
# Разделение данных на тренировочный и тестовый наборы
|
||||
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=0)
|
||||
|
||||
# Создание и обучение логистической регрессии
|
||||
model = LogisticRegression()
|
||||
model.fit(X_train, y_train)
|
||||
|
||||
# Предсказание на тестовом наборе
|
||||
y_pred = model.predict(X_test)
|
||||
|
||||
# Оценка качества модели
|
||||
accuracy = accuracy_score(y_test, y_pred)
|
||||
class_report = classification_report(y_test, y_pred)
|
||||
|
||||
print(f'Точность: {accuracy}')
|
||||
print(f'Классификация:\n{class_report}')
|
||||
|
||||
# Визуализация результатов
|
||||
plt.scatter(X_test['Registration Status'], y_test, color='red', label='Actual')
|
||||
plt.scatter(X_test['Registration Status'], y_pred, color='green', label='Predicted', marker='x')
|
||||
plt.xlabel('Registration Status')
|
||||
plt.ylabel('Mileage')
|
||||
plt.legend()
|
||||
plt.savefig(f"image.png")
|
||||
plt.show()
|
||||
|
||||
main()
|
Loading…
Reference in New Issue
Block a user