faskhutdinov_idris_lab_5 is ready
This commit is contained in:
parent
e4edd7a112
commit
f98920fda4
46023
faskhutdinov_idris_lab_5/Clean Data_pakwheels.csv
Normal file
46023
faskhutdinov_idris_lab_5/Clean Data_pakwheels.csv
Normal file
File diff suppressed because it is too large
Load Diff
45
faskhutdinov_idris_lab_5/Readme.md
Normal file
45
faskhutdinov_idris_lab_5/Readme.md
Normal file
@ -0,0 +1,45 @@
|
|||||||
|
# Лабораторная работа №5. Регрессия
|
||||||
|
## 2 вариант(27 % 5 = 2)
|
||||||
|
### Задание:
|
||||||
|
Использовать регрессию по варианту для данных из таблицы 1 по
|
||||||
|
варианту (таблица 10), самостоятельно сформулировав задачу. Оценить,
|
||||||
|
насколько хорошо она подходит для решения сформулированной вами задачи.
|
||||||
|
|
||||||
|
Используемый метод: Логистическая регрессия
|
||||||
|
|
||||||
|
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
|
||||||
|
* id
|
||||||
|
* Company Name
|
||||||
|
* Model Name
|
||||||
|
* Price
|
||||||
|
* Model Year
|
||||||
|
* Location
|
||||||
|
* Mileage
|
||||||
|
* Engine Type
|
||||||
|
* Engine Capacity
|
||||||
|
* Color
|
||||||
|
* Assembly
|
||||||
|
* Body Type
|
||||||
|
* Transmission Type
|
||||||
|
* Registration Status
|
||||||
|
|
||||||
|
### Как запустить лабораторную
|
||||||
|
1. Запустить файл main.py
|
||||||
|
|
||||||
|
### Используемые технологии
|
||||||
|
1. Библиотека matplotlib
|
||||||
|
2. Библиотека scikit-learn
|
||||||
|
3. Библиотека pandas
|
||||||
|
3. Python
|
||||||
|
4. IDE PyCharm
|
||||||
|
|
||||||
|
### Описание лабораторной работы
|
||||||
|
Программа выполняет решение задачи регрессии методом логистической регрессии, используя для своей работы признаки "Registration Status", 'Model Year', 'Mileage'. Предсказывается вероятность регистрации автомобиля на основе данных о его пробеге и годе выпуска.
|
||||||
|
Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), затем строковые значения преобразуются в числовые. Данные разделяются на тестовый и тренировочный наборы,
|
||||||
|
строится модель логистической регрессии, после чего оценивается её качество.
|
||||||
|
После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
|
||||||
|
Точность: 0.04852728150651859
|
||||||
|
Скриншот работы программы представлен в папке проекта.
|
||||||
|
### Результат
|
||||||
|
|
||||||
|
Модель логистической регрессии показала весьма низкие результаты, в связи с этим можно сделать вывод ,что она не подходит для решения сформулированной задачи.
|
BIN
faskhutdinov_idris_lab_5/image.png
Normal file
BIN
faskhutdinov_idris_lab_5/image.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 18 KiB |
55
faskhutdinov_idris_lab_5/main.py
Normal file
55
faskhutdinov_idris_lab_5/main.py
Normal file
@ -0,0 +1,55 @@
|
|||||||
|
from sklearn.linear_model import LogisticRegression
|
||||||
|
from sklearn.preprocessing import StandardScaler, LabelEncoder
|
||||||
|
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
|
||||||
|
import matplotlib.pyplot as plt
|
||||||
|
import pandas as pd
|
||||||
|
from sklearn.model_selection import train_test_split
|
||||||
|
|
||||||
|
|
||||||
|
def main():
|
||||||
|
# Чтение данных из датасета
|
||||||
|
data = pd.read_csv('Clean Data_pakwheels.csv')
|
||||||
|
|
||||||
|
# Выбор переменных для модели
|
||||||
|
features = ['Registration Status', 'Model Year', 'Mileage']
|
||||||
|
# Выбор лишь части значений для оптимизации работы программы
|
||||||
|
data = data.sample(frac=.1)
|
||||||
|
|
||||||
|
# Отбор нужных столбцов
|
||||||
|
df = data[features]
|
||||||
|
|
||||||
|
# Преобразование строковых значений о регистрации авто в числовые
|
||||||
|
labelencoder = LabelEncoder()
|
||||||
|
df['Registration Status'] = labelencoder.fit_transform(df['Registration Status'])
|
||||||
|
|
||||||
|
# Разделение на признаки и целевую переменную, представленную как Mileage
|
||||||
|
X = df.drop('Mileage', axis=1)
|
||||||
|
y = df['Mileage']
|
||||||
|
|
||||||
|
# Разделение данных на тренировочный и тестовый наборы
|
||||||
|
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=0)
|
||||||
|
|
||||||
|
# Создание и обучение логистической регрессии
|
||||||
|
model = LogisticRegression()
|
||||||
|
model.fit(X_train, y_train)
|
||||||
|
|
||||||
|
# Предсказание на тестовом наборе
|
||||||
|
y_pred = model.predict(X_test)
|
||||||
|
|
||||||
|
# Оценка качества модели
|
||||||
|
accuracy = accuracy_score(y_test, y_pred)
|
||||||
|
class_report = classification_report(y_test, y_pred)
|
||||||
|
|
||||||
|
print(f'Точность: {accuracy}')
|
||||||
|
print(f'Классификация:\n{class_report}')
|
||||||
|
|
||||||
|
# Визуализация результатов
|
||||||
|
plt.scatter(X_test['Registration Status'], y_test, color='red', label='Actual')
|
||||||
|
plt.scatter(X_test['Registration Status'], y_pred, color='green', label='Predicted', marker='x')
|
||||||
|
plt.xlabel('Registration Status')
|
||||||
|
plt.ylabel('Mileage')
|
||||||
|
plt.legend()
|
||||||
|
plt.savefig(f"image.png")
|
||||||
|
plt.show()
|
||||||
|
|
||||||
|
main()
|
Loading…
Reference in New Issue
Block a user