IIS_2023_1/basharin_sevastyan_lab_5
2023-12-06 00:21:16 +04:00
..
Data_pakwheels.csv basharin_sevastyan_lab_5 is ready 2023-12-06 00:21:16 +04:00
main.py basharin_sevastyan_lab_5 is ready 2023-12-06 00:21:16 +04:00
README.md basharin_sevastyan_lab_5 is ready 2023-12-06 00:21:16 +04:00
res.png basharin_sevastyan_lab_5 is ready 2023-12-06 00:21:16 +04:00

Линейная регрессия

Лабораторная работа 3. Вариант 5.

Задание

Использовать регрессию по варианту для данных из курсовой работы. Самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.

Модель регрессии:

  • Линейная регрессия

Как запустить

Для запуска программы необходимо с помощью командной строки в корневой директории файлов прокета прописать:

python main.py

Используемые технологии

  • Библиотека pandas, используемая для работы с данными для анализа scv формата.
  • sklearn (scikit-learn): Scikit-learn - это библиотека для машинного обучения и анализа данных в Python. Из данной библиотеки были использованы следующие модули:
    • metrics - набор инструменов для оценки моделей
    • DecisionTreeClassifier - классификатор, реализующий алгоритм дерева решений. Дерево решений - это модель машинного обучения, которая разбивает данные на рекурсивные решения на основе значений признаков. Она используется для задач классификации и регрессии.
    • accuracy_score -функция из scikit-learn, которая используется для оценки производительности модели классификации путем вычисления доли правильно классифицированных примеров (точности) на тестовом наборе данных.
    • train_test_split - это функция из scikit-learn, используемая для разделения набора данных на обучающий и тестовый наборы.
    • LabelEncoder - это класс из scikit-learn, используемый для преобразования категориальных признаков (например, строки) в числовые значения.

Описание работы

Описание набора данных

Набор данных: набор данных о цене автомобиля в автопарке.

Названия столбцов набора данных и их описание:

  • Id: Уникальный идентификатор для каждого автомобиля в списке.
  • Price: Ценовой диапазон автомобилей с конкретными ценниками и подсчетами. (111000 - 77500000)
  • Company Name: Название компании-производителя автомобилей с указанием процентной доли представительства каждой компании.
  • Model Name: Название модели автомобилей с указанием процентного соотношения каждой модели.
  • Model Year: Диапазон лет выпуска автомобилей с указанием количества и процентных соотношений. (1990 - 2019)
  • Location: Местоположение автомобилей с указанием регионов, где они доступны для покупки, а также их процентное соотношение.
  • Mileage: Информация о пробеге автомобилей с указанием диапазонов пробега, количества и процентов. (1 - 999999)
  • Engine Type: Описания типов двигателей с процентными соотношениями для каждого типа.
  • Engine Capacity: Мощность двигателя варьируется в зависимости от количества и процентов. (16 - 6600)
  • Color: Цветовое распределение автомобилей с указанием процентных соотношений для каждого цвета.
  • Assembly: Импорт или местный рынок.
  • Body Type: Тип кузова.
  • Transmission Type: Тип трансмиссии.
  • Registration Status: Статус регистрации.

Ссылка на страницу набора на kuggle: Ultimate Car Price Prediction Dataset

Формулировка задачи

Предсказание цены автомобиля на основе различных характеристик.

Результат

Вывод

Коэффициент детерминации полученной модели равен примерно 0.53, что можно считать приемлемым результатом. Напомню, что чем ближе значение коэффициент детерминации к 1, тем лучше модель объясняет изменчивость целевой переменной.