IIS_2023_1/podkorytova_yulia_lab_5/README.md
2023-11-06 01:53:55 +04:00

4.7 KiB
Raw Blame History

Лабораторная работа 5. Регрессия

Задание на лабораторную:

Использовать регрессию по варианту для данных из курсовой работы, самостоятельно сформулировав задачу. Оценить, насколько хорошо она подходит для решения сформулированной вами задачи.

Вариант 0 (20). Тип регрессии: линейная регрессия.

Набор данных: "Moscow tutors". Ссылка: https://www.kaggle.com/datasets/vadimantipov/moscow-tutors

Задача: предсказать стоимость занятий репетиторов на основе имеющихся данных.


Как запустить лабораторную работу:

Для запуска лабораторной работы необходимо открыть файл lr5.py, нажать на ПКМ и в выпадающем списке выбрать опцию "Run".


Технологии:

Pandas - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.

Matplotlib - это библиотека визуализации данных на языке программирования Python, которая предоставляет широкий спектр инструментов для создания различных типов графиков, диаграмм и визуализаций данных.

Scikit-learn (Sklearn) - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.


Что делает лабораторная работа:

В лабораторной работе сначала загружаются данные из файла tutors.csv, пустые значения убираются из выборки, строковые значения приводятся к числовому типу. Далее происходит разделение данных на обучащий (95% данных) и тестовый (5% данных) наборы при помощи функции train_test_split. После создается модель линейной регрессии, происходит обучение модели на тренировочных данных, предсказание стоимости занятий и оценка качества модели.

Результатом работы являются предсказанные стоимости занятий и оценка качества моделей, выведенные в консоль, а также график, отображающий фактические и предсказанные стоимости занятий репетиторов.


Пример выходных данных:

Оценка качества модели и стоимости занятий

График


Вывод: результатом лабораторной работы стали предсказанные стоимости занятий репетиторов, полученные при помощи линейной регрессии. Оценка качества модели показала результат 0.06, что является очень низким значением и говорит о том, что линейная регрессия плохо справилась со своей задачей. По фактическим и предсказанным стоимостям в консоли и на графике видно, что значения сильно расходятся.