39 lines
4.7 KiB
Markdown
39 lines
4.7 KiB
Markdown
|
# Лабораторная работа 5. Регрессия
|
|||
|
### Задание на лабораторную:
|
|||
|
Использовать регрессию по варианту для данных из курсовой работы, самостоятельно сформулировав задачу. Оценить, насколько хорошо она подходит для решения сформулированной вами задачи.
|
|||
|
|
|||
|
**Вариант 0 (20).**
|
|||
|
Тип регрессии: линейная регрессия.
|
|||
|
|
|||
|
**Набор данных:** "Moscow tutors". Ссылка: https://www.kaggle.com/datasets/vadimantipov/moscow-tutors
|
|||
|
|
|||
|
**Задача:** предсказать стоимость занятий репетиторов на основе имеющихся данных.
|
|||
|
|
|||
|
***
|
|||
|
### Как запустить лабораторную работу:
|
|||
|
Для запуска лабораторной работы необходимо открыть файл `lr5.py`, нажать на ПКМ и в выпадающем списке выбрать опцию "Run".
|
|||
|
***
|
|||
|
### Технологии:
|
|||
|
**Pandas** - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.
|
|||
|
|
|||
|
**Matplotlib** - это библиотека визуализации данных на языке программирования Python, которая предоставляет широкий спектр инструментов для создания различных типов графиков, диаграмм и визуализаций данных.
|
|||
|
|
|||
|
**Scikit-learn (Sklearn)** - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.
|
|||
|
***
|
|||
|
### Что делает лабораторная работа:
|
|||
|
В лабораторной работе сначала загружаются данные из файла `tutors.csv`, пустые значения убираются из выборки, строковые значения приводятся к числовому типу.
|
|||
|
Далее происходит разделение данных на обучащий (95% данных) и тестовый (5% данных) наборы при помощи функции *train_test_split*.
|
|||
|
После создается модель линейной регрессии, происходит обучение модели на тренировочных данных, предсказание стоимости занятий и оценка качества модели.
|
|||
|
|
|||
|
Результатом работы являются предсказанные стоимости занятий и оценка качества моделей, выведенные в консоль, а также график, отображающий фактические и предсказанные стоимости занятий репетиторов.
|
|||
|
***
|
|||
|
### Пример выходных данных:
|
|||
|
***Оценка качества модели и стоимости занятий***
|
|||
|
![](consoleRes.JPG)
|
|||
|
|
|||
|
***График***
|
|||
|
![](plotRes.JPG)
|
|||
|
***
|
|||
|
**Вывод**: результатом лабораторной работы стали предсказанные стоимости занятий репетиторов, полученные при помощи линейной регрессии.
|
|||
|
Оценка качества модели показала результат *0.06*, что является очень низким значением и говорит о том, что линейная регрессия плохо справилась со своей задачей.
|
|||
|
По фактическим и предсказанным стоимостям в консоли и на графике видно, что значения сильно расходятся.
|