39 lines
4.9 KiB
Markdown
39 lines
4.9 KiB
Markdown
|
# Лабораторная работа 4. Кластеризация
|
|||
|
### Задание на лабораторную:
|
|||
|
Использовать метод кластеризации по варианту для данных из курсовой работы, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
|
|||
|
|
|||
|
**Вариант 0 (20).**
|
|||
|
Алгоритм кластеризации: K-means.
|
|||
|
|
|||
|
**Набор данных:** "Moscow tutors". Ссылка: https://www.kaggle.com/datasets/vadimantipov/moscow-tutors
|
|||
|
|
|||
|
**Задача:** разбить репетиторов на 3 группы со схожими характеристиками (стоимость занятия, оценка, количество отзывов и опыт).
|
|||
|
|
|||
|
***
|
|||
|
### Как запустить лабораторную работу:
|
|||
|
Для запуска лабораторной работы необходимо открыть файл `lr4.py`, нажать на ПКМ и в выпадающем списке выбрать опцию "Run".
|
|||
|
***
|
|||
|
### Технологии:
|
|||
|
**Pandas** - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.
|
|||
|
|
|||
|
**Matplotlib** - это библиотека визуализации данных на языке программирования Python, которая предоставляет широкий спектр инструментов для создания различных типов графиков, диаграмм и визуализаций данных.
|
|||
|
|
|||
|
**Scikit-learn (Sklearn)** - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.
|
|||
|
***
|
|||
|
### Что делает лабораторная работа:
|
|||
|
В лабораторной работе решается задача кластеризации методом K-means на наборе данных о московских репетиторах.
|
|||
|
Сначала загружаются данные из файла `tutors.csv`, пустые значения убираются из выборки.
|
|||
|
После выполняется кластеризация методом K-means для выбранных столбцов выборки, происходит получение меток и центров кластеров.
|
|||
|
Результатом лабораторной работы являются разбитые на кластеры данные и оценка качества кластеризации, выведенные в консоль, и график, на котором каждая точка данных помечена цветом, соответствующим ее кластеру, а центры кластеров обозначены красными крестиками.
|
|||
|
***
|
|||
|
### Пример выходных данных:
|
|||
|
***Кластеры и оценка кластеризации***
|
|||
|
![](consoleRes.jpg)
|
|||
|
|
|||
|
***График***
|
|||
|
![](plotRes.jpg)
|
|||
|
***
|
|||
|
**Вывод**: результатом лабораторной работы стали 3 группы репетиторов, полученные методом кластеризации K-means.
|
|||
|
Группы были сформированы на основе схожих характеристик по стоимости занятия, оценке репетитора, количеству отзывов и опыту работы.
|
|||
|
Оценка качества кластеризации была получена при помощи коэффициента силуэта, который показал результат *0.59*,
|
|||
|
так как коэффициент может варьироваться от -1 до 1, можно сказать, что оценка высокая и метод K-means подходит для решения поставленной задачи.
|