Alexey/IIS_2023_1

History

yulia b27537157a podkorytova_yulia_lab_4		2023-11-05 23:01:59 +04:00
..
consoleRes.JPG	podkorytova_yulia_lab_4	2023-11-05 23:01:59 +04:00
lr4.py	podkorytova_yulia_lab_4	2023-11-05 23:01:59 +04:00
plotRes.JPG	podkorytova_yulia_lab_4	2023-11-05 23:01:59 +04:00
README.md	podkorytova_yulia_lab_4	2023-11-05 23:01:59 +04:00
tutors.csv	podkorytova_yulia_lab_4	2023-11-05 23:01:59 +04:00

README.md

Лабораторная работа 4. Кластеризация

Задание на лабораторную:

Использовать метод кластеризации по варианту для данных из курсовой работы, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.

Вариант 0 (20). Алгоритм кластеризации: K-means.

Набор данных: "Moscow tutors". Ссылка: https://www.kaggle.com/datasets/vadimantipov/moscow-tutors

Задача: разбить репетиторов на 3 группы со схожими характеристиками (стоимость занятия, оценка, количество отзывов и опыт).

Как запустить лабораторную работу:

Для запуска лабораторной работы необходимо открыть файл lr4.py, нажать на ПКМ и в выпадающем списке выбрать опцию "Run".

Технологии:

Pandas - это библиотека на языке Python, которая предоставляет удобные и эффективные инструменты для обработки и анализа данных. Она предоставляет высокоуровневые структуры данных, такие как DataFrame, которые позволяют легко и гибко работать с табличными данными.

Matplotlib - это библиотека визуализации данных на языке программирования Python, которая предоставляет широкий спектр инструментов для создания различных типов графиков, диаграмм и визуализаций данных.

Scikit-learn (Sklearn) - это библиотека для языка программирования Python, которая предоставляет инструменты для разработки и применения различных алгоритмов машинного обучения, включая классификацию, регрессию, кластеризацию, снижение размерности и многое другое. Scikit-learn также предлагает функции для предобработки данных, оценки моделей и выбора наилучших параметров.

Что делает лабораторная работа:

В лабораторной работе решается задача кластеризации методом K-means на наборе данных о московских репетиторах. Сначала загружаются данные из файла tutors.csv, пустые значения убираются из выборки. После выполняется кластеризация методом K-means для выбранных столбцов выборки, происходит получение меток и центров кластеров. Результатом лабораторной работы являются разбитые на кластеры данные и оценка качества кластеризации, выведенные в консоль, и график, на котором каждая точка данных помечена цветом, соответствующим ее кластеру, а центры кластеров обозначены красными крестиками.

Пример выходных данных:

Кластеры и оценка кластеризации

График

Вывод: результатом лабораторной работы стали 3 группы репетиторов, полученные методом кластеризации K-means. Группы были сформированы на основе схожих характеристик по стоимости занятия, оценке репетитора, количеству отзывов и опыту работы. Оценка качества кластеризации была получена при помощи коэффициента силуэта, который показал результат 0.59, так как коэффициент может варьироваться от -1 до 1, можно сказать, что оценка высокая и метод K-means подходит для решения поставленной задачи.

README.md Unescape Escape