26 lines
2.6 KiB
Markdown
26 lines
2.6 KiB
Markdown
|
### Задание:
|
|||
|
|
|||
|
Использовать метод кластеризации для данных по алгоритму класстеризации linkage. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения задачи: Группировка людей с расстройствами сна на основе их возраста, пола и уровня стресса с целью выявления схожих характеристик и обнаружения возможных проблем со сном.
|
|||
|
|
|||
|
### Технологии:
|
|||
|
|
|||
|
Библиотека scipy, библиотека matplotlib, библиотека pandas
|
|||
|
|
|||
|
### Что делает лабораторная:
|
|||
|
|
|||
|
Загружаются данные из файла, далее они подготавливаются путем выбора только нужных столбцов. Выделяются признаки для кластеризации, Выполняется кластеризация с помощью функции linkage. В данном случае используется метод "ward", который минимизирует дисперсию внутри кластеров. Визуализируется дендрограмма
|
|||
|
|
|||
|
### Как запустить:
|
|||
|
|
|||
|
Первая часть лабораторной работы запускается в файле `shestakova_maria_lab_4.py` через Run: появляется диалоговое окно
|
|||
|
|
|||
|
### Вывод:
|
|||
|
|
|||
|

|
|||
|
|
|||
|
На оси x отображаются образцы (samples) или объекты, которые были кластеризованы. Каждый образец представлен вертикальной линией в дендрограмме.
|
|||
|
|
|||
|
На оси y отображается расстояние (distance) между кластерами. Расстояние измеряется в единицах, которые зависят от используемой метрики и метода кластеризации. Чем выше на оси y находится точка, тем больше расстояние между соответствующими кластерами.
|
|||
|
|
|||
|
Дендрограмма представляет собой графическое представление иерархической кластеризации, где каждый узел на дендрограмме представляет собой объединение кластеров или отдельный образец.
|