IIS_2023_1/shestakova_maria_lab_4/README.md
2023-11-29 21:23:17 +03:00

26 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### Задание:
Использовать метод кластеризации для данных по алгоритму класстеризации linkage. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения задачи: Группировка людей с расстройствами сна на основе их возраста, пола и уровня стресса с целью выявления схожих характеристик и обнаружения возможных проблем со сном.
### Технологии:
Библиотека scipy, библиотека matplotlib, библиотека pandas
### Что делает лабораторная:
Загружаются данные из файла, далее они подготавливаются путем выбора только нужных столбцов. Выделяются признаки для кластеризации, Выполняется кластеризация с помощью функции linkage. В данном случае используется метод "ward", который минимизирует дисперсию внутри кластеров. Визуализируется дендрограмма
### Как запустить:
Первая часть лабораторной работы запускается в файле `shestakova_maria_lab_4.py` через Run: появляется диалоговое окно
### Вывод:
![img.png](dendro.png)
На оси x отображаются образцы (samples) или объекты, которые были кластеризованы. Каждый образец представлен вертикальной линией в дендрограмме.
На оси y отображается расстояние (distance) между кластерами. Расстояние измеряется в единицах, которые зависят от используемой метрики и метода кластеризации. Чем выше на оси y находится точка, тем больше расстояние между соответствующими кластерами.
Дендрограмма представляет собой графическое представление иерархической кластеризации, где каждый узел на дендрограмме представляет собой объединение кластеров или отдельный образец.