42 lines
3.9 KiB
Markdown
42 lines
3.9 KiB
Markdown
|
# Лабораторная работа 4. Кластеризация
|
|||
|
### Вариант № 18(3)
|
|||
|
Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу.
|
|||
|
Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
|
|||
|
|
|||
|
***
|
|||
|
## *Как запустить лабораторную работу:*
|
|||
|
Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
|
|||
|
***
|
|||
|
## *Использованные технологии:*
|
|||
|
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
|
|||
|
|
|||
|
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
|
|||
|
|
|||
|
**Matplotlib** — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
|
|||
|
***
|
|||
|
## *Что делает ЛР:*
|
|||
|
В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик.
|
|||
|
Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров
|
|||
|
был использован алгоритм кластеризации KMeans.
|
|||
|
|
|||
|
Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:
|
|||
|
* age - возраст респондента;
|
|||
|
* weight - вес респондента;
|
|||
|
* work - уровень физ. активности на работе;
|
|||
|
* phy_health - оценка состояния здоровья;
|
|||
|
* phy_ex - оценка важности физических упражнений;
|
|||
|
* gymtime - время, проведенное в тренажерном зале.
|
|||
|
|
|||
|
**Результатом работы программы** является: график распределения респондентов на 3 кластера (t-SNE.png)
|
|||
|
***
|
|||
|
## *Пример выходных данных:*
|
|||
|
>График кластеризации:
|
|||
|
|
|||
|
![](https://sun9-24.userapi.com/impg/j6TaPnimRaaDlkjdu_bD1hfWaCJmBr2TBAKOhw/JfsZsWAx0cs.jpg?size=604x453&quality=96&sign=ae8520488eb8ff5ab1660e8ca511e601&type=album)
|
|||
|
***
|
|||
|
**Вывод**:
|
|||
|
Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.
|
|||
|
|
|||
|
|
|||
|
|