42 lines
3.9 KiB
Markdown
42 lines
3.9 KiB
Markdown
# Лабораторная работа 4. Кластеризация
|
||
### Вариант № 18(3)
|
||
Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу.
|
||
Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
|
||
|
||
***
|
||
## *Как запустить лабораторную работу:*
|
||
Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
|
||
***
|
||
## *Использованные технологии:*
|
||
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
|
||
|
||
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
|
||
|
||
**Matplotlib** — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
|
||
***
|
||
## *Что делает ЛР:*
|
||
В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик.
|
||
Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров
|
||
был использован алгоритм кластеризации KMeans.
|
||
|
||
Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:
|
||
* age - возраст респондента;
|
||
* weight - вес респондента;
|
||
* work - уровень физ. активности на работе;
|
||
* phy_health - оценка состояния здоровья;
|
||
* phy_ex - оценка важности физических упражнений;
|
||
* gymtime - время, проведенное в тренажерном зале.
|
||
|
||
**Результатом работы программы** является: график распределения респондентов на 3 кластера (t-SNE.png)
|
||
***
|
||
## *Пример выходных данных:*
|
||
>График кластеризации:
|
||
|
||
![](https://sun9-24.userapi.com/impg/j6TaPnimRaaDlkjdu_bD1hfWaCJmBr2TBAKOhw/JfsZsWAx0cs.jpg?size=604x453&quality=96&sign=ae8520488eb8ff5ab1660e8ca511e601&type=album)
|
||
***
|
||
**Вывод**:
|
||
Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.
|
||
|
||
|
||
|