IIS_2023_1/martysheva_tamara_lab_4/README.md

42 lines
3.9 KiB
Markdown
Raw Normal View History

2023-11-19 14:36:05 +04:00
# Лабораторная работа 4. Кластеризация
### Вариант № 18(3)
Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу.
Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
***
## *Как запустить лабораторную работу:*
Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
***
## *Использованные технологии:*
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
**Matplotlib** — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
***
## *Что делает ЛР:*
В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик.
Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров
был использован алгоритм кластеризации KMeans.
Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:
* age - возраст респондента;
* weight - вес респондента;
* work - уровень физ. активности на работе;
* phy_health - оценка состояния здоровья;
* phy_ex - оценка важности физических упражнений;
* gymtime - время, проведенное в тренажерном зале.
**Результатом работы программы** является: график распределения респондентов на 3 кластера (t-SNE.png)
***
## *Пример выходных данных:*
>График кластеризации:
![](https://sun9-24.userapi.com/impg/j6TaPnimRaaDlkjdu_bD1hfWaCJmBr2TBAKOhw/JfsZsWAx0cs.jpg?size=604x453&quality=96&sign=ae8520488eb8ff5ab1660e8ca511e601&type=album)
***
**Вывод**:
Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.