IIS_2023_1/martysheva_tamara_lab_4/README.md

42 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Лабораторная работа 4. Кластеризация
### Вариант № 18(3)
Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу.
Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
***
## *Как запустить лабораторную работу:*
Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
***
## *Использованные технологии:*
**Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
**Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
**Matplotlib** — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
***
## *Что делает ЛР:*
В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик.
Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров
был использован алгоритм кластеризации KMeans.
Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:
* age - возраст респондента;
* weight - вес респондента;
* work - уровень физ. активности на работе;
* phy_health - оценка состояния здоровья;
* phy_ex - оценка важности физических упражнений;
* gymtime - время, проведенное в тренажерном зале.
**Результатом работы программы** является: график распределения респондентов на 3 кластера (t-SNE.png)
***
## *Пример выходных данных:*
>График кластеризации:
![](https://sun9-24.userapi.com/impg/j6TaPnimRaaDlkjdu_bD1hfWaCJmBr2TBAKOhw/JfsZsWAx0cs.jpg?size=604x453&quality=96&sign=ae8520488eb8ff5ab1660e8ca511e601&type=album)
***
**Вывод**:
Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.