# Лабораторная работа 4. Кластеризация ### Вариант № 18(3) Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи. *** ## *Как запустить лабораторную работу:* Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу. *** ## *Использованные технологии:* **Scikit-learn** - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов. **Pandas** — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python. **Matplotlib** — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python. *** ## *Что делает ЛР:* В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик. Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров был использован алгоритм кластеризации KMeans. Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации: * age - возраст респондента; * weight - вес респондента; * work - уровень физ. активности на работе; * phy_health - оценка состояния здоровья; * phy_ex - оценка важности физических упражнений; * gymtime - время, проведенное в тренажерном зале. **Результатом работы программы** является: график распределения респондентов на 3 кластера (t-SNE.png) *** ## *Пример выходных данных:* >График кластеризации: ![](https://sun9-24.userapi.com/impg/j6TaPnimRaaDlkjdu_bD1hfWaCJmBr2TBAKOhw/JfsZsWAx0cs.jpg?size=604x453&quality=96&sign=ae8520488eb8ff5ab1660e8ca511e601&type=album) *** **Вывод**: Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.