.. | ||
clean_data.csv | ||
lab4.py | ||
README.md | ||
t-SNE.png |
Лабораторная работа 4. Кластеризация
Вариант № 18(3)
Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
Как запустить лабораторную работу:
Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.
Использованные технологии:
Scikit-learn - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.
Pandas — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.
Matplotlib — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
Что делает ЛР:
В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик. Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров был использован алгоритм кластеризации KMeans.
Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:
- age - возраст респондента;
- weight - вес респондента;
- work - уровень физ. активности на работе;
- phy_health - оценка состояния здоровья;
- phy_ex - оценка важности физических упражнений;
- gymtime - время, проведенное в тренажерном зале.
Результатом работы программы является: график распределения респондентов на 3 кластера (t-SNE.png)
Пример выходных данных:
График кластеризации:
Вывод: Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.