IIS_2023_1/martysheva_tamara_lab_4/README.md

3.9 KiB
Raw Blame History

Лабораторная работа 4. Кластеризация

Вариант № 18(3)

Использовать метод кластеризации для данных по варианту из таблицы, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.


Как запустить лабораторную работу:

Чтобы запустить программу, открываем файл lab4 в PyCharm и нажимаем на зеленый треугольник в правом верхнем углу.


Использованные технологии:

Scikit-learn - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов.

Pandas — это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python.

Matplotlib — это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.


Что делает ЛР:

В данной работе анализируется работа модели t-SNE и решается задача распределения респондентов на группы на основе их образа жизни, привычек и характеристик. Метод t-SNE используется для визуализации, например, отображения пространства высокой размерности в двух- или трехмерное пространство. Для получения меток кластеров был использован алгоритм кластеризации KMeans.

Имеется набор данных (clean_data), содержащий результаты опроса добровольцев на тему их состояния здоровья. Были выбраны 6 признаков для кластеризации:

  • age - возраст респондента;
  • weight - вес респондента;
  • work - уровень физ. активности на работе;
  • phy_health - оценка состояния здоровья;
  • phy_ex - оценка важности физических упражнений;
  • gymtime - время, проведенное в тренажерном зале.

Результатом работы программы является: график распределения респондентов на 3 кластера (t-SNE.png)


Пример выходных данных:

График кластеризации:


Вывод: Из графика видно, что модель t-SNE распределила респондентов на 3 множества точек, визуально составляющие отдельные группы респондентов на основе их образа жизни, привычек и характеристик, что означает, что метод вполне подходит для решения поставленной задачи.