IIS_2023_1/tsyppo_anton_lab_4/README.md
2023-12-06 15:08:42 +04:00

3.0 KiB
Raw Permalink Blame History

Лабораторная работа №4: Кластеризация

Задание. Вариант 3

Мой вариант 28, поэтому взял 3 вариант

Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту (таблица 9), самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.

Вариант 3 - t-SNE

Задача: Провести кластеризацию хостелов на основе их суммарных оценок (summary.score), расстояния от центра города (Distance) и категории города (City).

Описание программы

Программа выполняет кластеризацию данных о хостелах с использованием метода t-SNE. В качестве признаков для кластеризации используются суммарная оценка хостела, расстояние от центра города и категория города.

Как запустить лабораторную работу

  1. Установите необходимые библиотеки:

    pip install pandas scikit-learn numpy
    
  2. Запустите скрипт:

    python main.py
    
  3. Результаты будут сохранены в файле "Clustering.png", а средние значения для каждого кластера выведены в консоль.

Использованные технологии

  • Python
  • matplotlib
  • Pandas
  • scikit-learn

Что программа делает

Программа читает данные из файла CSV, проводит предобработку, визуализирует кластеры на двумерной диаграмме рассеяния и выводит средние значения для каждого кластера.

Тесты

Графики моделей Графики моделей

Вывод

По графику можно сделать вывод, что только один признак отчётливо прослеживается и это расстояние от центра города. Он сыграл ключевую роль в разделении хостелов на два кластера. В целом программа успешно применяет метод t-SNE для уменьшения размерности данных и добавляет кластеры на основе полученных значений, но возможно другие методы лучше подходят для решения поставленной задачи.