3.0 KiB
Лабораторная работа №4: Кластеризация
Задание. Вариант 3
Мой вариант 28, поэтому взял 3 вариант
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту (таблица 9), самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
Вариант 3 - t-SNE
Задача: Провести кластеризацию хостелов на основе их суммарных оценок (summary.score), расстояния от центра города (Distance) и категории города (City).
Описание программы
Программа выполняет кластеризацию данных о хостелах с использованием метода t-SNE. В качестве признаков для кластеризации используются суммарная оценка хостела, расстояние от центра города и категория города.
Как запустить лабораторную работу
-
Установите необходимые библиотеки:
pip install pandas scikit-learn numpy
-
Запустите скрипт:
python main.py
-
Результаты будут сохранены в файле "Clustering.png", а средние значения для каждого кластера выведены в консоль.
Использованные технологии
- Python
- matplotlib
- Pandas
- scikit-learn
Что программа делает
Программа читает данные из файла CSV, проводит предобработку, визуализирует кластеры на двумерной диаграмме рассеяния и выводит средние значения для каждого кластера.
Тесты
Вывод
По графику можно сделать вывод, что только один признак отчётливо прослеживается и это расстояние от центра города. Он сыграл ключевую роль в разделении хостелов на два кластера. В целом программа успешно применяет метод t-SNE для уменьшения размерности данных и добавляет кластеры на основе полученных значений, но возможно другие методы лучше подходят для решения поставленной задачи.