IIS_2023_1/tsyppo_anton_lab_4/README.md

62 lines
3.0 KiB
Markdown
Raw Permalink Normal View History

2023-12-06 15:08:42 +04:00
# Лабораторная работа №4: Кластеризация
## Задание. Вариант 3
Мой вариант 28, поэтому взял 3 вариант
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту (таблица 9), самостоятельно
сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной
вами задачи.
Вариант 3 - t-SNE
Задача:
Провести кластеризацию хостелов на основе их суммарных оценок (summary.score), расстояния от центра города (Distance)
и категории города (City).
## Описание программы
Программа выполняет кластеризацию данных о хостелах с использованием метода t-SNE. В качестве признаков для
кластеризации используются суммарная оценка хостела, расстояние от центра города и категория города.
## Как запустить лабораторную работу
1. Установите необходимые библиотеки:
```bash
pip install pandas scikit-learn numpy
```
2. Запустите скрипт:
```bash
python main.py
```
3. Результаты будут сохранены в файле "Clustering.png", а средние значения для каждого кластера выведены в консоль.
## Использованные технологии
- Python
- matplotlib
- Pandas
- scikit-learn
## Что программа делает
Программа читает данные из файла CSV, проводит предобработку, визуализирует кластеры на двумерной диаграмме рассеяния и
выводит средние значения для каждого кластера.
## Тесты
![Графики моделей](Clustering.png)
![Графики моделей](img.png)
## Вывод
о графику можно сделать вывод, что только один признак отчётливо прослеживается и это расстояние от центра города. Он
сыграл ключевую роль в разделении хостелов на два кластера. В целом программа успешно применяет метод t-SNE для
уменьшения размерности данных и добавляет кластеры на основе полученных значений, но возможно другие методы лучше
подходят для решения поставленной задачи._
---