62 lines
3.0 KiB
Markdown
62 lines
3.0 KiB
Markdown
|
# Лабораторная работа №4: Кластеризация
|
|||
|
## Задание. Вариант 3
|
|||
|
Мой вариант 28, поэтому взял 3 вариант
|
|||
|
|
|||
|
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту (таблица 9), самостоятельно
|
|||
|
сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной
|
|||
|
вами задачи.
|
|||
|
|
|||
|
Вариант 3 - t-SNE
|
|||
|
|
|||
|
Задача:
|
|||
|
Провести кластеризацию хостелов на основе их суммарных оценок (summary.score), расстояния от центра города (Distance)
|
|||
|
и категории города (City).
|
|||
|
|
|||
|
## Описание программы
|
|||
|
|
|||
|
Программа выполняет кластеризацию данных о хостелах с использованием метода t-SNE. В качестве признаков для
|
|||
|
кластеризации используются суммарная оценка хостела, расстояние от центра города и категория города.
|
|||
|
|
|||
|
## Как запустить лабораторную работу
|
|||
|
|
|||
|
1. Установите необходимые библиотеки:
|
|||
|
|
|||
|
```bash
|
|||
|
pip install pandas scikit-learn numpy
|
|||
|
```
|
|||
|
|
|||
|
2. Запустите скрипт:
|
|||
|
|
|||
|
```bash
|
|||
|
python main.py
|
|||
|
```
|
|||
|
|
|||
|
3. Результаты будут сохранены в файле "Clustering.png", а средние значения для каждого кластера выведены в консоль.
|
|||
|
|
|||
|
## Использованные технологии
|
|||
|
|
|||
|
- Python
|
|||
|
- matplotlib
|
|||
|
- Pandas
|
|||
|
- scikit-learn
|
|||
|
|
|||
|
## Что программа делает
|
|||
|
|
|||
|
Программа читает данные из файла CSV, проводит предобработку, визуализирует кластеры на двумерной диаграмме рассеяния и
|
|||
|
выводит средние значения для каждого кластера.
|
|||
|
|
|||
|
## Тесты
|
|||
|
|
|||
|
![Графики моделей](Clustering.png)
|
|||
|
![Графики моделей](img.png)
|
|||
|
|
|||
|
## Вывод
|
|||
|
|
|||
|
_По графику можно сделать вывод, что только один признак отчётливо прослеживается и это расстояние от центра города. Он
|
|||
|
сыграл ключевую роль в разделении хостелов на два кластера. В целом программа успешно применяет метод t-SNE для
|
|||
|
уменьшения размерности данных и добавляет кластеры на основе полученных значений, но возможно другие методы лучше
|
|||
|
подходят для решения поставленной задачи._
|
|||
|
|
|||
|
---
|
|||
|
|