84 lines
4.4 KiB
Markdown
84 lines
4.4 KiB
Markdown
|
# Лабораторная работа №4
|
|||
|
|
|||
|
> Кластеризация
|
|||
|
|
|||
|
### Как запустить лабораторную работу
|
|||
|
|
|||
|
1. Установить python, numpy, sklearn, matplotlib, plotly
|
|||
|
2. Запустить команду `python tnse.py` в корне проекта
|
|||
|
|
|||
|
### Использованные технологии
|
|||
|
|
|||
|
* Язык программирования `python`
|
|||
|
* Библиотеки `numpy, sklearn, matplotlib, plotly`
|
|||
|
* Среда разработки `PyCharm`
|
|||
|
|
|||
|
### Что делает программа?
|
|||
|
|
|||
|
Цель программы: кластеризовать ценовые диапазоны автомобилей на вторичном рынке.
|
|||
|
Используя метод кластеризации t-SNE, происходит обучение, оценка и вывод результатов кластеризации в виде графика.
|
|||
|
|
|||
|
Так как метод визуальный, то оценка будет проводится субъективно
|
|||
|
по критериям общего цвета и отдалённости кластеров друг от друга.
|
|||
|
|
|||
|
#### Эксперимент
|
|||
|
|
|||
|
Текущие параметры:
|
|||
|
|
|||
|
- mileage
|
|||
|
- year
|
|||
|
- price
|
|||
|
|
|||
|
##### TSNE(learning_rate=100)
|
|||
|
|
|||
|
На размере данных в 1000 строк
|
|||
|

|
|||
|
|
|||
|
На размере данных в 15000 строк
|
|||
|

|
|||
|
|
|||
|
##### TSNE(learning_rate=200, perplexity=50, early_exaggeration=6)
|
|||
|
|
|||
|
early_exaggeration - определяет, насколько плотными будут естественные кластеры исходного пространстве
|
|||
|
во вложенном пространстве и сколько места будет между ними. (12 по умолчанию)
|
|||
|
|
|||
|
На размере данных в 1000 строк
|
|||
|

|
|||
|
|
|||
|
На размере данных в 15000 строк
|
|||
|

|
|||
|
|
|||
|
##### TSNE(learning_rate=200, perplexity=50, early_exaggeration=6, angle=0.1)
|
|||
|
|
|||
|
angle - Используется только если метод='barnes_hut'
|
|||
|
Это компромисс между скоростью и точностью в случае T-SNE с применением алгоритма Барнса-Хата. (0.5 по умолчанию)
|
|||
|
|
|||
|
На размере данных в 1000 строк
|
|||
|

|
|||
|
|
|||
|
На размере данных в 15000 строк
|
|||
|

|
|||
|
|
|||
|
|
|||
|
**Выводы:**
|
|||
|
Чем больше данных, тем лучше алгоритм выделяет кластеры.
|
|||
|
Настроив параметры алгоритма удалось достичь улучшения результата,
|
|||
|
но качество все равно можно считать неполностью удовлетворительным, так как кластеры выделяются с заметным уровнем шума.
|
|||
|
Другие методы кластеризации справляются лучше, если провести дополнительный эксперимент,
|
|||
|
то можно четко выделить ценовые диапазоны, например:
|
|||
|
|
|||
|
Ценовые диапазоны по пробегу
|
|||
|

|
|||
|
|
|||
|
Ценовые диапазоны по году выпуска
|
|||
|

|
|||
|
|
|||
|
В данных примерах можно особенно точно проследить зависимость между параметрами
|
|||
|
|
|||
|
#### Итоговые выводы
|
|||
|
|
|||
|
Алгоритм t-SNE визуальный и точность определяется восприятием графика. Поэтому использовать его лучше только в целях визуализации.
|
|||
|
Для данной задачи алгоритм не подходит, так как решает её недостаточно качественно.
|
|||
|
|
|||
|
|