20 lines
2.1 KiB
Markdown
20 lines
2.1 KiB
Markdown
|
### Вариант 9
|
|||
|
### Задание на лабораторную работу:
|
|||
|
Использовать метод кластеризации DBSCAN, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.
|
|||
|
### Как запустить лабораторную работу:
|
|||
|
Выполняем файл gusev_vladislav_lab_1.py, на экране будет нарисовано 3 графика
|
|||
|
### Технологии
|
|||
|
Pandas - библиотека для анализа данных. Она предоставляет структуры данных и функции для работы с табличными данными. Mathplotlib - библиотека для визуализации данных двумерной и трехмерной графикой. Sklearn - библиотека с большим количеством алгоритмов машинного обучения.
|
|||
|
### По коду
|
|||
|
1) Загружаем данные из csv файла
|
|||
|
2) Выбираем 10000 данных (потому что при сильном увеличении данных метод DBSCAN сильно загружает систему и программа начинает виснуть)
|
|||
|
3) Создаем модель DBSCAN, предварительно выбрав нужные данные
|
|||
|
4) Применяем DBSCAN к данным и создаём график
|
|||
|
|
|||
|
Что получаем:
|
|||
|
|
|||
|
![img.png](img.png)
|
|||
|
|
|||
|
### Вывод
|
|||
|
- По данному графику можно сказать, что в основном глубина алмазов розница от ~57-~66, а карат в районе 1 (0.6-1.4)
|
|||
|
- В целом на графике видно очень много шума (фиолетовые точки), но также немало более светлых - близких к красным. Визуально можно сказать, что эффективность этого метода 30%-40%.
|