IIS_2023_1/gusev_vladislav_lab_4/README.md
2023-10-18 14:36:57 +04:00

20 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### Вариант 9
### Задание на лабораторную работу:
Использовать метод кластеризации DBSCAN, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.
### Как запустить лабораторную работу:
Выполняем файл gusev_vladislav_lab_1.py, на экране будет нарисовано 3 графика
### Технологии
Pandas - библиотека для анализа данных. Она предоставляет структуры данных и функции для работы с табличными данными. Mathplotlib - библиотека для визуализации данных двумерной и трехмерной графикой. Sklearn - библиотека с большим количеством алгоритмов машинного обучения.
### По коду
1) Загружаем данные из csv файла
2) Выбираем 10000 данных (потому что при сильном увеличении данных метод DBSCAN сильно загружает систему и программа начинает виснуть)
3) Создаем модель DBSCAN, предварительно выбрав нужные данные
4) Применяем DBSCAN к данным и создаём график
Что получаем:
![img.png](img.png)
### Вывод
- По данному графику можно сказать, что в основном глубина алмазов розница от ~57-~66, а карат в районе 1 (0.6-1.4)
- В целом на графике видно очень много шума (фиолетовые точки), но также немало более светлых - близких к красным. Визуально можно сказать, что эффективность этого метода 30%-40%.