IIS_2023_1/gusev_vladislav_lab_4/README.md
2023-10-18 14:36:57 +04:00

2.1 KiB
Raw Permalink Blame History

Вариант 9

Задание на лабораторную работу:

Использовать метод кластеризации DBSCAN, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.

Как запустить лабораторную работу:

Выполняем файл gusev_vladislav_lab_1.py, на экране будет нарисовано 3 графика

Технологии

Pandas - библиотека для анализа данных. Она предоставляет структуры данных и функции для работы с табличными данными. Mathplotlib - библиотека для визуализации данных двумерной и трехмерной графикой. Sklearn - библиотека с большим количеством алгоритмов машинного обучения.

По коду

  1. Загружаем данные из csv файла
  2. Выбираем 10000 данных (потому что при сильном увеличении данных метод DBSCAN сильно загружает систему и программа начинает виснуть)
  3. Создаем модель DBSCAN, предварительно выбрав нужные данные
  4. Применяем DBSCAN к данным и создаём график

Что получаем:

img.png

Вывод

  • По данному графику можно сказать, что в основном глубина алмазов розница от ~57-~66, а карат в районе 1 (0.6-1.4)
  • В целом на графике видно очень много шума (фиолетовые точки), но также немало более светлых - близких к красным. Визуально можно сказать, что эффективность этого метода 30%-40%.