gusev_vladislav_lab_4 is ready

2023-10-18 14:36:57 +04:00 · 2023-10-18 14:36:57 +04:00 · 1e1a73de10
commit 1e1a73de10
parent a98d914e7c
4 changed files with 53989 additions and 0 deletions
--- a/gusev_vladislav_lab_4/README.md
+++ b/gusev_vladislav_lab_4/README.md
@ -0,0 +1,20 @@
+### Вариант 9
+### Задание на лабораторную работу:
+Использовать метод кластеризации DBSCAN, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.
+### Как запустить лабораторную работу:
+Выполняем файл gusev_vladislav_lab_1.py, на экране будет нарисовано 3 графика
+### Технологии
+Pandas - библиотека для анализа данных. Она предоставляет структуры данных и функции для работы с табличными данными. Mathplotlib - библиотека для визуализации данных двумерной и трехмерной графикой. Sklearn - библиотека с большим количеством алгоритмов машинного обучения.
+### По коду
+1) Загружаем данные из csv файла
+2) Выбираем 10000 данных (потому что при сильном увеличении данных метод DBSCAN сильно загружает систему и программа начинает виснуть)
+3) Создаем модель DBSCAN, предварительно выбрав нужные данные
+4) Применяем DBSCAN к данным и создаём график
+
+Что получаем:
+
+![img.png](img.png)
+
+### Вывод
+- По данному графику можно сказать, что в основном глубина алмазов розница от ~57-~66, а карат в районе 1 (0.6-1.4)
+- В целом на графике видно очень много шума (фиолетовые точки), но также немало более светлых - близких к красным. Визуально можно сказать, что эффективность этого метода 30%-40%.
--- a/gusev_vladislav_lab_4/diamonds_prices.csv
+++ b/gusev_vladislav_lab_4/diamonds_prices.csv
--- a/gusev_vladislav_lab_4/gusev_vladislav_lab_4.py
+++ b/gusev_vladislav_lab_4/gusev_vladislav_lab_4.py
@ -0,0 +1,25 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+from sklearn.cluster import DBSCAN
+# Загрузка данных из csv-файла
+data = pd.read_csv('diamonds_prices.csv', index_col='diamond_id')
+
+
+# Выбираем 10000 данных ()
+data_subset = data.head(10000)
+
+# Выделяем признаки (карат и глубина)
+features = data_subset[['carat', 'depth']]
+
+# Создание модели DBSCAN
+dbscan = DBSCAN(eps=0.1, min_samples=5)
+
+# Применение DBSCAN к данным
+data_subset['cluster'] = dbscan.fit_predict(features)
+
+# Создание графика для визуализации кластеров
+plt.scatter(data_subset['carat'], data_subset['depth'], c=data_subset['cluster'], cmap='rainbow')
+plt.xlabel('Карат (carat)')
+plt.ylabel('Глубина (depth)')
+plt.title('Кластеризация данных о карате и глубине алмазов')
+plt.show()
--- a/gusev_vladislav_lab_4/img.png
+++ b/gusev_vladislav_lab_4/img.png