Merge pull request 'senkin_alexander_lab_4 is ready' (#112) from senkin_alexander_lab_4 into main

Reviewed-on: http://student.git.athene.tech/Alexey/IIS_2023_1/pulls/112
2023-11-06 21:20:46 +04:00 · 2023-11-06 21:20:46 +04:00 · d4dbce9b09
commit d4dbce9b09
parent 931d8de854 8a51aacfb2
5 changed files with 67618 additions and 0 deletions
--- a/senkin_alexander_lab_4/.gitignore
+++ b/senkin_alexander_lab_4/.gitignore
@ -0,0 +1 @@
 .idea/
--- a/senkin_alexander_lab_4/README.md
+++ b/senkin_alexander_lab_4/README.md
@ -0,0 +1,31 @@
 Лабораторная №4
 Вариант №4
 Задание на лабораторную: 
 Использовать метод кластеризации DBSCAN, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи. Было решено делать кластеризацию по летальныи исходам и магнитуде торнадо.
 Как запустить лабораторную работу:
 Чтобы увидеть работу программы, нужно запустить исполняемый питон файл senkin_alexander_lab_4.py, после чего будет отрисован график, по которому можно сделать выводы.
 Библиотеки:
 Sklearn. Предоставляет инструменты и алгоритмы, которые упрощают задачи, связанные с машинным обучением.
 Matplotlib - это библиотека для создания графиков и визуализации данных. Она используется для отображения данных на графиках.
 Описание программы:
 - Загружаем данные из csv файла
 - Выбираем количество данных для обработки, например 10000
 - Выделяем признаки, по которым будем проводить кластеризацию (fat - фатальные исходы, mag - магнитуды)
 - Применяем кластеризацию
 - Рисуем график
 Программа рисует следующий график:
 ![img.png](img.png)
 Смотря на график можно сделать вывод, что среди 10000 записей о происходящих торнадо, большинство приходятся на 4 магнитуду с чуть больше 0 летальных исходов, а торнадо с амплитудой 5 имеет только шумовые точки. Также мы видим много шума - фиолетовых точек, что говорит нам о том, что алгоритм не очень эффективен для решаемой задачи. 
--- a/senkin_alexander_lab_4/img.png
+++ b/senkin_alexander_lab_4/img.png
--- a/senkin_alexander_lab_4/senkin_alexander_lab_4.py
+++ b/senkin_alexander_lab_4/senkin_alexander_lab_4.py
@ -0,0 +1,27 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 from sklearn.cluster import DBSCAN
 # Загрузка данных из csv-файла
 data = pd.read_csv('us_tornado_dataset_1950_2021.csv')
 # Выбираем 10000 данных ()
 data_subset = data.head(10000)
 # Выделяем признаки (карат и глубина)
 features = data_subset[['fat', 'mag']]
 # Создание модели DBSCAN
 dbscan = DBSCAN(eps=0.1, min_samples=5)
 data_subset = data_subset.copy()
 # Применение DBSCAN к данным
 data_subset['cluster'] = dbscan.fit_predict(features)
 # Создание графика для визуализации кластеров
 plt.scatter(data_subset['fat'], data_subset['mag'], c=data_subset['cluster'], cmap='rainbow')
 plt.xlabel('Фатальные исходы (fat)')
 plt.ylabel('Магнитуда (mag)')
 plt.title('Кластеризация данных о фаматльных исходах и магнитуде торнадо')
 plt.show()
--- a/senkin_alexander_lab_4/us_tornado_dataset_1950_2021.csv
+++ b/senkin_alexander_lab_4/us_tornado_dataset_1950_2021.csv