2023-12-05 23:12:09 +04:00
5 changed files with 991448 additions and 0 deletions
--- a/tepechin_kirill_lab_4/README.md
+++ b/tepechin_kirill_lab_4/README.md
@ -0,0 +1,62 @@
 ## Лабораторная работа №4, ПИбд-42 Тепечин Кирилл
 ### Датасет:
 #### Ссылка:
 [Smoking and Drinking Dataset with body signal](https://www.kaggle.com/datasets/sooyoungher/smoking-drinking-dataset/data)
 #### Подробности датасета
 | Столбец          |                             Пояснение                             |
 |------------------|:-----------------------------------------------------------------:|
 | sex              |                       Пол(мужской, женский)                       |
 | age              |                         Возраст(округлён)                         |
 | height           |                        Рост(округлён) [см]                        |
 | weight           |                               [кг]                                |
 | sight_left       |                          зрение (левый)                           |
 | sight_left       |                          зрение (правый)                          |
 | hear_left        |          слух (левое): 1 (нормальное), 2 (ненормальное)           |
 | hear_right       |          слух (правое): 1 (нормальное), 2 (ненормальное)          |
 | SBP              |         Систолическое артериальное давление [мм рт. ст.]          |
 | DBP              |         Диастолическое артериальное давление [мм рт. ст.]         |
 | BLDS             |                  глюкоза в крови натощак [мг/дл]                  |
 | tot_chole        |                     общий холестерин [мг/дл]                      |
 | HDL_chole        |                      Холестерин ЛПВП [мг/дл]                      |
 | LDL_chole        |                      Холестерин ЛПНП [мг/дл]                      |
 | triglyceride     |                        триглицерид [мг/дл]                        |
 | hemoglobin       |                         гемоглобин [г/дл]                         |
 | urine_protein    |      белок в моче, 1(-), 2(+/-), 3(+1), 4(+2), 5(+3), 6(+4)       |
 | serum_creatinine |                креатинин сыворотки (крови) [мг/дл]                |
 | SGOT_AST         | глутамат-оксалоацетат-трансаминаза / аспартат-трансаминаза [МЕ/л] |
 | SGOT_ALT         |                  аланиновая трансаминаза [МЕ/л]                   |
 | gamma_GTP        |                  γ-глутамилтранспептидаза [МЕ/л]                  |
 | SMK_stat_type_cd |        Степень курения: 1 (никогда), 2 (бросил), 3 (курю)         |
 | DRK_YN           |                          Пьющий или нет                           |
 ### Как запустить лабораторную работу:
 Для запуска лабораторной работы необходимо запустить файл lab4.py
 ### Используемые технологии:
 * Python 3.12
 * pandas
 * scikit-learn
 * matplotlib
 ### Что делает лабораторная работа:
 Эта лабораторная программа загружает данные из csv файла, выбирает признаки, нормализует данные, строит дендрограмму и оценивает качество кластеризации с помощью silhouette score. 
 ### Предварительная обработка данных:
 Т.к датасет содержит слишком большое количество данных следует уменшить их размер
 ````python
 data = data.sample(frac=0.01, random_state=42)
 ````
 ### Результат:
 ![Результат](dendr.png)
 На основании этой дендрограмы можно выбрать количество кластеров, на которое разумно поделить данные (4)
 Теперь используем метод иерархической кластеризации (AgglomerativeClustering) с 4 кластерами. Метки кластеров присваиваются данным, а затем вычисляется показатель silhouette score, который оценивает качество кластеризации.
 ![Оценка](sil.png)
 ### Вывод:
 Значение в районе 0.094 может быть интерпретировано как относительно низкое, что может указывать на то, что данные не разделены очень четко в кластеры, поэтому можно сделать вывод, что метод плохо подходит для решения задачи.
--- a/tepechin_kirill_lab_4/dendr.png
+++ b/tepechin_kirill_lab_4/dendr.png
--- a/tepechin_kirill_lab_4/lab4.py
+++ b/tepechin_kirill_lab_4/lab4.py
@ -0,0 +1,39 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 from scipy.cluster.hierarchy import dendrogram, linkage
 from sklearn.cluster import AgglomerativeClustering
 from sklearn.metrics import silhouette_score
 # Загрузка данных
 data = pd.read_csv("smoking_drinking_dataset.csv")
 # Уменьшаем размер данных
 data = data.sample(frac=0.01, random_state=42)
 # Выбор подмножества признаков для кластеризации
 features = ['age', 'height', 'weight', 'waistline', 'sight_left', 'sight_right', 'hear_left', 'hear_right', 'SBP', 'DBP', 'BLDS', 'tot_chole', 'HDL_chole', 'LDL_chole', 'triglyceride', 'hemoglobin', 'urine_protein', 'serum_creatinine', 'SGOT_AST', 'SGOT_ALT', 'gamma_GTP']
 # Выбор данных для кластеризации
 cluster_data = data[features]
 # Нормализация данных
 normalized_data = (cluster_data - cluster_data.mean()) / cluster_data.std()
 # Расчет матрицы связи
 linkage_matrix = linkage(normalized_data, method='ward')
 # Построение dendrogram
 plt.figure(figsize=(16, 8))
 dendrogram(linkage_matrix, orientation='top', labels=data.index, distance_sort='descending', show_leaf_counts=True)
 plt.title('Дендрограма')
 plt.ylabel('Дистанция')
 #plt.show()
 plt.savefig("dendr.png")
 # Оценка метода
 n_clusters = 4
 cluster_model = AgglomerativeClustering(n_clusters=n_clusters, metric='euclidean', linkage='ward')
 labels = cluster_model.fit_predict(normalized_data)
 data['cluster'] = labels
 silhouette_avg = silhouette_score(normalized_data, labels)
 print(f"Silhouette Score: {silhouette_avg}")
--- a/tepechin_kirill_lab_4/sil.png
+++ b/tepechin_kirill_lab_4/sil.png
--- a/tepechin_kirill_lab_4/smoking_drinking_dataset.csv
+++ b/tepechin_kirill_lab_4/smoking_drinking_dataset.csv