Files
AIM-PIbd-31-Rodionov-I-A/lab_5/lab5.ipynb
2024-11-26 15:42:15 +04:00

4.0 MiB
Raw Blame History

Данные по инсультам

Выводим информацию о датасете:

In [352]:
import pandas as pd

df = pd.read_csv("..//..//static//csv//healthcare-dataset-stroke-data.csv")

df
Out[352]:
<style scoped=""> .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </style>
id gender age hypertension heart_disease ever_married work_type Residence_type avg_glucose_level bmi smoking_status stroke
0 9046 Male 67.0 0 1 Yes Private Urban 228.69 36.6 formerly smoked 1
1 51676 Female 61.0 0 0 Yes Self-employed Rural 202.21 NaN never smoked 1
2 31112 Male 80.0 0 1 Yes Private Rural 105.92 32.5 never smoked 1
3 60182 Female 49.0 0 0 Yes Private Urban 171.23 34.4 smokes 1
4 1665 Female 79.0 1 0 Yes Self-employed Rural 174.12 24.0 never smoked 1
... ... ... ... ... ... ... ... ... ... ... ... ...
5105 18234 Female 80.0 1 0 Yes Private Urban 83.75 NaN never smoked 0
5106 44873 Female 81.0 0 0 Yes Self-employed Urban 125.20 40.0 never smoked 0
5107 19723 Female 35.0 0 0 Yes Self-employed Rural 82.99 30.6 never smoked 0
5108 37544 Male 51.0 0 0 Yes Private Rural 166.29 25.6 formerly smoked 0
5109 44679 Female 44.0 0 0 Yes Govt_job Urban 85.28 26.2 Unknown 0

5110 rows × 12 columns

Атрибуты:

  • id уникальный идентификатор пациента;
  • gender пол пациента: может быть "Male" (мужчина), "Female" (женщина) или "Other" (другой);
  • age возраст пациента (в годах);
  • hypertension наличие гипертонии: 0 гипертонии нет, 1 гипертония есть;
  • heart_disease наличие сердечных заболеваний: 0 заболеваний нет, 1 заболевание присутствует;
  • ever_married семейный статус пациента: "No" (не состоял в браке) или "Yes" (состоял в браке);
  • work_type тип занятости пациента: "children" (дети), "Govt_job" (государственная служба), "Never_worked" (никогда не работал), "Private" (частная компания) или "Self-employed" (самозанятый);
  • Residence_type место проживания пациента: "Rural" (сельская местность) или "Urban" (город);
  • avg_glucose_level средний уровень глюкозы в крови (в ммоль/л);
  • bmi индекс массы тела пациента;
  • smoking_status статус курения пациента: "formerly smoked" (курил ранее), "never smoked" (никогда не курил), "smokes" (курит), "Unknown" (информация недоступна);
  • stroke факт наличия инсульта: 1 пациент перенес инсульт, 0 инсульта не было.

Бизнес-цель: кластеризация пациентов для выявления групп с схожими характеристиками здоровья и рисками инсульта. Что, к примеру, может использоваться для следующего:

  • Определение групп пациентов для целенаправленных профилактических мероприятий.
  • Оптимизация распределения медицинских ресурсов и создания индивидуализированных программ наблюдения.

Для начала избавимся от пустых значений:

In [353]:
# Количество пустых значений признаков
print(df.isnull().sum())

print()

# Есть ли пустые значения признаков
print(df.isnull().any())

print()

# Процент пустых значений признаков
for i in df.columns:
    null_rate = df[i].isnull().sum() / len(df) * 100
    if null_rate > 0:
        print(f"{i} процент пустых значений: %{null_rate:.2f}")
id                     0
gender                 0
age                    0
hypertension           0
heart_disease          0
ever_married           0
work_type              0
Residence_type         0
avg_glucose_level      0
bmi                  201
smoking_status         0
stroke                 0
dtype: int64

id                   False
gender               False
age                  False
hypertension         False
heart_disease        False
ever_married         False
work_type            False
Residence_type       False
avg_glucose_level    False
bmi                   True
smoking_status       False
stroke               False
dtype: bool

bmi процент пустых значений: %3.93
In [354]:
# Замена значений
df["bmi"] = df["bmi"].fillna(df["bmi"].median())

Визуализация взаимосвязей

Для визуализации и выполнения задачи в целом были выбраны столбцы age, avg_glucose_level, bmi, hypertension.

In [355]:
from typing import Any, List
import matplotlib.pyplot as plt

def draw_data_2d(
    df: pd.DataFrame,
    col1: int,
    col2: int,
    y: List | None = None,
    classes: List | None = None,
    subplot: Any | None = None,
):
    ax = None
    if subplot is None:
        _, ax = plt.subplots()
    else:
        ax = subplot
    scatter = ax.scatter(df[df.columns[col1]], df[df.columns[col2]], c=y)
    ax.set(xlabel=df.columns[col1], ylabel=df.columns[col2])
    if classes is not None:
        ax.legend(
            scatter.legend_elements()[0], classes, loc="lower right", title="Classes"
        )
In [356]:
columns = ['age', 'avg_glucose_level', 'bmi', 'hypertension']
df_reduced = df[columns]

plt.figure(figsize=(16, 12))

draw_data_2d(df_reduced, 0, 1, subplot=plt.subplot(2, 2, 1))  # age vs avg_glucose_level
draw_data_2d(df_reduced, 0, 2, subplot=plt.subplot(2, 2, 2))  # age vs bmi
draw_data_2d(df_reduced, 0, 3, subplot=plt.subplot(2, 2, 3))  # age vs hypertension
draw_data_2d(df_reduced, 1, 2, subplot=plt.subplot(2, 2, 4))  # avg_glucose_level vs bmi
No description has been provided for this image

Перед кластеризацией стандартизируем данные:

In [357]:
from sklearn.preprocessing import StandardScaler

columns_to_scale = df_reduced.drop(columns=["hypertension"]).columns
columns_to_keep = ["hypertension"]

scaler = StandardScaler()
data_scaled = scaler.fit_transform(df_reduced[columns_to_scale])

df_scaled = pd.DataFrame(data_scaled, columns=columns_to_scale, index=df_reduced.index)

df_scaled[columns_to_keep] = df_reduced[columns_to_keep]

Иерархическая агломеративная кластеризация

Также выведем дендрограмму

In [358]:
import numpy as np
from sklearn import cluster
from scipy.cluster import hierarchy

def run_agglomerative(
    df: pd.DataFrame, num_clusters: int | None = 2
) -> cluster.AgglomerativeClustering:
    agglomerative = cluster.AgglomerativeClustering(
        n_clusters=num_clusters,
        compute_distances=True,
    )
    return agglomerative.fit(df)


def get_linkage_matrix(model: cluster.AgglomerativeClustering) -> np.ndarray:
    counts = np.zeros(model.children_.shape[0])  # type: ignore
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):  # type: ignore
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    return np.column_stack([model.children_, model.distances_, counts]).astype(float)

def draw_dendrogram(linkage_matrix: np.ndarray):
    hierarchy.dendrogram(linkage_matrix, truncate_mode="level", p=3)
    plt.xticks(fontsize=10, rotation=45)
    plt.tight_layout()
In [359]:
tree = run_agglomerative(df_scaled)
linkage_matrix = get_linkage_matrix(tree)
draw_dendrogram(linkage_matrix)
No description has been provided for this image

Попробуем разделить данные на 2 больших кластера, поэтому зададим порог расстояния в 90 единиц.

И визуализируем сами результаты иерархической кластеризации, т.е. распределение кластеров:

In [360]:
result = hierarchy.fcluster(linkage_matrix, 90, criterion="distance")
y_names = ['1', '2']

plt.figure(figsize=(16, 12))

draw_data_2d(df_reduced, 0, 1, result, y_names, plt.subplot(2, 2, 1))  # age vs avg_glucose_level
draw_data_2d(df_reduced, 0, 2, result, y_names, plt.subplot(2, 2, 2))  # age vs bmi
draw_data_2d(df_reduced, 0, 3, result, y_names, plt.subplot(2, 2, 3))  # age vs hypertension
draw_data_2d(df_reduced, 1, 2, result, y_names, plt.subplot(2, 2, 4))  # avg_glucose_level vs bmi
No description has been provided for this image

KMeans (неиерархическая четкая кластеризация) для сравнения

In [361]:
from typing import Tuple

def print_cluster_result(
    df: pd.DataFrame, clusters_num: int, labels: np.ndarray, separator: str = ", "
):
    for cluster_id in range(clusters_num):
        cluster_indices = np.where(labels == cluster_id)[0]
        print(f"Cluster {cluster_id + 1} ({len(cluster_indices)}):")
        rules = [str(df.index[idx]) for idx in cluster_indices]
        print(separator.join(rules))
        print("")
        print("--------")


def run_kmeans(
    df: pd.DataFrame, num_clusters: int, random_state: int
) -> Tuple[np.ndarray, np.ndarray]:
    kmeans = cluster.KMeans(n_clusters=num_clusters, random_state=random_state)
    labels = kmeans.fit_predict(df)
    return labels, kmeans.cluster_centers_
In [362]:
random_state = 9

labels, centers = run_kmeans(df_scaled, 2, random_state) # также указываем 2 кластера
print_cluster_result(df_scaled, 2, labels)
display(centers)
Cluster 1 (2979):


--------
Cluster 2 (2131):
31, 94, 118, 133, 162, 182, 210, 213, 245, 249, 251, 253, 255, 257, 262, 265, 266, 267, 274, 276, 279, 282, 284, 285, 286, 287, 288, 290, 291, 292, 294, 302, 304, 306, 308, 310, 312, 313, 319, 320, 321, 322, 324, 327, 328, 335, 339, 340, 342, 345, 348, 349, 352, 354, 356, 357, 359, 361, 363, 367, 369, 371, 373, 376, 377, 378, 380, 383, 384, 385, 390, 391, 392, 394, 395, 400, 401, 403, 408, 410, 414, 416, 418, 419, 421, 425, 427, 431, 437, 440, 441, 443, 445, 446, 451, 455, 458, 459, 460, 461, 464, 470, 471, 472, 473, 474, 476, 480, 483, 485, 486, 487, 488, 496, 497, 498, 513, 516, 519, 522, 525, 529, 531, 532, 534, 535, 538, 540, 541, 545, 546, 547, 548, 550, 554, 556, 558, 560, 562, 564, 566, 574, 576, 578, 581, 582, 584, 587, 588, 589, 593, 597, 598, 600, 602, 603, 604, 605, 607, 609, 611, 619, 625, 628, 634, 638, 640, 641, 644, 650, 655, 656, 657, 658, 663, 667, 669, 674, 676, 678, 679, 680, 681, 682, 683, 684, 685, 686, 687, 692, 694, 695, 696, 697, 698, 699, 701, 702, 707, 709, 711, 716, 717, 718, 721, 722, 723, 728, 730, 733, 734, 736, 740, 742, 743, 748, 750, 753, 754, 756, 757, 758, 762, 764, 768, 770, 771, 774, 775, 776, 779, 780, 783, 790, 791, 792, 793, 794, 795, 796, 797, 798, 799, 804, 806, 807, 808, 811, 812, 813, 814, 817, 818, 820, 824, 827, 830, 833, 837, 839, 840, 842, 843, 844, 847, 850, 852, 854, 855, 856, 857, 858, 862, 866, 869, 872, 875, 877, 878, 883, 886, 892, 893, 903, 904, 907, 909, 912, 913, 915, 919, 921, 922, 925, 926, 932, 936, 937, 938, 939, 947, 949, 950, 951, 952, 953, 955, 956, 957, 959, 961, 962, 963, 965, 966, 967, 969, 972, 974, 977, 979, 980, 981, 982, 984, 985, 986, 987, 988, 989, 991, 995, 996, 998, 999, 1005, 1006, 1008, 1009, 1012, 1020, 1021, 1022, 1032, 1033, 1037, 1039, 1040, 1041, 1045, 1047, 1049, 1051, 1056, 1060, 1063, 1066, 1069, 1073, 1074, 1076, 1087, 1088, 1090, 1091, 1093, 1094, 1095, 1099, 1101, 1102, 1107, 1108, 1111, 1115, 1120, 1122, 1123, 1124, 1127, 1132, 1134, 1135, 1137, 1139, 1142, 1143, 1144, 1145, 1147, 1149, 1150, 1154, 1155, 1156, 1159, 1163, 1164, 1169, 1174, 1177, 1181, 1182, 1185, 1190, 1191, 1192, 1194, 1196, 1197, 1203, 1204, 1205, 1206, 1208, 1209, 1210, 1212, 1217, 1218, 1219, 1220, 1221, 1222, 1223, 1231, 1232, 1234, 1235, 1237, 1238, 1242, 1243, 1244, 1246, 1248, 1249, 1251, 1252, 1253, 1255, 1256, 1258, 1261, 1263, 1265, 1270, 1271, 1272, 1275, 1277, 1278, 1281, 1287, 1292, 1298, 1301, 1305, 1307, 1310, 1312, 1316, 1317, 1321, 1326, 1327, 1329, 1331, 1334, 1338, 1349, 1356, 1358, 1359, 1364, 1366, 1369, 1370, 1371, 1372, 1375, 1377, 1380, 1386, 1387, 1389, 1390, 1392, 1394, 1396, 1402, 1403, 1405, 1406, 1408, 1417, 1419, 1421, 1422, 1424, 1426, 1427, 1429, 1430, 1432, 1441, 1442, 1444, 1445, 1449, 1450, 1455, 1459, 1460, 1461, 1462, 1463, 1464, 1465, 1467, 1469, 1470, 1471, 1475, 1476, 1483, 1484, 1486, 1488, 1492, 1493, 1494, 1499, 1502, 1504, 1505, 1507, 1510, 1512, 1513, 1514, 1518, 1519, 1528, 1530, 1536, 1537, 1539, 1542, 1545, 1548, 1551, 1555, 1556, 1557, 1558, 1560, 1565, 1567, 1570, 1572, 1573, 1579, 1580, 1581, 1583, 1586, 1587, 1589, 1590, 1591, 1593, 1597, 1600, 1601, 1609, 1610, 1612, 1614, 1618, 1619, 1622, 1623, 1624, 1626, 1629, 1631, 1632, 1633, 1635, 1636, 1644, 1645, 1647, 1648, 1649, 1665, 1666, 1668, 1672, 1673, 1676, 1683, 1684, 1686, 1689, 1693, 1700, 1701, 1702, 1703, 1707, 1708, 1709, 1710, 1712, 1713, 1714, 1716, 1719, 1720, 1721, 1722, 1724, 1725, 1726, 1728, 1731, 1734, 1736, 1739, 1742, 1743, 1744, 1746, 1748, 1754, 1757, 1758, 1762, 1763, 1765, 1766, 1767, 1768, 1771, 1772, 1773, 1774, 1777, 1779, 1783, 1784, 1789, 1791, 1792, 1794, 1797, 1799, 1800, 1802, 1803, 1805, 1806, 1807, 1808, 1809, 1811, 1812, 1817, 1820, 1821, 1824, 1826, 1831, 1833, 1834, 1836, 1841, 1844, 1845, 1846, 1847, 1848, 1849, 1851, 1863, 1865, 1866, 1868, 1869, 1874, 1877, 1882, 1885, 1886, 1890, 1894, 1896, 1897, 1899, 1900, 1901, 1902, 1907, 1910, 1911, 1913, 1914, 1917, 1919, 1922, 1927, 1928, 1929, 1930, 1931, 1932, 1935, 1936, 1937, 1939, 1940, 1941, 1942, 1947, 1948, 1949, 1950, 1956, 1957, 1958, 1959, 1960, 1963, 1964, 1965, 1966, 1973, 1975, 1976, 1977, 1980, 1982, 1983, 1985, 1986, 1987, 1990, 1991, 1994, 1996, 1997, 1999, 2000, 2003, 2005, 2006, 2008, 2009, 2012, 2013, 2015, 2019, 2020, 2022, 2023, 2024, 2030, 2035, 2036, 2040, 2042, 2043, 2045, 2050, 2051, 2052, 2054, 2056, 2062, 2065, 2066, 2068, 2073, 2074, 2076, 2079, 2080, 2087, 2090, 2091, 2092, 2097, 2098, 2101, 2103, 2106, 2109, 2112, 2113, 2114, 2116, 2117, 2123, 2125, 2127, 2131, 2133, 2137, 2140, 2141, 2142, 2146, 2147, 2148, 2150, 2151, 2152, 2154, 2157, 2163, 2165, 2166, 2167, 2169, 2171, 2175, 2177, 2178, 2181, 2183, 2186, 2187, 2191, 2193, 2194, 2195, 2196, 2207, 2212, 2213, 2216, 2217, 2219, 2222, 2226, 2230, 2234, 2236, 2240, 2241, 2242, 2243, 2245, 2247, 2248, 2249, 2254, 2258, 2259, 2262, 2263, 2268, 2270, 2274, 2276, 2279, 2289, 2291, 2295, 2299, 2300, 2302, 2304, 2305, 2308, 2310, 2311, 2313, 2323, 2325, 2326, 2327, 2329, 2333, 2337, 2339, 2340, 2344, 2345, 2346, 2347, 2348, 2349, 2350, 2353, 2354, 2358, 2361, 2364, 2367, 2368, 2370, 2371, 2372, 2377, 2379, 2380, 2381, 2382, 2384, 2385, 2386, 2387, 2388, 2389, 2391, 2394, 2397, 2404, 2406, 2409, 2415, 2417, 2419, 2421, 2423, 2425, 2426, 2427, 2429, 2431, 2432, 2434, 2436, 2437, 2442, 2443, 2445, 2448, 2450, 2452, 2455, 2457, 2463, 2464, 2465, 2471, 2472, 2474, 2475, 2476, 2477, 2478, 2479, 2480, 2481, 2482, 2483, 2485, 2488, 2489, 2490, 2491, 2495, 2498, 2500, 2505, 2506, 2513, 2514, 2516, 2522, 2525, 2526, 2528, 2530, 2531, 2535, 2536, 2538, 2539, 2542, 2543, 2546, 2551, 2552, 2554, 2557, 2558, 2560, 2566, 2573, 2574, 2579, 2580, 2581, 2586, 2588, 2590, 2593, 2594, 2595, 2597, 2605, 2607, 2611, 2613, 2615, 2616, 2618, 2619, 2620, 2625, 2627, 2628, 2630, 2634, 2638, 2644, 2647, 2649, 2652, 2653, 2659, 2660, 2662, 2663, 2665, 2667, 2670, 2671, 2672, 2679, 2681, 2684, 2687, 2689, 2692, 2694, 2695, 2704, 2708, 2711, 2712, 2714, 2716, 2717, 2721, 2725, 2726, 2728, 2729, 2730, 2733, 2736, 2739, 2740, 2741, 2742, 2744, 2745, 2747, 2753, 2755, 2756, 2760, 2762, 2767, 2770, 2773, 2776, 2778, 2779, 2780, 2781, 2783, 2785, 2787, 2788, 2790, 2791, 2794, 2801, 2803, 2805, 2807, 2808, 2811, 2812, 2819, 2820, 2824, 2827, 2828, 2832, 2834, 2835, 2836, 2837, 2838, 2842, 2843, 2844, 2845, 2850, 2852, 2854, 2856, 2858, 2859, 2860, 2861, 2869, 2871, 2874, 2875, 2877, 2879, 2882, 2885, 2887, 2889, 2892, 2894, 2898, 2906, 2909, 2911, 2912, 2915, 2916, 2917, 2919, 2920, 2921, 2923, 2924, 2925, 2926, 2927, 2928, 2929, 2931, 2932, 2936, 2939, 2941, 2942, 2943, 2944, 2946, 2949, 2950, 2952, 2954, 2955, 2956, 2958, 2964, 2967, 2970, 2971, 2972, 2973, 2983, 2984, 2987, 2988, 2989, 2990, 2994, 2996, 2999, 3000, 3003, 3004, 3009, 3010, 3016, 3018, 3020, 3022, 3023, 3025, 3031, 3034, 3035, 3036, 3037, 3038, 3039, 3040, 3041, 3042, 3043, 3044, 3047, 3051, 3053, 3058, 3059, 3063, 3064, 3067, 3072, 3073, 3076, 3078, 3079, 3086, 3087, 3092, 3093, 3094, 3095, 3096, 3097, 3099, 3104, 3105, 3107, 3109, 3110, 3116, 3117, 3118, 3119, 3120, 3121, 3125, 3127, 3129, 3131, 3132, 3133, 3137, 3139, 3141, 3143, 3145, 3153, 3156, 3158, 3160, 3163, 3165, 3170, 3171, 3173, 3175, 3176, 3177, 3178, 3179, 3180, 3183, 3184, 3185, 3187, 3188, 3189, 3190, 3191, 3193, 3199, 3200, 3205, 3208, 3211, 3212, 3214, 3226, 3228, 3229, 3231, 3233, 3237, 3239, 3240, 3242, 3244, 3247, 3250, 3251, 3252, 3253, 3255, 3256, 3259, 3261, 3262, 3266, 3267, 3268, 3270, 3271, 3273, 3277, 3279, 3280, 3281, 3282, 3283, 3284, 3286, 3287, 3289, 3292, 3295, 3297, 3300, 3301, 3304, 3307, 3309, 3310, 3311, 3313, 3315, 3319, 3321, 3323, 3324, 3325, 3331, 3332, 3334, 3338, 3340, 3343, 3348, 3354, 3355, 3356, 3357, 3359, 3366, 3368, 3370, 3373, 3374, 3379, 3382, 3385, 3386, 3390, 3392, 3394, 3395, 3397, 3398, 3401, 3402, 3403, 3409, 3411, 3412, 3413, 3414, 3415, 3418, 3420, 3423, 3426, 3430, 3434, 3435, 3437, 3438, 3440, 3444, 3446, 3447, 3451, 3453, 3457, 3458, 3460, 3463, 3464, 3467, 3468, 3472, 3473, 3477, 3481, 3482, 3483, 3484, 3485, 3486, 3488, 3491, 3493, 3496, 3497, 3498, 3501, 3506, 3510, 3511, 3513, 3518, 3519, 3520, 3523, 3527, 3530, 3532, 3533, 3535, 3538, 3539, 3540, 3542, 3543, 3544, 3545, 3546, 3550, 3551, 3552, 3554, 3555, 3560, 3562, 3565, 3572, 3573, 3574, 3575, 3576, 3577, 3581, 3583, 3584, 3586, 3589, 3601, 3605, 3608, 3609, 3610, 3611, 3612, 3615, 3616, 3617, 3618, 3619, 3620, 3621, 3623, 3624, 3626, 3629, 3635, 3636, 3640, 3642, 3644, 3645, 3647, 3648, 3651, 3653, 3654, 3655, 3657, 3661, 3662, 3670, 3671, 3675, 3676, 3678, 3681, 3684, 3685, 3692, 3694, 3695, 3698, 3703, 3704, 3705, 3706, 3712, 3713, 3714, 3715, 3717, 3719, 3721, 3726, 3728, 3731, 3733, 3734, 3739, 3740, 3743, 3744, 3745, 3746, 3747, 3748, 3749, 3751, 3754, 3755, 3758, 3761, 3762, 3763, 3765, 3766, 3767, 3769, 3773, 3774, 3776, 3777, 3778, 3782, 3785, 3786, 3787, 3789, 3791, 3793, 3796, 3797, 3798, 3800, 3801, 3806, 3807, 3808, 3809, 3810, 3816, 3817, 3818, 3819, 3823, 3829, 3832, 3835, 3836, 3837, 3840, 3843, 3844, 3846, 3848, 3849, 3850, 3851, 3857, 3858, 3859, 3861, 3864, 3868, 3870, 3872, 3873, 3874, 3875, 3876, 3877, 3883, 3885, 3886, 3887, 3888, 3893, 3894, 3895, 3896, 3897, 3904, 3908, 3910, 3911, 3912, 3917, 3921, 3924, 3928, 3929, 3932, 3934, 3936, 3937, 3938, 3940, 3941, 3942, 3944, 3946, 3950, 3952, 3954, 3957, 3958, 3964, 3966, 3968, 3970, 3972, 3973, 3978, 3985, 3986, 3990, 3992, 3996, 3999, 4000, 4001, 4002, 4003, 4004, 4005, 4006, 4007, 4009, 4010, 4011, 4012, 4013, 4016, 4018, 4019, 4020, 4021, 4025, 4027, 4030, 4031, 4039, 4040, 4041, 4042, 4043, 4050, 4053, 4056, 4057, 4058, 4059, 4063, 4064, 4065, 4067, 4068, 4069, 4075, 4077, 4079, 4081, 4082, 4083, 4084, 4087, 4089, 4090, 4091, 4100, 4103, 4106, 4108, 4111, 4112, 4114, 4115, 4116, 4117, 4119, 4124, 4127, 4128, 4130, 4131, 4133, 4137, 4141, 4148, 4150, 4151, 4156, 4157, 4158, 4159, 4160, 4167, 4170, 4172, 4173, 4174, 4175, 4177, 4181, 4182, 4184, 4186, 4190, 4191, 4192, 4193, 4194, 4195, 4196, 4202, 4203, 4206, 4210, 4213, 4215, 4216, 4218, 4220, 4221, 4222, 4227, 4229, 4230, 4232, 4233, 4234, 4235, 4236, 4238, 4243, 4244, 4245, 4246, 4247, 4248, 4250, 4251, 4252, 4254, 4255, 4256, 4257, 4261, 4262, 4268, 4269, 4272, 4273, 4275, 4276, 4277, 4279, 4280, 4286, 4287, 4293, 4294, 4298, 4302, 4303, 4306, 4307, 4310, 4317, 4319, 4320, 4322, 4323, 4328, 4330, 4332, 4333, 4341, 4342, 4346, 4353, 4358, 4359, 4361, 4363, 4364, 4370, 4372, 4373, 4374, 4378, 4379, 4382, 4383, 4384, 4386, 4388, 4389, 4391, 4392, 4393, 4394, 4396, 4398, 4399, 4403, 4409, 4410, 4412, 4413, 4414, 4415, 4416, 4418, 4420, 4421, 4422, 4423, 4424, 4425, 4428, 4432, 4433, 4435, 4438, 4439, 4441, 4444, 4454, 4455, 4458, 4462, 4465, 4466, 4467, 4468, 4469, 4472, 4474, 4478, 4484, 4485, 4486, 4487, 4488, 4489, 4490, 4492, 4495, 4496, 4501, 4502, 4503, 4506, 4507, 4508, 4509, 4510, 4517, 4520, 4525, 4527, 4535, 4538, 4540, 4544, 4545, 4546, 4549, 4550, 4553, 4556, 4563, 4567, 4568, 4569, 4570, 4572, 4574, 4581, 4583, 4584, 4585, 4587, 4591, 4592, 4593, 4594, 4595, 4596, 4597, 4599, 4600, 4601, 4602, 4603, 4606, 4610, 4612, 4613, 4618, 4621, 4622, 4623, 4626, 4630, 4640, 4643, 4645, 4649, 4655, 4656, 4657, 4659, 4662, 4663, 4664, 4667, 4669, 4671, 4674, 4675, 4676, 4688, 4689, 4690, 4693, 4694, 4698, 4705, 4709, 4710, 4714, 4717, 4718, 4720, 4723, 4726, 4728, 4729, 4730, 4731, 4735, 4736, 4739, 4744, 4747, 4748, 4752, 4756, 4758, 4760, 4761, 4764, 4766, 4767, 4768, 4770, 4771, 4772, 4774, 4775, 4776, 4781, 4782, 4783, 4785, 4786, 4787, 4788, 4790, 4792, 4793, 4794, 4798, 4799, 4802, 4804, 4806, 4807, 4808, 4812, 4813, 4814, 4815, 4821, 4825, 4826, 4828, 4830, 4831, 4832, 4833, 4837, 4839, 4841, 4842, 4844, 4846, 4848, 4850, 4853, 4854, 4856, 4857, 4860, 4863, 4864, 4865, 4870, 4871, 4872, 4876, 4878, 4879, 4885, 4886, 4887, 4890, 4891, 4893, 4898, 4900, 4901, 4902, 4903, 4904, 4910, 4911, 4913, 4919, 4923, 4924, 4926, 4927, 4928, 4929, 4930, 4934, 4935, 4936, 4940, 4943, 4944, 4945, 4947, 4948, 4950, 4951, 4957, 4959, 4961, 4963, 4964, 4965, 4968, 4969, 4970, 4972, 4975, 4978, 4980, 4981, 4982, 4985, 4989, 4990, 4991, 4992, 4993, 4994, 4996, 4997, 4998, 4999, 5000, 5003, 5004, 5005, 5012, 5013, 5014, 5020, 5021, 5022, 5025, 5027, 5028, 5030, 5031, 5032, 5033, 5037, 5039, 5040, 5042, 5043, 5044, 5045, 5049, 5050, 5052, 5053, 5054, 5055, 5058, 5066, 5067, 5069, 5070, 5073, 5076, 5077, 5078, 5079, 5080, 5083, 5089, 5090, 5094, 5095, 5098, 5099, 5101, 5102, 5104, 5107, 5109

--------
array([[ 0.6485448 ,  0.23763868,  0.4646737 ,  0.16123614],
       [-0.90516543, -0.33166917, -0.64853897,  0.00843882]])

Также визуализируем результаты:

In [363]:
def draw_cluster_results(
    df: pd.DataFrame,
    col1: int,
    col2: int,
    labels: np.ndarray,
    cluster_centers: np.ndarray,
    subplot: Any | None = None,
):
    ax = None
    if subplot is None:
        ax = plt
    else:
        ax = subplot

    centroids = cluster_centers
    u_labels = np.unique(labels)

    for i in u_labels:
        ax.scatter(
            df[labels == i][df.columns[col1]],
            df[labels == i][df.columns[col2]],
            label=i,
        )

    ax.scatter(centroids[:, col1], centroids[:, col2], s=80, color="k")
In [364]:
plt.figure(figsize=(16, 12))
draw_cluster_results(df_scaled, 0, 1, labels, centers, plt.subplot(2, 2, 1)) # age vs avg_glucose_level
draw_cluster_results(df_scaled, 0, 2, labels, centers, plt.subplot(2, 2, 2)) # age vs bmi
draw_cluster_results(df_scaled, 0, 3, labels, centers, plt.subplot(2, 2, 3)) # age vs hypertension
draw_cluster_results(df_scaled, 1, 2, labels, centers, plt.subplot(2, 2, 4)) # avg_glucose_level vs bmi
No description has been provided for this image

Теперь понизим размерность данных до двух компонент и еще раз осуществим неиерархическую кластеризацию

In [365]:
from sklearn.decomposition import PCA

pca_data = PCA(n_components=2).fit_transform(df_scaled)
pca_data
Out[365]:
array([[ 2.60768539,  1.53464701],
       [ 1.49992616,  1.6776011 ],
       [ 1.29355664, -0.53864765],
       ...,
       [-0.36264968, -0.48106455],
       [ 0.63114968,  1.26696549],
       [-0.42000577, -0.20709469]])

Визуализация данных после понижения размерности:

In [366]:
plt.figure(figsize=(8, 6))
draw_data_2d(
    pd.DataFrame({"Column1": pca_data[:, 0], "Column2": pca_data[:, 1]}),
    0,
    1
)
<Figure size 800x600 with 0 Axes>
No description has been provided for this image

Визуализация результатов неиерархической кластеризации для двух кластеров с учетом понижения размерности:

In [367]:
from sklearn.cluster import KMeans

def fit_kmeans(
    reduced_data: np.ndarray, num_clusters: int, random_state: int
) -> cluster.KMeans:
    kmeans = cluster.KMeans(n_clusters=num_clusters, random_state=random_state)
    kmeans.fit(reduced_data)
    return kmeans

def draw_clusters(reduced_data: np.ndarray, kmeans: KMeans):
    h = 0.02

    x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
    y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])

    Z = Z.reshape(xx.shape)
    plt.figure(1)
    plt.clf()
    plt.imshow(
        Z,
        interpolation="nearest",
        extent=(xx.min(), xx.max(), yy.min(), yy.max()),
        cmap=plt.cm.Paired,  # type: ignore
        aspect="auto",
        origin="lower",
    )

    plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
    centroids = kmeans.cluster_centers_
    plt.scatter(
        centroids[:, 0],
        centroids[:, 1],
        marker="x",
        s=169,
        linewidths=3,
        color="w",
        zorder=10,
    )
    plt.title(
        "K-means clustering (PCA-reduced data)\n"
        "Centroids are marked with white cross"
    )
    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)
    plt.xticks(())
    plt.yticks(())
In [368]:
kmeans = fit_kmeans(pca_data, 2, random_state)
draw_clusters(pca_data, kmeans)
No description has been provided for this image

Анализ оценки инерции для метода локтя (метод оценки суммы квадратов расстояний)

In [369]:
import math

def _get_kmeans_range(
    df: pd.DataFrame | np.ndarray, random_state: int
) -> Tuple[List, range]:
    max_clusters = int(math.sqrt(len(df)))
    clusters_range = range(2, max_clusters + 1)
    kmeans_per_k = [
        cluster.KMeans(n_clusters=k, random_state=random_state).fit(df)
        for k in clusters_range
    ]
    return kmeans_per_k, clusters_range

def get_clusters_inertia(df: pd.DataFrame, random_state: int) -> Tuple[List, range]:
    kmeans_per_k, clusters_range = _get_kmeans_range(df, random_state)
    return [model.inertia_ for model in kmeans_per_k], clusters_range

def _draw_cluster_scores(
    data: List,
    clusters_range: range,
    score_name: str,
    title: str,
):
    plt.figure(figsize=(8, 5))
    plt.plot(clusters_range, data, "bo-")
    plt.xlabel("$k$", fontsize=8)
    plt.ylabel(score_name, fontsize=8)
    plt.title(title)
    
def draw_elbow_diagram(inertias: List, clusters_range: range):
    _draw_cluster_scores(inertias, clusters_range, "Inertia", "The Elbow Diagram")
In [370]:
inertias, clusters_range = get_clusters_inertia(df_scaled, random_state)
display(clusters_range)
display(inertias)
draw_elbow_diagram(inertias, clusters_range)
range(2, 72)
[10807.951785407908,
 7230.469448316978,
 5557.52543138914,
 4797.979759685805,
 4423.644627489069,
 4111.274040074362,
 3835.9107274654943,
 3470.5709394276055,
 3214.9508312393855,
 3055.948649061301,
 2917.4624294525993,
 2775.6958508684957,
 2666.7517424114767,
 2583.67129721405,
 2454.734133533792,
 2366.97034902638,
 2300.243540824471,
 2238.6558968087775,
 2198.859569168518,
 2105.264113236806,
 2047.1365550171872,
 1974.5089970560662,
 1929.7059701072799,
 1871.56533195742,
 1822.1024899611,
 1789.851518648345,
 1755.412423308707,
 1723.9872684190675,
 1667.5634523563954,
 1636.4369435503352,
 1608.6680809373954,
 1578.8323940677194,
 1552.8989367572233,
 1520.491137014789,
 1490.2403910960472,
 1472.1227947451098,
 1441.2470981595752,
 1420.0414881358802,
 1389.6252737600823,
 1367.3892464059263,
 1335.2873410440359,
 1318.5070068269697,
 1299.4557514619496,
 1279.04141250672,
 1269.4607342885668,
 1241.4829425893622,
 1236.9364320273746,
 1220.5757555830407,
 1199.4787721885064,
 1186.2215896452149,
 1170.5811727707412,
 1158.9217988447597,
 1142.7886283279302,
 1130.6280655439107,
 1112.4530760381049,
 1107.3693682651183,
 1099.851461837676,
 1076.4412692721194,
 1061.4615354232028,
 1045.4243908226806,
 1035.036118670891,
 1022.8113452915354,
 1014.745803846552,
 1005.9123944421705,
 991.4155267495079,
 987.8048104794525,
 971.6510070731988,
 964.0072117403057,
 953.4181697151636,
 951.7655191323424]
No description has been provided for this image

На графике "Elbow Diagram" (метод локтя) оптимальное количество кластеров определяется точкой, где график начинает "сгибаться", то есть уменьшается прирост качества при добавлении новых кластеров (резкое снижение инерции становится более плавным).

На представленном выше варианте графика видно, что инерция резко падает от 2 до примерно 5 кластеров. После этого снижение инерции становится гораздо менее выраженным. Поэтому в этом случае не будет ошибкой выбрать число от 3 до 5, так как добавление большего количества кластеров уменьшает инерцию незначительно, что может не оправдывать усложнение модели.

Для выбранного же ранее варианта в 2 кластера (в процессе использования алгоритмов) инерция достаточно высокая, поэтому на таком значении, особенно если неизвестны особенности решаемой задачи, лучше не останавливаться.

Выбор количества кластеров на основе коэффициента силуэта

In [371]:
from sklearn.metrics import silhouette_score

def get_clusters_silhouette_scores(
    df: pd.DataFrame, random_state: int
) -> Tuple[List, range]:
    kmeans_per_k, clusters_range = _get_kmeans_range(df, random_state)
    return [
        float(silhouette_score(df, model.labels_)) for model in kmeans_per_k
    ], clusters_range

def draw_silhouettes_diagram(silhouette: List, clusters_range: range):
    _draw_cluster_scores(
        silhouette, clusters_range, "Silhouette score", "The Silhouette score"
    )
In [372]:
silhouette_scores, clusters_range = get_clusters_silhouette_scores(df_scaled, random_state)
display(clusters_range)
display(silhouette_scores)
draw_silhouettes_diagram(silhouette_scores, clusters_range)
range(2, 72)
[0.29075853608405966,
 0.357346280582275,
 0.3580028147866339,
 0.3060072539613545,
 0.2778622088721048,
 0.28235647440325495,
 0.26298446011032567,
 0.2519432670192678,
 0.25796332430571123,
 0.2595321756963313,
 0.25189577317992934,
 0.25716821055171396,
 0.2520497680241438,
 0.24353440201890503,
 0.24991746284790578,
 0.24532156215695916,
 0.24200645508428598,
 0.2458836870128432,
 0.24107604337960176,
 0.2394901399609211,
 0.24132182121975873,
 0.24200391337627483,
 0.2406841380203819,
 0.2399078448492621,
 0.24412970613974297,
 0.23836956197419176,
 0.2362035088131641,
 0.23661921022263044,
 0.23692749271772362,
 0.23000948461224915,
 0.23066661229530314,
 0.22745627516202846,
 0.23140639929847473,
 0.23210518261226853,
 0.23116884290692077,
 0.23097360362311076,
 0.23655235029308458,
 0.23544438069925508,
 0.23735392388178586,
 0.23905299077276798,
 0.24235545959509608,
 0.2406902608674703,
 0.239164952448719,
 0.24153292277088986,
 0.23730838097862156,
 0.23622612255542497,
 0.23178308967837488,
 0.23419780804936907,
 0.23451681572078148,
 0.23271567646200786,
 0.23308032412226642,
 0.23444237065890342,
 0.23535637084165628,
 0.23439210732139512,
 0.23533909329002442,
 0.2304452327666582,
 0.22877458477903484,
 0.2323010916454335,
 0.23542525447499896,
 0.23711126604283184,
 0.23694848474776883,
 0.23771230321441972,
 0.2370089858565995,
 0.23582819858269166,
 0.23842397638982815,
 0.23630756225043792,
 0.23982136167290108,
 0.23844722816042435,
 0.240919396127249,
 0.23844771154987698]
No description has been provided for this image

Коэффициент силуэта рассчитывается с использованием среднего расстояния внутри кластера (а) и среднего расстояния до ближайшего кластера (b) для каждого образца. Лучшее значение — 1, худшее — -1. Значения около 0 указывают на перекрывающиеся кластеры. Отрицательные значения обычно указывают на то, что образец был отнесен к неправильному кластеру.

На графике коэффициента силуэта оптимальное количество кластеров определяется пиком, где значение силуэта максимально, т.к. чем выше значение, тем лучше структура кластеров.

В данном случае из графика и предыдущего вывода списка оценок видно, что максимальное значение коэффициента силуэта наблюдается при 3 или 4 кластерах (около 0.36). Это говорит о том, что при таком количестве кластеров группы имеют наилучшее качество разделения.

Однако, если для задачи требуется большее количество кластеров, можно выбрать другое значение, где коэффициент силуэта все еще достаточно высокий (по сравнению с остальными вариантами). К примеру значения 5 или 7.

Для выбранного ранее варианта разделения на 2 кластера значение коэффициента силуэта равно примерно 0.2908, что указывает на то, что кластеры имеют нечеткую границу, а разделение данных является неоптимальным. Это может быть связано либо с недостаточным количеством кластеров, либо с особенностями самих данных, которые затрудняют их разделение на четко определенные группы.

Пример анализа силуэтов для разбиения от 2 до 12 кластеров

In [373]:
from typing import Dict
from sklearn.metrics import silhouette_samples
import matplotlib.cm as cm

def get_clusters_silhouettes(df: np.ndarray, random_state: int) -> Dict:
    kmeans_per_k, _ = _get_kmeans_range(df, random_state)
    clusters_silhouettes: Dict = {}
    for model in kmeans_per_k:
        silhouette_value = silhouette_score(df, model.labels_)
        sample_silhouette_values = silhouette_samples(df, model.labels_)
        clusters_silhouettes[model.n_clusters] = (
            silhouette_value,
            sample_silhouette_values,
            model,
        )
    return clusters_silhouettes

def _draw_silhouette(
    ax: Any,
    reduced_data: np.ndarray,
    n_clusters: int,
    silhouette_avg: float,
    sample_silhouette_values: List,
    cluster_labels: List,
):
    ax.set_xlim([-0.1, 1])
    ax.set_ylim([0, len(reduced_data) + (n_clusters + 1) * 10])

    y_lower = 10
    for i in range(n_clusters):
        ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]

        ith_cluster_silhouette_values.sort()

        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i

        color = cm.nipy_spectral(float(i) / n_clusters)  # type: ignore
        ax.fill_betweenx(
            np.arange(y_lower, y_upper),
            0,
            ith_cluster_silhouette_values,
            facecolor=color,
            edgecolor=color,
            alpha=0.7,
        )

        ax.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

        y_lower = y_upper + 10  # 10 for the 0 samples

    ax.set_title("The silhouette plot for the various clusters.")
    ax.set_xlabel("The silhouette coefficient values")
    ax.set_ylabel("Cluster label")

    ax.axvline(x=silhouette_avg, color="red", linestyle="--")

    ax.set_yticks([])
    ax.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])


def _draw_cluster_data(
    ax: Any,
    reduced_data: np.ndarray,
    n_clusters: int,
    cluster_labels: np.ndarray,
    cluster_centers: np.ndarray,
):
    colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)  # type: ignore
    ax.scatter(
        reduced_data[:, 0],
        reduced_data[:, 1],
        marker=".",
        s=30,
        lw=0,
        alpha=0.7,
        c=colors,
        edgecolor="k",
    )

    ax.scatter(
        cluster_centers[:, 0],
        cluster_centers[:, 1],
        marker="o",
        c="white",
        alpha=1,
        s=200,
        edgecolor="k",
    )

    for i, c in enumerate(cluster_centers):
        ax.scatter(c[0], c[1], marker="$%d$" % i, alpha=1, s=50, edgecolor="k")

    ax.set_title("The visualization of the clustered data.")
    ax.set_xlabel("Feature space for the 1st feature")
    ax.set_ylabel("Feature space for the 2nd feature")

def draw_silhouettes(reduced_data: np.ndarray, silhouettes: Dict):
    for key, value in silhouettes.items():
        if key > 12:
            return 
        fig, (ax1, ax2) = plt.subplots(1, 2)
        fig.set_size_inches(18, 7)

        n_clusters = key
        silhouette_avg = value[0]
        sample_silhouette_values = value[1]
        cluster_labels = value[2].labels_
        cluster_centers = value[2].cluster_centers_

        _draw_silhouette(
            ax1,
            reduced_data,
            n_clusters,
            silhouette_avg,
            sample_silhouette_values,
            cluster_labels,
        )

        _draw_cluster_data(
            ax2,
            reduced_data,
            n_clusters,
            cluster_labels,
            cluster_centers,
        )

        plt.suptitle(
            "Silhouette analysis for KMeans clustering on sample data with n_clusters = %d"
            % n_clusters,
            fontsize=14,
            fontweight="bold",
        )
In [374]:
silhouettes = get_clusters_silhouettes(pca_data, random_state)
draw_silhouettes(pca_data, silhouettes)
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image