готово

This commit is contained in:
GokaPek 2024-11-22 20:53:52 +04:00
parent e42c9fe717
commit f5d003a911

View File

@ -248,7 +248,17 @@
"source": [
"#### Выбор количества кластеров\n",
"\n",
"#### График локтя"
"#### График локтя\n",
"\n",
"Инерция — это мера внутрикластерного рассеяния. Чем меньше инерция, тем более компактны и плотны кластеры.\n",
"\n",
"Цель: Минимизировать инерцию, но при этом не создавать слишком много мелких кластеров.\n",
"\n",
"Инерция резко падает при увеличении k от 2 до 3, а затем начинает выравниваться.\n",
"\n",
"Локтевая точка находится при k = 3.\n",
"\n",
"Оптимальное количество кластеров равно 3."
]
},
{
@ -292,7 +302,15 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### График силуэта"
"#### График силуэта\n",
"\n",
"Коэффициент силуэта — это метрика, которая оценивает качество кластеризации. Он измеряет, насколько хорошо каждый объект в кластере подобен другим объектам в том же кластере (компактность) и насколько он отличается от объектов в других кластерах (разделение).\n",
"\n",
"Значения: Коэффициент силуэта принимает значения от -1 до 1. Чем ближе значение к 1, тем лучше кластеризация. Значение 0 указывает на то, что кластеры пересекаются, а отрицательное значение указывает на неправильную кластеризацию.\n",
"\n",
"Коэффициент силуэта достигает максимума при k = 2 и затем снижается при увеличении k.\n",
"\n",
"Оптимальное количество кластеров равно 2."
]
},
{
@ -331,7 +349,25 @@
"\n",
"#### K-Means кластеризация\n",
"\n",
"#### Оценка качества кластеризации"
"#### Оценка качества кластеризации\n",
"\n",
"Коэффициент силуэта — это метрика, которая оценивает качество кластеризации. Он измеряет, насколько хорошо каждый объект в кластере подобен другим объектам в том же кластере (компактность) и насколько он отличается от объектов в других кластерах (разделение).\n",
"\n",
"Значения: Коэффициент силуэта принимает значения от -1 до 1. Чем ближе значение к 1, тем лучше кластеризация. Значение 0 указывает на то, что кластеры пересекаются, а отрицательное значение указывает на неправильную кластеризацию.\n",
"\n",
"Индекс Дэвиса-Болдина — это метрика, которая оценивает качество кластеризации. Он измеряет отношение среднего расстояния между объектами в одном кластере к среднему расстоянию между объектами в разных кластерах.\n",
"\n",
"Значения: Чем меньше значение индекса Дэвиса-Болдина, тем лучше кластеризация.\n",
"\n",
"Коэффициент силуэта:\n",
"Иерархическая кластеризация: Коэффициент силуэта равен 0.133, что указывает на то, что кластеры имеют некоторую компактность, но не очень высокую.\n",
"\n",
"K-Means кластеризация: Коэффициент силуэта равен 0.172, что немного выше, чем у иерархической кластеризации. Это указывает на то, что K-Means лучше справляется с созданием более компактных кластеров.\n",
"\n",
"Индекс Дэвиса-Болдина:\n",
"Иерархическая кластеризация: Индекс Дэвиса-Болдина равен 2.509, что указывает на то, что кластеры имеют значительное пересечение.\n",
"\n",
"K-Means кластеризация: Индекс Дэвиса-Болдина равен 2.234, что немного ниже, чем у иерархической кластеризации. Это указывает на то, что K-Means лучше справляется с разделением кластеров."
]
},
{
@ -379,7 +415,17 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Визуализация кластеров"
"#### Визуализация кластеров\n",
"\n",
"Главный компонент 1 (ось X): Это первая главная компонента, которая объясняет наибольшую дисперсию в данных.\n",
"\n",
"Главный компонент 2 (ось Y): Это вторая главная компонента, которая объясняет следующую по величине дисперсию в данных.\n",
"\n",
"Данные распределены вдоль оси X (Главный компонент 1) с некоторым разбросом вдоль оси Y (Главный компонент 2).\n",
"\n",
"Большая часть дисперсии в данных объясняется первой главной компонентой.\n",
"\n",
"На графике видны три кластера, которые расположены вдоль оси X."
]
},
{