From f5d003a911aeba118bf15f75546f3c24fa0b06d3 Mon Sep 17 00:00:00 2001 From: GokaPek Date: Fri, 22 Nov 2024 20:53:52 +0400 Subject: [PATCH] =?UTF-8?q?=D0=B3=D0=BE=D1=82=D0=BE=D0=B2=D0=BE?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- lab_5/lab5.ipynb | 54 ++++++++++++++++++++++++++++++++++++++++++++---- 1 file changed, 50 insertions(+), 4 deletions(-) diff --git a/lab_5/lab5.ipynb b/lab_5/lab5.ipynb index 433f9e1..1216d33 100644 --- a/lab_5/lab5.ipynb +++ b/lab_5/lab5.ipynb @@ -248,7 +248,17 @@ "source": [ "#### Выбор количества кластеров\n", "\n", - "#### График локтя" + "#### График локтя\n", + "\n", + "Инерция — это мера внутрикластерного рассеяния. Чем меньше инерция, тем более компактны и плотны кластеры.\n", + "\n", + "Цель: Минимизировать инерцию, но при этом не создавать слишком много мелких кластеров.\n", + "\n", + "Инерция резко падает при увеличении k от 2 до 3, а затем начинает выравниваться.\n", + "\n", + "Локтевая точка находится при k = 3.\n", + "\n", + "Оптимальное количество кластеров равно 3." ] }, { @@ -292,7 +302,15 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### График силуэта" + "#### График силуэта\n", + "\n", + "Коэффициент силуэта — это метрика, которая оценивает качество кластеризации. Он измеряет, насколько хорошо каждый объект в кластере подобен другим объектам в том же кластере (компактность) и насколько он отличается от объектов в других кластерах (разделение).\n", + "\n", + "Значения: Коэффициент силуэта принимает значения от -1 до 1. Чем ближе значение к 1, тем лучше кластеризация. Значение 0 указывает на то, что кластеры пересекаются, а отрицательное значение указывает на неправильную кластеризацию.\n", + "\n", + "Коэффициент силуэта достигает максимума при k = 2 и затем снижается при увеличении k.\n", + "\n", + "Оптимальное количество кластеров равно 2." ] }, { @@ -331,7 +349,25 @@ "\n", "#### K-Means кластеризация\n", "\n", - "#### Оценка качества кластеризации" + "#### Оценка качества кластеризации\n", + "\n", + "Коэффициент силуэта — это метрика, которая оценивает качество кластеризации. Он измеряет, насколько хорошо каждый объект в кластере подобен другим объектам в том же кластере (компактность) и насколько он отличается от объектов в других кластерах (разделение).\n", + "\n", + "Значения: Коэффициент силуэта принимает значения от -1 до 1. Чем ближе значение к 1, тем лучше кластеризация. Значение 0 указывает на то, что кластеры пересекаются, а отрицательное значение указывает на неправильную кластеризацию.\n", + "\n", + "Индекс Дэвиса-Болдина — это метрика, которая оценивает качество кластеризации. Он измеряет отношение среднего расстояния между объектами в одном кластере к среднему расстоянию между объектами в разных кластерах.\n", + "\n", + "Значения: Чем меньше значение индекса Дэвиса-Болдина, тем лучше кластеризация.\n", + "\n", + "Коэффициент силуэта:\n", + "Иерархическая кластеризация: Коэффициент силуэта равен 0.133, что указывает на то, что кластеры имеют некоторую компактность, но не очень высокую.\n", + "\n", + "K-Means кластеризация: Коэффициент силуэта равен 0.172, что немного выше, чем у иерархической кластеризации. Это указывает на то, что K-Means лучше справляется с созданием более компактных кластеров.\n", + "\n", + "Индекс Дэвиса-Болдина:\n", + "Иерархическая кластеризация: Индекс Дэвиса-Болдина равен 2.509, что указывает на то, что кластеры имеют значительное пересечение.\n", + "\n", + "K-Means кластеризация: Индекс Дэвиса-Болдина равен 2.234, что немного ниже, чем у иерархической кластеризации. Это указывает на то, что K-Means лучше справляется с разделением кластеров." ] }, { @@ -379,7 +415,17 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Визуализация кластеров" + "#### Визуализация кластеров\n", + "\n", + "Главный компонент 1 (ось X): Это первая главная компонента, которая объясняет наибольшую дисперсию в данных.\n", + "\n", + "Главный компонент 2 (ось Y): Это вторая главная компонента, которая объясняет следующую по величине дисперсию в данных.\n", + "\n", + "Данные распределены вдоль оси X (Главный компонент 1) с некоторым разбросом вдоль оси Y (Главный компонент 2).\n", + "\n", + "Большая часть дисперсии в данных объясняется первой главной компонентой.\n", + "\n", + "На графике видны три кластера, которые расположены вдоль оси X." ] }, {