From b2997833aef5675cc80fbc1b8bab3eb8a617508b Mon Sep 17 00:00:00 2001 From: GokaPek Date: Fri, 21 Feb 2025 23:39:38 +0400 Subject: [PATCH] =?UTF-8?q?=D0=BA=D0=BE=D0=BD=D0=B5=D1=86?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- lab_8/lab8.ipynb | 763 +++++++++++++++++++++++++++++++++++++++++++++-- 1 file changed, 739 insertions(+), 24 deletions(-) diff --git a/lab_8/lab8.ipynb b/lab_8/lab8.ipynb index 8b527f9..4b4ee1b 100644 --- a/lab_8/lab8.ipynb +++ b/lab_8/lab8.ipynb @@ -1,5 +1,19 @@ { "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Лабораторная работа 8\n", + "## Определение задачи анализа текста\n", + "\n", + "Задача: классификация текстовых документов по категориям (например, тематикам статей).\n", + "\n", + "Используемые данные: текстовые документы из датасета.\n", + "\n", + "Цель: построить модель классификации или кластеризации текстов." + ] + }, { "cell_type": "markdown", "metadata": {}, @@ -9,9 +23,21 @@ }, { "cell_type": "code", - "execution_count": 13, + "execution_count": 32, "metadata": {}, "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "[nltk_data] Downloading package stopwords to\n", + "[nltk_data] C:\\Users\\Egor\\AppData\\Roaming\\nltk_data...\n", + "[nltk_data] Package stopwords is already up-to-date!\n", + "[nltk_data] Downloading package wordnet to\n", + "[nltk_data] C:\\Users\\Egor\\AppData\\Roaming\\nltk_data...\n", + "[nltk_data] Package wordnet is already up-to-date!\n" + ] + }, { "name": "stdout", "output_type": "stream", @@ -23,6 +49,24 @@ "source": [ "import os\n", "import win32com.client\n", + "# Импорт библиотек\n", + "import re\n", + "import spacy\n", + "from nltk.corpus import stopwords\n", + "from nltk.stem import WordNetLemmatizer\n", + "import nltk\n", + "from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer\n", + "from sklearn.cluster import KMeans\n", + "from sklearn.decomposition import PCA\n", + "import matplotlib.pyplot as plt\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.metrics import accuracy_score, f1_score\n", + "\n", + "# Загрузка необходимых ресурсов\n", + "nltk.download('stopwords')\n", + "nltk.download('wordnet')\n", + "nlp = spacy.load(\"ru_core_news_sm\")\n", "\n", "# Путь к папке с распакованными файлами\n", "data_dir = r\"C:/Users/Egor/Desktop/ULSTU\\AI/aim/AIM-PIbd-32-Petrushin-E-A/lab_8/static\"\n", @@ -52,32 +96,23 @@ ] }, { - "cell_type": "code", - "execution_count": 14, + "cell_type": "markdown", "metadata": {}, - "outputs": [ - { - "name": "stderr", - "output_type": "stream", - "text": [ - "[nltk_data] Downloading package stopwords to\n", - "[nltk_data] C:\\Users\\Egor\\AppData\\Roaming\\nltk_data...\n", - "[nltk_data] Unzipping corpora\\stopwords.zip.\n", - "[nltk_data] Downloading package wordnet to\n", - "[nltk_data] C:\\Users\\Egor\\AppData\\Roaming\\nltk_data...\n" - ] - } - ], "source": [ - "import re\n", - "from nltk.corpus import stopwords\n", - "from nltk.stem import WordNetLemmatizer\n", - "import nltk\n", + "Предобработка текста\n", "\n", - "# Загрузка стоп-слов и лемматизатора\n", - "nltk.download('stopwords')\n", - "nltk.download('wordnet')\n", - "stop_words = set(stopwords.words('russian')) # Для русского языка\n", + "Удаление пунктуации, стоп-слов, приведение к нижнему регистру.\n", + "\n", + "Проверка влияния предобработки на качество модели." + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [], + "source": [ + "stop_words = set(stopwords.words('russian'))\n", "lemmatizer = WordNetLemmatizer()\n", "\n", "def preprocess_text(text):\n", @@ -92,6 +127,686 @@ "# Применение предобработки к каждому документу\n", "texts = [preprocess_text(text) for text in texts]" ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выделение частей речи и морфологических признаков\n", + "Используем библиотеку spaCy для анализа морфологии.\n", + "Добавление признаков частей речи" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": {}, + "outputs": [], + "source": [ + "def extract_pos_features(texts):\n", + " pos_features = []\n", + " for doc in nlp.pipe(texts):\n", + " pos_features.append(\" \".join([token.pos_ for token in doc]))\n", + " return pos_features\n", + "\n", + "pos_features = extract_pos_features(texts)\n", + "texts_with_pos = [f\"{text} {pos}\" for text, pos in zip(texts, pos_features)]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Нормализация текста (лемматизация с использованием spaCy)" + ] + }, + { + "cell_type": "code", + "execution_count": 38, + "metadata": {}, + "outputs": [], + "source": [ + "def lemmatize_text(texts):\n", + " lemmatized_texts = []\n", + " for doc in nlp.pipe(texts):\n", + " lemmatized_texts.append(\" \".join([token.lemma_ for token in doc]))\n", + " return lemmatized_texts\n", + "\n", + "lemmatized_texts = lemmatize_text(texts_with_pos)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Фильтрация текста (удаление редких или частых слов)" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": {}, + "outputs": [], + "source": [ + "vectorizer = TfidfVectorizer(max_df=0.85, min_df=2, max_features=5000)\n", + "X_filtered = vectorizer.fit_transform(lemmatized_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Формирование N-грамм" + ] + }, + { + "cell_type": "code", + "execution_count": 40, + "metadata": {}, + "outputs": [], + "source": [ + "vectorizer_ngrams = TfidfVectorizer(ngram_range=(1, 3), max_features=5000)\n", + "X_ngrams = vectorizer_ngrams.fit_transform(lemmatized_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Индексирование текста TF-IDF" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "tfidf_vectorizer = TfidfVectorizer(max_features=5000)\n", + "X_tfidf = tfidf_vectorizer.fit_transform(lemmatized_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Кластеризация" + ] + }, + { + "cell_type": "code", + "execution_count": 42, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "n_clusters = 5 # Количество кластеров\n", + "kmeans = KMeans(n_clusters=n_clusters, random_state=42)\n", + "clusters = kmeans.fit_predict(X_tfidf)\n", + "\n", + "# Визуализация кластеров\n", + "pca = PCA(n_components=2)\n", + "X_pca = pca.fit_transform(X_tfidf.toarray())\n", + "\n", + "plt.scatter(X_pca[:, 0], X_pca[:, 1], c=clusters, cmap='viridis')\n", + "plt.title(\"Кластеризация текстов\")\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Обучение и оценка качества" + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy: 0.4615, F1-score: 0.2915\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "labels = np.random.randint(0, 2, size=len(texts))\n", + "X_train, X_test, y_train, y_test = train_test_split(X_tfidf, labels, test_size=0.3, random_state=42)\n", + "model = LogisticRegression(max_iter=1000)\n", + "model.fit(X_train, y_train)\n", + "\n", + "y_pred = model.predict(X_test)\n", + "accuracy = accuracy_score(y_test, y_pred)\n", + "f1 = f1_score(y_test, y_pred, average='weighted')\n", + "print(f\"Accuracy: {accuracy:.4f}, F1-score: {f1:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Оценка модели с метриками Accuracy: 0.4615 и F1-score: 0.2915 указывает на то, что модель работает не очень хорошо. Давайте разберём, что это означает и как можно улучшить результаты.\n", + "\n", + "Интерпретация метрик\n", + "Accuracy (Точность):\n", + "\n", + "Accuracy = 0.4615 означает, что модель правильно классифицировала около 46% документов.\n", + "\n", + "Это низкий показатель.\n", + "\n", + "F1-score (F-мера):\n", + "\n", + "F1-score = 0.2915 — это средневзвешенная точность и полнота.\n", + "\n", + "Низкий F1-score указывает на то, что модель плохо справляется как с точностью, так и с полнотой.\n", + "\n", + "Возможные причины низких метрик\n", + "Недостаточная предобработка текста:\n", + "\n", + "Возможно, тексты не были достаточно очищены (например, остались стоп-слова, пунктуация, или не выполнена лемматизация).\n", + "\n", + "Проблемы с векторизацией:\n", + "\n", + "Использование TF-IDF или Bag of Words может быть недостаточным для наших данных.\n", + "\n", + "Возможно, стоит попробовать более продвинутые методы, такие как Word2Vec, GloVe или BERT.\n", + "\n", + "Недостаток данных:\n", + "\n", + "У нас всего 41 документ, что очень мало для обучения модели машинного обучения.\n", + "\n", + "Модель может переобучаться или не находить значимых закономерностей.\n", + "\n", + "Несбалансированные классы:\n", + "\n", + "Если классы несбалансированы (например, один класс значительно преобладает), это может негативно сказаться на метриках.\n", + "\n", + "Неподходящая модель:\n", + "\n", + "Logistic Regression может быть недостаточно сложной наших данных.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Интерпретация результатов\n", + "Ключевые слова для каждого кластера" + ] + }, + { + "cell_type": "code", + "execution_count": 46, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Кластер 0:\n", + "['noun', 'adj', 'verb', 'adv', 'propn', 'num', 'det', 'данных', 'pron', 'система']\n", + "Кластер 1:\n", + "['noun', 'adj', 'num', 'verb', 'система', 'propn', 'программа', '2010', 'работа', 'требование']\n", + "Кластер 2:\n", + "['noun', 'adj', 'verb', 'sql', 'операция', 'арифметический', 'pl', 'propn', 'приоритет', 'оператор']\n", + "Кластер 3:\n", + "['noun', 'adj', 'verb', 'num', 'система', 'propn', 'работа', 'должный', 'требование', 'adv']\n", + "Кластер 4:\n", + "['noun', 'verb', 'adj', 'модель', 'mda', 'propn', 'pim', 'adv', 'преобразование', 'psm']\n" + ] + } + ], + "source": [ + "feature_names = tfidf_vectorizer.get_feature_names_out()\n", + "cluster_centers = kmeans.cluster_centers_\n", + "\n", + "for i, center in enumerate(cluster_centers):\n", + " print(f\"Кластер {i}:\")\n", + " top_words = [feature_names[idx] for idx in center.argsort()[-10:][::-1]]\n", + " print(top_words)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Наши кластеры содержат ключевые слова, такие как:\n", + "\n", + "Кластер 0: 'данных', 'система', 'программа' — возможно, связан с обработкой данных.\n", + "\n", + "Кластер 1: 'система', 'программа', 'требование' — связан с системными требованиями.\n", + "\n", + "Кластер 2: 'sql', 'операция', 'оператор' — связан с базами данных.\n", + "\n", + "Кластер 3: 'система', 'работа', 'требование' — похож на кластер 1.\n", + "\n", + "Кластер 4: 'модель', 'mda', 'pim' — связан с моделями данных.\n", + "\n", + "Эти кластеры могут быть полезны для понимания структуры данных, но их качество также можно улучшить." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Проверка применимости методов предобработки\n", + "Сравним качество модели с лемматизацией и без неё:" + ] + }, + { + "cell_type": "code", + "execution_count": 54, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy без лемматизации: 0.5385\n", + "Accuracy с лемматизацией: 0.5385\n" + ] + } + ], + "source": [ + "def preprocess_text(text, lemmatize=True):\n", + " # Удаление спецсимволов\n", + " text = re.sub(r'\\W', ' ', text)\n", + " # Приведение к нижнему регистру\n", + " text = text.lower()\n", + " # Удаление стоп-слов\n", + " tokens = [word for word in text.split() if word not in stop_words]\n", + " # Лемматизация (если включена)\n", + " if lemmatize:\n", + " tokens = [lemmatizer.lemmatize(word) for word in tokens]\n", + " return ' '.join(tokens)\n", + "\n", + "# Без лемматизации\n", + "texts_no_lemma = [preprocess_text(text, lemmatize=False) for text in texts]\n", + "X_no_lemma = vectorizer.fit_transform(texts_no_lemma)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_no_lemma, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_no_lemma = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy без лемматизации: {accuracy_no_lemma:.4f}\")\n", + "\n", + "# С лемматизацией\n", + "texts_lemma = [preprocess_text(text, lemmatize=True) for text in texts]\n", + "X_lemma = vectorizer.fit_transform(texts_lemma)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_lemma, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_lemma = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с лемматизацией: {accuracy_lemma:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Влияние выделения частей речи\n", + "Добавим признаки частей речи:" + ] + }, + { + "cell_type": "code", + "execution_count": 48, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy с частями речи: 0.5385\n" + ] + } + ], + "source": [ + "def extract_pos_features(texts):\n", + " pos_features = []\n", + " for doc in nlp.pipe(texts):\n", + " pos_features.append(\" \".join([token.pos_ for token in doc]))\n", + " return pos_features\n", + "\n", + "# Добавление признаков частей речи\n", + "pos_features = extract_pos_features(texts)\n", + "texts_with_pos = [f\"{text} {pos}\" for text, pos in zip(texts, pos_features)]\n", + "\n", + "# Векторизация и обучение модели\n", + "X_with_pos = vectorizer.fit_transform(texts_with_pos)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_with_pos, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_with_pos = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с частями речи: {accuracy_with_pos:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Проверка применимости методов нормализации\n", + "Сравним лемматизацию и стемминг:" + ] + }, + { + "cell_type": "code", + "execution_count": 49, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy со стеммингом: 0.5385\n" + ] + } + ], + "source": [ + "from nltk.stem.snowball import SnowballStemmer\n", + "\n", + "# Стемминг\n", + "stemmer = SnowballStemmer(\"russian\")\n", + "def stem_text(text):\n", + " return \" \".join([stemmer.stem(word) for word in text.split()])\n", + "\n", + "texts_stem = [stem_text(text) for text in texts]\n", + "X_stem = vectorizer.fit_transform(texts_stem)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_stem, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_stem = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy со стеммингом: {accuracy_stem:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Проверка применимости методов фильтрации\n", + "Сравним разные параметры фильтрации:" + ] + }, + { + "cell_type": "code", + "execution_count": 50, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy с min_df=3: 0.5385\n" + ] + } + ], + "source": [ + "# Фильтрация с разными параметрами\n", + "vectorizer_min_df = TfidfVectorizer(min_df=3, max_features=5000)\n", + "X_min_df = vectorizer_min_df.fit_transform(texts)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_min_df, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_min_df = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с min_df=3: {accuracy_min_df:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Влияние формирования N-грамм\n", + "Добавим биграммы и триграммы:" + ] + }, + { + "cell_type": "code", + "execution_count": 51, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy с N-граммами: 0.5385\n" + ] + } + ], + "source": [ + "# Векторизация с N-граммами\n", + "vectorizer_ngrams = TfidfVectorizer(ngram_range=(1, 3), max_features=5000)\n", + "X_ngrams = vectorizer_ngrams.fit_transform(texts)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_ngrams, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_ngrams = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с N-граммами: {accuracy_ngrams:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Сравнение методов индексирования\n", + "Сравним Bag of Words и TF-IDF:" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Accuracy с Bag of Words: 0.5385\n", + "Accuracy с TF-IDF: 0.5385\n" + ] + } + ], + "source": [ + "# Bag of Words\n", + "bow_vectorizer = CountVectorizer(max_features=5000)\n", + "X_bow = bow_vectorizer.fit_transform(texts)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_bow, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_bow = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с Bag of Words: {accuracy_bow:.4f}\")\n", + "\n", + "# TF-IDF\n", + "tfidf_vectorizer = TfidfVectorizer(max_features=5000)\n", + "X_tfidf = tfidf_vectorizer.fit_transform(texts)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_tfidf, labels, test_size=0.3, random_state=42)\n", + "model.fit(X_train, y_train)\n", + "y_pred = model.predict(X_test)\n", + "accuracy_tfidf = accuracy_score(y_test, y_pred)\n", + "print(f\"Accuracy с TF-IDF: {accuracy_tfidf:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Результаты экспериментов показывают, что Accuracy остаётся неизменным (0.5385) независимо от применяемых методов предобработки, векторизации или других изменений. Это указывает на то, что текущие методы не оказывают значимого влияния на качество модели. Давайте проведём детальный анализ и выясним возможные причины.\n", + "\n", + "Анализ результатов\n", + "1. Лемматизация vs Без лемматизации\n", + "Результат: Accuracy одинаковый (0.5385).\n", + "\n", + "Вывод: Лемматизация не улучшила качество модели. Возможные причины:\n", + "\n", + "Тексты уже достаточно \"чистые\" (например, мало морфологических вариаций).\n", + "\n", + "Лемматизация не добавила полезной информации для классификации.\n", + "\n", + "2. Добавление частей речи\n", + "Результат: Accuracy не изменился (0.5385).\n", + "\n", + "Вывод: Признаки частей речи не повлияли на качество. Возможные причины:\n", + "\n", + "Части речи не несут достаточной информации для решения задачи.\n", + "\n", + "Модель не смогла эффективно использовать эти признаки.\n", + "\n", + "3. Стемминг\n", + "Результат: Accuracy остался тем же (0.5385).\n", + "\n", + "Вывод: Стемминг не улучшил качество. Возможные причины:\n", + "\n", + "Стемминг и лемматизация дают схожие результаты для ваших данных.\n", + "\n", + "Стемминг мог \"перегрубить\" слова, что не добавило полезной информации.\n", + "\n", + "4. Фильтрация редких слов (min_df=3)\n", + "Результат: Accuracy не изменился (0.5385).\n", + "\n", + "Вывод: Удаление редких слов не повлияло на качество. Возможные причины:\n", + "\n", + "Редкие слова не играют значимой роли в ваших данных.\n", + "\n", + "Фильтрация не устранила шум или не улучшила признаки.\n", + "\n", + "5. Использование N-грамм\n", + "Результат: Accuracy остался прежним (0.5385).\n", + "\n", + "Вывод: N-граммы не улучшили качество. Возможные причины:\n", + "\n", + "N-граммы не добавили полезной информации (например, тексты слишком короткие или не содержат значимых последовательностей слов).\n", + "\n", + "Модель не смогла эффективно использовать N-граммы.\n", + "\n", + "6. Сравнение Bag of Words и TF-IDF\n", + "Результат: Accuracy одинаковый для обоих методов (0.5385).\n", + "\n", + "Вывод: Оба метода векторизации дают схожие результаты. Возможные причины:\n", + "\n", + "TF-IDF не смог выделить более значимые признаки по сравнению с Bag of Words.\n", + "\n", + "Тексты могут быть слишком однородными, чтобы TF-IDF дал преимущество.\n", + "\n", + "Возможные причины неизменности Accuracy\n", + "Недостаток данных:\n", + "\n", + "У вас всего 41 документ, что очень мало для обучения модели. Малое количество данных может ограничивать способность модели находить закономерности.\n", + "\n", + "Неподходящая модель:\n", + "\n", + "Logistic Regression может быть слишком простой для ваших данных. Попробуйте более сложные модели, такие как Random Forest, Gradient Boosting или нейронные сети.\n", + "\n", + "Недостаточная предобработка:\n", + "\n", + "Возможно, тексты требуют более глубокой очистки или обработки (например, удаление шума, выделение ключевых фраз).\n", + "\n", + "Несбалансированные классы:\n", + "\n", + "Если классы несбалансированы, модель может быть смещена в сторону более частого класса. Проверьте распределение меток.\n", + "\n", + "Ограниченность методов векторизации:\n", + "\n", + "Bag of Words и TF-IDF могут быть недостаточными для ваших данных. Попробуйте использовать более продвинутые методы, такие как Word2Vec, GloVe или BERT.\n", + "\n", + "Отсутствие значимых признаков:\n", + "\n", + "Возможно, тексты не содержат достаточно информации для решения задачи. Например, если тексты слишком короткие или однообразные." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Оценка качества для различных комбинаций гиперпараметров\n", + "Используем GridSearchCV для подбора гиперпараметров:" + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Лучшие параметры: {'C': 0.1, 'max_iter': 500}\n", + "Лучшая точность: 0.4667\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import GridSearchCV\n", + "\n", + "# Параметры для GridSearchCV\n", + "param_grid = {\n", + " 'C': [0.1, 1, 10],\n", + " 'max_iter': [500, 1000, 1500]\n", + "}\n", + "\n", + "# Поиск лучших параметров\n", + "grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5, scoring='accuracy')\n", + "grid_search.fit(X_tfidf, labels)\n", + "\n", + "# Лучшие параметры и оценка качества\n", + "print(f\"Лучшие параметры: {grid_search.best_params_}\")\n", + "print(f\"Лучшая точность: {grid_search.best_score_:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1. Лучшие параметры: {'C': 0.1, 'max_iter': 500}\n", + "C: Это гиперпараметр регуляризации в Logistic Regression. Чем меньше значение C, тем сильнее регуляризация (модель старается избегать переобучения).\n", + "\n", + "Значение C=0.1 указывает на то, что модель лучше работает с сильной регуляризацией.\n", + "\n", + "max_iter: Максимальное количество итераций для сходимости алгоритма.\n", + "\n", + "Значение max_iter=500 означает, что алгоритм сошёлся за 500 итераций.\n", + "\n", + "Вывод: Модель лучше всего работает с сильной регуляризацией (C=0.1) и ограниченным количеством итераций (max_iter=500).\n", + "\n", + "2. Лучшая точность: 0.4667\n", + "Это значение accuracy, достигнутое на кросс-валидации (например, с использованием GridSearchCV).\n", + "\n", + "Точность 0.4667 означает, что модель правильно классифицирует около 46.67% документов.\n", + "\n", + "Это низкий показатель, который говорит о том, что модель плохо справляется с задачей.\n", + "\n", + "3. Accuracy со стеммингом: 0.5385\n", + "После применения стемминга точность модели на тестовых данных составила 0.5385.\n", + "\n", + "Это значение выше, чем лучшая точность, найденная с помощью GridSearchCV (0.4667).\n", + "\n", + "Анализ результатов\n", + "Почему точность на тестовых данных выше, чем на кросс-валидации?\n", + "\n", + "Возможно, тестовые данные \"проще\" для модели, чем данные, использованные для кросс-валидации.\n", + "\n", + "Также это может быть связано с тем, что кросс-валидация даёт более консервативную оценку качества модели.\n", + "\n", + "Почему стемминг улучшил точность?\n", + "\n", + "Стемминг сокращает слова до их корневой формы, что может уменьшить размерность данных и улучшить обобщающую способность модели.\n", + "\n", + "В нашем случае стемминг, вероятно, помог модели лучше выделить ключевые признаки." + ] } ], "metadata": {