From 3d91ba78f1886a92adf89180b9a771c5a4ba54f7 Mon Sep 17 00:00:00 2001 From: Anatoliy Date: Fri, 16 May 2025 21:05:37 +0400 Subject: [PATCH] lab8 done --- lab8/lab8.ipynb | 359 ++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 359 insertions(+) create mode 100644 lab8/lab8.ipynb diff --git a/lab8/lab8.ipynb b/lab8/lab8.ipynb new file mode 100644 index 0000000..fddb0e4 --- /dev/null +++ b/lab8/lab8.ipynb @@ -0,0 +1,359 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Начало лабораторной" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка документов и ресурсов NLTK" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "[nltk_data] Downloading package stopwords to\n", + "[nltk_data] C:\\Users\\User\\AppData\\Roaming\\nltk_data...\n", + "[nltk_data] Package stopwords is already up-to-date!\n", + "[nltk_data] Downloading package punkt to\n", + "[nltk_data] C:\\Users\\User\\AppData\\Roaming\\nltk_data...\n", + "[nltk_data] Package punkt is already up-to-date!\n", + "[nltk_data] Downloading package wordnet to\n", + "[nltk_data] C:\\Users\\User\\AppData\\Roaming\\nltk_data...\n", + "[nltk_data] Package wordnet is already up-to-date!\n" + ] + } + ], + "source": [ + "import os\n", + "import win32com.client\n", + "import re\n", + "from nltk.corpus import stopwords\n", + "from nltk.stem import WordNetLemmatizer\n", + "import nltk\n", + "from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer\n", + "from sklearn.cluster import KMeans\n", + "from sklearn.decomposition import PCA\n", + "import matplotlib.pyplot as plt\n", + "import spacy\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.metrics import accuracy_score, f1_score\n", + "\n", + "nltk.download('stopwords')\n", + "nltk.download('punkt')\n", + "nltk.download('wordnet')\n", + "stop_words = set(stopwords.words('russian'))\n", + "lemmatizer = WordNetLemmatizer()\n", + "nlp = spacy.load(\"ru_core_news_sm\")\n", + "\n", + "data_path = os.path.abspath(\".//static//csv//www\")\n", + "\n", + "if not os.path.exists(data_path):\n", + " raise FileNotFoundError(f\"Папка {data_path} не найдена.\")\n", + "\n", + "word = win32com.client.Dispatch(\"Word.Application\")\n", + "word.visible = False\n", + "\n", + "texts = []\n", + "for filename in os.listdir(data_path):\n", + " if filename.endswith(\".doc\"):\n", + " file_path = os.path.join(data_path, filename)\n", + " try:\n", + " doc = word.Documents.Open(file_path)\n", + " text = doc.Content.Text\n", + " texts.append(text)\n", + " doc.Close(SaveChanges=False)\n", + " except Exception as e:\n", + " print(f\"Ошибка при чтении файла {filename}: {e}\")\n", + "word.Quit()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Предобработка и ее применение к каждому документу" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "def preprocess_text(text):\n", + " # Удаление спецсимволов\n", + " text = re.sub(r'\\W+', ' ', text)\n", + " # Приведение к нижнему регистру\n", + " text = text.lower()\n", + " # Токенизация\n", + " tokens = text.split()\n", + " # Удаление стоп-слов, лемматизация и фильтрация по длине токенов\n", + " tokens = [\n", + " lemmatizer.lemmatize(word) \n", + " for word in tokens \n", + " if word not in stop_words and len(word) > 2\n", + " ]\n", + " # Удаление лишних пробелов\n", + " tokens = ' '.join(tokens).strip()\n", + " return tokens\n", + "\n", + "# Применение предобработки к каждому документу\n", + "texts = [preprocess_text(text) for text in texts]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Обработка на основе лемматизации" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "def lemmatize_text(texts):\n", + " lemmatized_texts = []\n", + " for doc in nlp.pipe(texts):\n", + " lemmatized_texts.append(\" \".join([token.lemma_ for token in doc]))\n", + " return lemmatized_texts\n", + "\n", + "# Лемматизация текстов\n", + "lemmatized_texts = lemmatize_text(texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Удаление частых и редких слов на основе лемматизации" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [], + "source": [ + "from sklearn.feature_extraction.text import TfidfVectorizer\n", + "\n", + "vectorizer = TfidfVectorizer(max_df=0.8, min_df=3, max_features=5000)\n", + "X_filtered = vectorizer.fit_transform(lemmatized_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Формирование N-грамм" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Количество признаков (N-грамм): 5000\n", + "Размерность данных N-грамм: (41, 5000)\n" + ] + } + ], + "source": [ + "from sklearn.feature_extraction.text import TfidfVectorizer\n", + "\n", + "# Формирование N-грамм (одиночные слова до триады) с использованием TF-IDF векторизации\n", + "vectorizer_ngrams = TfidfVectorizer(ngram_range=(1, 3), max_features=5000)\n", + "\n", + "# Подготовка N-грамм из лемматизированных текстов\n", + "X_ngrams = vectorizer_ngrams.fit_transform(lemmatized_texts)\n", + "\n", + "# Вывод информации о сформированных N-граммах для проверки\n", + "print(f\"Количество признаков (N-грамм): {X_ngrams.shape[1]}\")\n", + "print(f\"Размерность данных N-грамм: {X_ngrams.shape}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Индексирование текста TF-IDF" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [], + "source": [ + "\n", + "tfidf_vectorizer = TfidfVectorizer(max_features=5000)\n", + "X_tfidf = tfidf_vectorizer.fit_transform(lemmatized_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Классификация" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Точность модели: 0.44\n", + "F1-мера: 0.40\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import train_test_split\n", + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.metrics import accuracy_score, f1_score, classification_report\n", + "import numpy as np\n", + "\n", + "# Определяем метки для классификации: 0 - Техническое задание (ТЗ), 1 - статья\n", + "# Исходя из примера, создаем метки для 41 текста: 20 \"ТЗ\" и 21 \"статья\"\n", + "labels = [0, 1] * 20 + [0]\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки (80% на обучение, 20% на тестирование)\n", + "X_train, X_test, y_train, y_test = train_test_split(X_tfidf, labels, test_size=0.2, random_state=42)\n", + "\n", + "# Инициализируем модель логистической регрессии с максимальным количеством итераций для достижения сходимости\n", + "model = LogisticRegression(max_iter=1000)\n", + "\n", + "# Обучаем модель на обучающей выборке\n", + "model.fit(X_train, y_train)\n", + "\n", + "# Выполняем предсказание на тестовой выборке\n", + "y_pred = model.predict(X_test)\n", + "\n", + "# Оценка производительности модели\n", + "accuracy = accuracy_score(y_test, y_pred)\n", + "f1 = f1_score(y_test, y_pred, average='weighted') # Используем взвешенное среднее для F1-меры\n", + "\n", + "# Выводим результаты оценки\n", + "print(f\"Точность модели: {accuracy:.2f}\")\n", + "print(f\"F1-мера: {f1:.2f}\")\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Точность модели (0.44): Это значение означает, что модель правильно классифицировала 44% примеров из тестового набора. Это довольно низкий показатель, что указывает на слабую производительность модели.\n", + "\n", + "F1-мерa (0.40): Эта метрика является гармоническим средним между точностью и полнотой. Низкое значение F1-меры (40%) дополнительно подчеркивает, что модель плохо справляется с задачей классификации." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Кластеризация" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Силуэт-коэффициент: 0.07140435701058531\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "from sklearn.cluster import AgglomerativeClustering\n", + "from sklearn.metrics import silhouette_score\n", + "from sklearn.decomposition import PCA\n", + "import matplotlib.pyplot as plt\n", + "\n", + "# Кластеризация с использованием иерархической кластеризации\n", + "n_clusters = 3 \n", + "hierarchical_clustering = AgglomerativeClustering(n_clusters=n_clusters)\n", + "hierarchical_clustering.fit(X_tfidf.toarray()) # type: ignore # Преобразуем X_tfidf в массив, если это необходимо\n", + "\n", + "# Получение меток кластеров\n", + "cluster_labels = hierarchical_clustering.labels_\n", + "\n", + "# Оценка качества кластеризации\n", + "silhouette_avg = silhouette_score(X_tfidf.toarray(), cluster_labels) # Преобразуем X_tfidf в массив# type: ignore\n", + "print(f\"Силуэт-коэффициент: {silhouette_avg}\")\n", + "\n", + "# Визуализация кластеров*\n", + "pca = PCA(n_components=2) \n", + "X_pca = pca.fit_transform(X_tfidf.toarray())# Преобразуем X_tfidf в массив# type: ignore\n", + "\n", + "plt.scatter(X_pca[:, 0], X_pca[:, 1], c=cluster_labels, cmap='viridis')\n", + "plt.title(\"Кластеризация документов по тематике (Иерархическая кластеризация)\")\n", + "plt.show()\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Силуэт-коэффициент варьируется от -1 до 1, где значения близкие к 1 указывают на хорошее разделение между кластерами, значения близкие к 0 на возможность наложения кластеров" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aisenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.6" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}