diff --git a/lab_8/lab8.ipynb b/lab_8/lab8.ipynb new file mode 100644 index 0000000..80b81c7 --- /dev/null +++ b/lab_8/lab8.ipynb @@ -0,0 +1,436 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Лабораторная работа 8 ##" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Загрузка данных из .doc файлов:" + ] + }, + { + "cell_type": "code", + "execution_count": 96, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Загружено 41 документов.\n" + ] + } + ], + "source": [ + "import os\n", + "import win32com.client\n", + "\n", + "# Укажите правильный путь к папке с файлами\n", + "data_path = os.path.abspath(\"..//static//csv//tz_itdocs\")\n", + "\n", + "# Проверка существования папки\n", + "if not os.path.exists(data_path):\n", + " raise FileNotFoundError(f\"Папка {data_path} не найдена.\")\n", + "\n", + "# Инициализация Word\n", + "word = win32com.client.Dispatch(\"Word.Application\")\n", + "word.Visible = False # Используйте свойство Visible с заглавной буквы\n", + "\n", + "# Чтение всех .doc файлов\n", + "texts = []\n", + "for filename in os.listdir(data_path):\n", + " if filename.endswith(\".doc\"):\n", + " file_path = os.path.join(data_path, filename)\n", + " try:\n", + " # Открытие документа\n", + " doc = word.Documents.Open(file_path)\n", + " text = doc.Content.Text\n", + " texts.append(text)\n", + " doc.Close(SaveChanges=False) # Закрыть без сохранения изменений\n", + " except Exception as e:\n", + " print(f\"Ошибка при чтении файла {filename}: {e}\")\n", + "\n", + "# Закрытие Word\n", + "word.Quit()\n", + "\n", + "# Вывод результата\n", + "print(f\"Загружено {len(texts)} документов.\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Предобработка текста:" + ] + }, + { + "cell_type": "code", + "execution_count": 97, + "metadata": {}, + "outputs": [], + "source": [ + "stop_words = set(stopwords.words('russian'))\n", + "lemmatizer = WordNetLemmatizer()\n", + "\n", + "def preprocess_text(text):\n", + " # Удаление спецсимволов\n", + " text = re.sub(r'\\W', ' ', text)\n", + " # Приведение к нижнему регистру\n", + " text = text.lower()\n", + " # Удаление стоп-слов и лемматизация\n", + " tokens = [lemmatizer.lemmatize(word) for word in text.split() if word not in stop_words]\n", + " return ' '.join(tokens)\n", + "\n", + "# Применение предобработки к каждому документу\n", + "texts = [preprocess_text(text) for text in texts]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Векторизация текста" + ] + }, + { + "cell_type": "code", + "execution_count": 100, + "metadata": {}, + "outputs": [], + "source": [ + "vectorizer = TfidfVectorizer(max_features=1000)\n", + "X = vectorizer.fit_transform(texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Кластеризация с использованием K-means" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
textclusterpca_1pca_2
02 2 техническое задание 2 2 1 общие сведения п...20.3792670.009187
12 2 техническое задание 2 2 1 общие сведения п...00.4537260.042687
22 2 техническое задание общие сведения данной ...20.4900690.078381
3техническое задание 2 2 1 общие сведения интер...00.0734030.132265
42 2 техническое задание 2 2 1 общие сведения 1...00.494253-0.036965
\n", + "
" + ], + "text/plain": [ + " text cluster pca_1 \\\n", + "0 2 2 техническое задание 2 2 1 общие сведения п... 2 0.379267 \n", + "1 2 2 техническое задание 2 2 1 общие сведения п... 0 0.453726 \n", + "2 2 2 техническое задание общие сведения данной ... 2 0.490069 \n", + "3 техническое задание 2 2 1 общие сведения интер... 0 0.073403 \n", + "4 2 2 техническое задание 2 2 1 общие сведения 1... 0 0.494253 \n", + "\n", + " pca_2 \n", + "0 0.009187 \n", + "1 0.042687 \n", + "2 0.078381 \n", + "3 0.132265 \n", + "4 -0.036965 " + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
textclusterpca_1pca_2
36этапы разработки проекта заключительные стадии...3-0.471378-0.163534
37этапы разработки проекта определение стратегии...1-0.350179-0.501840
38этапы разработки проекта реализация тестирован...1-0.230170-0.509385
39этапы разработки проекта стратегия анализ введ...1-0.277140-0.409235
402 1 3 язык манипуляции данными ямд язык манипу...3-0.2673090.168029
\n", + "
" + ], + "text/plain": [ + " text cluster pca_1 \\\n", + "36 этапы разработки проекта заключительные стадии... 3 -0.471378 \n", + "37 этапы разработки проекта определение стратегии... 1 -0.350179 \n", + "38 этапы разработки проекта реализация тестирован... 1 -0.230170 \n", + "39 этапы разработки проекта стратегия анализ введ... 1 -0.277140 \n", + "40 2 1 3 язык манипуляции данными ямд язык манипу... 3 -0.267309 \n", + "\n", + " pca_2 \n", + "36 -0.163534 \n", + "37 -0.501840 \n", + "38 -0.509385 \n", + "39 -0.409235 \n", + "40 0.168029 " + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "from sklearn.manifold import TSNE\n", + "import numpy as np\n", + "\n", + "num_clusters = 5 # Количество кластеров!\n", + "kmeans = KMeans(n_clusters=num_clusters, random_state=42)\n", + "clusters = kmeans.fit_predict(X)\n", + "\n", + "# Визуализация кластеров с помощью t-SNE\n", + "tsne = TSNE(n_components=2, random_state=42)\n", + "X_embedded = tsne.fit_transform(X.toarray()) # Преобразуем разреженную матрицу в плотную\n", + "\n", + "# Уменьшение размерности с помощью PCA для визуализации\n", + "pca = PCA(n_components=2)\n", + "X_pca = pca.fit_transform(X.toarray()) # Преобразуем разреженную матрицу в плотную\n", + "\n", + "# Создаем DataFrame для удобства\n", + "df = pd.DataFrame({\n", + " \"text\": texts, # Исходные тексты\n", + " \"cluster\": clusters, # Метки кластеров\n", + " \"pca_1\": X_pca[:, 0], # Первая компонента PCA\n", + " \"pca_2\": X_pca[:, 1] # Вторая компонента PCA\n", + "})\n", + "\n", + "# Визуализация кластеров\n", + "plt.figure(figsize=(10, 8))\n", + "for cluster in range(num_clusters):\n", + " # Выбор точек, принадлежащих текущему кластеру\n", + " cluster_points = df[df[\"cluster\"] == cluster]\n", + " plt.scatter(cluster_points[\"pca_1\"], cluster_points[\"pca_2\"], label=f'Cluster {cluster}')\n", + "\n", + "plt.title(\"Визуализация кластеризации текстов с использованием PCA\")\n", + "plt.xlabel(\"Главная компонента 1\")\n", + "plt.ylabel(\"Главная компонента 2\")\n", + "plt.legend()\n", + "plt.show()\n", + "\n", + "# Вывод первых и последних строк DataFrame\n", + "display(df.head(), df.tail())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Классификация текстов (пример с использованием SVM)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Отчет о классификации:\n", + " precision recall f1-score support\n", + "\n", + " 0 0.57 1.00 0.73 4\n", + " 1 1.00 1.00 1.00 3\n", + " 2 0.00 0.00 0.00 3\n", + " 3 1.00 1.00 1.00 3\n", + "\n", + " accuracy 0.77 13\n", + " macro avg 0.64 0.75 0.68 13\n", + "weighted avg 0.64 0.77 0.69 13\n", + "\n", + "Точность: 0.77\n" + ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "d:\\ULSTU\\AIM2\\AIM-PIbd-32-Puchkina-A-A\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_classification.py:1531: UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.\n", + " _warn_prf(average, modifier, f\"{metric.capitalize()} is\", len(result))\n", + "d:\\ULSTU\\AIM2\\AIM-PIbd-32-Puchkina-A-A\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_classification.py:1531: UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.\n", + " _warn_prf(average, modifier, f\"{metric.capitalize()} is\", len(result))\n", + "d:\\ULSTU\\AIM2\\AIM-PIbd-32-Puchkina-A-A\\aimenv\\Lib\\site-packages\\sklearn\\metrics\\_classification.py:1531: UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.\n", + " _warn_prf(average, modifier, f\"{metric.capitalize()} is\", len(result))\n" + ] + } + ], + "source": [ + "from sklearn.svm import SVC\n", + "\n", + "y = kmeans.labels_ # Пример меток классов\n", + "\n", + "# Разделение данных на обучающую и тестовую выборки!\n", + "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)\n", + "\n", + "# Обучение модели SVM\n", + "svm_model = SVC(kernel='linear')\n", + "svm_model.fit(X_train, y_train)\n", + "\n", + "# Предсказание на тестовой выборке\n", + "y_pred = svm_model.predict(X_test)\n", + "\n", + "# Оценка качества классификации\n", + "print(\"Отчет о классификации:\")\n", + "print(classification_report(y_test, y_pred))\n", + "print(f\"Точность: {accuracy_score(y_test, y_pred):.2f}\")" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}