lab9

1
lab7
2025-05-16 22:38:28 +04:00 · 2025-05-16 22:31:35 +04:00 · 2025-04-18 21:26:06 +04:00 · 2024-11-29 18:17:46 +04:00 · 2024-11-29 18:04:52 +04:00 · 2024-11-23 07:56:39 +04:00
56 changed files with 71632 additions and 456 deletions
--- a/MAI_PIbd-33_Tikhonenkov_A_E.code-workspace
+++ b/MAI_PIbd-33_Tikhonenkov_A_E.code-workspace
@@ -0,0 +1,8 @@
+{
+	"folders": [
+		{
+			"path": "."
+		}
+	],
+	"settings": {}
+}
--- a/data/Diamonds-Prices.csv
+++ b/data/Diamonds-Prices.csv
--- a/data/Forbes
+++ b/data/Forbes
@@ -0,0 +1,6 @@
+Rank ,Name,Networth,Age,Country,Source,Industry
+1,Elon Musk ,219,50,United States,"Tesla, SpaceX",Automotive 
+2,Jeff Bezos ,171,58,United States,Amazon,Technology 
+3,Bernard Arnault & family ,158,73,France,LVMH,Fashion & Retail 
+4,Bill Gates ,129,66,United States,Microsoft,Technology 
+5,Warren Buffett ,118,91,United States,Berkshire Hathaway,Finance & Investments 
--- a/Billionaires.csv
+++ b/Billionaires.csv
--- a/data/mobile-phone-price-prediction.csv
+++ b/data/mobile-phone-price-prediction.csv
--- a/data/text/tz_01.docx
+++ b/data/text/tz_01.docx
--- a/data/text/tz_02.docx
+++ b/data/text/tz_02.docx
--- a/data/text/tz_03.docx
+++ b/data/text/tz_03.docx
--- a/data/text/tz_04.docx
+++ b/data/text/tz_04.docx
--- a/data/text/tz_05.docx
+++ b/data/text/tz_05.docx
--- a/data/text/tz_06.docx
+++ b/data/text/tz_06.docx
--- a/data/text/tz_07.docx
+++ b/data/text/tz_07.docx
--- a/data/text/tz_08.docx
+++ b/data/text/tz_08.docx
--- a/data/text/tz_09.docx
+++ b/data/text/tz_09.docx
--- a/data/text/tz_10.docx
+++ b/data/text/tz_10.docx
--- a/data/text/tz_11.docx
+++ b/data/text/tz_11.docx
--- a/data/text/tz_12.docx
+++ b/data/text/tz_12.docx
--- a/data/text/tz_13.docx
+++ b/data/text/tz_13.docx
--- a/data/text/tz_14.docx
+++ b/data/text/tz_14.docx
--- a/data/text/tz_15.docx
+++ b/data/text/tz_15.docx
--- a/data/text/tz_16.docx
+++ b/data/text/tz_16.docx
--- a/data/text/tz_17.docx
+++ b/data/text/tz_17.docx
--- a/data/text/tz_18.docx
+++ b/data/text/tz_18.docx
--- a/data/text/tz_19.docx
+++ b/data/text/tz_19.docx
--- a/data/text/tz_20.docx
+++ b/data/text/tz_20.docx
--- a/data/text/Архитектура,
+++ b/data/text/Архитектура,
--- a/data/text/Введение
+++ b/data/text/Введение
--- a/data/text/Встроенные
+++ b/data/text/Встроенные
--- a/data/text/Методологии
+++ b/data/text/Методологии
--- a/data/text/Методологии
+++ b/data/text/Методологии
--- a/декомпозиции.docx
+++ b/декомпозиции.docx
--- a/data/text/Модели
+++ b/data/text/Модели
--- a/проектирования.docx
+++ b/проектирования.docx
--- a/data/text/Непроцедурный
+++ b/data/text/Непроцедурный
--- a/data/text/Процедурное
+++ b/data/text/Процедурное
--- a/data/text/Системные
+++ b/data/text/Системные
--- a/data/text/Технология
+++ b/data/text/Технология
--- a/data/text/Требования
+++ b/data/text/Требования
--- a/data/text/Условия
+++ b/data/text/Условия
--- a/data/text/Характеристики
+++ b/data/text/Характеристики
--- a/проекта1.docx
+++ b/проекта1.docx
--- a/проекта2.docx
+++ b/проекта2.docx
--- a/проекта3.docx
+++ b/проекта3.docx
--- a/проекта4.docx
+++ b/проекта4.docx
--- a/проекта5.docx
+++ b/проекта5.docx
--- a/данными.docx
+++ b/данными.docx
--- a/lab1.ipynb
+++ b/lab1.ipynb
--- a/lab2.ipynb
+++ b/lab2.ipynb
--- a/lab3.ipynb
+++ b/lab3.ipynb
--- a/lab4.ipynb
+++ b/lab4.ipynb
--- a/lab5.ipynb
+++ b/lab5.ipynb
--- a/lab_7.ipynb
+++ b/lab_7.ipynb
--- a/lab_8.ipynb
+++ b/lab_8.ipynb
@@ -0,0 +1,693 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Лабораторная работа 8\n",
+    "\n",
+    "Выбранный датасет: Технические задания и статьи по ИТ (кластеризация, классификация).\n",
+    "\n",
+    "Выбранный метод машинного обучения: классификация.\n",
+    "\n",
+    "Задача анализа текстов: разработка модели, которая сможет автоматически определять категорию, к которой относится текст (в данном случае, ТЗ или статья)."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Импорт библиотеки и инициализация модуля для анализа текста:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import spacy\n",
+    "\n",
+    "sp = spacy.load(\"ru_core_news_lg\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Загрузка текстов из файлов с расширением .docx в датафрейм:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                  doc  \\\n",
+      "15                                         tz_16.docx   \n",
+      "16                                         tz_17.docx   \n",
+      "17                                         tz_18.docx   \n",
+      "18                                         tz_19.docx   \n",
+      "19                                         tz_20.docx   \n",
+      "20               Архитектура, управляемая модель.docx   \n",
+      "21                  Введение в проектирование ИС.docx   \n",
+      "22                      Встроенные операторы SQL.docx   \n",
+      "23  Методологии разработки программного обеспечени...   \n",
+      "24  Методологии разработки программного обеспечени...   \n",
+      "\n",
+      "                                                 text  type  \n",
+      "15  2.2\\tТехническое задание\\n2.2.1\\tОбщие сведени...     0  \n",
+      "16  2.2 Техническое задание.\\n2.2.1 Общие сведения...     0  \n",
+      "17  2.2. Техническое задание\\nОбщие сведения:\\nПол...     0  \n",
+      "18  2.2. Техническое задание\\n2.2.1. Наименование ...     0  \n",
+      "19  2.2. Техническое задание\\n2.2.1. Общие сведени...     0  \n",
+      "20  Архитектура, управляемая модель\\nАббревиатура ...     1  \n",
+      "21  1. ВВЕДЕНИЕ В ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННЫХ СИ...     1  \n",
+      "22  Встроенные операторы SQL. \\nКак было отмечено ...     1  \n",
+      "23  Методологии разработки программного обеспечени...     1  \n",
+      "24  Методологии разработки программного обеспечени...     1  \n"
+     ]
+    }
+   ],
+   "source": [
+    "import pandas as pd\n",
+    "from docx import Document\n",
+    "import os\n",
+    "\n",
+    "def read_docx(file_path):\n",
+    "    doc = Document(file_path)\n",
+    "    full_text = []\n",
+    "    for paragraph in doc.paragraphs:\n",
+    "        full_text.append(paragraph.text)\n",
+    "    return \"\\n\".join(full_text)\n",
+    "\n",
+    "def load_docs(dataset_path):\n",
+    "    df = pd.DataFrame(columns=[\"doc\", \"text\"])\n",
+    "    for file_path in os.listdir(dataset_path):\n",
+    "        if file_path.startswith(\"~$\"):\n",
+    "            continue\n",
+    "        text = read_docx(dataset_path + file_path)\n",
+    "        df.loc[len(df.index)] = [file_path, text]\n",
+    "    return df\n",
+    "\n",
+    "df = load_docs(\"./data/text/\")\n",
+    "df[\"type\"] = df.apply(\n",
+    "    lambda row: 0 if str(row[\"doc\"]).startswith(\"tz_\") else 1, axis=1\n",
+    ")\n",
+    "df.sort_values(by=[\"doc\"], inplace=True)\n",
+    "\n",
+    "print(df.iloc[15:25])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Предобработка текста.\n",
+    "\n",
+    "Трансформация:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import re\n",
+    "import emoji\n",
+    "from num2words import num2words\n",
+    "\n",
+    "# Функция для преобразования эмоджи в слова\n",
+    "def emojis_words(text):\n",
+    "    \n",
+    "    # Модуль emoji: преобразование эмоджи в их словесные описания\n",
+    "    text = emoji.demojize(text, delimiters=(\" \", \" \"))\n",
+    "    \n",
+    "    # Редактирование текста путём замены \":\" и\" _\", а так же - путём добавления пробела между отдельными словами\n",
+    "    text = text.replace(\":\", \"\").replace(\"_\", \" \")\n",
+    "    \n",
+    "    return text\n",
+    "\n",
+    "def transform_text(text):\n",
+    "    # Удаление из текста всех HTML-тегов\n",
+    "    text = re.sub(r'<[^<]+?>', '', text)\n",
+    "    \n",
+    "    # Удаление из текста всех URL и ссылок\n",
+    "    text = re.sub(r'http\\S+', '', text)\n",
+    "\n",
+    "    # Преобразование эмоджи в текст\n",
+    "    text = emojis_words(text)\n",
+    "\n",
+    "    # Приведение к нижнему регистру\n",
+    "    text = text.lower()\n",
+    "\n",
+    "    # Удаление лишних пробелов\n",
+    "    text = re.sub(r'\\s+', ' ', text)  \n",
+    "    \n",
+    "    # Преобразование \"ё\" в \"е\"\n",
+    "    text = text.replace(\"ё\", \"е\")\n",
+    "\n",
+    "    # Удаление всех специальных символов\n",
+    "    text = re.sub(r'[^a-zA-Zа-яА-Я0-9\\s]', '', text)\n",
+    "\n",
+    "    # Преобразование чисел в слова\n",
+    "    words: list[str] = text.split()\n",
+    "    words = [num2words(word, lang=\"ru\") if word.isdigit() else word for word in words]\n",
+    "    text = \" \".join(words)\n",
+    "\n",
+    "    # Удаление из текста всех знаков препинания\n",
+    "    text = re.sub(r'[^\\w\\s]', '', text)\n",
+    "\n",
+    "    return text\n",
+    "\n",
+    "df[\"preprocessed_text\"] = df[\"text\"].apply(transform_text)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Для выполнения токенизации, определения частей речи (POS tagging), нормализации (в данном случае применяется лемматизация) и фильтрации данных будем использовать библиотеку spaCy. На этапе фильтрации с целью уменьшения размерности пространства признаков задействуем словарь стоп-слов, а также исключим все слова, длина которых превышает 20 символов."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "двадцать_NUM_Case=Nom технический_ADJ_Case=Nom|Degree=Pos|Gender=Neut|Number=Sing задание_NOUN_Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing двести_NUM_Case=Nom двадцать_NUM_Case=Nom общий_ADJ_Case=Nom|Degree=Pos|Number=Plur сведение_NOUN_Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing полный_ADJ_Case=Nom|Degree=Pos|Gender=Neut|Number=Sing наименование_NOUN_Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing система_NOUN_Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing\n"
+     ]
+    }
+   ],
+   "source": [
+    "\n",
+    "from nltk.corpus import stopwords\n",
+    "\n",
+    "\n",
+    "stop_words = set(stopwords.words('russian'))\n",
+    "\n",
+    "def preprocess_text(text):\n",
+    "    doc = sp(text)\n",
+    "    \n",
+    "    filtered_tokens = [\n",
+    "\n",
+    "        f\"{token.lemma_}_{token.pos_}_{token.morph}\" # Формирование строки с нужным форматом\n",
+    "        for token in doc\n",
+    "\n",
+    "        if token.text not in stop_words and len(token.text) <= 20 # Фильтрация \n",
+    "\n",
+    "    ]\n",
+    "    \n",
+    "\n",
+    "    return \" \".join(filtered_tokens)\n",
+    "\n",
+    "\n",
+    "df[\"preprocessed_text\"] = df[\"preprocessed_text\"].apply(preprocess_text)\n",
+    "\n",
+    "\n",
+    "# Выведем 10 токенов из первого текста\n",
+    "\n",
+    "first_text_tokens = df[\"preprocessed_text\"].iloc[0].split()[:10]\n",
+    "\n",
+    "print(\" \".join(first_text_tokens))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Перейдем к этапу формирования N-грамм:\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "[nltk_data] Downloading package punkt_tab to\n",
+      "[nltk_data]     D:\\Users\\Leo\\AppData\\Roaming\\nltk_data...\n",
+      "[nltk_data]   Package punkt_tab is already up-to-date!\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                  doc  \\\n",
+      "15                                         tz_16.docx   \n",
+      "16                                         tz_17.docx   \n",
+      "17                                         tz_18.docx   \n",
+      "18                                         tz_19.docx   \n",
+      "19                                         tz_20.docx   \n",
+      "20               Архитектура, управляемая модель.docx   \n",
+      "21                  Введение в проектирование ИС.docx   \n",
+      "22                      Встроенные операторы SQL.docx   \n",
+      "23  Методологии разработки программного обеспечени...   \n",
+      "24  Методологии разработки программного обеспечени...   \n",
+      "\n",
+      "                                                 text  type  \\\n",
+      "15  2.2\\tТехническое задание\\n2.2.1\\tОбщие сведени...     0   \n",
+      "16  2.2 Техническое задание.\\n2.2.1 Общие сведения...     0   \n",
+      "17  2.2. Техническое задание\\nОбщие сведения:\\nПол...     0   \n",
+      "18  2.2. Техническое задание\\n2.2.1. Наименование ...     0   \n",
+      "19  2.2. Техническое задание\\n2.2.1. Общие сведени...     0   \n",
+      "20  Архитектура, управляемая модель\\nАббревиатура ...     1   \n",
+      "21  1. ВВЕДЕНИЕ В ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННЫХ СИ...     1   \n",
+      "22  Встроенные операторы SQL. \\nКак было отмечено ...     1   \n",
+      "23  Методологии разработки программного обеспечени...     1   \n",
+      "24  Методологии разработки программного обеспечени...     1   \n",
+      "\n",
+      "                                    preprocessed_text  \\\n",
+      "15  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "16  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "17  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "18  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "19  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "20  архитектура_NOUN_Animacy=Inan|Case=Nom|Gender=...   \n",
+      "21  введение_NOUN_Animacy=Inan|Case=Nom|Gender=Neu...   \n",
+      "22  встроенные_ADJ_Case=Nom|Degree=Pos|Number=Plur...   \n",
+      "23  методология_NOUN_Animacy=Inan|Case=Gen|Gender=...   \n",
+      "24  методология_NOUN_Animacy=Inan|Case=Gen|Gender=...   \n",
+      "\n",
+      "                                              bigrams  \\\n",
+      "15  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "16  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "17  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "18  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "19  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "20  [(архитектура_NOUN_Animacy=Inan|Case=Nom|Gende...   \n",
+      "21  [(введение_NOUN_Animacy=Inan|Case=Nom|Gender=N...   \n",
+      "22  [(встроенные_ADJ_Case=Nom|Degree=Pos|Number=Pl...   \n",
+      "23  [(методология_NOUN_Animacy=Inan|Case=Gen|Gende...   \n",
+      "24  [(методология_NOUN_Animacy=Inan|Case=Gen|Gende...   \n",
+      "\n",
+      "                                             trigrams  \n",
+      "15  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "16  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "17  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "18  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "19  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "20  [(архитектура_NOUN_Animacy=Inan|Case=Nom|Gende...  \n",
+      "21  [(введение_NOUN_Animacy=Inan|Case=Nom|Gender=N...  \n",
+      "22  [(встроенные_ADJ_Case=Nom|Degree=Pos|Number=Pl...  \n",
+      "23  [(методология_NOUN_Animacy=Inan|Case=Gen|Gende...  \n",
+      "24  [(методология_NOUN_Animacy=Inan|Case=Gen|Gende...  \n"
+     ]
+    }
+   ],
+   "source": [
+    "import nltk\n",
+    "from nltk.util import ngrams\n",
+    "from nltk.tokenize import word_tokenize\n",
+    "nltk.download(\"punkt_tab\")\n",
+    "def generate_ngrams(text: str, n: int = 2) -> list[tuple]:\n",
+    "    tokens: list[str] = word_tokenize(text, language=\"russian\")\n",
+    "    \n",
+    "    n_grams: list[tuple] = list(ngrams(tokens, n))\n",
+    "    return n_grams\n",
+    "\n",
+    "# Пример для биграмм (N=2)\n",
+    "df[\"bigrams\"] = df[\"preprocessed_text\"].apply(lambda x: generate_ngrams(x, n=2))\n",
+    "\n",
+    "# Пример для триграмм (N=3)\n",
+    "df[\"trigrams\"] = df[\"preprocessed_text\"].apply(lambda x: generate_ngrams(x, n=3))\n",
+    "\n",
+    "print(df.iloc[15:25])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Теперь применим методы для векторизации текста.\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Мешок слов:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "    тутто_noun_animacy  взаимоотношение_noun_animacy  иннкпп_propn_animacy  \\\n",
+      "15                   0                             0                     0   \n",
+      "16                   0                             0                     0   \n",
+      "17                   0                             0                     0   \n",
+      "18                   0                             0                     0   \n",
+      "19                   0                             0                     0   \n",
+      "20                   0                             0                     0   \n",
+      "21                   0                             1                     0   \n",
+      "22                   0                             0                     0   \n",
+      "23                   0                             0                     0   \n",
+      "24                   0                             0                     0   \n",
+      "25                   0                             0                     0   \n",
+      "\n",
+      "    gif_propn_foreign  накладывать_verb_aspect  \\\n",
+      "15                  0                        0   \n",
+      "16                  0                        0   \n",
+      "17                  0                        0   \n",
+      "18                  0                        0   \n",
+      "19                  0                        0   \n",
+      "20                  0                        0   \n",
+      "21                  0                        0   \n",
+      "22                  0                        0   \n",
+      "23                  0                        0   \n",
+      "24                  0                        0   \n",
+      "25                  0                        1   \n",
+      "\n",
+      "    метрологическому_propn_animacy  связанность_noun_animacy  \\\n",
+      "15                               0                         0   \n",
+      "16                               1                         0   \n",
+      "17                               0                         0   \n",
+      "18                               0                         0   \n",
+      "19                               0                         0   \n",
+      "20                               0                         0   \n",
+      "21                               0                         0   \n",
+      "22                               0                         0   \n",
+      "23                               0                         0   \n",
+      "24                               0                         0   \n",
+      "25                               0                         0   \n",
+      "\n",
+      "    модернизировать_verb_aspect  инструментальный_adj_case  \\\n",
+      "15                            0                          0   \n",
+      "16                            0                          0   \n",
+      "17                            0                          0   \n",
+      "18                            0                          0   \n",
+      "19                            0                          0   \n",
+      "20                            0                          0   \n",
+      "21                            0                          1   \n",
+      "22                            0                          0   \n",
+      "23                            0                          0   \n",
+      "24                            0                          0   \n",
+      "25                            0                          1   \n",
+      "\n",
+      "    достаточно_adv_degree  \n",
+      "15                      0  \n",
+      "16                      0  \n",
+      "17                      0  \n",
+      "18                      0  \n",
+      "19                      0  \n",
+      "20                      0  \n",
+      "21                      6  \n",
+      "22                      1  \n",
+      "23                      8  \n",
+      "24                      3  \n",
+      "25                     15  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from scipy import sparse\n",
+    "from sklearn.feature_extraction.text import CountVectorizer\n",
+    "import numpy as np\n",
+    "\n",
+    "counts_vectorizer = CountVectorizer()\n",
+    "counts_matrix = sparse.csr_matrix(counts_vectorizer.fit_transform(df[\"preprocessed_text\"]))\n",
+    "counts_df = pd.DataFrame(\n",
+    "    counts_matrix.toarray(),\n",
+    "    columns=counts_vectorizer.get_feature_names_out(),\n",
+    ")\n",
+    "\n",
+    "random_columns = np.random.choice(counts_df.columns, size=10, replace=False)\n",
+    "\n",
+    "print(counts_df.loc[15:25, random_columns]) "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Частотный портрет:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "    тутто_noun_animacy  взаимоотношение_noun_animacy  иннкпп_propn_animacy  \\\n",
+      "15                 0.0                      0.000000                   0.0   \n",
+      "16                 0.0                      0.000000                   0.0   \n",
+      "17                 0.0                      0.000000                   0.0   \n",
+      "18                 0.0                      0.000000                   0.0   \n",
+      "19                 0.0                      0.000000                   0.0   \n",
+      "20                 0.0                      0.000000                   0.0   \n",
+      "21                 0.0                      0.022338                   0.0   \n",
+      "22                 0.0                      0.000000                   0.0   \n",
+      "23                 0.0                      0.000000                   0.0   \n",
+      "24                 0.0                      0.000000                   0.0   \n",
+      "25                 0.0                      0.000000                   0.0   \n",
+      "\n",
+      "    gif_propn_foreign  накладывать_verb_aspect  \\\n",
+      "15                0.0                  0.00000   \n",
+      "16                0.0                  0.00000   \n",
+      "17                0.0                  0.00000   \n",
+      "18                0.0                  0.00000   \n",
+      "19                0.0                  0.00000   \n",
+      "20                0.0                  0.00000   \n",
+      "21                0.0                  0.00000   \n",
+      "22                0.0                  0.00000   \n",
+      "23                0.0                  0.00000   \n",
+      "24                0.0                  0.00000   \n",
+      "25                0.0                  0.02162   \n",
+      "\n",
+      "    метрологическому_propn_animacy  связанность_noun_animacy  \\\n",
+      "15                        0.000000                       0.0   \n",
+      "16                        0.042399                       0.0   \n",
+      "17                        0.000000                       0.0   \n",
+      "18                        0.000000                       0.0   \n",
+      "19                        0.000000                       0.0   \n",
+      "20                        0.000000                       0.0   \n",
+      "21                        0.000000                       0.0   \n",
+      "22                        0.000000                       0.0   \n",
+      "23                        0.000000                       0.0   \n",
+      "24                        0.000000                       0.0   \n",
+      "25                        0.000000                       0.0   \n",
+      "\n",
+      "    модернизировать_verb_aspect  инструментальный_adj_case  \\\n",
+      "15                          0.0                   0.000000   \n",
+      "16                          0.0                   0.000000   \n",
+      "17                          0.0                   0.000000   \n",
+      "18                          0.0                   0.000000   \n",
+      "19                          0.0                   0.000000   \n",
+      "20                          0.0                   0.000000   \n",
+      "21                          0.0                   0.017277   \n",
+      "22                          0.0                   0.000000   \n",
+      "23                          0.0                   0.000000   \n",
+      "24                          0.0                   0.000000   \n",
+      "25                          0.0                   0.018585   \n",
+      "\n",
+      "    достаточно_adv_degree  \n",
+      "15               0.000000  \n",
+      "16               0.000000  \n",
+      "17               0.000000  \n",
+      "18               0.000000  \n",
+      "19               0.000000  \n",
+      "20               0.000000  \n",
+      "21               0.033501  \n",
+      "22               0.025389  \n",
+      "23               0.047452  \n",
+      "24               0.036795  \n",
+      "25               0.047864  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.feature_extraction.text import TfidfVectorizer\n",
+    "\n",
+    "tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True)\n",
+    "tfidf_matrix = sparse.csr_matrix(tfidf_vectorizer.fit_transform(df[\"preprocessed_text\"]))\n",
+    "tfidf_df = pd.DataFrame(\n",
+    "    tfidf_matrix.toarray(),\n",
+    "    columns=tfidf_vectorizer.get_feature_names_out(),\n",
+    ")\n",
+    "\n",
+    "print(tfidf_df.loc[15:25, random_columns]) "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Обучение модели и проверка ее качества:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "TF-IDF Model\n",
+      "Accuracy: 0.8889\n",
+      "Precision: 0.7500\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 0.8571\n",
+      "ROC AUC: 0.9167\n",
+      "Cross-validated F1 Score: 1.0000\n",
+      "\n",
+      "Count Vectorizer Model\n",
+      "Accuracy: 1.0000\n",
+      "Precision: 1.0000\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 1.0000\n",
+      "ROC AUC: 1.0000\n",
+      "Cross-validated F1 Score: 0.9333\n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV\n",
+    "from sklearn.ensemble import RandomForestClassifier\n",
+    "from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score\n",
+    "\n",
+    "def train_and_evaluate(X, y, test_size=0.2, cv=5, optimize=False):\n",
+    "    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=9)\n",
+    "\n",
+    "    if optimize:\n",
+    "        param_grid = {\n",
+    "            \"n_estimators\": [10, 20, 30, 40, 50, 100, 150, 200, 250, 500],\n",
+    "            \"max_features\": [\"sqrt\", \"log2\", 2],\n",
+    "            \"max_depth\": [2, 3, 4, 5, 6, 7, 8, 9, 10],\n",
+    "            \"criterion\": [\"gini\", \"entropy\", \"log_loss\"],\n",
+    "            \"class_weight\": [\"balanced\", \"balanced_subsample\"]\n",
+    "        }\n",
+    "\n",
+    "        grid_search = GridSearchCV(RandomForestClassifier(random_state=9), param_grid, scoring=\"f1\", cv=cv, n_jobs=-1)\n",
+    "        grid_search.fit(X_train, y_train)\n",
+    "        model = grid_search.best_estimator_\n",
+    "        print(f\"Лучшие параметры: {grid_search.best_params_}\")\n",
+    "    else:\n",
+    "        model = RandomForestClassifier(n_estimators=100, random_state=9)\n",
+    "        model.fit(X_train, y_train)\n",
+    "\n",
+    "    y_pred = model.predict(X_test)\n",
+    "\n",
+    "    accuracy = accuracy_score(y_test, y_pred)\n",
+    "    precision = precision_score(y_test, y_pred)\n",
+    "    recall = recall_score(y_test, y_pred)\n",
+    "    f1 = f1_score(y_test, y_pred)\n",
+    "    roc_auc = roc_auc_score(y_test, y_pred)\n",
+    "\n",
+    "    print(f\"Accuracy: {accuracy:.4f}\")\n",
+    "    print(f\"Precision: {precision:.4f}\")\n",
+    "    print(f\"Recall: {recall:.4f}\")\n",
+    "    print(f\"F1 Score: {f1:.4f}\")\n",
+    "    print(f\"ROC AUC: {roc_auc:.4f}\")\n",
+    "\n",
+    "    scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='f1')\n",
+    "    f1_cv = scores.mean()\n",
+    "    print(f\"Cross-validated F1 Score: {f1_cv:.4f}\")\n",
+    "\n",
+    "    return model\n",
+    "\n",
+    "X_tfidf = tfidf_df\n",
+    "X_counts = counts_df\n",
+    "y = df[\"type\"]\n",
+    "\n",
+    "print(\"TF-IDF Model\")\n",
+    "model_tfidf = train_and_evaluate(X_tfidf, y)\n",
+    "\n",
+    "print(\"\\nCount Vectorizer Model\")\n",
+    "model_counts = train_and_evaluate(X_counts, y)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Как видно, обе модели демонстрируют отличные результаты, причём вторая модель достигает практически идеальных показателей. Однако это может быть связано с небольшим объёмом данных в выборке (всего 41 документ). Вероятно, модель просто запомнила данные, что привело к её переобучению."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Кроме того, в соответствии с заданием, оценим решение, используя альтернативные гиперпараметры модели машинного обучения, которые будут подобраны с помощью метода поиска по сетке."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "TF-IDF Model (Optimized)\n",
+      "Лучшие параметры: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'max_features': 'sqrt', 'n_estimators': 20}\n",
+      "Accuracy: 0.7778\n",
+      "Precision: 0.6000\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 0.7500\n",
+      "ROC AUC: 0.8333\n",
+      "Cross-validated F1 Score: 1.0000\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"TF-IDF Model (Optimized)\")\n",
+    "model_tfidf = train_and_evaluate(X_tfidf, y, optimize=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Можно сделать вывод, что в данном случае существует возможность настроить гиперпараметры модели таким образом, что её показатели согласно метрикам достигнут практически идеального уровня."
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": ".venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
--- a/lab_9.ipynb
+++ b/lab_9.ipynb
--- a/poetry.lock
+++ b/poetry.lock
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -7,19 +7,36 @@ readme = "readme.md"
 package-mode = false

 [tool.poetry.dependencies]
-python = "^3.12"
+python = ">=3.12,<3.13"
 jupyter = "^1.1.1"
-numpy = "^2.1.0"
+numpy = "^1.26.4"
 pandas = "^2.2.2"
 matplotlib = "^3.9.2"
 flask = "^3.0.3"
 apiflask = "^2.2.0"
 flask-cors = "^5.0.0"
-scikit-learn = "^1.5.2"
-imbalanced-learn = "^0.12.3"
+ipykernel = "^6.29.5"
+imbalanced-learn = "^0.12.4"
+seaborn = "^0.13.2"
 featuretools = "^1.31.0"
+gymnasium = "^1.0.0"
+scikit-fuzzy = "^0.5.0"
+networkx = "^3.4.2"
+spacy = "^3.7.5"
+docx = "^0.2.4"
+emoji = "^2.14.1"
+num2words = "^0.5.14"
+nltk = "^3.9.1"
+python-docx = "^1.1.2"
+opencv-python = "^4.11.0.86"
+mahotas = "^1.4.18"
+albumentations = "^2.0.5"
+ru_core_news_lg = {url = "https://github.com/explosion/spacy-models/releases/download/ru_core_news_lg-3.7.0/ru_core_news_lg-3.7.0-py3-none-any.whl"}


+[tool.poetry.group.dev.dependencies]
+ipykernel = "^6.29.5"
+
 [build-system]
 requires = ["poetry-core"]
-build-backend = "poetry.core.masonry.api"
+build-backend = "poetry.core.masonry.api"
Author	SHA1	Message	Date
Yourdax	fda87f53d5	lab9	2025-05-16 22:38:28 +04:00
Yourdax	f6bdab7f5b	1	2025-05-16 22:31:35 +04:00
Yourdax	e35a826ccd	lab7	2025-04-18 21:26:06 +04:00
Yourdax	8e9ddc5b7c	lab3	2024-11-29 18:17:46 +04:00
Yourdax	9ee8efec42	lab2	2024-11-29 18:04:52 +04:00
Yourdax	d59680bbe0	lab2done	2024-11-23 07:56:39 +04:00