Merge pull request 'lab_8' (#7 ) from lab_8 into main

Reviewed-on: #7
fix variable name
2025-03-21 20:38:36 +04:00 · 2025-03-02 19:01:00 +04:00 · 2025-03-02 18:54:38 +04:00 · 2025-03-02 18:30:00 +04:00 · 2025-03-02 17:54:23 +04:00 · 2025-02-15 09:23:35 +04:00
6 changed files with 3129 additions and 0 deletions
--- a/lab_5/lab5.ipynb
+++ b/lab_5/lab5.ipynb
--- a/lab_5/requirements.txt
+++ b/lab_5/requirements.txt
--- a/lab_7/lab7.ipynb
+++ b/lab_7/lab7.ipynb
--- a/lab_7/requirements.txt
+++ b/lab_7/requirements.txt
--- a/lab_8/lab8.ipynb
+++ b/lab_8/lab8.ipynb
@ -0,0 +1,641 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Лабораторная работа 8\n",
+    "\n",
+    "Выбранный датасет: ТЗ и статьи по ИТ (кластеризация, классификация).\n",
+    "\n",
+    "Выбранный метод машинного обучения: классификация.\n",
+    "\n",
+    "Задача анализа текстов: разработка модели, которая сможет автоматически определять категорию, к которой относится текст (в данном случае, ТЗ или статья)."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Импорт библиотеки и инициализация модуля для анализа текста:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import spacy\n",
+    "\n",
+    "sp = spacy.load(\"ru_core_news_lg\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Загрузка текстов из файлов с расширением .docx в датафрейм:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                  doc  \\\n",
+      "15                                         tz_16.docx   \n",
+      "16                                         tz_17.docx   \n",
+      "17                                         tz_18.docx   \n",
+      "18                                         tz_19.docx   \n",
+      "19                                         tz_20.docx   \n",
+      "20               Архитектура, управляемая модель.docx   \n",
+      "21                  Введение в проектирование ИС.docx   \n",
+      "22                      Встроенные операторы SQL.docx   \n",
+      "23  Методологии разработки программного обеспечени...   \n",
+      "24  Методологии разработки программного обеспечени...   \n",
+      "\n",
+      "                                                 text  type  \n",
+      "15  2.2\\tТехническое задание\\n2.2.1\\tОбщие сведени...     0  \n",
+      "16  2.2 Техническое задание.\\n2.2.1 Общие сведения...     0  \n",
+      "17  2.2. Техническое задание\\nОбщие сведения:\\nПол...     0  \n",
+      "18  2.2. Техническое задание\\n2.2.1. Наименование ...     0  \n",
+      "19  2.2. Техническое задание\\n2.2.1. Общие сведени...     0  \n",
+      "20  Архитектура, управляемая модель\\nАббревиатура ...     1  \n",
+      "21  1. ВВЕДЕНИЕ В ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННЫХ СИ...     1  \n",
+      "22  Встроенные операторы SQL. \\nКак было отмечено ...     1  \n",
+      "23  Методологии разработки программного обеспечени...     1  \n",
+      "24  Методологии разработки программного обеспечени...     1  \n"
+     ]
+    }
+   ],
+   "source": [
+    "import pandas as pd\n",
+    "from docx import Document\n",
+    "import os\n",
+    "\n",
+    "def read_docx(file_path):\n",
+    "    doc = Document(file_path)\n",
+    "    full_text = []\n",
+    "    for paragraph in doc.paragraphs:\n",
+    "        full_text.append(paragraph.text)\n",
+    "    return \"\\n\".join(full_text)\n",
+    "\n",
+    "def load_docs(dataset_path):\n",
+    "    df = pd.DataFrame(columns=[\"doc\", \"text\"])\n",
+    "    for file_path in os.listdir(dataset_path):\n",
+    "        if file_path.startswith(\"~$\"):\n",
+    "            continue\n",
+    "        text = read_docx(dataset_path + file_path)\n",
+    "        df.loc[len(df.index)] = [file_path, text]\n",
+    "    return df\n",
+    "\n",
+    "df = load_docs(\"../../static/tz_itdocs/\")\n",
+    "df[\"type\"] = df.apply(\n",
+    "    lambda row: 0 if str(row[\"doc\"]).startswith(\"tz_\") else 1, axis=1\n",
+    ")\n",
+    "df.sort_values(by=[\"doc\"], inplace=True)\n",
+    "\n",
+    "print(df.iloc[15:25])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### В первую очередь будут использованы методы для предобработки текста.\n",
+    "\n",
+    "Трансформация:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import re\n",
+    "import emoji\n",
+    "from num2words import num2words\n",
+    "\n",
+    "# Функция для преобразования эмоджи в слова\n",
+    "def emojis_words(text):\n",
+    "    \n",
+    "    # Модуль emoji: преобразование эмоджи в их словесные описания\n",
+    "    text = emoji.demojize(text, delimiters=(\" \", \" \"))\n",
+    "    \n",
+    "    # Редактирование текста путём замены \":\" и\" _\", а так же - путём добавления пробела между отдельными словами\n",
+    "    text = text.replace(\":\", \"\").replace(\"_\", \" \")\n",
+    "    \n",
+    "    return text\n",
+    "\n",
+    "def transform_text(text):\n",
+    "    # Удаление из текста всех HTML-тегов\n",
+    "    text = re.sub(r'<[^<]+?>', '', text)\n",
+    "    \n",
+    "    # Удаление из текста всех URL и ссылок\n",
+    "    text = re.sub(r'http\\S+', '', text)\n",
+    "\n",
+    "    # Преобразование эмоджи в текст\n",
+    "    text = emojis_words(text)\n",
+    "\n",
+    "    # Приведение к нижнему регистру\n",
+    "    text = text.lower()\n",
+    "\n",
+    "    # Удаление лишних пробелов\n",
+    "    text = re.sub(r'\\s+', ' ', text)  \n",
+    "    \n",
+    "    # Преобразование \"ё\" в \"е\"\n",
+    "    text = text.replace(\"ё\", \"е\")\n",
+    "\n",
+    "    # Удаление всех специальных символов\n",
+    "    text = re.sub(r'[^a-zA-Zа-яА-Я0-9\\s]', '', text)\n",
+    "\n",
+    "    # Преобразование чисел в слова\n",
+    "    words: list[str] = text.split()\n",
+    "    words = [num2words(word, lang=\"ru\") if word.isdigit() else word for word in words]\n",
+    "    text = \" \".join(words)\n",
+    "\n",
+    "    # Удаление из текста всех знаков препинания\n",
+    "    text = re.sub(r'[^\\w\\s]', '', text)\n",
+    "\n",
+    "    return text\n",
+    "\n",
+    "df[\"preprocessed_text\"] = df[\"text\"].apply(transform_text)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Для токенизации, выделения частей речи (POS tagging), нормализации (в данном случае была выбрана лемматизация) и фильтрации используем библиотеку spaCy. На этапе фильтрации для сокращения пространства признаков используем словарь стоп-слов, а также удалим все слова длиной больше 20 символов:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "двадцать_NUM_Case=Nom технический_ADJ_Case=Nom|Degree=Pos|Gender=Neut|Number=Sing задание_NOUN_Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing двести_NUM_Case=Nom двадцать_NUM_Case=Nom общий_ADJ_Case=Nom|Degree=Pos|Number=Plur сведение_NOUN_Animacy=Inan|Case=Nom|Gender=Neut|Number=Plur полный_ADJ_Case=Nom|Degree=Pos|Gender=Neut|Number=Sing наименование_NOUN_Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing система_NOUN_Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing\n"
+     ]
+    }
+   ],
+   "source": [
+    "from nltk.corpus import stopwords\n",
+    "\n",
+    "stop_words = set(stopwords.words('russian'))\n",
+    "\n",
+    "def preprocess_text(text):\n",
+    "    doc = sp(text)\n",
+    "    \n",
+    "    filtered_tokens = [\n",
+    "        f\"{token.lemma_}_{token.pos_}_{token.morph}\" # Формирование строки с нужным форматом\n",
+    "        for token in doc\n",
+    "        if token.text not in stop_words and len(token.text) <= 20 # Фильтрация \n",
+    "    ]\n",
+    "    \n",
+    "    return \" \".join(filtered_tokens)\n",
+    "\n",
+    "df[\"preprocessed_text\"] = df[\"preprocessed_text\"].apply(preprocess_text)\n",
+    "\n",
+    "# Выведем 10 токенов из первого текста\n",
+    "first_text_tokens = df[\"preprocessed_text\"].iloc[0].split()[:10]\n",
+    "print(\" \".join(first_text_tokens))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Теперь перейдем к этапу формирования N-грамм:\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                                                  doc  \\\n",
+      "15                                         tz_16.docx   \n",
+      "16                                         tz_17.docx   \n",
+      "17                                         tz_18.docx   \n",
+      "18                                         tz_19.docx   \n",
+      "19                                         tz_20.docx   \n",
+      "20               Архитектура, управляемая модель.docx   \n",
+      "21                  Введение в проектирование ИС.docx   \n",
+      "22                      Встроенные операторы SQL.docx   \n",
+      "23  Методологии разработки программного обеспечени...   \n",
+      "24  Методологии разработки программного обеспечени...   \n",
+      "\n",
+      "                                                 text  type  \\\n",
+      "15  2.2\\tТехническое задание\\n2.2.1\\tОбщие сведени...     0   \n",
+      "16  2.2 Техническое задание.\\n2.2.1 Общие сведения...     0   \n",
+      "17  2.2. Техническое задание\\nОбщие сведения:\\nПол...     0   \n",
+      "18  2.2. Техническое задание\\n2.2.1. Наименование ...     0   \n",
+      "19  2.2. Техническое задание\\n2.2.1. Общие сведени...     0   \n",
+      "20  Архитектура, управляемая модель\\nАббревиатура ...     1   \n",
+      "21  1. ВВЕДЕНИЕ В ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННЫХ СИ...     1   \n",
+      "22  Встроенные операторы SQL. \\nКак было отмечено ...     1   \n",
+      "23  Методологии разработки программного обеспечени...     1   \n",
+      "24  Методологии разработки программного обеспечени...     1   \n",
+      "\n",
+      "                                    preprocessed_text  \\\n",
+      "15  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "16  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "17  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "18  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "19  двадцать_NUM_Case=Nom технический_ADJ_Case=Nom...   \n",
+      "20  архитектура_NOUN_Animacy=Inan|Case=Nom|Gender=...   \n",
+      "21  введение_NOUN_Animacy=Inan|Case=Nom|Gender=Neu...   \n",
+      "22  встроенные_ADJ_Case=Nom|Degree=Pos|Number=Plur...   \n",
+      "23  методология_NOUN_Animacy=Inan|Case=Nom|Gender=...   \n",
+      "24  методология_NOUN_Animacy=Inan|Case=Nom|Gender=...   \n",
+      "\n",
+      "                                              bigrams  \\\n",
+      "15  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "16  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "17  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "18  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "19  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...   \n",
+      "20  [(архитектура_NOUN_Animacy=Inan|Case=Nom|Gende...   \n",
+      "21  [(введение_NOUN_Animacy=Inan|Case=Nom|Gender=N...   \n",
+      "22  [(встроенные_ADJ_Case=Nom|Degree=Pos|Number=Pl...   \n",
+      "23  [(методология_NOUN_Animacy=Inan|Case=Nom|Gende...   \n",
+      "24  [(методология_NOUN_Animacy=Inan|Case=Nom|Gende...   \n",
+      "\n",
+      "                                             trigrams  \n",
+      "15  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "16  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "17  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "18  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "19  [(двадцать_NUM_Case=Nom, технический_ADJ_Case=...  \n",
+      "20  [(архитектура_NOUN_Animacy=Inan|Case=Nom|Gende...  \n",
+      "21  [(введение_NOUN_Animacy=Inan|Case=Nom|Gender=N...  \n",
+      "22  [(встроенные_ADJ_Case=Nom|Degree=Pos|Number=Pl...  \n",
+      "23  [(методология_NOUN_Animacy=Inan|Case=Nom|Gende...  \n",
+      "24  [(методология_NOUN_Animacy=Inan|Case=Nom|Gende...  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from nltk.util import ngrams\n",
+    "from nltk.tokenize import word_tokenize\n",
+    "\n",
+    "def generate_ngrams(text: str, n: int = 2) -> list[tuple]:\n",
+    "    tokens: list[str] = word_tokenize(text, language=\"russian\")\n",
+    "    \n",
+    "    n_grams: list[tuple] = list(ngrams(tokens, n))\n",
+    "    return n_grams\n",
+    "\n",
+    "# Пример для биграмм (N=2)\n",
+    "df[\"bigrams\"] = df[\"preprocessed_text\"].apply(lambda x: generate_ngrams(x, n=2))\n",
+    "\n",
+    "# Пример для триграмм (N=3)\n",
+    "df[\"trigrams\"] = df[\"preprocessed_text\"].apply(lambda x: generate_ngrams(x, n=3))\n",
+    "\n",
+    "print(df.iloc[15:25])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Также применим методы для векторизации текста.\n",
+    "\n",
+    "Мешок слов:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "    поручить_verb_aspect  попадание_noun_animacy  интерфейс_noun_animacy  \\\n",
+      "15                     0                       0                       2   \n",
+      "16                     0                       0                       2   \n",
+      "17                     0                       0                       7   \n",
+      "18                     0                       0                       2   \n",
+      "19                     0                       0                       1   \n",
+      "20                     0                       0                       6   \n",
+      "21                     0                       0                       1   \n",
+      "22                     0                       0                       0   \n",
+      "23                     0                       0                       6   \n",
+      "24                     0                       0                       5   \n",
+      "25                     0                       0                       0   \n",
+      "\n",
+      "    анатолиевич_propn_animacy  столкнуться_verb_aspect  скрытие_noun_animacy  \\\n",
+      "15                          2                        0                     0   \n",
+      "16                          0                        0                     0   \n",
+      "17                          0                        0                     0   \n",
+      "18                          0                        0                     0   \n",
+      "19                          0                        0                     0   \n",
+      "20                          0                        0                     0   \n",
+      "21                          0                        1                     0   \n",
+      "22                          0                        0                     0   \n",
+      "23                          0                        1                     0   \n",
+      "24                          0                        0                     0   \n",
+      "25                          0                        0                     2   \n",
+      "\n",
+      "    распространенной_adj_case  текстовый_adj_animacy  pipes_x_foreign  \\\n",
+      "15                          0                      0                0   \n",
+      "16                          0                      0                0   \n",
+      "17                          0                      1                0   \n",
+      "18                          0                      0                0   \n",
+      "19                          0                      0                0   \n",
+      "20                          0                      0                0   \n",
+      "21                          0                      0                0   \n",
+      "22                          0                      0                0   \n",
+      "23                          0                      0                0   \n",
+      "24                          0                      0                0   \n",
+      "25                          0                      0                0   \n",
+      "\n",
+      "    руководствоваться_verb_aspect  \n",
+      "15                              0  \n",
+      "16                              0  \n",
+      "17                              0  \n",
+      "18                              0  \n",
+      "19                              0  \n",
+      "20                              0  \n",
+      "21                              2  \n",
+      "22                              0  \n",
+      "23                              0  \n",
+      "24                              0  \n",
+      "25                              0  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from scipy import sparse\n",
+    "from sklearn.feature_extraction.text import CountVectorizer\n",
+    "import numpy as np\n",
+    "\n",
+    "counts_vectorizer = CountVectorizer()\n",
+    "counts_matrix = sparse.csr_matrix(counts_vectorizer.fit_transform(df[\"preprocessed_text\"]))\n",
+    "counts_df = pd.DataFrame(\n",
+    "    counts_matrix.toarray(),\n",
+    "    columns=counts_vectorizer.get_feature_names_out(),\n",
+    ")\n",
+    "\n",
+    "random_columns = np.random.choice(counts_df.columns, size=10, replace=False)\n",
+    "\n",
+    "print(counts_df.loc[15:25, random_columns]) "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Либо же можно использовать частотный портрет:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "    поручить_verb_aspect  попадание_noun_animacy  интерфейс_noun_animacy  \\\n",
+      "15                   0.0                     0.0                0.033439   \n",
+      "16                   0.0                     0.0                0.028513   \n",
+      "17                   0.0                     0.0                0.044900   \n",
+      "18                   0.0                     0.0                0.043194   \n",
+      "19                   0.0                     0.0                0.023228   \n",
+      "20                   0.0                     0.0                0.038113   \n",
+      "21                   0.0                     0.0                0.007355   \n",
+      "22                   0.0                     0.0                0.000000   \n",
+      "23                   0.0                     0.0                0.026442   \n",
+      "24                   0.0                     0.0                0.028079   \n",
+      "25                   0.0                     0.0                0.000000   \n",
+      "\n",
+      "    анатолиевич_propn_animacy  столкнуться_verb_aspect  скрытие_noun_animacy  \\\n",
+      "15                   0.101196                 0.000000              0.000000   \n",
+      "16                   0.000000                 0.000000              0.000000   \n",
+      "17                   0.000000                 0.000000              0.000000   \n",
+      "18                   0.000000                 0.000000              0.000000   \n",
+      "19                   0.000000                 0.000000              0.000000   \n",
+      "20                   0.000000                 0.000000              0.000000   \n",
+      "21                   0.000000                 0.017215              0.000000   \n",
+      "22                   0.000000                 0.000000              0.000000   \n",
+      "23                   0.000000                 0.022169              0.000000   \n",
+      "24                   0.000000                 0.000000              0.000000   \n",
+      "25                   0.000000                 0.000000              0.040551   \n",
+      "\n",
+      "    распространенной_adj_case  текстовый_adj_animacy  pipes_x_foreign  \\\n",
+      "15                        0.0               0.000000              0.0   \n",
+      "16                        0.0               0.000000              0.0   \n",
+      "17                        0.0               0.035675              0.0   \n",
+      "18                        0.0               0.000000              0.0   \n",
+      "19                        0.0               0.000000              0.0   \n",
+      "20                        0.0               0.000000              0.0   \n",
+      "21                        0.0               0.000000              0.0   \n",
+      "22                        0.0               0.000000              0.0   \n",
+      "23                        0.0               0.000000              0.0   \n",
+      "24                        0.0               0.000000              0.0   \n",
+      "25                        0.0               0.000000              0.0   \n",
+      "\n",
+      "    руководствоваться_verb_aspect  \n",
+      "15                       0.000000  \n",
+      "16                       0.000000  \n",
+      "17                       0.000000  \n",
+      "18                       0.000000  \n",
+      "19                       0.000000  \n",
+      "20                       0.000000  \n",
+      "21                       0.037685  \n",
+      "22                       0.000000  \n",
+      "23                       0.000000  \n",
+      "24                       0.000000  \n",
+      "25                       0.000000  \n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.feature_extraction.text import TfidfVectorizer\n",
+    "\n",
+    "tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True)\n",
+    "tfidf_matrix = sparse.csr_matrix(tfidf_vectorizer.fit_transform(df[\"preprocessed_text\"]))\n",
+    "tfidf_df = pd.DataFrame(\n",
+    "    tfidf_matrix.toarray(),\n",
+    "    columns=tfidf_vectorizer.get_feature_names_out(),\n",
+    ")\n",
+    "\n",
+    "print(tfidf_df.loc[15:25, random_columns]) "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Обучение модели и проверка ее качества:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "### TF-IDF Model ###\n",
+      "Accuracy: 0.8889\n",
+      "Precision: 0.7500\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 0.8571\n",
+      "ROC AUC: 0.9167\n",
+      "Cross-validated F1 Score: 1.0000\n",
+      "\n",
+      "### Count Vectorizer Model ###\n",
+      "Accuracy: 1.0000\n",
+      "Precision: 1.0000\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 1.0000\n",
+      "ROC AUC: 1.0000\n",
+      "Cross-validated F1 Score: 0.8933\n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV\n",
+    "from sklearn.ensemble import RandomForestClassifier\n",
+    "from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score\n",
+    "\n",
+    "def train_and_evaluate(X, y, test_size=0.2, cv=5, optimize=False):\n",
+    "    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=9)\n",
+    "\n",
+    "    if optimize:\n",
+    "        param_grid = {\n",
+    "            \"n_estimators\": [10, 20, 30, 40, 50, 100, 150, 200, 250, 500],\n",
+    "            \"max_features\": [\"sqrt\", \"log2\", 2],\n",
+    "            \"max_depth\": [2, 3, 4, 5, 6, 7, 8, 9, 10],\n",
+    "            \"criterion\": [\"gini\", \"entropy\", \"log_loss\"],\n",
+    "            \"class_weight\": [\"balanced\", \"balanced_subsample\"]\n",
+    "        }\n",
+    "\n",
+    "        grid_search = GridSearchCV(RandomForestClassifier(random_state=9), param_grid, scoring=\"f1\", cv=cv, n_jobs=-1)\n",
+    "        grid_search.fit(X_train, y_train)\n",
+    "        model = grid_search.best_estimator_\n",
+    "        print(f\"Лучшие параметры: {grid_search.best_params_}\")\n",
+    "    else:\n",
+    "        model = RandomForestClassifier(n_estimators=100, random_state=9)\n",
+    "        model.fit(X_train, y_train)\n",
+    "\n",
+    "    y_pred = model.predict(X_test)\n",
+    "\n",
+    "    accuracy = accuracy_score(y_test, y_pred)\n",
+    "    precision = precision_score(y_test, y_pred)\n",
+    "    recall = recall_score(y_test, y_pred)\n",
+    "    f1 = f1_score(y_test, y_pred)\n",
+    "    roc_auc = roc_auc_score(y_test, y_pred)\n",
+    "\n",
+    "    print(f\"Accuracy: {accuracy:.4f}\")\n",
+    "    print(f\"Precision: {precision:.4f}\")\n",
+    "    print(f\"Recall: {recall:.4f}\")\n",
+    "    print(f\"F1 Score: {f1:.4f}\")\n",
+    "    print(f\"ROC AUC: {roc_auc:.4f}\")\n",
+    "\n",
+    "    scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='f1')\n",
+    "    f1_cv = scores.mean()\n",
+    "    print(f\"Cross-validated F1 Score: {f1_cv:.4f}\")\n",
+    "\n",
+    "    return model\n",
+    "\n",
+    "X_tfidf = tfidf_df\n",
+    "X_counts = counts_df\n",
+    "y = df[\"type\"]\n",
+    "\n",
+    "print(\"### TF-IDF Model ###\")\n",
+    "model_tfidf = train_and_evaluate(X_tfidf, y)\n",
+    "\n",
+    "print(\"\\n### Count Vectorizer Model ###\")\n",
+    "model_counts = train_and_evaluate(X_counts, y)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Как можно заметить, обе модели показывают очень хорошие результаты, а вторая модель даже практически идеальные. Возможно это связано с малым количеством данных в выборке (всего 41 документ), которые модель просто запомнила и в итоге переобучилась. "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Кроме того, согласно заданию, попробуем оценить решение, используя другие гиперпараметры модели машинного обучения (подберем их методом поиска по сетке):"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "### TF-IDF Model (Optimized) ###\n",
+      "Лучшие параметры: {'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 2, 'max_features': 'sqrt', 'n_estimators': 10}\n",
+      "Accuracy: 1.0000\n",
+      "Precision: 1.0000\n",
+      "Recall: 1.0000\n",
+      "F1 Score: 1.0000\n",
+      "ROC AUC: 1.0000\n",
+      "Cross-validated F1 Score: 1.0000\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(\"### TF-IDF Model (Optimized) ###\")\n",
+    "model_tfidf = train_and_evaluate(X_tfidf, y, optimize=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Можно сделать вывод о том, что в данном случае имееется возможность подобрать модель с такими гиперпараметрами, которая согласно метрикам покажет даже идеальный результат"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "aimenv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
--- a/lab_8/requirements.txt
+++ b/lab_8/requirements.txt
Author	SHA1	Message	Date
Arutunyan-Dmitry	426c79e4b8	Merge pull request 'lab_8' (#7 ) from lab_8 into main Reviewed-on: #7	2025-03-21 20:38:36 +04:00
ILRodionov	82544a9f49	fix variable name	2025-03-02 19:01:00 +04:00
ILRodionov	bbd493c975	fix train function	2025-03-02 18:54:38 +04:00
ILRodionov	097eb0c680	Reduce file weight	2025-03-02 18:30:00 +04:00
ILRodionov	6040af3aee	lab 8 done	2025-03-02 17:54:23 +04:00
Arutunyan-Dmitry	2efcd657ab	Merge pull request 'lab_7' (#6 ) from lab_7 into main Reviewed-on: #6	2025-02-15 09:23:35 +04:00
ILRodionov	d08bba642d	add requirements	2025-02-08 22:29:02 +04:00
ILRodionov	2ed1523e1c	lab 7 done	2025-02-08 22:19:23 +04:00
Arutunyan-Dmitry	2efd29af3b	Merge pull request 'lab_5' (#5 ) from lab_5 into main Reviewed-on: #5	2024-11-30 09:33:26 +04:00
ILRodionov	1799992082	5 lab done	2024-11-26 15:42:15 +04:00
Arutunyan-Dmitry	d6d9dd3785	Merge pull request 'lab_4' (#4 ) from lab_4 into main Reviewed-on: #4	2024-11-16 09:14:49 +04:00