diff --git a/lab_3/lab3.ipynb b/lab_3/lab3.ipynb
new file mode 100644
index 0000000..62ce97d
--- /dev/null
+++ b/lab_3/lab3.ipynb
@@ -0,0 +1,1110 @@
+{
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# Данные по инсультам\n",
+ "\n",
+ "Выведем информацию о столбцах датасета:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 136,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Index(['id', 'gender', 'age', 'hypertension', 'heart_disease', 'ever_married',\n",
+ " 'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',\n",
+ " 'smoking_status', 'stroke'],\n",
+ " dtype='object')\n"
+ ]
+ },
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " id | \n",
+ " gender | \n",
+ " age | \n",
+ " hypertension | \n",
+ " heart_disease | \n",
+ " ever_married | \n",
+ " work_type | \n",
+ " Residence_type | \n",
+ " avg_glucose_level | \n",
+ " bmi | \n",
+ " smoking_status | \n",
+ " stroke | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " 0 | \n",
+ " 9046 | \n",
+ " Male | \n",
+ " 67.0 | \n",
+ " 0 | \n",
+ " 1 | \n",
+ " Yes | \n",
+ " Private | \n",
+ " Urban | \n",
+ " 228.69 | \n",
+ " 36.6 | \n",
+ " formerly smoked | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " 1 | \n",
+ " 51676 | \n",
+ " Female | \n",
+ " 61.0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " Yes | \n",
+ " Self-employed | \n",
+ " Rural | \n",
+ " 202.21 | \n",
+ " NaN | \n",
+ " never smoked | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " 2 | \n",
+ " 31112 | \n",
+ " Male | \n",
+ " 80.0 | \n",
+ " 0 | \n",
+ " 1 | \n",
+ " Yes | \n",
+ " Private | \n",
+ " Rural | \n",
+ " 105.92 | \n",
+ " 32.5 | \n",
+ " never smoked | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " 3 | \n",
+ " 60182 | \n",
+ " Female | \n",
+ " 49.0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " Yes | \n",
+ " Private | \n",
+ " Urban | \n",
+ " 171.23 | \n",
+ " 34.4 | \n",
+ " smokes | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " 4 | \n",
+ " 1665 | \n",
+ " Female | \n",
+ " 79.0 | \n",
+ " 1 | \n",
+ " 0 | \n",
+ " Yes | \n",
+ " Self-employed | \n",
+ " Rural | \n",
+ " 174.12 | \n",
+ " 24.0 | \n",
+ " never smoked | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " id gender age hypertension heart_disease ever_married \\\n",
+ "0 9046 Male 67.0 0 1 Yes \n",
+ "1 51676 Female 61.0 0 0 Yes \n",
+ "2 31112 Male 80.0 0 1 Yes \n",
+ "3 60182 Female 49.0 0 0 Yes \n",
+ "4 1665 Female 79.0 1 0 Yes \n",
+ "\n",
+ " work_type Residence_type avg_glucose_level bmi smoking_status \\\n",
+ "0 Private Urban 228.69 36.6 formerly smoked \n",
+ "1 Self-employed Rural 202.21 NaN never smoked \n",
+ "2 Private Rural 105.92 32.5 never smoked \n",
+ "3 Private Urban 171.23 34.4 smokes \n",
+ "4 Self-employed Rural 174.12 24.0 never smoked \n",
+ "\n",
+ " stroke \n",
+ "0 1 \n",
+ "1 1 \n",
+ "2 1 \n",
+ "3 1 \n",
+ "4 1 "
+ ]
+ },
+ "execution_count": 136,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "import pandas as pd\n",
+ "import matplotlib.pyplot as plt\n",
+ "import seaborn as sns\n",
+ "from sklearn.model_selection import train_test_split\n",
+ "from imblearn.over_sampling import RandomOverSampler\n",
+ "from sklearn.preprocessing import StandardScaler\n",
+ "import featuretools as ft\n",
+ "import time\n",
+ "from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score\n",
+ "from sklearn.ensemble import RandomForestClassifier\n",
+ "from sklearn.model_selection import cross_val_score\n",
+ "\n",
+ "df = pd.read_csv(\"..//..//static//csv//healthcare-dataset-stroke-data.csv\")\n",
+ "\n",
+ "print(df.columns)\n",
+ "df.head()"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Определим бизнес цели и цели технического проекта.\n",
+ "\n",
+ "1. Улучшение диагностики и профилактики инсульта.\n",
+ " * Бизнес-цель: повышение точности прогнозирования риска инсульта среди пациентов для более раннего лечебного вмешательства. Определение основных факторов риска для более целенаправленного подхода в медицинском обслуживании.\n",
+ " * Цель технического проекта: разработка статистической модели, которая решает задачу классификации и предсказывает возможность возникновения инсульта у пациентов на основе имеющихся данных (возраст, гипертония, заболевания сердца и пр.), с целью выявления групп риска. Внедрение этой модели в систему поддержки принятия медицинских решений для врачей.\n",
+ "2. Снижение расходов на лечение инсультов.\n",
+ " * Бизнес-цель: снижение затрат на лечение инсульта путем более эффективного распределения медицинских ресурсов и направленных профилактических мер.\n",
+ " * Цель технического проекта: создание системы оценки индивидуального риска инсульта для пациентов, что позволит медучреждениям проводить профилактические меры среди целевых групп, сокращая расходы на лечение.\n",
+ "\n",
+ "### И теперь проверим датасет на пустые значения:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 137,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "id 0\n",
+ "gender 0\n",
+ "age 0\n",
+ "hypertension 0\n",
+ "heart_disease 0\n",
+ "ever_married 0\n",
+ "work_type 0\n",
+ "Residence_type 0\n",
+ "avg_glucose_level 0\n",
+ "bmi 201\n",
+ "smoking_status 0\n",
+ "stroke 0\n",
+ "dtype: int64\n",
+ "\n",
+ "id False\n",
+ "gender False\n",
+ "age False\n",
+ "hypertension False\n",
+ "heart_disease False\n",
+ "ever_married False\n",
+ "work_type False\n",
+ "Residence_type False\n",
+ "avg_glucose_level False\n",
+ "bmi True\n",
+ "smoking_status False\n",
+ "stroke False\n",
+ "dtype: bool\n",
+ "\n",
+ "bmi процент пустых значений: %3.93\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Количество пустых значений признаков\n",
+ "print(df.isnull().sum())\n",
+ "\n",
+ "print()\n",
+ "\n",
+ "# Есть ли пустые значения признаков\n",
+ "print(df.isnull().any())\n",
+ "\n",
+ "print()\n",
+ "\n",
+ "# Процент пустых значений признаков\n",
+ "for i in df.columns:\n",
+ " null_rate = df[i].isnull().sum() / len(df) * 100\n",
+ " if null_rate > 0:\n",
+ " print(f\"{i} процент пустых значений: %{null_rate:.2f}\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "В столбце bmi можно заметить пустые значение. Заменим их на медиану:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 138,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "\n",
+ "Количество пустых значений в каждом столбце после замены:\n",
+ "id 0\n",
+ "gender 0\n",
+ "age 0\n",
+ "hypertension 0\n",
+ "heart_disease 0\n",
+ "ever_married 0\n",
+ "work_type 0\n",
+ "Residence_type 0\n",
+ "avg_glucose_level 0\n",
+ "bmi 0\n",
+ "smoking_status 0\n",
+ "stroke 0\n",
+ "dtype: int64\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Замена значений\n",
+ "df[\"bmi\"] = df[\"bmi\"].fillna(df[\"bmi\"].median())\n",
+ "\n",
+ "# Проверка на пропущенные значения после замены\n",
+ "missing_values_after_drop = df.isnull().sum()\n",
+ "\n",
+ "# Вывод результатов после замены\n",
+ "print(\"\\nКоличество пустых значений в каждом столбце после замены:\")\n",
+ "print(missing_values_after_drop)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Удалим из датафрейма столбец id, потому что нет смысла учитывать его при предсказании:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 139,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Index(['gender', 'age', 'hypertension', 'heart_disease', 'ever_married',\n",
+ " 'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',\n",
+ " 'smoking_status', 'stroke'],\n",
+ " dtype='object')\n"
+ ]
+ }
+ ],
+ "source": [
+ "df = df.drop('id', axis=1)\n",
+ "print(df.columns)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Можно перейти к созданию выборок"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 140,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Размер обучающей выборки: (2503, 10)\n",
+ "Размер контрольной выборки: (1074, 10)\n",
+ "Размер тестовой выборки: (1533, 10)\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Разделение данных на признаки (X) и целевую переменную (y)\n",
+ "# В данном случае мы хотим предсказать 'stroke'\n",
+ "X = df.drop(columns=['stroke'])\n",
+ "y = df['stroke']\n",
+ "\n",
+ "# Разбиение данных на обучающую и тестовую выборки\n",
+ "# Сначала разделим на обучающую и тестовую\n",
+ "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)\n",
+ "\n",
+ "# Затем разделим обучающую выборку на обучающую и контрольную\n",
+ "X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.3)\n",
+ "\n",
+ "# Проверка размеров выборок\n",
+ "print(\"Размер обучающей выборки:\", X_train.shape)\n",
+ "print(\"Размер контрольной выборки:\", X_val.shape)\n",
+ "print(\"Размер тестовой выборки:\", X_test.shape)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Оценим сбалансированность выборок:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 141,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Распределение классов в обучающей выборке:\n",
+ "stroke\n",
+ "0 0.95006\n",
+ "1 0.04994\n",
+ "Name: proportion, dtype: float64\n",
+ "\n",
+ "Распределение классов в контрольной выборке:\n",
+ "stroke\n",
+ "0 0.951583\n",
+ "1 0.048417\n",
+ "Name: proportion, dtype: float64\n",
+ "\n",
+ "Распределение классов в тестовой выборке:\n",
+ "stroke\n",
+ "0 0.953033\n",
+ "1 0.046967\n",
+ "Name: proportion, dtype: float64\n"
+ ]
+ },
+ {
+ "data": {
+ "image/png": "",
+ "text/plain": [
+ "