diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb index 20ba785..9096c9f 100644 --- a/lab_2/lab2.ipynb +++ b/lab_2/lab2.ipynb @@ -4,102 +4,48 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "

Уф.. начинаем длинную тяжелую лабу...

" + "## Лабораторная работа №2\n", + "\n", + "## Общие данные\n", + "\n", + "Типы пропущенных данных:\n", + "\n", + "None - представление пустых данных в Python \n", + "NaN - представление пустых данных в Pandas \n", + "' ' - пустая строка\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "3 набора данных, с которыми будет проводиться работа:\n", - "
    \n", - "
  1. \n", - "

    Объекты вокруг Земли

    \n", - " Ссылка \n", - "
  2. \n", - "
  3. \n", - "

    Оценки студентов на экзамене

    \n", - " Ссылка\n", - "
  4. \n", - "
  5. \n", - "

    Прогноз цены мобильного телефона

    \n", - " Ссылка\n", - "
  6. \n", - "
" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "
\n", - "

Информация о первом датасете:

\n", + "## 1 Датасет: NASA - Nearest Earth Objects \n", + "https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects\n", "\n", - "

О наборе данных
\n", - "Контекст
\n", - "В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.

\n", + "Перевод контекста со страницы на Kaggle: \n", + " В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Несмотря на то, что мы можем думать, что расстояние в 70 000 км потенциально не может причинить нам вреда, по астрономическим меркам это очень небольшое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут оказаться опасными. Следовательно, разумно знать, что нас окружает и что из этого может причинить нам вред. Таким образом, этот набор данных составляет список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.\n", "\n", - "
\n", - "

Информация о втором датасете:

\n", - "

О наборе данных
\n", - "Контекст
\n", - "Оценки, полученные студентами
\n", - "Содержание
\n", - "Этот набор данных состоит из оценок, полученных учениками по различным предметам.
\n", - "Благодарности
\n", - "http://roycekimmons.com/tools/generated_data/exams
\n", - "Вдохновение
\n", - "Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся

\n", - "
\n", + "- По описаню можно понять, что объектами исследования являютя объекты, которые находятся в близи Земли\n", + "- Атрибуты обьекта: id, name, est_diameter_min, est_diameter_max, relative_velocity, miss_distance, orbiting_body, sentry_object, absolute_magnitude, hazardous\n", + "- В описании говорится о возможной опасности объектов, поэтому можно сделать вывод, что цель данного датасета научится определять опасность околоземных объектов\n", "\n", - "

Информация о третьем датасете:

\n", - "

О наборе данных
\n", - "Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n", - "Столбцы выглядят следующим образом.\n", + "## 2 Датасет: Indicators of Heart Disease \n", + "https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease\n", "\n", - "Название: в этом столбце содержится название мобильного телефона.\n", + "Перевод контекста со страницы на Kaggle: \n", + " По данным Всемирной организации здравоохранения (ВОЗ), инсульт является второй по значимости причиной смертности во всем мире, на его долю приходится примерно 11% от общего числа смертей. Этот набор данных используется для прогнозирования вероятности инсульта у пациента на основе таких входных параметров, как пол, возраст, различные заболевания и статус курильщика. Каждая строка данных содержит соответствующую информацию о пациенте.\n", + "- Из этого описания очевидно что объектами иследования являются реальные пациенты.\n", + "- Атрибуты объектов: id, gender, age, hypertension, heart_disease, ever_married, work_type, Residence_type, avg_glucose_level, bmi, smoking_status, stroke\n", + "- Очевидная цель этого датасета - это научиться определять будет у человека сердечный приступ или нет.\n", "\n", - "Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n", + "## 3 Датасет: Pima Indians Diabetes Database\n", + "https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database\n", "\n", - "Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n", - "\n", - "No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n", - "\n", - "Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n", - "\n", - "Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n", - "\n", - "Дисплей: В этом столбце содержится информация о размере экрана телефона.\n", - "\n", - "Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n", - "\n", - "Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n", - "какой объём памяти.\n", - "\n", - "Android_version: этот столбец сообщает нам о версии Android на телефоне.\n", - "\n", - "Цена: Цена телефона.\n", - "\n", - "Компания: Компания, которой принадлежит телефон.\n", - "\n", - "Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n", - "\n", - "быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n", - "\n", - "Screen_resolution: Это описывает разрешение экрана телефона.\n", - "\n", - "Процессор: В этом столбце приведена информация о процессоре телефона.\n", - "\n", - "Имя_процессора: в этом столбце описывается название процессора.\n", - "
\n", - "

\n" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "

начинаем...
первое...
Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.
Объекты наблюдения: Астероиды, кометы и другие объекты.
Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'
Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.

" + "Перевод контекста со страницы на Kaggle: \n", + " Этот набор данных изначально был получен из Национального института диабета, заболеваний пищеварительной системы и почек. Целью набора данных является диагностическое прогнозирование наличия или отсутствия у пациента диабета на основе определенных диагностических измерений, включенных в набор данных. На выбор этих случаев из более крупной базы данных налагалось несколько ограничений. В частности, все пациенты здесь — женщины в возрасте не менее 21 года индейского происхождения пима.\n", + "- объект иследования - женьщины индейци пима\n", + "- очевидно цель датасета это предсказание диабета.\n", + "- атрибуты: Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age, Outcome" ] }, { @@ -111,343 +57,29 @@ "name": "stdout", "output_type": "stream", "text": [ - "вот столько колонОчек 10\n", - "вот такие колонОчки: ['id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous']\n" + "колонки: id, name, est_diameter_min, est_diameter_max, relative_velocity, miss_distance, orbiting_body, sentry_object, absolute_magnitude, hazardous\n", + "колонки: id, gender, age, hypertension, heart_disease, ever_married, work_type, Residence_type, avg_glucose_level, bmi, smoking_status, stroke\n", + "колонки: Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age, Outcome\n" ] } ], "source": [ "import pandas as pd\n", "\n", - "data = pd.read_csv(\"./csv/1.csv\", sep=\",\")\n", - "print(\"вот столько колонОчек\", data.columns.size)\n", - "print(\"вот такие колонОчки:\", data.columns.tolist()) " + "neo = pd.read_csv(\"..//static//csv//neo_v2.csv\", sep=\",\")\n", + "healthcare = pd.read_csv(\"..//static//csv//healthcare-dataset-stroke-data.csv\", sep=\",\")\n", + "diabetes = pd.read_csv(\"..//static//csv//diabetes.csv\", sep=\",\")\n", + "\n", + "print('колонки околоземных обьектов: ' + ', '.join(neo.columns))\n", + "print('колонки пациентов: ' + ', '.join(healthcare.columns))\n", + "print('колонки индейцев: ' + ', '.join(diabetes.columns))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "

\n", - "Получение сведений о пропущенных данных
Типы пропущенных данных:
None - представление пустых данных в Python
NaN - представление пустых данных в Pandas
'' - пустая строка\n", - "

" - ] - }, - { - "cell_type": "code", - "execution_count": 2, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "id 0\n", - "name 0\n", - "est_diameter_min 0\n", - "est_diameter_max 0\n", - "relative_velocity 0\n", - "miss_distance 0\n", - "orbiting_body 0\n", - "sentry_object 0\n", - "absolute_magnitude 0\n", - "hazardous 0\n", - "dtype: int64 \n", - "\n", - "id False\n", - "name False\n", - "est_diameter_min False\n", - "est_diameter_max False\n", - "relative_velocity False\n", - "miss_distance False\n", - "orbiting_body False\n", - "sentry_object False\n", - "absolute_magnitude False\n", - "hazardous False\n", - "dtype: bool \n", - "\n" - ] - } - ], - "source": [ - "# Проверим, есть ли пропущенные значения\n", - "print(data.isnull().sum(), \"\\n\")\n", - "\n", - "# Есть ли пустые значения признаков\n", - "print(data.isnull().any(), \"\\n\")" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "

Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно
И еще на сайте видно, что колонки \"orbiting_body\" и \"sentry_object\" не имеют никаких значений кроме \"Земля\" и \"false\" соответственно. Значит удалим их

" - ] - }, - { - "cell_type": "code", - "execution_count": 3, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Index(['id', 'name', 'est_diameter_min', 'est_diameter_max',\n", - " 'relative_velocity', 'miss_distance', 'absolute_magnitude',\n", - " 'hazardous'],\n", - " dtype='object')\n" - ] - } - ], - "source": [ - "data = data.drop(columns=['sentry_object'])\n", - "data = data.drop(columns=['orbiting_body'])\n", - "print(data.columns)" - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "

при просмотре типа данных на сайте kaggle выяснилось, что числовые колонки - это 3-7. По ним и будем просматриватьвыбросы и усреднять значения

" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Колонка est_diameter_min:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 8306\n", - " Минимальное значение: 0.0006089126\n", - " Максимальное значение: 0.32962154705\n", - " 1-й квартиль (Q1): 0.0192555078\n", - " 3-й квартиль (Q3): 0.1434019235\n", - "\n", - "Колонка est_diameter_max:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 8306\n", - " Минимальное значение: 0.00136157\n", - " Максимальное значение: 0.7370561859\n", - " 1-й квартиль (Q1): 0.0430566244\n", - " 3-й квартиль (Q3): 0.320656449\n", - "\n", - "Колонка relative_velocity:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 1574\n", - " Минимальное значение: 203.34643253\n", - " Максимальное значение: 114380.48061454494\n", - " 1-й квартиль (Q1): 28619.02064490995\n", - " 3-й квартиль (Q3): 62923.60463276395\n", - "\n", - "Колонка miss_distance:\n", - " Есть выбросы: Нет\n", - "Колонка absolute_magnitude:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 101\n", - " Минимальное значение: 14.8\n", - " Максимальное значение: 32.239999999999995\n", - " 1-й квартиль (Q1): 21.34\n", - " 3-й квартиль (Q3): 25.7\n", - "\n" - ] - } - ], - "source": [ - "numeric_columns = ['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude']\n", - "for column in numeric_columns:\n", - " if pd.api.types.is_numeric_dtype(data[column]): # Проверяем, является ли колонка числовой\n", - " q1 = data[column].quantile(0.25) # Находим 1-й квартиль (Q1)\n", - " q3 = data[column].quantile(0.75) # Находим 3-й квартиль (Q3)\n", - " iqr = q3 - q1 # Вычисляем межквартильный размах (IQR)\n", - "\n", - " # Определяем границы для выбросов\n", - " lower_bound = q1 - 1.5 * iqr # Нижняя граница\n", - " upper_bound = q3 + 1.5 * iqr # Верхняя граница\n", - "\n", - " # Подсчитываем количество выбросов\n", - " outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]\n", - " outlier_count = outliers.shape[0]\n", - "\n", - " # Устраняем выбросы: заменяем значения ниже нижней границы на саму нижнюю границу, а выше верхней — на верхнюю\n", - " data[column] = data[column].apply(lambda x: lower_bound if x < lower_bound else upper_bound if x > upper_bound else x)\n", - "\n", - " print(f\"Колонка {column}:\")\n", - " print(f\" Есть выбросы: {'Да' if outlier_count > 0 else 'Нет'}\")\n", - " if(outlier_count > 0) :\n", - " print(f\" Количество выбросов: {outlier_count}\")\n", - " print(f\" Минимальное значение: {data[column].min()}\")\n", - " print(f\" Максимальное значение: {data[column].max()}\")\n", - " print(f\" 1-й квартиль (Q1): {q1}\")\n", - " print(f\" 3-й квартиль (Q3): {q3}\\n\")\n", - " " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "

так, теперь мы построим диаграммы, чтобы найти зависимость значения \"опасен ли объект\" от других колонок

" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "import matplotlib.pyplot as plt\n", - "\n", - "# Список числовых колонок, для которых мы будем строить графики\n", - "numeric_columns = ['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude']\n", - "\n", - "# Создание диаграмм зависимости\n", - "for column in numeric_columns:\n", - " plt.figure(figsize=(4, 8)) # Установка размера графика\n", - " plt.scatter(data['hazardous'], data[column], alpha=0.5) # Создаем диаграмму рассеяния\n", - " plt.title(f'Зависимость {column} от hazardous')\n", - " plt.xlabel('hazardous (0 = не опасно, 1 = опасно)')\n", - " plt.ylabel(column)\n", - " plt.xticks([0, 1]) # Установка меток по оси X\n", - " plt.grid() # Добавление сетки для удобства восприятия\n", - " plt.show() # Отображение графика" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [ - "# Функция для создания выборок\n", - "from sklearn.model_selection import train_test_split\n", - "\n", - "def split_stratified_into_train_val_test(\n", - " data_input,\n", - " stratify_colname=\"y\",\n", - " frac_train=0.6,\n", - " frac_val=0.15,\n", - " frac_test=0.25,\n", - " random_state=None,\n", - "):\n", - " \"\"\"\n", - " Splits a Pandas dataframe into three subsets (train, val, and test)\n", - " following fractional ratios provided by the user, where each subset is\n", - " stratified by the values in a specific column (that is, each subset has\n", - " the same relative frequency of the values in the column). It performs this\n", - " splitting by running train_test_split() twice.\n", - "\n", - " Parameters\n", - " ----------\n", - " data_input : Pandas dataframe\n", - " Input dataframe to be split.\n", - " stratify_colname : str\n", - " The name of the column that will be used for stratification. Usually\n", - " this column would be for the label.\n", - " frac_train : float\n", - " frac_val : float\n", - " frac_test : float\n", - " The ratios with which the dataframe will be split into train, val, and\n", - " test data. The values should be expressed as float fractions and should\n", - " sum to 1.0.\n", - " random_state : int, None, or RandomStateInstance\n", - " Value to be passed to train_test_split().\n", - "\n", - " Returns\n", - " -------\n", - " data_train, data_val, data_test :\n", - " Dataframes containing the three splits.\n", - " \"\"\"\n", - "\n", - " if frac_train + frac_val + frac_test != 1.0:\n", - " raise ValueError(\n", - " \"fractions %f, %f, %f do not add up to 1.0\"\n", - " % (frac_train, frac_val, frac_test)\n", - " )\n", - "\n", - " if stratify_colname not in data_input.columns:\n", - " raise ValueError(\"%s is not a column in the dataframe\" % (stratify_colname))\n", - "\n", - " X = data_input # Contains all columns.\n", - " y = data_input[\n", - " [stratify_colname]\n", - " ] # Dataframe of just the column on which to stratify.\n", - "\n", - " # Split original dataframe into train and temp dataframes.\n", - " data_train, data_temp, y_train, y_temp = train_test_split(\n", - " X, y, stratify=y, test_size=(1.0 - frac_train), random_state=random_state\n", - " )\n", - "\n", - " # Split the temp dataframe into val and test dataframes.\n", - " relative_frac_test = frac_test / (frac_val + frac_test)\n", - " data_val, data_test, y_val, y_test = train_test_split(\n", - " data_temp,\n", - " y_temp,\n", - " stratify=y_temp,\n", - " test_size=relative_frac_test,\n", - " random_state=random_state,\n", - " )\n", - "\n", - " assert len(data_input) == len(data_train) + len(data_val) + len(data_test)\n", - "\n", - " return data_train, data_val, data_test" + "#Проверим пустые занчения" ] }, { @@ -459,248 +91,543 @@ "name": "stdout", "output_type": "stream", "text": [ - "hazardous\n", - "False 81996\n", - "True 8840\n", - "Name: count, dtype: int64\n", + "Околоземные обьекты\n", + "id 0\n", + "name 0\n", + "est_diameter_min 0\n", + "est_diameter_max 0\n", + "relative_velocity 0\n", + "miss_distance 0\n", + "orbiting_body 0\n", + "sentry_object 0\n", + "absolute_magnitude 0\n", + "hazardous 0\n", + "dtype: int64\n", "\n", - "Обучающая выборка: (54501, 6)\n", - "hazardous\n", - "False 49197\n", - "True 5304\n", - "Name: count, dtype: int64\n" + "id False\n", + "name False\n", + "est_diameter_min False\n", + "est_diameter_max False\n", + "relative_velocity False\n", + "miss_distance False\n", + "orbiting_body False\n", + "sentry_object False\n", + "absolute_magnitude False\n", + "hazardous False\n", + "dtype: bool\n", + "\n", + "Пациенты\n", + "id 0\n", + "gender 0\n", + "age 0\n", + "hypertension 0\n", + "heart_disease 0\n", + "ever_married 0\n", + "work_type 0\n", + "Residence_type 0\n", + "avg_glucose_level 0\n", + "bmi 201\n", + "smoking_status 0\n", + "stroke 0\n", + "dtype: int64\n", + "\n", + "id False\n", + "gender False\n", + "age False\n", + "hypertension False\n", + "heart_disease False\n", + "ever_married False\n", + "work_type False\n", + "Residence_type False\n", + "avg_glucose_level False\n", + "bmi True\n", + "smoking_status False\n", + "stroke False\n", + "dtype: bool\n", + "\n", + "bmi процент пустых значений: %3.93\n", + "\n", + "Индейцы\n", + "Pregnancies 0\n", + "Glucose 0\n", + "BloodPressure 0\n", + "SkinThickness 0\n", + "Insulin 0\n", + "BMI 0\n", + "DiabetesPedigreeFunction 0\n", + "Age 0\n", + "Outcome 0\n", + "dtype: int64\n", + "\n", + "Pregnancies False\n", + "Glucose False\n", + "BloodPressure False\n", + "SkinThickness False\n", + "Insulin False\n", + "BMI False\n", + "DiabetesPedigreeFunction False\n", + "Age False\n", + "Outcome False\n", + "dtype: bool\n", + "\n" ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Контрольная выборка: (18167, 6)\n", - "hazardous\n", - "False 16399\n", - "True 1768\n", - "Name: count, dtype: int64\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - }, - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Тестовая выборка: (18168, 6)\n", - "hazardous\n", - "False 16400\n", - "True 1768\n", - "Name: count, dtype: int64\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" } ], "source": [ - "# Вывод распределения количества наблюдений по меткам (классам)\n", - "print(data.hazardous.value_counts())\n", + "# Околоземные обьекты\n", + "print(\"Околоземные обьекты\")\n", + "# Количество пустых значений признаков\n", + "print(neo.isnull().sum())\n", + "\n", "print()\n", "\n", + "# Есть ли пустые значения признаков\n", + "print(neo.isnull().any())\n", "\n", - "data = data[['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude', 'hazardous']].copy()\n", + "print()\n", "\n", - "data_train, data_val, data_test = split_stratified_into_train_val_test(\n", - " data, stratify_colname=\"hazardous\", frac_train=0.60, frac_val=0.20, frac_test=0.20\n", - ")\n", + "# Процент пустых значений признаков\n", + "for i in neo.columns:\n", + " null_rate = neo[i].isnull().sum() / len(neo) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\\n\")\n", "\n", - "print(\"Обучающая выборка: \", data_train.shape)\n", - "print(data_train.hazardous.value_counts())\n", - "hazardous_counts = data_train['hazardous'].value_counts()\n", - "plt.figure(figsize=(2, 2))# Установка размера графика\n", - "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)# Построение круговой диаграммы\n", - "plt.title('Распределение классов hazardous в обучающей выборке')# Добавление заголовка\n", - "plt.show()# Отображение графика\n", + "# Пациенты\n", + "print(\"Пациенты\")\n", + "# Количество пустых значений признаков\n", + "print(healthcare.isnull().sum())\n", "\n", - "print(\"Контрольная выборка: \", data_val.shape)\n", - "print(data_val.hazardous.value_counts())\n", - "hazardous_counts = data_val['hazardous'].value_counts()\n", - "plt.figure(figsize=(2, 2))\n", - "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n", - "plt.title('Распределение классов hazardous в контрольной выборке')\n", - "plt.show()\n", + "print()\n", "\n", - "print(\"Тестовая выборка: \", data_test.shape)\n", - "print(data_test.hazardous.value_counts())\n", - "hazardous_counts = data_test['hazardous'].value_counts()\n", - "plt.figure(figsize=(2, 2))\n", - "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n", - "plt.title('Распределение классов hazardous в тестовой выборке')\n", - "plt.show()" - ] - }, - { - "cell_type": "code", - "execution_count": 8, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Обучающая выборка после oversampling: (100249, 6)\n", - "hazardous\n", - "True 51052\n", - "False 49197\n", - "Name: count, dtype: int64\n" - ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" - } - ], - "source": [ - "from imblearn.over_sampling import ADASYN\n", + "# Есть ли пустые значения признаков\n", + "print(healthcare.isnull().any())\n", "\n", - "# Создание экземпляра ADASYN\n", - "ada = ADASYN()\n", + "print()\n", "\n", - "# Применение ADASYN\n", - "X_resampled, y_resampled = ada.fit_resample(data_train.drop(columns=['hazardous']), data_train['hazardous'])\n", + "# Процент пустых значений признаков\n", + "for i in healthcare.columns:\n", + " null_rate = healthcare[i].isnull().sum() / len(healthcare) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\\n\")\n", "\n", - "# Создание нового DataFrame\n", - "data_train_adasyn = pd.DataFrame(X_resampled)\n", - "data_train_adasyn['hazardous'] = y_resampled # Добавление целевой переменной\n", "\n", - "# Вывод информации о новой выборке\n", - "print(\"Обучающая выборка после oversampling: \", data_train_adasyn.shape)\n", - "print(data_train_adasyn['hazardous'].value_counts())\n", - "hazardous_counts = data_train_adasyn['hazardous'].value_counts()\n", - "plt.figure(figsize=(2, 2))\n", - "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n", - "plt.title('Распределение классов hazardous в тренировачной выборке после ADASYN')\n", - "plt.show()" + "# Индейцы\n", + "print(\"Индейцы\")\n", + "# Количество пустых значений признаков\n", + "print(diabetes.isnull().sum())\n", + "\n", + "print()\n", + "\n", + "# Есть ли пустые значения признаков\n", + "print(diabetes.isnull().any())\n", + "\n", + "print()\n", + "\n", + "# Процент пустых значений признаков\n", + "for i in diabetes.columns:\n", + " null_rate = diabetes[i].isnull().sum() / len(diabetes) * 100\n", + " if null_rate > 0:\n", + " print(f\"{i} процент пустых значений: %{null_rate:.2f}\\n\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "

проведём также балансировку данных методом андерсемплинга. Этот метод помогает сбалансировать выборку, уменьшая количество экземпляров класса большинства, чтобы привести его в соответствие с классом меньшинства.

" + "После этого видно, что в атрибуде bmi датасета Indicators of Heart Disease есть пустые значения, заполним значением Unknown\n" ] }, { "cell_type": "code", - "execution_count": 9, + "execution_count": 11, + "metadata": {}, + "outputs": [], + "source": [ + "healthcare['bmi'] = healthcare['bmi'].fillna('Unknown')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Проверим датасет по числовым данным, для выявления аномальных распределений" + ] + }, + { + "cell_type": "code", + "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Обучающая выборка после undersampling: (10608, 6)\n", - "hazardous\n", - "False 5304\n", - "True 5304\n", - "Name: count, dtype: int64\n" + " id est_diameter_min est_diameter_max relative_velocity \\\n", + "count 9.083600e+04 90836.000000 90836.000000 90836.000000 \n", + "mean 1.438288e+07 0.127432 0.284947 48066.918918 \n", + "std 2.087202e+07 0.298511 0.667491 25293.296961 \n", + "min 2.000433e+06 0.000609 0.001362 203.346433 \n", + "25% 3.448110e+06 0.019256 0.043057 28619.020645 \n", + "50% 3.748362e+06 0.048368 0.108153 44190.117890 \n", + "75% 3.884023e+06 0.143402 0.320656 62923.604633 \n", + "max 5.427591e+07 37.892650 84.730541 236990.128088 \n", + "\n", + " miss_distance absolute_magnitude \n", + "count 9.083600e+04 90836.000000 \n", + "mean 3.706655e+07 23.527103 \n", + "std 2.235204e+07 2.894086 \n", + "min 6.745533e+03 9.230000 \n", + "25% 1.721082e+07 21.340000 \n", + "50% 3.784658e+07 23.700000 \n", + "75% 5.654900e+07 25.700000 \n", + "max 7.479865e+07 33.200000 \n", + " id age hypertension heart_disease \\\n", + "count 5110.000000 5110.000000 5110.000000 5110.000000 \n", + "mean 36517.829354 43.226614 0.097456 0.054012 \n", + "std 21161.721625 22.612647 0.296607 0.226063 \n", + "min 67.000000 0.080000 0.000000 0.000000 \n", + "25% 17741.250000 25.000000 0.000000 0.000000 \n", + "50% 36932.000000 45.000000 0.000000 0.000000 \n", + "75% 54682.000000 61.000000 0.000000 0.000000 \n", + "max 72940.000000 82.000000 1.000000 1.000000 \n", + "\n", + " avg_glucose_level bmi stroke \n", + "count 5110.000000 5110.000000 5110.000000 \n", + "mean 106.147677 28.893237 0.048728 \n", + "std 45.283560 7.698018 0.215320 \n", + "min 55.120000 10.300000 0.000000 \n", + "25% 77.245000 23.800000 0.000000 \n", + "50% 91.885000 28.400000 0.000000 \n", + "75% 114.090000 32.800000 0.000000 \n", + "max 271.740000 97.600000 1.000000 \n", + " Pregnancies Glucose BloodPressure SkinThickness Insulin \\\n", + "count 768.000000 768.000000 768.000000 768.000000 768.000000 \n", + "mean 3.845052 120.894531 69.105469 20.536458 79.799479 \n", + "std 3.369578 31.972618 19.355807 15.952218 115.244002 \n", + "min 0.000000 0.000000 0.000000 0.000000 0.000000 \n", + "25% 1.000000 99.000000 62.000000 0.000000 0.000000 \n", + "50% 3.000000 117.000000 72.000000 23.000000 30.500000 \n", + "75% 6.000000 140.250000 80.000000 32.000000 127.250000 \n", + "max 17.000000 199.000000 122.000000 99.000000 846.000000 \n", + "\n", + " BMI DiabetesPedigreeFunction Age Outcome \n", + "count 768.000000 768.000000 768.000000 768.000000 \n", + "mean 31.992578 0.471876 33.240885 0.348958 \n", + "std 7.884160 0.331329 11.760232 0.476951 \n", + "min 0.000000 0.078000 21.000000 0.000000 \n", + "25% 27.300000 0.243750 24.000000 0.000000 \n", + "50% 32.000000 0.372500 29.000000 0.000000 \n", + "75% 36.600000 0.626250 41.000000 1.000000 \n", + "max 67.100000 2.420000 81.000000 1.000000 \n" ] - }, - { - "data": { - "image/png": "", - "text/plain": [ - "
" - ] - }, - "metadata": {}, - "output_type": "display_data" } ], "source": [ - "from imblearn.under_sampling import RandomUnderSampler\n", - "\n", - "rus = RandomUnderSampler()# Создание экземпляра RandomUnderSampler\n", - "\n", - "# Применение RandomUnderSampler\n", - "X_resampled, y_resampled = rus.fit_resample(data_train.drop(columns=['hazardous']), data_train['hazardous'])\n", - "\n", - "# Создание нового DataFrame\n", - "data_train_undersampled = pd.DataFrame(X_resampled)\n", - "data_train_undersampled['hazardous'] = y_resampled # Добавление целевой переменной\n", - "\n", - "# Вывод информации о новой выборке\n", - "print(\"Обучающая выборка после undersampling: \", data_train_undersampled.shape)\n", - "print(data_train_undersampled['hazardous'].value_counts())\n", - "\n", - "# Визуализация распределения классов\n", - "hazardous_counts = data_train_undersampled['hazardous'].value_counts()\n", - "plt.figure(figsize=(2, 2))\n", - "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n", - "plt.title('Распределение классов hazardous в тренировочной выборке после Undersampling')\n", - "plt.show()" + "print(neo.describe())\n", + "print(healthcare.describe())\n", + "print(diabetes.describe())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Аномальное рапределение будем искать по z-индексую. Z-индекс показывает, насколько далеко значение находится от среднего в стандартных отклонениях. Значения Z-индекса больше 3 или меньше -3 обычно считаются аномальными." ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 18, "metadata": {}, - "outputs": [], - "source": [] + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Аномалии в наборе данных Neo:\n", + "В атрибуте 'est_diameter_min' обнаружены аномалии: [1.1982708007, 1.0293308202, 1.5085335612, 1.0246014747, 1.4078454339, 1.5507970872, 1.5224918504, 2.8350124902, 1.4208720673, 1.1818299089, 2.2727673228, 1.8053232555, 1.6693791177, 1.7240703244, 1.1709948272, 1.4809997207, 1.332155667, 1.0878148336, 4.5767266723, 1.2780709882, 1.2093582639, 1.5651464359, 1.1982708007, 2.2727673228, 1.4208720673, 1.332155667, 1.0340819954, 1.1080388213, 4.5767266723, 1.4208720673, 2.2832579402, 2.3689449936, 1.1390819672, 2.8090209395, 1.214940408, 2.0443487103, 1.0581688593, 2.9549829311, 1.5507970872, 1.5224918504, 1.0828167784, 2.6825941712, 1.2839702958, 1.133848361, 3.4084346887, 1.1818299089, 2.091967709, 1.0878148336, 1.6089960451, 1.0679599752, 2.3689449936, 1.9344387205, 1.3018321019, 1.6389095149, 1.6464743776, 1.4208720673, 2.1016237932, 1.7805532918, 3.1956188672, 1.0340819954, 1.5651464359, 1.1872849879, 1.2261821132, 1.1080388213, 4.1740243339, 1.0878148336, 1.7642290811, 1.2721987854, 1.2780709882, 1.85590173, 3.0658787593, 1.9344387205, 1.6617090174, 1.7161489408, 2.9549829311, 1.2663535629, 3.4399725466, 1.4013769717, 1.1818299089, 1.2318419127, 1.3694777373, 1.2958507267, 4.1740243339, 1.8904055193, 1.6848256925, 1.5224918504, 1.4208720673, 1.038855101, 1.128638801, 1.1982708007, 1.5016024791, 1.2547435637, 2.091967709, 1.0878148336, 1.1709948272, 1.3885290704, 1.1496217629, 1.4208720673, 1.3694777373, 1.1818299089, 2.0349557812, 1.128638801, 1.1496217629, 1.8991312347, 1.1709948272, 2.9549829311, 1.4208720673, 1.0878148336, 1.4208720673, 1.2721987854, 1.2780709882, 1.3260349677, 1.5651464359, 1.1602590821, 1.2093582639, 1.7723723926, 2.9549829311, 1.1496217629, 1.5085335612, 1.0581688593, 1.2605351968, 1.3383046182, 1.0828167784, 1.0828167784, 3.4084346887, 2.1905591097, 2.7450798165, 1.5507970872, 1.5224918504, 1.332155667, 1.4208720673, 1.1602590821, 1.4340192346, 2.091967709, 1.2605351968, 1.1182913782, 1.2721987854, 1.2038017674, 1.1872849879, 1.7004151927, 1.6693791177, 1.1982708007, 1.5085335612, 1.3018321019, 1.0246014747, 1.8991312347, 1.0293308202, 1.6313794097, 1.7805532918, 2.4578477463, 1.5224918504, 1.4013769717, 1.0878148336, 1.0293308202, 1.2721987854, 2.6336313095, 1.0293308202, 1.2432400055, 1.2780709882, 1.0246014747, 2.3043846658, 1.1763998937, 1.4340192346, 1.6770846216, 1.6464743776, 3.602093458, 1.3018321019, 1.2261821132, 1.6089960451, 1.2958507267, 2.6825941712, 2.3689449936, 2.3043846658, 2.1406958967, 1.0630531449, 1.0581688593, 1.4606796427, 1.0878148336, 1.4208720673, 1.2898968334, 1.2721987854, 1.0728894545, 2.091967709, 2.9549829311, 1.7723723926, 1.4809997207, 1.4208720673, 1.4809997207, 1.2038017674, 1.4340192346, 1.3569222899, 1.1602590821, 2.4465549617, 1.3444819516, 3.1956188672, 1.2205483181, 23.0438466577, 1.4340192346, 2.1210698788, 3.0517923259, 1.5507970872, 1.1182913782, 1.0878148336, 1.3444819516, 1.0778416872, 1.4013769717, 2.5383702936, 1.4274305148, 1.2780709882, 1.7642290811, 1.8904055193, 1.0293308202, 1.3506877983, 1.7082639526, 2.1308602925, 1.1029478453, 3.4084346887, 1.0828167784, 3.1956188672, 1.5651464359, 2.2727673228, 1.2375278366, 1.0246014747, 1.5942446807, 1.0728894545, 2.091967709, 1.1982708007, 1.2547435637, 1.6089960451, 1.5507970872, 1.5224918504, 1.332155667, 1.133848361, 1.6389095149, 2.1804944048, 1.0728894545, 1.0340819954, 1.2547435637, 1.2093582639, 2.9549829311, 1.3018321019, 2.0349557812, 2.3257068746, 1.6693791177, 1.474195145, 1.0828167784, 1.7805532918, 2.1016237932, 1.4208720673, 1.0878148336, 1.0728894545, 8.6408203645, 1.4013769717, 2.1804944048, 1.0728894545, 1.4274305148, 2.3257068746, 1.5085335612, 2.3689449936, 1.0340819954, 2.1905591097, 1.4606796427, 1.5507970872, 1.5224918504, 2.4019003012, 1.6313794097, 1.2958507267, 1.2605351968, 1.4208720673, 1.6926024946, 1.1872849879, 2.091967709, 1.9794975866, 4.6190746028, 1.3885290704, 1.0340819954, 1.1872849879, 3.9678475407, 1.4208720673, 1.0679599752, 2.3689449936, 1.1496217629, 1.1982708007, 1.6389095149, 1.6313794097, 1.7082639526, 2.35806068, 5.230641758, 1.2605351968, 1.1872849879, 1.7561231848, 1.4208720673, 1.0978802603, 1.2898968334, 1.5942446807, 1.214940408, 1.4208720673, 1.0878148336, 1.0533070151, 1.2261821132, 1.8053232555, 1.2489785407, 1.3821493588, 1.8904055193, 1.0828167784, 1.4208720673, 1.3885290704, 1.3383046182, 1.128638801, 1.2780709882, 8.1013048824, 1.6848256925, 1.4539684294, 1.1872849879, 1.2780709882, 2.091967709, 1.2605351968, 1.1982708007, 1.0484675089, 3.5039264111, 1.5651464359, 1.0340819954, 1.5651464359, 1.2839702958, 3.602093458, 3.1956188672, 1.8220277059, 2.3908645717, 1.4208720673, 1.3018321019, 1.0630531449, 1.5651464359, 1.2038017674, 2.1308602925, 1.6617090174, 2.2727673228, 1.4406383667, 1.1496217629, 1.2898968334, 2.9010484143, 1.0778416872, 2.2623249055, 1.1496217629, 2.3689449936, 1.3199423904, 2.6336313095, 1.0878148336, 1.3885290704, 1.4208720673, 1.2038017674, 2.8350124902, 1.3821493588, 3.1956188672, 1.1818299089, 1.2958507267, 2.2727673228, 3.5855433419, 1.6089960451, 1.1080388213, 1.1602590821, 1.2958507267, 1.0778416872, 1.7561231848, 1.5651464359, 1.5507970872, 1.5224918504, 2.9549829311, 3.4399725466, 1.1982708007, 3.4084346887, 2.091967709, 2.3043846658, 1.1982708007, 1.7240703244, 1.2547435637, 1.214940408, 1.0581688593, 1.8220277059, 1.1818299089, 1.8644681832, 1.4013769717, 1.6617090174, 1.3383046182, 1.8220277059, 1.1982708007, 1.6313794097, 1.6770846216, 1.4208720673, 1.0978802603, 1.2898968334, 1.1080388213, 1.2721987854, 1.9613494437, 1.128638801, 1.0293308202, 1.0878148336, 1.6926024946, 1.038855101, 1.038855101, 1.0828167784, 1.6389095149, 1.1763998937, 1.1602590821, 1.2038017674, 1.5295193534, 1.6693791177, 2.3689449936, 1.1234531767, 1.5085335612, 1.1872849879, 1.813656249, 1.4274305148, 1.2318419127, 1.4078454339, 1.038855101, 1.128638801, 1.8904055193, 1.2605351968, 1.2898968334, 1.8220277059, 1.5224918504, 2.091967709, 1.0246014747, 1.6617090174, 1.4340192346, 1.6089960451, 1.332155667, 1.813656249, 1.4208720673, 1.3383046182, 1.4013769717, 1.7723723926, 2.8350124902, 1.0293308202, 1.1982708007, 1.3018321019, 1.2898968334, 1.8220277059, 1.1182913782, 1.2605351968, 1.4809997207, 2.0823559905, 1.3199423904, 1.2780709882, 2.9549829311, 2.1016237932, 1.5651464359, 1.4208720673, 1.0484675089, 1.1982708007, 1.0878148336, 3.4084346887, 1.3885290704, 1.0293308202, 1.3383046182, 4.1357566488, 1.5869197917, 1.2547435637, 1.4340192346, 1.1131532961, 1.2839702958, 1.4208720673, 1.8220277059, 1.8220277059, 1.5085335612, 1.2958507267, 1.0630531449, 2.7450798165, 1.5224918504, 3.4084346887, 1.2432400055, 2.091967709, 1.8991312347, 1.2093582639, 1.0293308202, 1.5507970872, 1.5224918504, 1.2721987854, 1.4340192346, 1.0581688593, 1.5651464359, 1.6389095149, 1.3383046182, 1.2839702958, 1.0246014747, 1.1496217629, 1.6693791177, 1.8220277059, 2.2623249055, 1.5651464359, 1.4208720673, 1.0293308202, 1.5224918504, 1.4340192346, 1.038855101, 1.0878148336, 1.2958507267, 1.6617090174, 1.214940408, 1.2839702958, 1.5651464359, 2.9549829311, 1.0828167784, 1.2663535629, 1.2780709882, 3.1956188672, 2.6215308728, 3.7201031034, 2.3689449936, 1.5507970872, 1.5224918504, 1.8220277059, 1.3383046182, 1.0293308202, 37.8926498379, 1.0728894545, 1.214940408, 2.091967709, 1.0630531449, 1.1982708007, 1.2547435637, 3.9678475407, 1.4606796427, 1.3383046182, 1.7400229507, 1.474195145, 1.6389095149, 1.0679599752, 2.3689449936, 23.0438466577, 1.4340192346, 1.3018321019, 1.3694777373, 1.7240703244, 1.5507970872, 2.3689449936, 2.1210698788, 1.4947032424, 1.8220277059, 1.1602590821, 1.1763998937, 1.1872849879, 3.9678475407, 1.0533070151, 2.1016237932, 2.063264836, 1.0878148336, 1.3885290704, 1.1496217629, 1.0293308202, 1.3018321019, 1.8904055193, 1.5579552413, 3.602093458, 2.9549829311, 1.8220277059, 3.4084346887, 1.0293308202, 1.3949382293, 2.2727673228, 1.7240703244, 1.4674218336, 4.1740243339, 1.2958507267, 1.2780709882, 1.6089960451, 2.2415837861, 1.8991312347, 2.091967709, 1.0246014747, 1.4143437531, 1.2605351968, 2.1016237932, 1.2205483181, 1.6848256925, 1.3383046182, 2.3043846658, 2.8877193076, 1.6693791177, 1.0728894545, 2.3908645717, 1.1982708007, 1.2605351968, 1.6464743776, 2.5383702936, 1.6617090174, 1.0728894545, 1.1602590821, 1.1763998937, 1.0293308202, 1.1182913782, 1.2721987854, 1.214940408, 2.063264836, 1.038855101, 1.3885290704, 1.7240703244, 1.2780709882, 1.0928359587, 1.0978802603, 2.658, 1.9613494437, 2.3689449936, 1.4809997207, 1.1496217629, 1.1602590821, 1.4947032424, 1.2318419127, 3.5039264111, 1.6089960451, 1.2898968334, 1.8904055193, 1.5085335612, 1.2958507267, 1.0630531449, 1.5224918504, 2.6336313095, 1.128638801, 1.2721987854, 1.1982708007, 1.4340192346, 1.1182913782, 1.4208720673, 1.5651464359, 3.9678475407, 1.4143437531, 1.4809997207, 1.5942446807, 1.1872849879, 2.3043846658, 1.6770846216, 1.6389095149, 1.4208720673, 1.0679599752, 1.6693791177, 2.0349557812, 1.128638801, 1.4406383667, 1.0828167784, 1.0828167784, 1.038855101, 2.9549829311, 1.2721987854, 1.7004151927, 1.6693791177, 1.4208720673, 3.4084346887, 1.2780709882, 2.2312846442, 1.2205483181, 1.4406383667, 1.4340192346, 1.6770846216, 3.1956188672, 1.5507970872, 1.3885290704, 1.6238839022, 1.6770846216, 2.8350124902, 4.1357566488, 2.7832676807, 1.214940408, 2.7450798165, 3.2550298576, 1.1080388213, 3.4084346887, 1.1982708007, 1.3694777373, 1.6089960451, 1.214940408, 1.6848256925, 3.5039264111, 1.5723708236, 1.2038017674, 2.7832676807, 1.4208720673, 1.3885290704, 1.1872849879, 1.5507970872, 1.5224918504, 1.7400229507, 1.1602590821, 1.1982708007, 1.0246014747, 1.3018321019, 1.4340192346, 2.3908645717, 1.4208720673, 1.5942446807, 2.4019003012, 1.0246014747, 1.5295193534, 1.1872849879, 1.0293308202, 1.5651464359, 1.5224918504, 1.2205483181, 1.4208720673, 1.2489785407, 1.2093582639, 1.2780709882, 1.0246014747, 1.0778416872, 1.3694777373, 1.0778416872, 4.7049496112, 1.5295193534, 1.8904055193, 1.3506877983, 1.7082639526, 7.4568426097, 1.0728894545, 1.1234531767, 1.4208720673, 1.3694777373, 1.5507970872, 1.5224918504, 1.2839702958, 1.2958507267, 1.0484675089, 1.0533070151, 1.4208720673, 2.6336313095, 1.9704026214, 1.5507970872, 23.0438466577, 1.8388867207, 1.2038017674, 1.3694777373, 1.2261821132, 1.1982708007, 1.2605351968, 1.7240703244, 1.4208720673, 3.1956188672, 1.0828167784, 1.6089960451, 2.0537849952, 1.038855101, 1.5651464359, 1.1982708007, 1.5085335612, 1.7400229507, 1.2780709882, 1.4208720673, 1.3694777373, 1.8220277059, 1.0293308202, 1.038855101, 1.0728894545, 1.0828167784, 1.0878148336, 1.4078454339, 1.6693791177, 1.0978802603, 7.4568426097, 2.3257068746, 1.0978802603, 2.2108281036, 1.2839702958, 1.5224918504, 1.1602590821, 1.5507970872, 1.5224918504, 5.230641758, 2.4019003012, 3.0658787593, 1.5085335612, 1.5224918504, 2.091967709, 1.7004151927, 1.6926024946, 1.4947032424, 1.0581688593, 1.6089960451, 1.3694777373, 1.1080388213, 2.9549829311, 1.4208720673, 1.1390819672, 1.3018321019, 1.3885290704, 1.9704026214, 1.7082639526, 1.0340819954, 1.1818299089, 2.2312846442, 1.1763998937, 1.2489785407, 1.8220277059, 1.8991312347, 1.7561231848, 1.2721987854, 1.2780709882, 1.9344387205, 1.3885290704, 1.332155667, 1.6770846216, 1.313877806, 3.1956188672, 4.7049496112, 1.1763998937, 1.5942446807, 1.214940408, 1.3260349677, 1.4539684294, 1.2261821132, 1.4674218336, 1.3885290704, 1.2432400055, 1.133848361, 1.2958507267, 1.1818299089, 1.4013769717, 2.091967709, 1.6617090174, 1.9794975866, 2.2727673228, 1.1982708007, 3.9678475407, 2.4465549617, 1.474195145, 1.1496217629, 2.1804944048, 1.1602590821, 2.9549829311, 2.2727673228, 1.5942446807, 1.3821493588, 1.3821493588, 1.1496217629, 1.2038017674, 1.4208720673, 1.332155667, 1.6389095149, 1.0828167784, 1.2898968334, 1.038855101, 1.2721987854, 3.0658787593, 1.2780709882, 1.4274305148, 1.2898968334, 1.4208720673, 3.6522035696, 1.0293308202, 1.2205483181, 1.6464743776, 2.9960908385, 1.3383046182, 2.8612445378, 1.6089960451, 1.1080388213, 1.4208720673, 1.0928359587, 3.4084346887, 1.5016024791, 1.5507970872, 1.5224918504, 2.091967709, 1.1602590821, 1.9704026214, 2.9549829311, 1.2780709882, 1.3694777373, 1.7561231848, 1.2721987854, 1.2038017674, 1.1496217629, 1.0436502383, 1.3885290704, 3.602093458, 1.1982708007, 1.2605351968, 1.3018321019, 1.1763998937, 1.214940408, 1.1080388213, 1.6693791177, 2.2108281036, 4.53476699, 3.1956188672, 1.3821493588, 1.0246014747, 1.1080388213, 1.4013769717, 8.6408203645, 1.4208720673, 1.133848361, 1.4013769717, 1.1818299089, 1.0630531449, 1.8904055193, 2.2727673228, 1.1763998937, 3.4084346887, 1.4274305148, 1.1872849879, 2.2727673228, 1.1927652464, 1.313877806, 1.214940408, 1.5085335612, 1.3383046182, 1.6089960451, 1.0778416872, 1.7004151927, 1.0436502383, 1.3694777373, 1.6164228334, 1.5942446807, 1.3885290704, 1.4208720673, 1.6770846216, 2.0070351411, 1.0778416872, 1.0581688593, 1.0728894545, 1.1602590821, 2.1308602925, 1.2038017674, 1.1818299089, 1.3018321019, 2.0349557812, 1.1496217629, 2.8612445378, 1.0728894545, 1.4208720673, 1.4809997207, 1.7240703244, 1.0246014747, 1.6770846216, 2.063264836, 1.0728894545, 1.2780709882, 1.6617090174, 1.6693791177, 1.3018321019, 1.6770846216, 1.2489785407, 1.4013769717, 1.2663535629, 1.4606796427, 1.5651464359, 2.9549829311, 1.2205483181, 1.7723723926, 1.0293308202, 1.1982708007, 1.1080388213, 3.602093458, 2.6215308728, 1.5869197917, 1.4208720673, 1.4078454339, 1.2898968334, 1.332155667, 1.5507970872, 1.5224918504, 1.2958507267, 2.9960908385, 2.6336313095, 1.85590173, 1.7082639526, 1.6693791177, 1.2375278366, 1.7400229507, 1.0828167784, 1.3821493588, 1.038855101, 1.0484675089, 1.0246014747, 1.2780709882, 1.1496217629, 1.3694777373, 1.6389095149, 2.3689449936, 1.8991312347, 2.1113244479, 1.8220277059, 1.3444819516, 1.2898968334, 2.1406958967, 1.3694777373, 1.5942446807, 1.6089960451, 3.9678475407, 1.038855101, 1.9704026214, 1.2839702958, 1.6389095149, 1.0679599752, 1.6693791177, 2.4465549617, 1.1982708007, 2.3257068746, 1.3018321019, 1.3821493588, 1.2605351968, 1.0630531449, 1.1496217629, 3.1956188672, 1.4078454339, 1.7642290811, 1.1872849879, 1.2780709882, 1.1080388213, 1.0340819954]\n", + "В атрибуте 'est_diameter_max' обнаружены аномалии: [2.6794149658, 2.3016536853, 3.3731835891, 2.2910785472, 3.1480380919, 3.4676877062, 3.4043952726, 6.3392806452, 3.1771665298, 2.6426520142, 5.0820622309, 4.0368255207, 3.7328451875, 3.8551384433, 2.6184240349, 3.3116160501, 2.978790628, 2.4324279148, 10.2338719537, 2.8578536096, 2.7042072872, 3.4997738255, 2.6794149658, 5.0820622309, 3.1771665298, 2.978790628, 2.312277636, 2.4776501261, 10.2338719537, 3.1771665298, 5.1055199644, 5.2971220406, 2.5470647106, 6.2811617709, 2.7166893409, 4.5713026859, 2.3661375011, 6.6075427063, 3.4676877062, 3.4043952726, 2.4212519237, 5.9984629228, 2.8710448625, 2.5353620113, 7.6214916608, 2.6426520142, 4.6777820041, 2.4324279148, 3.5978245324, 2.3880311019, 5.2971220406, 4.3255364773, 2.9109850751, 3.6647130844, 3.6816286314, 3.1771665298, 4.6993736648, 3.9814381981, 7.1456210173, 2.312277636, 3.4997738255, 2.6548499417, 2.7418265579, 2.4776501261, 9.3334021504, 2.4324279148, 3.9449361533, 2.844722965, 2.8578536096, 4.1499224279, 6.8555133165, 4.3255364773, 3.7156943217, 3.8374256911, 6.6075427063, 2.8316526503, 7.6920124549, 3.1335741707, 2.6426520142, 2.7544822542, 3.0622453143, 2.8976103136, 9.3334021504, 4.2270752462, 3.7673847787, 3.4043952726, 3.1771665298, 2.3229506246, 2.523713081, 2.6794149658, 3.3576852183, 2.8056919027, 4.6777820041, 2.4324279148, 2.6184240349, 3.1048453901, 2.5706324102, 3.1771665298, 3.0622453143, 2.6426520142, 4.5502994579, 2.523713081, 2.5706324102, 4.246586539, 2.6184240349, 6.6075427063, 3.1771665298, 2.4324279148, 3.1771665298, 2.844722965, 2.8578536096, 2.9651043282, 3.4997738255, 2.5944181791, 2.7042072872, 3.9631451512, 6.6075427063, 2.5706324102, 3.3731835891, 2.3661375011, 2.8186423881, 2.9925401008, 2.4212519237, 2.4212519237, 7.6214916608, 4.898239078, 6.1381850734, 3.4676877062, 3.4043952726, 2.978790628, 3.1771665298, 2.5944181791, 3.2065644897, 4.6777820041, 2.8186423881, 2.5005755404, 2.844722965, 2.6917825833, 2.6548499417, 3.8022439609, 3.7328451875, 2.6794149658, 3.3731835891, 2.9109850751, 2.2910785472, 4.246586539, 2.3016536853, 3.6478752572, 3.9814381981, 5.4959146391, 3.4043952726, 3.1335741707, 2.4324279148, 2.3016536853, 2.844722965, 5.8889786358, 2.3016536853, 2.7799691647, 2.8578536096, 2.2910785472, 5.152760759, 2.6305101311, 3.2065644897, 3.750075218, 3.6816286314, 8.0545258335, 2.9109850751, 2.7418265579, 3.5978245324, 2.8976103136, 5.9984629228, 5.2971220406, 5.152760759, 4.7867415442, 2.3770590956, 2.3661375011, 3.2661789745, 2.4324279148, 3.1771665298, 2.8842970035, 2.844722965, 2.3990537526, 4.6777820041, 6.6075427063, 3.9631451512, 3.3116160501, 3.1771665298, 3.3116160501, 2.6917825833, 3.2065644897, 3.0341704805, 2.5944181791, 5.4706632051, 3.0063530383, 7.1456210173, 2.7292290091, 51.5276075896, 3.2065644897, 4.7428564339, 6.824015094, 3.4676877062, 2.5005755404, 2.4324279148, 3.0063530383, 2.4101272816, 3.1335741707, 5.6759685287, 3.1918316641, 2.8578536096, 3.9449361533, 4.2270752462, 2.3016536853, 3.0202297334, 3.8197943216, 4.7647484646, 2.4662663578, 7.6214916608, 2.4212519237, 7.1456210173, 3.4997738255, 5.0820622309, 2.7671963667, 2.2910785472, 3.5648394788, 2.3990537526, 4.6777820041, 2.6794149658, 2.8056919027, 3.5978245324, 3.4676877062, 3.4043952726, 2.978790628, 2.5353620113, 3.6647130844, 4.8757337138, 2.3990537526, 2.312277636, 2.8056919027, 2.7042072872, 6.6075427063, 2.9109850751, 4.5502994579, 5.2004386672, 3.7328451875, 3.2964005564, 2.4212519237, 3.9814381981, 4.6993736648, 3.1771665298, 2.4324279148, 2.3990537526, 19.3214617164, 3.1335741707, 4.8757337138, 2.3990537526, 3.1918316641, 5.2004386672, 3.3731835891, 5.2971220406, 2.312277636, 4.898239078, 3.2661789745, 3.4676877062, 3.4043952726, 5.3708123486, 3.6478752572, 2.8976103136, 2.8186423881, 3.1771665298, 3.7847742368, 2.6548499417, 4.6777820041, 4.426291165, 10.328564805, 3.1048453901, 2.312277636, 2.6548499417, 8.8723768253, 3.1771665298, 2.3880311019, 5.2971220406, 2.5706324102, 2.6794149658, 3.6647130844, 3.6478752572, 3.8197943216, 5.2727839755, 11.6960705369, 2.8186423881, 2.6548499417, 3.9268108181, 3.1771665298, 2.4549348932, 2.8842970035, 3.5648394788, 2.7166893409, 3.1771665298, 2.4324279148, 2.3552660868, 2.7418265579, 4.0368255207, 2.7928009194, 3.0905799213, 4.2270752462, 2.4212519237, 3.1771665298, 3.1048453901, 2.9925401008, 2.523713081, 2.8578536096, 18.1150684236, 3.7673847787, 3.2511722452, 2.6548499417, 2.8578536096, 4.6777820041, 2.8186423881, 2.6794149658, 2.3444446221, 7.8350176433, 3.4997738255, 2.312277636, 3.4997738255, 2.8710448625, 8.0545258335, 7.1456210173, 4.0741778073, 5.3461357073, 3.1771665298, 2.9109850751, 2.3770590956, 3.4997738255, 2.6917825833, 4.7647484646, 3.7156943217, 5.0820622309, 3.2213653189, 2.5706324102, 2.8842970035, 6.4869414603, 2.4101272816, 5.058712276, 2.5706324102, 5.2971220406, 2.9514809114, 5.8889786358, 2.4324279148, 3.1048453901, 3.1771665298, 2.6917825833, 6.3392806452, 3.0905799213, 7.1456210173, 2.6426520142, 2.8976103136, 5.0820622309, 8.0175186488, 3.5978245324, 2.4776501261, 2.5944181791, 2.8976103136, 2.4101272816, 3.9268108181, 3.4997738255, 3.4676877062, 3.4043952726, 6.6075427063, 7.6920124549, 2.6794149658, 7.6214916608, 4.6777820041, 5.152760759, 2.6794149658, 3.8551384433, 2.8056919027, 2.7166893409, 2.3661375011, 4.0741778073, 2.6426520142, 4.1690775995, 3.1335741707, 3.7156943217, 2.9925401008, 4.0741778073, 2.6794149658, 3.6478752572, 3.750075218, 3.1771665298, 2.4549348932, 2.8842970035, 2.4776501261, 2.844722965, 4.3857106837, 2.523713081, 2.3016536853, 2.4324279148, 3.7847742368, 2.3229506246, 2.3229506246, 2.4212519237, 3.6647130844, 2.6305101311, 2.5944181791, 2.6917825833, 3.4201092472, 3.7328451875, 5.2971220406, 2.5121176727, 3.3731835891, 2.6548499417, 4.0554586606, 3.1918316641, 2.7544822542, 3.1480380919, 2.3229506246, 2.523713081, 4.2270752462, 2.8186423881, 2.8842970035, 4.0741778073, 3.4043952726, 4.6777820041, 2.2910785472, 3.7156943217, 3.2065644897, 3.5978245324, 2.978790628, 4.0554586606, 3.1771665298, 2.9925401008, 3.1335741707, 3.9631451512, 6.3392806452, 2.3016536853, 2.6794149658, 2.9109850751, 2.8842970035, 4.0741778073, 2.5005755404, 2.8186423881, 3.3116160501, 4.6562895481, 2.9514809114, 2.8578536096, 6.6075427063, 4.6993736648, 3.4997738255, 3.1771665298, 2.3444446221, 2.6794149658, 2.4324279148, 7.6214916608, 3.1048453901, 2.3016536853, 2.9925401008, 9.2478330051, 3.5484605292, 2.8056919027, 3.2065644897, 2.4890864394, 2.8710448625, 3.1771665298, 4.0741778073, 4.0741778073, 3.3731835891, 2.8976103136, 2.3770590956, 6.1381850734, 3.4043952726, 7.6214916608, 2.7799691647, 4.6777820041, 4.246586539, 2.7042072872, 2.3016536853, 3.4676877062, 3.4043952726, 2.844722965, 3.2065644897, 2.3661375011, 3.4997738255, 3.6647130844, 2.9925401008, 2.8710448625, 2.2910785472, 2.5706324102, 3.7328451875, 4.0741778073, 5.058712276, 3.4997738255, 3.1771665298, 2.3016536853, 3.4043952726, 3.2065644897, 2.3229506246, 2.4324279148, 2.8976103136, 3.7156943217, 2.7166893409, 2.8710448625, 3.4997738255, 6.6075427063, 2.4212519237, 2.8316526503, 2.8578536096, 7.1456210173, 5.8619212367, 8.3184034225, 5.2971220406, 3.4676877062, 3.4043952726, 4.0741778073, 2.9925401008, 2.3016536853, 84.7305408852, 2.3990537526, 2.7166893409, 4.6777820041, 2.3770590956, 2.6794149658, 2.8056919027, 8.8723768253, 3.2661789745, 2.9925401008, 3.8908096001, 3.2964005564, 3.6647130844, 2.3880311019, 5.2971220406, 51.5276075896, 3.2065644897, 2.9109850751, 3.0622453143, 3.8551384433, 3.4676877062, 5.2971220406, 4.7428564339, 3.3422580561, 4.0741778073, 2.5944181791, 2.6305101311, 2.6548499417, 8.8723768253, 2.3552660868, 4.6993736648, 4.6136004289, 2.4324279148, 3.1048453901, 2.5706324102, 2.3016536853, 2.9109850751, 4.2270752462, 3.4836938254, 8.0545258335, 6.6075427063, 4.0741778073, 7.6214916608, 2.3016536853, 3.1191767052, 5.0820622309, 3.8551384433, 3.2812549716, 9.3334021504, 2.8976103136, 2.8578536096, 3.5978245324, 5.0123337231, 4.246586539, 4.6777820041, 2.2910785472, 3.1625687756, 2.8186423881, 4.6993736648, 2.7292290091, 3.7673847787, 2.9925401008, 5.152760759, 6.4571366717, 3.7328451875, 2.3990537526, 5.3461357073, 2.6794149658, 2.8186423881, 3.6816286314, 5.6759685287, 3.7156943217, 2.3990537526, 2.5944181791, 2.6305101311, 2.3016536853, 2.5005755404, 2.844722965, 2.7166893409, 4.6136004289, 2.3229506246, 3.1048453901, 3.8551384433, 2.8578536096, 2.4436554919, 2.4549348932, 5.9434686842, 4.3857106837, 5.2971220406, 3.3116160501, 2.5706324102, 2.5944181791, 3.3422580561, 2.7544822542, 7.8350176433, 3.5978245324, 2.8842970035, 4.2270752462, 3.3731835891, 2.8976103136, 2.3770590956, 3.4043952726, 5.8889786358, 2.523713081, 2.844722965, 2.6794149658, 3.2065644897, 2.5005755404, 3.1771665298, 3.4997738255, 8.8723768253, 3.1625687756, 3.3116160501, 3.5648394788, 2.6548499417, 5.152760759, 3.750075218, 3.6647130844, 3.1771665298, 2.3880311019, 3.7328451875, 4.5502994579, 2.523713081, 3.2213653189, 2.4212519237, 2.4212519237, 2.3229506246, 6.6075427063, 2.844722965, 3.8022439609, 3.7328451875, 3.1771665298, 7.6214916608, 2.8578536096, 4.9893041415, 2.7292290091, 3.2213653189, 3.2065644897, 3.750075218, 7.1456210173, 3.4676877062, 3.1048453901, 3.6311147929, 3.750075218, 6.3392806452, 9.2478330051, 6.2235757337, 2.7166893409, 6.1381850734, 7.2784680305, 2.4776501261, 7.6214916608, 2.6794149658, 3.0622453143, 3.5978245324, 2.7166893409, 3.7673847787, 7.8350176433, 3.5159280475, 2.6917825833, 6.2235757337, 3.1771665298, 3.1048453901, 2.6548499417, 3.4676877062, 3.4043952726, 3.8908096001, 2.5944181791, 2.6794149658, 2.2910785472, 2.9109850751, 3.2065644897, 5.3461357073, 3.1771665298, 3.5648394788, 5.3708123486, 2.2910785472, 3.4201092472, 2.6548499417, 2.3016536853, 3.4997738255, 3.4043952726, 2.7292290091, 3.1771665298, 2.7928009194, 2.7042072872, 2.8578536096, 2.2910785472, 2.4101272816, 3.0622453143, 2.4101272816, 10.5205871614, 3.4201092472, 4.2270752462, 3.0202297334, 3.8197943216, 16.6740069728, 2.3990537526, 2.5121176727, 3.1771665298, 3.0622453143, 3.4676877062, 3.4043952726, 2.8710448625, 2.8976103136, 2.3444446221, 2.3552660868, 3.1771665298, 5.8889786358, 4.4059542044, 3.4676877062, 51.5276075896, 4.1118757104, 2.6917825833, 3.0622453143, 2.7418265579, 2.6794149658, 2.8186423881, 3.8551384433, 3.1771665298, 7.1456210173, 2.4212519237, 3.5978245324, 4.5924028604, 2.3229506246, 3.4997738255, 2.6794149658, 3.3731835891, 3.8908096001, 2.8578536096, 3.1771665298, 3.0622453143, 4.0741778073, 2.3016536853, 2.3229506246, 2.3990537526, 2.4212519237, 2.4324279148, 3.1480380919, 3.7328451875, 2.4549348932, 16.6740069728, 5.2004386672, 2.4549348932, 4.9435619262, 2.8710448625, 3.4043952726, 2.5944181791, 3.4676877062, 3.4043952726, 11.6960705369, 5.3708123486, 6.8555133165, 3.3731835891, 3.4043952726, 4.6777820041, 3.8022439609, 3.7847742368, 3.3422580561, 2.3661375011, 3.5978245324, 3.0622453143, 2.4776501261, 6.6075427063, 3.1771665298, 2.5470647106, 2.9109850751, 3.1048453901, 4.4059542044, 3.8197943216, 2.312277636, 2.6426520142, 4.9893041415, 2.6305101311, 2.7928009194, 4.0741778073, 4.246586539, 3.9268108181, 2.844722965, 2.8578536096, 4.3255364773, 3.1048453901, 2.978790628, 3.750075218, 2.9379200884, 7.1456210173, 10.5205871614, 2.6305101311, 3.5648394788, 2.7166893409, 2.9651043282, 3.2511722452, 2.7418265579, 3.2812549716, 3.1048453901, 2.7799691647, 2.5353620113, 2.8976103136, 2.6426520142, 3.1335741707, 4.6777820041, 3.7156943217, 4.426291165, 5.0820622309, 2.6794149658, 8.8723768253, 5.4706632051, 3.2964005564, 2.5706324102, 4.8757337138, 2.5944181791, 6.6075427063, 5.0820622309, 3.5648394788, 3.0905799213, 3.0905799213, 2.5706324102, 2.6917825833, 3.1771665298, 2.978790628, 3.6647130844, 2.4212519237, 2.8842970035, 2.3229506246, 2.844722965, 6.8555133165, 2.8578536096, 3.1918316641, 2.8842970035, 3.1771665298, 8.1665754493, 2.3016536853, 2.7292290091, 3.6816286314, 6.6994627817, 2.9925401008, 6.3979372868, 3.5978245324, 2.4776501261, 3.1771665298, 2.4436554919, 7.6214916608, 3.3576852183, 3.4676877062, 3.4043952726, 4.6777820041, 2.5944181791, 4.4059542044, 6.6075427063, 2.8578536096, 3.0622453143, 3.9268108181, 2.844722965, 2.6917825833, 2.5706324102, 2.3336728776, 3.1048453901, 8.0545258335, 2.6794149658, 2.8186423881, 2.9109850751, 2.6305101311, 2.7166893409, 2.4776501261, 3.7328451875, 4.9435619262, 10.1400472517, 7.1456210173, 3.0905799213, 2.2910785472, 2.4776501261, 3.1335741707, 19.3214617164, 3.1771665298, 2.5353620113, 3.1335741707, 2.6426520142, 2.3770590956, 4.2270752462, 5.0820622309, 2.6305101311, 7.6214916608, 3.1918316641, 2.6548499417, 5.0820622309, 2.6671041722, 2.9379200884, 2.7166893409, 3.3731835891, 2.9925401008, 3.5978245324, 2.4101272816, 3.8022439609, 2.3336728776, 3.0622453143, 3.6144313359, 3.5648394788, 3.1048453901, 3.1771665298, 3.750075218, 4.4878670088, 2.4101272816, 2.3661375011, 2.3990537526, 2.5944181791, 4.7647484646, 2.6917825833, 2.6426520142, 2.9109850751, 4.5502994579, 2.5706324102, 6.3979372868, 2.3990537526, 3.1771665298, 3.3116160501, 3.8551384433, 2.2910785472, 3.750075218, 4.6136004289, 2.3990537526, 2.8578536096, 3.7156943217, 3.7328451875, 2.9109850751, 3.750075218, 2.7928009194, 3.1335741707, 2.8316526503, 3.2661789745, 3.4997738255, 6.6075427063, 2.7292290091, 3.9631451512, 2.3016536853, 2.6794149658, 2.4776501261, 8.0545258335, 5.8619212367, 3.5484605292, 3.1771665298, 3.1480380919, 2.8842970035, 2.978790628, 3.4676877062, 3.4043952726, 2.8976103136, 6.6994627817, 5.8889786358, 4.1499224279, 3.8197943216, 3.7328451875, 2.7671963667, 3.8908096001, 2.4212519237, 3.0905799213, 2.3229506246, 2.3444446221, 2.2910785472, 2.8578536096, 2.5706324102, 3.0622453143, 3.6647130844, 5.2971220406, 4.246586539, 4.7210649881, 4.0741778073, 3.0063530383, 2.8842970035, 4.7867415442, 3.0622453143, 3.5648394788, 3.5978245324, 8.8723768253, 2.3229506246, 4.4059542044, 2.8710448625, 3.6647130844, 2.3880311019, 3.7328451875, 5.4706632051, 2.6794149658, 5.2004386672, 2.9109850751, 3.0905799213, 2.8186423881, 2.3770590956, 2.5706324102, 7.1456210173, 3.1480380919, 3.9449361533, 2.6548499417, 2.8578536096, 2.4776501261, 2.312277636]\n", + "В атрибуте 'relative_velocity' обнаружены аномалии: [133569.0447878095, 178961.5176317593, 138119.6179153084, 167372.8034566939, 125015.7533881835, 132185.0032723958, 133216.4743165159, 130955.1606471186, 182007.9842706731, 127074.1313123845, 129960.8927510987, 137878.6231423123, 193386.9752184064, 125629.5310624868, 125976.0754627193, 131436.9005275991, 152172.1335097544, 148000.8233501158, 154566.8113327776, 147174.3106387106, 127964.7940636339, 131253.2865042854, 130968.1274769806, 129355.5481879637, 137886.9477296724, 154379.8596630028, 129376.9104708406, 134599.1952316475, 135906.787243381, 138466.9421768693, 151386.2059704372, 131091.6215025047, 124952.2399952107, 163002.6775783674, 157914.6315118211, 136874.7093382614, 131710.7262772872, 135849.7168068071, 132166.4661563058, 131170.643861081, 129787.2375048544, 124552.5798701592, 152588.5002996656, 135717.2784111629, 126519.9676937381, 125726.7232248426, 135406.3750328902, 127641.4111352293, 133544.2814714088, 125443.514281873, 149936.050762195, 124683.7576632854, 127570.0164759572, 151273.9731861065, 153136.1656519474, 128895.0466029872, 146102.7446536144, 126411.124365819, 129888.648028003, 157827.4541830001, 133717.4702602355, 127727.8712019022, 127659.6758524709, 139267.7732204788, 130332.9183165029, 140190.9960361968, 126155.3609057936, 152270.5451025481, 128369.5862194735, 126468.1532099254, 134221.817887934, 125381.9533626806, 132674.6110412736, 127314.3315952944, 124725.522805276, 131523.5206398373, 138994.6453615912, 126122.2636702313, 147654.6174263146, 124706.0575097514, 138065.818937396, 124128.8141729245, 126076.0666894679, 158623.718271367, 140767.5352109368, 149542.0351088555, 139864.9953292708, 128985.1230780414, 138364.324442752, 147204.7558132136, 159358.004741025, 124547.774292491, 130396.68529735, 141471.1520480297, 128389.0649323619, 148000.0282587252, 141452.2576877659, 142197.3857248132, 132411.9222086879, 163760.4570028043, 133239.6225245527, 146968.0980752138, 132808.7133825516, 128299.3370977511, 133046.3719346965, 133827.4635660173, 151863.9929102808, 137771.7756194621, 133457.2050488324, 126831.9529653239, 156114.5330936358, 131071.824204872, 134187.3396517756, 136678.798419165, 135178.441976556, 132633.864893651, 131855.2673229425, 127753.675838258, 126759.369655309, 155255.6433500672, 137839.2263567118, 136810.81116229, 129451.5274067482, 150130.4696658263, 129194.7428147414, 128282.5103385488, 127110.0116702902, 150704.4400775741, 130388.674559724, 126319.9627269216, 131791.9481425642, 128189.3953378165, 146154.6848723778, 125959.0731302992, 136565.9288817797, 140612.0215799383, 128777.3257393231, 142665.0497658792, 144876.2098328784, 143134.8328520921, 124536.8490994847, 130464.4387370555, 138758.8754653902, 153487.5613109471, 124230.2578284114, 129105.1361385245, 128111.803818142, 128951.3461785685, 152265.8873351423, 124968.4386406283, 156468.6202516812, 151435.3211543124, 127096.0229422688, 127310.2931249813, 139065.064463772, 163299.3051251102, 132669.3424049852, 124821.8847500108, 127702.7129277724, 148088.2269932532, 129064.4453165519, 160232.5093383821, 144525.8169297994, 128512.2005497033, 126921.7632935369, 127425.3968132597, 126372.3126734974, 147544.9411883677, 135394.7492378372, 141465.2292876301, 129018.4285524296, 125556.2048682947, 146485.7587332014, 126709.1823121816, 125491.4411797087, 124436.659723353, 130441.6283602842, 154743.8358113618, 126610.1932618062, 160718.8586740236, 156817.1081677518, 125689.8477464683, 170893.0257857222, 124418.8546398292, 159280.9012776841, 139689.6732972972, 132162.6018115084, 127722.6449557294, 142458.62479052, 128850.5905368314, 137192.9557316735, 136816.0602077506, 139809.8412280051, 128941.0181377762, 131660.3833405103, 140701.3617093084, 136267.6939378135, 132643.2284246214, 153982.9247081868, 136986.6291056903, 124334.9263017727, 139280.4892669064, 150455.5920479704, 146586.2886461232, 134623.9581010456, 127196.0207391596, 152245.2519899442, 126658.3042626725, 147373.651367518, 125142.8568108466, 135173.0992853016, 142068.4110355133, 136289.6956250921, 128712.2917589622, 152709.0161953792, 136773.4610708546, 141588.089982463, 148818.2332753332, 126660.754913801, 131425.0853458036, 151407.9251475894, 143922.899315686, 154342.7347291801, 129130.4463649412, 134591.5057745164, 135821.4648501362, 146203.1434356829, 130451.9709649032, 132161.1257782004, 136694.2391430037, 140474.9900721982, 126817.5700618848, 127014.011399686, 174875.355323528, 142728.3728609656, 131534.8976539426, 140348.9086649723, 134806.9355298842, 125361.9215669236, 160130.8374403943, 124978.4999120228, 140799.1788978919, 151326.0929012612, 140894.7935353376, 134664.422009828, 151526.9247416744, 124540.3988536662, 124540.3987473744, 135335.1764569406, 132975.1426601286, 144538.0714696583, 125184.5679668231, 165645.5053288309, 138878.751843783, 147192.3321394662, 150090.6018134178, 134160.8233137016, 125805.2028498594, 133546.1466015252, 133199.625280361, 142993.5414228302, 132200.61608435, 155957.3797191203, 131159.6095262728, 137945.54235974, 153257.8003423096, 137347.9290847202, 147740.5715817348, 152474.062894155, 138774.6211855745, 134814.0368720297, 175424.7576660584, 137849.9596283372, 132493.814215952, 132207.0806102238, 131435.0823747514, 134515.2740888228, 127729.4511233959, 126745.4035901236, 124770.4490996942, 129024.6978783312, 144808.2965969255, 127112.1853012376, 137820.7501792013, 132305.0808553898, 126807.6704657116, 131218.843137894, 129695.3247846492, 130771.3567742633, 124758.6758734691, 131426.6296770763, 128658.3773268427, 129852.37161616, 133279.8401141107, 157754.1776942873, 183551.9075447364, 127918.5708900312, 136572.3636881386, 153456.290782767, 127473.8518726585, 137133.7347727289, 127352.7542581348, 124726.053114873, 167111.4536950266, 153613.8112017776, 131616.7063359008, 130355.666697415, 134252.0895533429, 132499.4218944026, 125015.2146935874, 157265.4319471282, 131751.6671135801, 129170.6220517855, 144952.0483385855, 134166.8828209795, 137425.023624303, 124378.1798638176, 133647.1336229933, 127559.2758511025, 133502.7425350759, 130054.3179280171, 135903.0026251764, 130174.3829013149, 129645.9379617563, 142875.2559434616, 133241.7686169715, 137351.7885489872, 126476.8839317002, 143871.4486603786, 142077.3122363303, 123977.8236505316, 191176.4581960964, 125189.2287540068, 140800.9109039456, 132581.3631610759, 131235.3870644567, 132179.4488160824, 124970.7216770924, 163565.7976780124, 124443.9967010674, 128868.5439514544, 131783.635065388, 139963.5293396094, 129477.5767454022, 152335.8774036544, 140581.7119455012, 136976.5366071271, 150499.4597267306, 184152.0614110542, 184152.0613296683, 127718.3472828732, 132754.3290190948, 136501.0460079347, 139243.3813647947, 138116.4872263333, 128024.6453200678, 124238.4747112307, 127478.0429180359, 142964.771945594, 136281.7452078259, 135505.881677984, 142179.8984297287, 131003.6053529574, 136241.525212726, 134729.1437909353, 137953.0932480526, 173394.7032442432, 142613.1938618042, 125889.1762484426, 134832.4875574852, 131461.8054369019, 142864.2876595489, 131381.9759553984, 130788.6685763911, 134285.7175471714, 136654.6913144093, 128869.5218555236, 126439.3279161745, 126135.4685182373, 140750.1698859454, 144755.2120979225, 129985.2467362832, 125956.6665873991, 133872.0813700528, 126014.3313909768, 156347.1524224652, 144796.7923959622, 144210.8658207708, 144486.9662447657, 156117.4228898543, 148210.4005751617, 135782.2648194444, 134298.2796329704, 139047.057784363, 134476.5607575458, 127366.7869392905, 126386.802435393, 180485.9223555463, 151036.5860495395, 130848.2803167012, 151548.2564197097, 166983.6441452224, 164246.4296438141, 154523.1184232591, 139114.3256889134, 148354.2772060482, 130240.3764151278, 126269.6788391213, 141097.3962305821, 145001.8295336556, 125271.3010773661, 147936.3968049588, 135409.4847384833, 124300.6670884118, 140833.5334319725, 127150.8969638927, 128133.4202532367, 131787.2705751234, 137552.6175028477, 137440.4793136006, 129061.6381820599, 126047.2038503774, 125011.4228052703, 125637.2675426848, 127646.819461678, 146830.3066242403, 126039.1198607903, 132280.0279535434, 135921.4669271315, 126119.3506603416, 131398.346002639, 152357.2697376083, 153617.5820903987, 128799.7847287121, 138615.0426589752, 124425.4306464252, 124425.4306980766, 148217.6022529543, 124337.4817174117, 134926.5146993507, 138844.7232893186, 161257.405433769, 129180.8343627565, 141726.597819723, 152327.0480070002, 129364.2914048467, 135868.1039224009, 151661.4223212043, 172227.3371904647, 160576.891427461, 123974.8916039255, 167039.8779069846, 128053.544035513, 169295.8306137059, 128873.0043210614, 128025.084290067, 126968.8003306931, 136523.0144025986, 166503.8716634884, 166844.7960924352, 127108.2680769463, 130533.7072744832, 156984.8576669903, 170373.8523031456, 144396.5177382606, 133133.8564250651, 141195.3083493955, 138895.530969334, 147945.6221816887, 127385.9072101001, 151246.3637115634, 154653.441549053, 129376.3554475844, 146169.1156295405, 130700.5904410132, 130390.1702120203, 135964.1795636509, 129592.6596205556, 126558.913801612, 128825.4555581674, 129407.4734099882, 132537.9587450454, 178340.2959816742, 137205.2897163227, 128716.2053013438, 124460.0334498348, 147685.8820849261, 137367.8478097646, 129651.9457009061, 131759.3341082833, 128486.39092204, 138789.5403584174, 129728.770087108, 135133.8506361644, 124717.8162920425, 124906.6323130046, 135115.6746260887, 146080.5739591752, 147723.5149380868, 127326.6505843265, 126931.1226199981, 134587.9239008285, 127817.7990932707, 143912.6787866292, 125864.9656512556, 149231.3353724315, 125296.1148970303, 129822.2350879741, 146128.4932654678, 127902.7735794396, 130340.0780011105, 125509.3668371862, 135017.5789021554, 137582.0071180337, 131032.0494245578, 166401.2262860885, 133282.5835085035, 129231.4874097701, 143674.0969021916, 125679.6404868449, 140286.2058667501, 141765.0224281276, 124391.7411785161, 135763.9322255536, 129876.6540816122, 136038.1129769902, 124979.0786923712, 137385.2769371888, 126542.3385312601, 130383.7993195531, 194056.4149889756, 148764.1217458118, 129437.2438189992, 129051.5738526504, 126130.2154003991, 126942.2150356469, 141638.7423944657, 135472.954552996, 153752.3420378566, 146353.497974105, 167365.7454700084, 124317.6092485268, 127824.6242807399, 133299.3675845416, 128423.9058331727, 131581.6816541267, 134519.1214163098, 128958.9288551579, 124124.4821132593, 159459.0173333104, 134773.957450084, 131918.7818789388, 124836.8376992501, 145044.1969564561, 130871.7704034263, 146086.5748868467, 130207.6699754314, 163954.9051907116, 136203.2162045395, 136236.4653758911, 151720.765075687, 126095.5642437328, 135861.0919805196, 148067.9796422581, 132474.5221402044, 147609.5254974043, 136537.769976314, 129240.8287370176, 141349.8132579571, 147177.7620666311, 159648.7518555167, 125639.7150161488, 128787.494221575, 139397.6393839462, 140796.5550583486, 129035.4827317427, 134337.0827609402, 132603.7656718246, 135908.3068410906, 125413.3665149656, 134672.7115132592, 124954.9204373816, 142135.4320034602, 147542.8742119858, 136059.5555609123, 145859.5586401909, 143180.4760526372, 141440.1519766745, 134110.1823066371, 141262.334655507, 148392.3872816975, 124607.4216735186, 143797.4700917029, 141123.1431563276, 236990.1280878666, 124556.9797677881, 132603.4855564852, 125333.6130061092, 154650.5602410265, 130446.9875177089, 127606.856665194, 128840.3836023352, 132583.9047238976, 140688.5548662425, 164625.4147164314, 140892.4671319465, 131371.9125902129, 142189.5325718005, 152204.3229879619, 124125.9961888195, 141284.3990218405, 135558.5862871843, 139109.6472390212, 124036.6786876465, 130826.6151949062, 131264.4920951588, 129160.2155739754, 129817.2712396532, 140456.091491941, 144684.240493676, 128389.7832139328, 133728.6874464342, 130780.4126380754, 156754.3210405952, 129090.7953806594, 125555.5912751262, 139318.2030658756, 126727.267038817, 128738.8576653415, 135956.2514753347, 176609.5022983572, 124494.6777797185, 124944.9225697678, 125197.1240188223, 149051.5146059004, 155406.6106088616, 157682.006505121, 125316.131456543, 133083.8970916925, 137448.7773015341, 154601.5221524534, 128526.8853789781, 145529.1689413122, 126836.8363129601, 139818.2468576789, 129938.7714853324, 143802.104562315, 145957.5614948274, 128440.1720630254, 124051.6727426804, 129859.3984867031, 126212.6105936186, 138186.159349977, 132953.4968021388, 163733.3129247286, 128734.1710416616, 149241.6319105703, 127047.9996725422, 138513.9856402976, 141584.519788915, 138803.2570766574, 144578.251037804, 126170.9831643905, 132114.9483451588, 129911.4359555188, 158499.4680564829, 124462.2418592425, 128360.0385130403, 130775.3722521432, 123966.4368986708, 167152.481509698, 135042.2618609754, 129060.6652992463, 124281.6822853081, 126418.2367116193, 127969.3789793042, 146529.5593798458, 128640.1042111442, 158443.9495487629, 157028.34325999, 153392.7437047274, 134155.8406213398, 127524.5862704726, 130014.0050148284, 124649.5120412375, 141545.0416015645, 147436.3698497222, 127035.7077279856, 141064.3959814116, 158900.1648566616, 132435.3962178036, 139072.650267353, 126584.9216556451, 138278.9953608588, 146497.2271048901, 127745.1947365988, 138007.0554630602, 136009.1603730006, 131084.2119454776, 125349.008859981, 134193.5602115486, 142108.935729529, 124786.2069695624, 136267.830967045, 130999.946819666, 126131.3437655952, 124100.0397729428, 127736.4499266251, 136923.5261823062, 124703.4684855499, 138058.9823592299, 133739.6400631055, 127495.1576432221, 127990.5321808433, 172208.9993065567, 137012.4058087091, 129706.7251124614, 125807.719189923, 127649.1705392981, 145305.8773592724, 126168.8477504994, 140612.4082657699, 132382.4701882932, 125717.5040685084, 126726.3871908322, 137855.7756511636, 130261.2587990132, 125813.6299068311, 139459.7719495714, 142948.1153351848, 137710.0341976435, 133921.1241194058, 129732.2862094418, 137403.4832583347, 153789.2161092922, 133446.571777647, 125844.7252093704, 138844.165028602, 147877.308087867, 124801.5960919775, 133727.291171838, 124508.9792210969, 141154.3801757077, 130526.4404756102, 135182.980473862, 131954.4825646241, 131950.4840796776, 132768.3077885405, 128367.8466871068, 132517.4030895744, 133285.9664395631, 133259.3010902009, 228242.2434668618, 125950.2733309705, 145382.2714153699, 128889.9329726758, 146654.7950571278, 139519.4170519634, 158556.0068257464, 139394.994787264, 128173.7957346504, 142445.7943486571, 145715.1344102254, 142328.2071683992, 132318.7157486315, 127895.2582475808, 130428.1438715419, 146896.526950519, 127391.6601901696, 129856.5203932912, 139606.1054756248, 135439.5192848633, 137572.6915135224, 125222.2358617541, 144687.3716861014, 124486.1298216842, 139282.4938015451, 207168.6686925272, 131354.0080303129, 146182.5850016318, 125620.2067000752, 127044.8857253149, 139105.2636821812, 133265.6594197067, 131575.0033719558, 135652.00629038, 134487.6215549191, 145130.3203948578, 138660.4640001118, 126874.1295825826, 134995.7822469934, 163285.7837794078, 130116.8369953199, 128770.5277299103, 127252.6775535139, 129246.0576137698, 134113.2777557244, 148337.8261962257, 125548.502639369, 125548.5027172907, 125074.6980394532, 142587.9099342601, 138680.2945045976, 159394.0656018125, 127980.0832573206, 133186.0885066922, 149896.3413337513, 127871.6081083384, 133867.9739344205, 156368.9685988652, 125875.9150517884, 157299.5000735874, 132301.2341032402, 134999.2888555982, 129849.1579730952, 136525.8839184256, 135448.9749945058, 129340.0296903233, 132793.7292919145, 134083.9394586238, 125194.8057624533, 135428.0562364788, 149010.5204755798, 145022.928741248, 127075.4706858768, 164471.1998394899, 124304.6385545864, 157312.1436108912, 127045.8992067592, 126952.8578109504, 150267.6666728478, 124566.708732502, 143872.1567574239, 139182.1112221128, 133886.486067071, 125390.752691566, 177510.7295602038, 151528.2959986157, 138835.9894640767, 130770.4822482604, 131516.2602845568, 129271.3092083959, 144794.5707388007, 124135.322340596, 147052.5910521239, 140115.0078285808, 125072.7373260004, 132909.3451896278, 124047.4215818884, 128562.8668511396, 128835.4325307538, 151102.4743999796, 126515.2408994419, 126189.4105726916, 140347.3532916719, 147117.3950382462, 126313.541578967, 131738.4262679008, 131537.8513943586, 127227.216994286, 149843.7442418908, 127874.948421361, 139317.8394963845, 157742.4051444262, 132417.1136575519, 141452.9943771182, 132308.7361709476, 124647.2806434275, 129142.4219427542, 130740.2847594194, 154581.8076981536, 187221.0733344144, 127015.9871583006, 149160.6452428978, 129256.6666398854, 138084.7165128119, 154243.0836316415, 126058.6942420756, 128214.7144037726, 139606.3015661095, 125252.2987777217]\n", + "В атрибуте 'absolute_magnitude' обнаружены аномалии: [13.82, 13.82, 14.77, 14.46, 14.6, 14.02, 14.69, 14.77, 14.44, 14.02, 14.77, 14.77, 14.46, 14.34, 14.77, 14.6, 10.31, 14.7, 14.46, 14.6, 14.77, 12.44, 13.8, 14.13, 13.53, 12.58, 14.4, 14.34, 14.6, 14.81, 32.3, 14.6, 14.35, 33.2, 14.77, 14.44, 14.46, 32.3, 32.56, 14.77, 14.46, 14.04, 32.56, 14.46, 14.77, 14.6, 32.3, 14.27, 9.23, 14.13, 10.31, 14.13, 14.34, 14.77, 14.46, 14.02, 14.82, 14.4, 14.13, 32.95, 14.77, 14.46, 14.6, 32.56, 14.04, 32.56, 14.56, 14.46, 14.4, 32.95, 13.76, 12.76, 32.95, 32.3, 10.31, 14.6, 12.76, 13.53, 14.69, 14.77, 14.6, 13.76, 14.13, 14.77, 14.69, 14.31, 14.74, 14.84, 14.46, 14.77, 14.34, 13.84, 14.6, 12.44, 14.46, 32.95, 32.56, 14.84, 14.77, 14.34, 14.74, 32.95, 14.13, 32.95, 14.6]\n", + "\n", + "Аномалии в наборе данных Healthcare:\n", + "В атрибуте 'hypertension' обнаружены аномалии: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]\n", + "В атрибуте 'heart_disease' обнаружены аномалии: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]\n", + "В атрибуте 'avg_glucose_level' обнаружены аномалии: [252.72, 243.58, 259.63, 249.31, 263.32, 271.74, 242.52, 250.89, 247.51, 243.53, 242.3, 243.5, 251.6, 247.69, 250.2, 254.6, 254.63, 246.34, 251.46, 267.76, 246.53, 244.28, 251.99, 253.16, 242.84, 249.29, 242.94, 247.48, 266.59, 243.73, 243.59, 250.8, 255.17, 267.61, 260.85, 248.37, 263.56, 247.97, 248.24, 253.93, 254.95, 247.87, 261.67, 256.74, 244.3, 242.62, 243.52, 267.6, 253.86]\n", + "В атрибуте 'bmi' обнаружены аномалии: [56.6, 54.6, 60.9, 54.7, 64.8, 54.7, 60.2, 71.9, 54.6, 55.7, 55.7, 57.5, 54.2, 52.3, 78.0, 53.4, 55.2, 55.0, 54.8, 52.8, 66.8, 55.1, 55.9, 57.3, 56.0, 57.7, 54.0, 56.1, 97.6, 53.9, 53.8, 52.7, 52.8, 55.7, 53.5, 63.3, 52.8, 61.2, 58.1, 52.7, 53.4, 59.7, 52.5, 52.9, 54.7, 61.6, 53.8, 54.3, 55.0, 57.2, 64.4, 92.0, 55.9, 57.9, 55.7, 57.2, 60.9, 54.1, 56.6]\n", + "В атрибуте 'stroke' обнаружены аномалии: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]\n", + "\n", + "Аномалии в наборе данных Diabetes:\n", + "В атрибуте 'Pregnancies' обнаружены аномалии: [15, 17, 14, 14]\n", + "В атрибуте 'Glucose' обнаружены аномалии: [0, 0, 0, 0, 0]\n", + "В атрибуте 'BloodPressure' обнаружены аномалии: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]\n", + "В атрибуте 'SkinThickness' обнаружены аномалии: [99]\n", + "В атрибуте 'Insulin' обнаружены аномалии: [543, 846, 495, 485, 495, 478, 744, 680, 545, 465, 579, 474, 480, 600, 440, 540, 480, 510]\n", + "В атрибуте 'BMI' обнаружены аномалии: [0.0, 0.0, 0.0, 0.0, 0.0, 67.1, 0.0, 0.0, 59.4, 0.0, 0.0, 57.3, 0.0, 0.0]\n", + "В атрибуте 'DiabetesPedigreeFunction' обнаружены аномалии: [2.288, 1.893, 1.781, 2.329, 1.476, 2.137, 1.731, 1.6, 2.42, 1.699, 1.698]\n", + "В атрибуте 'Age' обнаружены аномалии: [69, 72, 81, 70, 69]\n" + ] + } + ], + "source": [ + "from scipy import stats\n", + "# Вычисляем Z-индексы только для числовых столбцов\n", + "neo_zscores = neo.select_dtypes(include=['float64', 'int64']).apply(stats.zscore, nan_policy='omit')\n", + "healthcare_zscores = healthcare.select_dtypes(include=['float64', 'int64']).apply(stats.zscore, nan_policy='omit')\n", + "diabetes_zscores = diabetes.select_dtypes(include=['float64', 'int64']).apply(stats.zscore, nan_policy='omit')\n", + "\n", + "# Устанавливаем порог для поиска аномалий\n", + "threshold = 3\n", + "\n", + "# Функция для нахождения аномалий и вывода сообщения\n", + "def find_anomalies(zscores, df):\n", + " for column in zscores.columns:\n", + " # Проверяем, есть ли аномалии в Z-индексах\n", + " anomalies = df[column][(zscores[column].abs() > threshold)]\n", + " if not anomalies.empty:\n", + " print(f\"В атрибуте '{column}' обнаружены аномалии: {anomalies.tolist()}\")\n", + "\n", + "# Находим аномалии\n", + "try:\n", + " print(\"Аномалии в наборе данных Neo:\")\n", + " find_anomalies(neo_zscores, neo)\n", + "\n", + " print(\"\\nАномалии в наборе данных Healthcare:\")\n", + " find_anomalies(healthcare_zscores, healthcare)\n", + "\n", + " print(\"\\nАномалии в наборе данных Diabetes:\")\n", + " find_anomalies(diabetes_zscores, diabetes)\n", + "\n", + "except Exception as e:\n", + " print(f\"Произошла ошибка: {e}\")\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Теперь выполним 10 пункт, разобьем данные на выборки" + ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 19, "metadata": {}, - "outputs": [], - "source": [] + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Набор данных Neo:\n", + "Обучающая выборка:\n", + "hazardous\n", + "False 0.902681\n", + "True 0.097319\n", + "Name: proportion, dtype: float64\n", + "\n", + "Контрольная выборка:\n", + "hazardous\n", + "False 0.902686\n", + "True 0.097314\n", + "Name: proportion, dtype: float64\n", + "\n", + "Тестовая выборка:\n", + "hazardous\n", + "False 0.902686\n", + "True 0.097314\n", + "Name: proportion, dtype: float64\n", + "\n", + "Набор данных Healthcare:\n", + "Обучающая выборка:\n", + "stroke\n", + "0 0.951321\n", + "1 0.048679\n", + "Name: proportion, dtype: float64\n", + "\n", + "Контрольная выборка:\n", + "stroke\n", + "0 0.951076\n", + "1 0.048924\n", + "Name: proportion, dtype: float64\n", + "\n", + "Тестовая выборка:\n", + "stroke\n", + "0 0.951076\n", + "1 0.048924\n", + "Name: proportion, dtype: float64\n", + "\n", + "Набор данных Diabetes:\n", + "Обучающая выборка:\n", + "Outcome\n", + "0 0.651466\n", + "1 0.348534\n", + "Name: proportion, dtype: float64\n", + "\n", + "Контрольная выборка:\n", + "Outcome\n", + "0 0.649351\n", + "1 0.350649\n", + "Name: proportion, dtype: float64\n", + "\n", + "Тестовая выборка:\n", + "Outcome\n", + "0 0.649351\n", + "1 0.350649\n", + "Name: proportion, dtype: float64\n", + "Набор данных Neo:\n", + "Аугментация данных не требуется.\n", + "\n", + "Набор данных Healthcare:\n", + "Необходима аугментация данных.\n", + "\n", + "Набор данных Diabetes:\n", + "Аугментация данных не требуется.\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import train_test_split\n", + "def split_data(df, target_column, test_size=0.2, random_state=42):\n", + " # Разделяем данные на обучающую и временную выборки\n", + " X_train, X_temp, y_train, y_temp = train_test_split(df.drop(columns=[target_column]), \n", + " df[target_column], \n", + " test_size=test_size, \n", + " random_state=random_state, \n", + " stratify=df[target_column])\n", + " # Делим временную выборку на контрольную и тестовую\n", + " X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, \n", + " test_size=0.5, \n", + " random_state=random_state, \n", + " stratify=y_temp)\n", + " \n", + " return X_train, X_val, X_test, y_train, y_val, y_test\n", + "\n", + "# Для набора данных neo\n", + "neo_train, neo_val, neo_test, neo_train_labels, neo_val_labels, neo_test_labels = split_data(neo, 'hazardous')\n", + "\n", + "# Для набора данных healthcare\n", + "healthcare_train, healthcare_val, healthcare_test, healthcare_train_labels, healthcare_val_labels, healthcare_test_labels = split_data(healthcare, 'stroke')\n", + "\n", + "# Для набора данных diabetes\n", + "diabetes_train, diabetes_val, diabetes_test, diabetes_train_labels, diabetes_val_labels, diabetes_test_labels = split_data(diabetes, 'Outcome')\n", + "def check_balance(y_train, y_val, y_test):\n", + " print(\"Обучающая выборка:\")\n", + " print(y_train.value_counts(normalize=True))\n", + " print(\"\\nКонтрольная выборка:\")\n", + " print(y_val.value_counts(normalize=True))\n", + " print(\"\\nТестовая выборка:\")\n", + " print(y_test.value_counts(normalize=True))\n", + "\n", + "print(\"Набор данных Neo:\")\n", + "check_balance(neo_train_labels, neo_val_labels, neo_test_labels)\n", + "\n", + "print(\"\\nНабор данных Healthcare:\")\n", + "check_balance(healthcare_train_labels, healthcare_val_labels, healthcare_test_labels)\n", + "\n", + "print(\"\\nНабор данных Diabetes:\")\n", + "check_balance(diabetes_train_labels, diabetes_val_labels, diabetes_test_labels)\n", + "\n", + "\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Для набота Neo \n", + "- Пропорция классов сильно несбалансирована: только 9.73% объектов относятся к классу True (опасные), а 90.27% — к классу False (неопасные).\n", + "- В данном случае, если модель будет обучаться только на этих данных, она может иметь высокую точность, просто предсказывая, что все объекты неопасные. Это приведет к тому, что модель будет плохо определять опасные объекты.\n", + "\n", + "# Набор данных Healthcare\n", + "- Пропорция классов также сильно несбалансирована: только 4.87% объектов относятся к классу 1 (с инсультом).\n", + "- Как и в предыдущем случае, если модель будет обучаться на этих данных, она может показывать высокую точность, просто предсказывая, что все объекты без инсульта.\n", + "\n", + "# Набор данных Diabetes\n", + "- Здесь классы более сбалансированы, чем в предыдущих примерах, хотя класс 0 все еще составляет 65.15% и класс 1 34.85%.\n", + "- Модель может научиться определять оба класса, но если точность по классу 1 будет низкой, можно рассмотреть методы аугментации.\n", + "\n", + "1. Oversampling (приращение данных): Увеличение числа примеров для меньшинства классов.\n", + "2. Undersampling (уменьшение данных): Уменьшение числа примеров для большинства классов." + ] }, { "cell_type": "code", - "execution_count": null, + "execution_count": 20, "metadata": {}, - "outputs": [], - "source": [] - }, - { - "cell_type": "code", - "execution_count": null, - "metadata": {}, - "outputs": [], - "source": [] + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Oversampling для Neo:\n", + "hazardous\n", + "False 81996\n", + "True 81996\n", + "Name: count, dtype: int64\n", + "\n", + "Undersampling для Healthcare:\n", + "stroke\n", + "0 249\n", + "1 249\n", + "Name: count, dtype: int64\n", + "\n", + "Oversampling для Diabetes:\n", + "Outcome\n", + "1 500\n", + "0 500\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "from imblearn.over_sampling import RandomOverSampler\n", + "from imblearn.under_sampling import RandomUnderSampler\n", + "\n", + "# Пример Oversampling для Neo\n", + "X_neo = neo.drop('hazardous', axis=1) \n", + "y_neo = neo['hazardous'] \n", + "\n", + "# Oversampling\n", + "ros_neo = RandomOverSampler(random_state=42)\n", + "X_neo_resampled, y_neo_resampled = ros_neo.fit_resample(X_neo, y_neo)\n", + "neo_resampled = pd.DataFrame(X_neo_resampled, columns=X_neo.columns)\n", + "neo_resampled['hazardous'] = y_neo_resampled\n", + "\n", + "print(\"Oversampling для Neo:\")\n", + "print(neo_resampled['hazardous'].value_counts())\n", + "\n", + "\n", + "X_healthcare = healthcare.drop('stroke', axis=1)\n", + "y_healthcare = healthcare['stroke']\n", + "\n", + "# Пример Undersampling для Healthcare\n", + "rus_healthcare = RandomUnderSampler(random_state=42)\n", + "X_healthcare_resampled_under, y_healthcare_resampled_under = rus_healthcare.fit_resample(X_healthcare, y_healthcare)\n", + "healthcare_resampled_under = pd.DataFrame(X_healthcare_resampled_under, columns=X_healthcare.columns)\n", + "healthcare_resampled_under['stroke'] = y_healthcare_resampled_under\n", + "\n", + "print(\"\\nUndersampling для Healthcare:\")\n", + "print(healthcare_resampled_under['stroke'].value_counts())\n", + "\n", + "# Пример Oversampling для Diabetes\n", + "X_diabetes = diabetes.drop('Outcome', axis=1)\n", + "y_diabetes = diabetes['Outcome']\n", + "\n", + "# Oversampling\n", + "ros_diabetes = RandomOverSampler(random_state=42)\n", + "X_diabetes_resampled, y_diabetes_resampled = ros_diabetes.fit_resample(X_diabetes, y_diabetes)\n", + "diabetes_resampled = pd.DataFrame(X_diabetes_resampled, columns=X_diabetes.columns)\n", + "diabetes_resampled['Outcome'] = y_diabetes_resampled\n", + "\n", + "print(\"\\nOversampling для Diabetes:\")\n", + "print(diabetes_resampled['Outcome'].value_counts())" + ] } ], "metadata": { "kernelspec": { - "display_name": "venv", + "display_name": "Python 3", "language": "python", "name": "python3" }, @@ -714,7 +641,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.12.6" + "version": "3.12.5" } }, "nbformat": 4,