diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb index 20ba785..9096c9f 100644 --- a/lab_2/lab2.ipynb +++ b/lab_2/lab2.ipynb @@ -4,102 +4,48 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "
Объекты вокруг Земли
\n", - " Ссылка \n", - "Оценки студентов на экзамене
\n", - " Ссылка\n", - "Прогноз цены мобильного телефона
\n", - " Ссылка\n", - "О наборе данных
\n",
- "Контекст
\n",
- "В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.
О наборе данных
\n",
- "Контекст
\n",
- "Оценки, полученные студентами
\n",
- "Содержание
\n",
- "Этот набор данных состоит из оценок, полученных учениками по различным предметам.
\n",
- "Благодарности
\n",
- "http://roycekimmons.com/tools/generated_data/exams
\n",
- "Вдохновение
\n",
- "Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся
О наборе данных
\n",
- "Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n",
- "Столбцы выглядят следующим образом.\n",
+ "## 2 Датасет: Indicators of Heart Disease \n",
+ "https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease\n",
"\n",
- "Название: в этом столбце содержится название мобильного телефона.\n",
+ "Перевод контекста со страницы на Kaggle: \n",
+ " По данным Всемирной организации здравоохранения (ВОЗ), инсульт является второй по значимости причиной смертности во всем мире, на его долю приходится примерно 11% от общего числа смертей. Этот набор данных используется для прогнозирования вероятности инсульта у пациента на основе таких входных параметров, как пол, возраст, различные заболевания и статус курильщика. Каждая строка данных содержит соответствующую информацию о пациенте.\n",
+ "- Из этого описания очевидно что объектами иследования являются реальные пациенты.\n",
+ "- Атрибуты объектов: id, gender, age, hypertension, heart_disease, ever_married, work_type, Residence_type, avg_glucose_level, bmi, smoking_status, stroke\n",
+ "- Очевидная цель этого датасета - это научиться определять будет у человека сердечный приступ или нет.\n",
"\n",
- "Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n",
+ "## 3 Датасет: Pima Indians Diabetes Database\n",
+ "https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database\n",
"\n",
- "Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n",
- "\n",
- "No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n",
- "\n",
- "Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n",
- "\n",
- "Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n",
- "\n",
- "Дисплей: В этом столбце содержится информация о размере экрана телефона.\n",
- "\n",
- "Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n",
- "\n",
- "Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n",
- "какой объём памяти.\n",
- "\n",
- "Android_version: этот столбец сообщает нам о версии Android на телефоне.\n",
- "\n",
- "Цена: Цена телефона.\n",
- "\n",
- "Компания: Компания, которой принадлежит телефон.\n",
- "\n",
- "Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n",
- "\n",
- "быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n",
- "\n",
- "Screen_resolution: Это описывает разрешение экрана телефона.\n",
- "\n",
- "Процессор: В этом столбце приведена информация о процессоре телефона.\n",
- "\n",
- "Имя_процессора: в этом столбце описывается название процессора.\n",
- "
\n",
- "
начинаем...
первое...
Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.
Объекты наблюдения: Астероиды, кометы и другие объекты.
Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'
Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.
\n",
- "Получение сведений о пропущенных данных
Типы пропущенных данных:
None - представление пустых данных в Python
NaN - представление пустых данных в Pandas
'' - пустая строка\n",
- "
Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно
И еще на сайте видно, что колонки \"orbiting_body\" и \"sentry_object\" не имеют никаких значений кроме \"Земля\" и \"false\" соответственно. Значит удалим их
при просмотре типа данных на сайте kaggle выяснилось, что числовые колонки - это 3-7. По ним и будем просматриватьвыбросы и усреднять значения
" - ] - }, - { - "cell_type": "code", - "execution_count": 4, - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Колонка est_diameter_min:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 8306\n", - " Минимальное значение: 0.0006089126\n", - " Максимальное значение: 0.32962154705\n", - " 1-й квартиль (Q1): 0.0192555078\n", - " 3-й квартиль (Q3): 0.1434019235\n", - "\n", - "Колонка est_diameter_max:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 8306\n", - " Минимальное значение: 0.00136157\n", - " Максимальное значение: 0.7370561859\n", - " 1-й квартиль (Q1): 0.0430566244\n", - " 3-й квартиль (Q3): 0.320656449\n", - "\n", - "Колонка relative_velocity:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 1574\n", - " Минимальное значение: 203.34643253\n", - " Максимальное значение: 114380.48061454494\n", - " 1-й квартиль (Q1): 28619.02064490995\n", - " 3-й квартиль (Q3): 62923.60463276395\n", - "\n", - "Колонка miss_distance:\n", - " Есть выбросы: Нет\n", - "Колонка absolute_magnitude:\n", - " Есть выбросы: Да\n", - " Количество выбросов: 101\n", - " Минимальное значение: 14.8\n", - " Максимальное значение: 32.239999999999995\n", - " 1-й квартиль (Q1): 21.34\n", - " 3-й квартиль (Q3): 25.7\n", - "\n" - ] - } - ], - "source": [ - "numeric_columns = ['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude']\n", - "for column in numeric_columns:\n", - " if pd.api.types.is_numeric_dtype(data[column]): # Проверяем, является ли колонка числовой\n", - " q1 = data[column].quantile(0.25) # Находим 1-й квартиль (Q1)\n", - " q3 = data[column].quantile(0.75) # Находим 3-й квартиль (Q3)\n", - " iqr = q3 - q1 # Вычисляем межквартильный размах (IQR)\n", - "\n", - " # Определяем границы для выбросов\n", - " lower_bound = q1 - 1.5 * iqr # Нижняя граница\n", - " upper_bound = q3 + 1.5 * iqr # Верхняя граница\n", - "\n", - " # Подсчитываем количество выбросов\n", - " outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]\n", - " outlier_count = outliers.shape[0]\n", - "\n", - " # Устраняем выбросы: заменяем значения ниже нижней границы на саму нижнюю границу, а выше верхней — на верхнюю\n", - " data[column] = data[column].apply(lambda x: lower_bound if x < lower_bound else upper_bound if x > upper_bound else x)\n", - "\n", - " print(f\"Колонка {column}:\")\n", - " print(f\" Есть выбросы: {'Да' if outlier_count > 0 else 'Нет'}\")\n", - " if(outlier_count > 0) :\n", - " print(f\" Количество выбросов: {outlier_count}\")\n", - " print(f\" Минимальное значение: {data[column].min()}\")\n", - " print(f\" Максимальное значение: {data[column].max()}\")\n", - " print(f\" 1-й квартиль (Q1): {q1}\")\n", - " print(f\" 3-й квартиль (Q3): {q3}\\n\")\n", - " " - ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "так, теперь мы построим диаграммы, чтобы найти зависимость значения \"опасен ли объект\" от других колонок
" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "metadata": {}, - "outputs": [ - { - "data": { - "image/png": "", - "text/plain": [ - "