{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "
Объекты вокруг Земли
\n", " Ссылка \n", "Оценки студентов на экзамене
\n", " Ссылка\n", "Прогноз цены мобильного телефона
\n", " Ссылка\n", "О наборе данных
\n",
"Контекст
\n",
"В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.
О наборе данных
\n",
"Контекст
\n",
"Оценки, полученные студентами
\n",
"Содержание
\n",
"Этот набор данных состоит из оценок, полученных учениками по различным предметам.
\n",
"Благодарности
\n",
"http://roycekimmons.com/tools/generated_data/exams
\n",
"Вдохновение
\n",
"Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся
О наборе данных
\n",
"Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n",
"Столбцы выглядят следующим образом.\n",
"\n",
"Название: в этом столбце содержится название мобильного телефона.\n",
"\n",
"Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n",
"\n",
"Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n",
"\n",
"No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n",
"\n",
"Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n",
"\n",
"Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n",
"\n",
"Дисплей: В этом столбце содержится информация о размере экрана телефона.\n",
"\n",
"Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n",
"\n",
"Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n",
"какой объём памяти.\n",
"\n",
"Android_version: этот столбец сообщает нам о версии Android на телефоне.\n",
"\n",
"Цена: Цена телефона.\n",
"\n",
"Компания: Компания, которой принадлежит телефон.\n",
"\n",
"Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n",
"\n",
"быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n",
"\n",
"Screen_resolution: Это описывает разрешение экрана телефона.\n",
"\n",
"Процессор: В этом столбце приведена информация о процессоре телефона.\n",
"\n",
"Имя_процессора: в этом столбце описывается название процессора.\n",
"
\n",
"
начинаем...
первое...
Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.
Объекты наблюдения: Астероиды, кометы и другие объекты.
Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'
Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.
\n",
"Получение сведений о пропущенных данных
Типы пропущенных данных:
None - представление пустых данных в Python
NaN - представление пустых данных в Pandas
'' - пустая строка\n",
"
Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно
И еще на сайте видно, что колонки \"orbiting_body\" и \"sentry_object\" не имеют никаких значений кроме \"Земля\" и \"false\" соответственно. Значит удалим их
при просмотре типа данных на сайте kaggle выяснилось, что числовые колонки - это 3-7. По ним и будем просматриватьвыбросы и усреднять значения
" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Колонка est_diameter_min:\n", " Есть выбросы: Да\n", " Количество выбросов: 8306\n", " Минимальное значение: 0.0006089126\n", " Максимальное значение: 0.32962154705\n", " 1-й квартиль (Q1): 0.0192555078\n", " 3-й квартиль (Q3): 0.1434019235\n", "\n", "Колонка est_diameter_max:\n", " Есть выбросы: Да\n", " Количество выбросов: 8306\n", " Минимальное значение: 0.00136157\n", " Максимальное значение: 0.7370561859\n", " 1-й квартиль (Q1): 0.0430566244\n", " 3-й квартиль (Q3): 0.320656449\n", "\n", "Колонка relative_velocity:\n", " Есть выбросы: Да\n", " Количество выбросов: 1574\n", " Минимальное значение: 203.34643253\n", " Максимальное значение: 114380.48061454494\n", " 1-й квартиль (Q1): 28619.02064490995\n", " 3-й квартиль (Q3): 62923.60463276395\n", "\n", "Колонка miss_distance:\n", " Есть выбросы: Нет\n", "Колонка absolute_magnitude:\n", " Есть выбросы: Да\n", " Количество выбросов: 101\n", " Минимальное значение: 14.8\n", " Максимальное значение: 32.239999999999995\n", " 1-й квартиль (Q1): 21.34\n", " 3-й квартиль (Q3): 25.7\n", "\n" ] } ], "source": [ "numeric_columns = ['est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'absolute_magnitude']\n", "for column in numeric_columns:\n", " if pd.api.types.is_numeric_dtype(data[column]): # Проверяем, является ли колонка числовой\n", " q1 = data[column].quantile(0.25) # Находим 1-й квартиль (Q1)\n", " q3 = data[column].quantile(0.75) # Находим 3-й квартиль (Q3)\n", " iqr = q3 - q1 # Вычисляем межквартильный размах (IQR)\n", "\n", " # Определяем границы для выбросов\n", " lower_bound = q1 - 1.5 * iqr # Нижняя граница\n", " upper_bound = q3 + 1.5 * iqr # Верхняя граница\n", "\n", " # Подсчитываем количество выбросов\n", " outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]\n", " outlier_count = outliers.shape[0]\n", "\n", " # Устраняем выбросы: заменяем значения ниже нижней границы на саму нижнюю границу, а выше верхней — на верхнюю\n", " data[column] = data[column].apply(lambda x: lower_bound if x < lower_bound else upper_bound if x > upper_bound else x)\n", "\n", " print(f\"Колонка {column}:\")\n", " print(f\" Есть выбросы: {'Да' if outlier_count > 0 else 'Нет'}\")\n", " if(outlier_count > 0) :\n", " print(f\" Количество выбросов: {outlier_count}\")\n", " print(f\" Минимальное значение: {data[column].min()}\")\n", " print(f\" Максимальное значение: {data[column].max()}\")\n", " print(f\" 1-й квартиль (Q1): {q1}\")\n", " print(f\" 3-й квартиль (Q3): {q3}\\n\")\n", " " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "так, теперь мы построим диаграммы, чтобы найти зависимость значения \"опасен ли объект\" от других колонок
" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "