{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "

Уф.. начинаем длинную тяжелую лабу...

" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "3 набора данных, с которыми будет проводиться работа:\n", "
    \n", "
  1. \n", "

    Объекты вокруг Земли

    \n", " Ссылка \n", "
  2. \n", "
  3. \n", "

    Оценки студентов на экзамене

    \n", " Ссылка\n", "
  4. \n", "
  5. \n", "

    Прогноз цены мобильного телефона

    \n", " Ссылка\n", "
  6. \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "

Информация о первом датасете:

\n", "\n", "

О наборе данных
\n", "Контекст
\n", "В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.

\n", "\n", "
\n", "

Информация о втором датасете:

\n", "

О наборе данных
\n", "Контекст
\n", "Оценки, полученные студентами
\n", "Содержание
\n", "Этот набор данных состоит из оценок, полученных учениками по различным предметам.
\n", "Благодарности
\n", "http://roycekimmons.com/tools/generated_data/exams
\n", "Вдохновение
\n", "Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся

\n", "
\n", "\n", "

Информация о третьем датасете:

\n", "

О наборе данных
\n", "Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n", "Столбцы выглядят следующим образом.\n", "\n", "Название: в этом столбце содержится название мобильного телефона.\n", "\n", "Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n", "\n", "Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n", "\n", "No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n", "\n", "Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n", "\n", "Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n", "\n", "Дисплей: В этом столбце содержится информация о размере экрана телефона.\n", "\n", "Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n", "\n", "Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n", "какой объём памяти.\n", "\n", "Android_version: этот столбец сообщает нам о версии Android на телефоне.\n", "\n", "Цена: Цена телефона.\n", "\n", "Компания: Компания, которой принадлежит телефон.\n", "\n", "Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n", "\n", "быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n", "\n", "Screen_resolution: Это описывает разрешение экрана телефона.\n", "\n", "Процессор: В этом столбце приведена информация о процессоре телефона.\n", "\n", "Имя_процессора: в этом столбце описывается название процессора.\n", "
\n", "

\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

начинаем...
первое...
Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.
Объекты наблюдения: Астероиды, кометы и другие объекты.
Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'
Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.

" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "вот столько колонОчек 10\n", "вот такие колонОчки: ['id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous']\n" ] } ], "source": [ "import pandas as pd\n", "\n", "data = pd.read_csv(\"./csv/1.csv\", sep=\",\")\n", "print(\"вот столько колонОчек\", data.columns.size)\n", "print(\"вот такие колонОчки:\", data.columns.tolist()) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

\n", "Получение сведений о пропущенных данных
Типы пропущенных данных:
None - представление пустых данных в Python
NaN - представление пустых данных в Pandas
'' - пустая строка\n", "

" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "id 0\n", "name 0\n", "est_diameter_min 0\n", "est_diameter_max 0\n", "relative_velocity 0\n", "miss_distance 0\n", "orbiting_body 0\n", "sentry_object 0\n", "absolute_magnitude 0\n", "hazardous 0\n", "dtype: int64 \n", "\n", "id False\n", "name False\n", "est_diameter_min False\n", "est_diameter_max False\n", "relative_velocity False\n", "miss_distance False\n", "orbiting_body False\n", "sentry_object False\n", "absolute_magnitude False\n", "hazardous False\n", "dtype: bool \n", "\n" ] } ], "source": [ "# Проверим, есть ли пропущенные значения\n", "print(data.isnull().sum(), \"\\n\")\n", "\n", "# Есть ли пустые значения признаков\n", "print(data.isnull().any(), \"\\n\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "

Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно
И еще на сайте видно, что колонки \"orbiting_body\" и \"sentry_object\" не имеют никаких значений кроме \"Земля\" и \"false\" соответственно. Значит удалим их

" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['id', 'name', 'est_diameter_min', 'est_diameter_max',\n", " 'relative_velocity', 'miss_distance', 'absolute_magnitude',\n", " 'hazardous'],\n", " dtype='object')\n" ] } ], "source": [ "# data = data.drop(columns=['sentry_object'])\n", "# data = data.drop(columns=['orbiting_body'])\n", "print(data.columns)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "venv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.12.6" } }, "nbformat": 4, "nbformat_minor": 2 }