AIM-PIbd-31-Bakalskaya-E-D/lab_2/lab2.ipynb

253 lines
12 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h3><b>Уф.. начинаем длинную тяжелую лабу...</b></h3>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<b>3 набора данных, с которыми будет проводиться работа:</b>\n",
"<ol>\n",
" <li>\n",
" <p>Объекты вокруг Земли</p>\n",
" <a href=\"https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects\">Ссылка</a> \n",
" </li>\n",
" <li>\n",
" <p>Оценки студентов на экзамене</p>\n",
" <a href=\"https://www.kaggle.com/datasets/spscientist/students-performance-in-exams\">Ссылка</a>\n",
" </li>\n",
" <li>\n",
" <p>Прогноз цены мобильного телефона</p>\n",
" <a href=\"https://www.kaggle.com/datasets/dewangmoghe/mobile-phone-price-prediction\">Ссылка</a>\n",
" </li>\n",
"</ol>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<div style=\"margin: 40px;\">\n",
"<h4 >Информация о первом датасете:</h4>\n",
"\n",
"<p style=\"margin: 40px;\"><b>О наборе данных</b><br/>\n",
"Контекст<br/>\n",
"В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.</p>\n",
"\n",
"<br/>\n",
"<h4>Информация о втором датасете:</h4>\n",
"<p style=\"margin: 40px;\"><b>О наборе данных</b><br/>\n",
"Контекст<br/>\n",
"Оценки, полученные студентами<br/>\n",
"Содержание<br/>\n",
"Этот набор данных состоит из оценок, полученных учениками по различным предметам.<br/>\n",
"Благодарности<br/>\n",
"http://roycekimmons.com/tools/generated_data/exams<br/>\n",
"Вдохновение<br/>\n",
"Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся</p>\n",
"<br/>\n",
"\n",
"<h4>Информация о третьем датасете:</h4>\n",
"<p style=\"margin: 40px;\"><b>О наборе данных</b><br/>\n",
"Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n",
"Столбцы выглядят следующим образом.\n",
"\n",
"Название: в этом столбце содержится название мобильного телефона.\n",
"\n",
"Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n",
"\n",
"Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n",
"\n",
"No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n",
"\n",
"Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n",
"\n",
"Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n",
"\n",
"Дисплей: В этом столбце содержится информация о размере экрана телефона.\n",
"\n",
"Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n",
"\n",
"Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n",
"какой объём памяти.\n",
"\n",
"Android_version: этот столбец сообщает нам о версии Android на телефоне.\n",
"\n",
"Цена: Цена телефона.\n",
"\n",
"Компания: Компания, которой принадлежит телефон.\n",
"\n",
"Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n",
"\n",
"быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n",
"\n",
"Screen_resolution: Это описывает разрешение экрана телефона.\n",
"\n",
"Процессор: В этом столбце приведена информация о процессоре телефона.\n",
"\n",
"Имя_процессора: в этом столбце описывается название процессора.\n",
"<br/>\n",
"</div>\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<p style=\"margin: 40px;\">начинаем...<br>первое...<br>Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.<br>Объекты наблюдения: Астероиды, кометы и другие объекты.<br>Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'<br>Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.</p>"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"вот столько колонОчек 10\n",
"вот такие колонОчки: ['id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous']\n"
]
}
],
"source": [
"import pandas as pd\n",
"\n",
"data = pd.read_csv(\"./csv/1.csv\", sep=\",\")\n",
"print(\"вот столько колонОчек\", data.columns.size)\n",
"print(\"вот такие колонОчки:\", data.columns.tolist()) "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<p style=\"margin: 40px;\">\n",
"Получение сведений о пропущенных данных <br>Типы пропущенных данных:<br>None - представление пустых данных в Python<br>NaN - представление пустых данных в Pandas<br>'' - пустая строка\n",
"</p>"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"id 0\n",
"name 0\n",
"est_diameter_min 0\n",
"est_diameter_max 0\n",
"relative_velocity 0\n",
"miss_distance 0\n",
"orbiting_body 0\n",
"sentry_object 0\n",
"absolute_magnitude 0\n",
"hazardous 0\n",
"dtype: int64 \n",
"\n",
"id False\n",
"name False\n",
"est_diameter_min False\n",
"est_diameter_max False\n",
"relative_velocity False\n",
"miss_distance False\n",
"orbiting_body False\n",
"sentry_object False\n",
"absolute_magnitude False\n",
"hazardous False\n",
"dtype: bool \n",
"\n"
]
}
],
"source": [
"# Проверим, есть ли пропущенные значения\n",
"print(data.isnull().sum(), \"\\n\")\n",
"\n",
"# Есть ли пустые значения признаков\n",
"print(data.isnull().any(), \"\\n\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<p style=\"margin: 40px;\">Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно <br>И еще на сайте видно, что колонки \"orbiting_body\" и \"sentry_object\" не имеют никаких значений кроме \"Земля\" и \"false\" соответственно. Значит удалим их</p>"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Index(['id', 'name', 'est_diameter_min', 'est_diameter_max',\n",
" 'relative_velocity', 'miss_distance', 'absolute_magnitude',\n",
" 'hazardous'],\n",
" dtype='object')\n"
]
}
],
"source": [
"# data = data.drop(columns=['sentry_object'])\n",
"# data = data.drop(columns=['orbiting_body'])\n",
"print(data.columns)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "venv",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}