ну.... начала делать 2 лабу

This commit is contained in:
Елена Бакальская 2024-10-19 17:27:50 +04:00
parent cf4376f02f
commit 31dbf9fbfd
4 changed files with 93455 additions and 0 deletions

90837
lab_2/csv/1.csv Normal file

File diff suppressed because it is too large Load Diff

1001
lab_2/csv/2.csv Normal file

File diff suppressed because it is too large Load Diff

1371
lab_2/csv/3.csv Normal file

File diff suppressed because it is too large Load Diff

246
lab_2/lab2.ipynb Normal file
View File

@ -0,0 +1,246 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h3><b>Уф.. начинаем длинную тяжелую лабу...</b></h3>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<b>3 набора данных, с которыми будет проводиться работа:</b>\n",
"<ol>\n",
" <li>\n",
" <p>Объекты вокруг Земли</p>\n",
" <a href=\"https://www.kaggle.com/datasets/sameepvani/nasa-nearest-earth-objects\">Ссылка</a> \n",
" </li>\n",
" <li>\n",
" <p>Оценки студентов на экзамене</p>\n",
" <a href=\"https://www.kaggle.com/datasets/spscientist/students-performance-in-exams\">Ссылка</a>\n",
" </li>\n",
" <li>\n",
" <p>Прогноз цены мобильного телефона</p>\n",
" <a href=\"https://www.kaggle.com/datasets/dewangmoghe/mobile-phone-price-prediction\">Ссылка</a>\n",
" </li>\n",
"</ol>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h4>Информация о первом датасете:</h4>\n",
"\n",
"<p><b>О наборе данных</b><br/>\n",
"Контекст<br/>\n",
"В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.</p>\n",
"\n",
"<br/>\n",
"<h4>Информация о втором датасете:</h4>\n",
"<p><b>О наборе данных</b><br/>\n",
"Контекст<br/>\n",
"Оценки, полученные студентами<br/>\n",
"Содержание<br/>\n",
"Этот набор данных состоит из оценок, полученных учениками по различным предметам.<br/>\n",
"Благодарности<br/>\n",
"http://roycekimmons.com/tools/generated_data/exams<br/>\n",
"Вдохновение<br/>\n",
"Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся</p>\n",
"<br/>\n",
"\n",
"<h4>Информация о третьем датасете:</h4>\n",
"<p><b>О наборе данных</b><br/>\n",
"Этот набор данных был собран путём сбора данных с онлайн-сайтов.\n",
"Столбцы выглядят следующим образом.\n",
"\n",
"Название: в этом столбце содержится название мобильного телефона.\n",
"\n",
"Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.\n",
"\n",
"Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.\n",
"\n",
"No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.\n",
"\n",
"Оперативная память: В этом столбце содержится информация о оперативной памяти телефона\n",
"\n",
"Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.\n",
"\n",
"Дисплей: В этом столбце содержится информация о размере экрана телефона.\n",
"\n",
"Камера: В этой колонке представлена информация о камере, задней и фронтальной.\n",
"\n",
"Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и\n",
"какой объём памяти.\n",
"\n",
"Android_version: этот столбец сообщает нам о версии Android на телефоне.\n",
"\n",
"Цена: Цена телефона.\n",
"\n",
"Компания: Компания, которой принадлежит телефон.\n",
"\n",
"Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.\n",
"\n",
"быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.\n",
"\n",
"Screen_resolution: Это описывает разрешение экрана телефона.\n",
"\n",
"Процессор: В этом столбце приведена информация о процессоре телефона.\n",
"\n",
"Имя_процессора: в этом столбце описывается название процессора.\n",
"<br/>\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"начинаем...\n",
"первое...\n",
"Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.\n",
"\n",
"Объекты наблюдения: Астероиды, кометы и другие объекты.\n",
"Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'\n",
"Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта."
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"вот столько колонОчек 10\n",
"вот такие колонОчки: ['id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous']\n"
]
}
],
"source": [
"import pandas as pd\n",
"\n",
"data = pd.read_csv(\"./csv/1.csv\", sep=\",\")\n",
"print(\"вот столько колонОчек\", data.columns.size)\n",
"print(\"вот такие колонОчки:\", data.columns.tolist()) "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Получение сведений о пропущенных данных\n",
"\n",
"Типы пропущенных данных:\n",
"\n",
"None - представление пустых данных в Python\n",
"NaN - представление пустых данных в Pandas\n",
"'' - пустая строка"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"id 0\n",
"name 0\n",
"est_diameter_min 0\n",
"est_diameter_max 0\n",
"relative_velocity 0\n",
"miss_distance 0\n",
"orbiting_body 0\n",
"sentry_object 0\n",
"absolute_magnitude 0\n",
"hazardous 0\n",
"dtype: int64 \n",
"\n",
"id False\n",
"name False\n",
"est_diameter_min False\n",
"est_diameter_max False\n",
"relative_velocity False\n",
"miss_distance False\n",
"orbiting_body False\n",
"sentry_object False\n",
"absolute_magnitude False\n",
"hazardous False\n",
"dtype: bool \n",
"\n"
]
}
],
"source": [
"# Проверим, есть ли пропущенные значения\n",
"print(data.isnull().sum(), \"\\n\")\n",
"\n",
"# Есть ли пустые значения признаков\n",
"print(data.isnull().any(), \"\\n\")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "venv",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}