12 KiB
Уф.. начинаем длинную тяжелую лабу...
Информация о первом датасете:
О наборе данных
Контекст
В космическом пространстве существует бесконечное количество объектов. Некоторые из них находятся ближе, чем мы думаем. Хотя нам может казаться, что расстояние в 70 000 км не может причинить нам вред, в астрономическом масштабе это очень маленькое расстояние, которое может нарушить многие природные явления. Таким образом, эти объекты/астероиды могут причинить вред. Поэтому разумно знать, что нас окружает и что может причинить нам вред. Таким образом, этот набор данных содержит список сертифицированных НАСА астероидов, которые классифицируются как ближайшие к Земле объекты.
Информация о втором датасете:
О наборе данных
Контекст
Оценки, полученные студентами
Содержание
Этот набор данных состоит из оценок, полученных учениками по различным предметам.
Благодарности
http://roycekimmons.com/tools/generated_data/exams
Вдохновение
Понять влияние предыстории родителей, подготовки к тестированию и т.д. На успеваемость учащихся
Информация о третьем датасете:
О наборе данных
Этот набор данных был собран путём сбора данных с онлайн-сайтов.
Столбцы выглядят следующим образом.
Название: в этом столбце содержится название мобильного телефона.
Рейтинг: в этом столбце указаны оценки, выставленные телефону. Минимальная оценка — 0, максимальная — 5.
Spec_score: в этом столбце указана оценка телефона на основе его характеристик. Минимальное значение — 0, максимальное — 100.
No_of_sim: в этом столбце указано, поддерживает ли телефон две SIM-карты, 3G, 4G, 5G, LTE.
Оперативная память: В этом столбце содержится информация о оперативной памяти телефона
Аккумулятор: В этой колонке представлена информация о характеристиках аккумулятора телефона.
Дисплей: В этом столбце содержится информация о размере экрана телефона.
Камера: В этой колонке представлена информация о камере, задней и фронтальной.
Внешняя_память: этот столбец содержит информацию о том, поддерживает ли устройство внешнюю память и какой объём памяти.
Android_version: этот столбец сообщает нам о версии Android на телефоне.
Цена: Цена телефона.
Компания: Компания, которой принадлежит телефон.
Встроенная_память: в этом столбце представлена информация о встроенной памяти телефона.
быстрая_зарядка: показывает, поддерживает ли устройство быструю зарядку. Если да, то насколько.
Screen_resolution: Это описывает разрешение экрана телефона.
Процессор: В этом столбце приведена информация о процессоре телефона.
Имя_процессора: в этом столбце описывается название процессора.
начинаем...
первое...
Проблемная область: Это данные о ближайших к Земле объектах (астероиды и кометы), которые могут угрожать нашей планете. Важно анализировать их траектории, размеры и скорость для предотвращения потенциальных катастроф.
Объекты наблюдения: Астероиды, кометы и другие объекты.
Атрибуты: 'id', 'name', 'est_diameter_min', 'est_diameter_max', 'relative_velocity', 'miss_distance', 'orbiting_body', 'sentry_object', 'absolute_magnitude', 'hazardous'
Связи между объектами: Нет явных связей между объектами, но можно изучать корреляции между размером, скоростью и расстоянием объекта.
import pandas as pd
data = pd.read_csv("./csv/1.csv", sep=",")
print("вот столько колонОчек", data.columns.size)
print("вот такие колонОчки:", data.columns.tolist())
Получение сведений о пропущенных данных
Типы пропущенных данных:
None - представление пустых данных в Python
NaN - представление пустых данных в Pandas
'' - пустая строка
# Проверим, есть ли пропущенные значения
print(data.isnull().sum(), "\n")
# Есть ли пустые значения признаков
print(data.isnull().any(), "\n")
Тут понятно, что пропущенных значений нет, поэтому заполнять пустые места не нужно
И еще на сайте видно, что колонки "orbiting_body" и "sentry_object" не имеют никаких значений кроме "Земля" и "false" соответственно. Значит удалим их
# data = data.drop(columns=['sentry_object'])
# data = data.drop(columns=['orbiting_body'])
print(data.columns)