48 KiB
48 KiB
Лабораторная работа 2. Анализ нескольких датасетов.¶
1.Выбрать три набора данных, которые не соответствуют Вашему варианту задания¶
Выбранны варианты: Данные по инсультам(Вариант 4), Продажи домов(Вариант 6), Цены на мобильные устройства (Вариант 18)
2. Провести анализ сведений о каждом наборе данных со страницы загрузки в Kaggle. Какова проблемная область?¶
Данные по инсультам:¶
- Проблемная область: Анализ данных о пациентах с инсультом
- Цели: Анализ данных о пациентах с инсультом, определение факторов, влияющих на исход лечения
- Набор данных: 5111 записей, 12 переменных:
- id
- gender
- age
- hypertension
- heart_disease
- ever_married
- work_type
- residence_typr
- avg_glucose_level
- bmi
- smoking_status
- stroke
- Описание данных: Сведения о пациентах с инсультом, их лечении и исходе лечения
Продажи домов:¶
- Проблемная область: Анализ продаж домов и их цен в зависисмости от различных факторов
- Цели: Анализ продаж домов, определение факторов, влияющих на цены
- Набор данных: 21614 записей, 21 переменная:
- id
- date
- price
- bedrooms
- bathrooms
- sqft_living
- sqft_loft
- floors
- waterfront
- view
- condition
- grade
- sqft_above
- sqft_basment
- yr_build
- yr_renovated
- zipcode
- lat
- longsqft_living15
- sqft_lot15
- Описание данных: Сведения о проданных домах в King County, США
Цены на мобильные устройства:¶
- Проблемная область: Анализ цен на мобильные устройства
- Цели: Анализ цен на мобильные устройства, определение факторов, влияющих на цены
- Набор данных: 1371 записей, 18 переменных:
- id
- name
- rating
- spec_score
- no_of_sim
- ram
- battery
- camera
- external_memory
- android_version
- price
- company
- inbuild_memory
- fast_charging
- screen_resolution
- processor
- processor_name
- Описание данных: Сведения о ценах на мобильные устройства в зависимости от различных факторов
Данные по инсультам:¶
Каждая строка в датасете содержит соответствующую информацию о пациенте, что позволяет проводить анализ и строить модели для предсказания риска инсульта.
In [1]:
import pandas as pd
var4 = pd.read_csv("./datasets/var4/healthcare-dataset-stroke-data.csv")
var4
Out[1]:
In [2]:
var4.dtypes
Out[2]:
Продажи домов¶
Каждая строка в датасете содержит соответствующую информацию о доме, что позволяет проводить анализ и строить модели для предсказания его цены.
In [7]:
var6 = pd.read_csv("./datasets/var6/kc_house_data.csv")
var6
Out[7]:
In [8]:
var6.dtypes
Out[8]:
Цены на мобильные устройства¶
Каждая строка в датасете содержит соответствующую информацию о мобильном устройстве, что позволяет проводить анализ и строить модели для предсказания его цены.
In [6]:
var18 = pd.read_csv("./datasets/var18/mobile_phone_price_prediction.csv")
var18
Out[6]:
In [9]:
var18.dtypes
Out[9]: