78 KiB
Начало лабы¶
Выгрузка данных из csv в датафрейм и вывел названия колонок
import pandas as pd
df = pd.read_csv(".//static//csv//diabetes.csv")
print(df.columns)
Вывод данных и первая диаграмма - гистограмма¶
частота людей с диабетом в определенном возрасте
import matplotlib.pyplot as plt
print(df.head())
print(df.tail())
data = df["Age"]
data = data[20:120]
plt.hist(data, color="purple")
plt.xlabel("Возраст")
plt.ylabel("Частота")
На данной гистограмме отображена информация по наличию диабета у индейцев Пима в определенном возрасте. Можем сделать вывод что диабет преобладает у молодых людей в возрасте от 20 до 30 лет, а дальше частота падает, можно сделать вывод, что люди не доживают до старчества
Вторая диаграмма - точечная диаграмма¶
Зависимость инсулина и глюкозы
data = df[["Insulin", "Glucose"]].copy()
plt.scatter(data["Glucose"], data["Insulin"])
plt.xlabel("Глюкоза")
plt.ylabel("Инсулин")
Существует положительная корреляция между уровнем инсулина и уровнем глюкозы. Это означает, что с увеличением уровня инсулина чаще наблюдаются более высокие уровни глюкозы. В диапозоне инсулина от 0 до 200 единиц наблюдается выскоая плотность точек с уровнями глюкозы от 50 до 125, это гвоорит о том, что большинство людей имеют инсулин и глюкозу в этих пределах.
Третья диаграма - Круговая диаграмма¶
Анализ смертности у индейцев Пима.
plt.figure(figsize=(8, 8))
df["Outcome"][0:500].value_counts().plot.pie(autopct='%1.1f%%', startangle=90, pctdistance=1.25, labeldistance=.8)
plt.ylabel('')
На данной круговой диаграмме видим высокую смертность из-за сахарного диабета, из-за него умерло треть населения.