AIM_PIbd-31_Tabeev_A.P/lab_1/lab1.ipynb

78 KiB
Raw Permalink Blame History

Начало лабы

Выгрузка данных из csv в датафрейм и вывел названия колонок

In [1]:
import pandas as pd
df = pd.read_csv(".//static//csv//diabetes.csv")
print(df.columns)
Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

Вывод данных и первая диаграмма - гистограмма

частота людей с диабетом в определенном возрасте

In [37]:
import matplotlib.pyplot as plt

print(df.head())
print(df.tail())

data = df["Age"]
data = data[20:120]

plt.hist(data, color="purple")
plt.xlabel("Возраст")
plt.ylabel("Частота")
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  
     Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
763           10      101             76             48      180  32.9   
764            2      122             70             27        0  36.8   
765            5      121             72             23      112  26.2   
766            1      126             60              0        0  30.1   
767            1       93             70             31        0  30.4   

     DiabetesPedigreeFunction  Age  Outcome  
763                     0.171   63        0  
764                     0.340   27        0  
765                     0.245   30        0  
766                     0.349   47        1  
767                     0.315   23        0  
Out[37]:
Text(0, 0.5, 'Частота')
No description has been provided for this image

На данной гистограмме отображена информация по наличию диабета у индейцев Пима в определенном возрасте. Можем сделать вывод что диабет преобладает у молодых людей в возрасте от 20 до 30 лет, а дальше частота падает, можно сделать вывод, что люди не доживают до старчества

Вторая диаграмма - точечная диаграмма

Зависимость инсулина и глюкозы

In [39]:
data = df[["Insulin", "Glucose"]].copy()
plt.scatter(data["Glucose"], data["Insulin"])
plt.xlabel("Глюкоза")
plt.ylabel("Инсулин")
Out[39]:
Text(0, 0.5, 'Инсулин')
No description has been provided for this image

Существует положительная корреляция между уровнем инсулина и уровнем глюкозы. Это означает, что с увеличением уровня инсулина чаще наблюдаются более высокие уровни глюкозы. В диапозоне инсулина от 0 до 200 единиц наблюдается выскоая плотность точек с уровнями глюкозы от 50 до 125, это гвоорит о том, что большинство людей имеют инсулин и глюкозу в этих пределах.

Третья диаграма - Круговая диаграмма

Анализ смертности у индейцев Пима.

In [44]:
plt.figure(figsize=(8, 8))
df["Outcome"][0:500].value_counts().plot.pie(autopct='%1.1f%%', startangle=90, pctdistance=1.25, labeldistance=.8)
plt.ylabel('')
Out[44]:
Text(0, 0.5, '')
No description has been provided for this image

На данной круговой диаграмме видим высокую смертность из-за сахарного диабета, из-за него умерло треть населения.