103 KiB
103 KiB
Lab 1 Sagirov M.M¶
Загрузка датасета по варианту 5¶
In [25]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("..//datasets//Lab_1//Medical_insurance.csv", sep=",")
Первая диаграмма: Распределение по возрасту¶
In [29]:
plt.figure(figsize=(10, 5))
plt.hist(df['age'],bins=20, color='lightblue', edgecolor='black')
plt.title('Распределение по годам рождения клиентов страхования')
plt.xlabel('Возраст')
plt.ylabel('Количество клиентов')
plt.grid(True)
plt.show()
Из данной диаграммы видно, что в нашем датасете с перевесом преобладают данные о людях в возрасте до 20-ти лет
Вторая диаграмма: Столбчатая диаграмма сумма расходов по регионам за первые 30 строк¶
In [36]:
df_slice = df.iloc[0:30]
region_charges = df_slice.groupby('region')['charges'].sum()
plt.figure(figsize=(10, 6))
region_charges.plot(kind='bar', color=['red','green','lightblue','purple'], edgecolor='black')
plt.title('Суммарные расходы по регионам')
plt.xlabel('Регионы')
plt.ylabel('Суммарные расходы')
plt.xticks(rotation=45)
plt.tight_layout()
plt.grid(True)
plt.show()
Данная диаграмма позволяет сделать вывод о том, что лидером по расходам является Юго-восток, а меньше всего тратят на Северо-западе
Третья диаграмма: Круговая диаграмма курящих по полу¶
In [38]:
smokers_df = df[df['smoker'] == 'yes']
smokers_by_sex = smokers_df['sex'].value_counts()
plt.figure(figsize=(10, 6))
plt.pie(smokers_by_sex, labels=smokers_by_sex.index, autopct='%1.1f%%', colors=['lightcoral', 'lightskyblue'])
plt.title('Процент курящих по полу')
plt.show()
Данная диаграмма позволяет сделать вывод о том, что среди мужчин процент курящих больше, чем среди женщин.