2024-10-19 18:47:35 +04:00

103 KiB
Raw Permalink Blame History

Lab 1 Sagirov M.M

Загрузка датасета по варианту 5

In [25]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("..//datasets//Lab_1//Medical_insurance.csv", sep=",")

Первая диаграмма: Распределение по возрасту

In [29]:
plt.figure(figsize=(10, 5))
plt.hist(df['age'],bins=20, color='lightblue', edgecolor='black')
plt.title('Распределение по годам рождения клиентов страхования')
plt.xlabel('Возраст')
plt.ylabel('Количество клиентов')
plt.grid(True)
plt.show()
No description has been provided for this image

Из данной диаграммы видно, что в нашем датасете с перевесом преобладают данные о людях в возрасте до 20-ти лет

Вторая диаграмма: Столбчатая диаграмма сумма расходов по регионам за первые 30 строк

In [36]:
df_slice = df.iloc[0:30]
region_charges = df_slice.groupby('region')['charges'].sum()
plt.figure(figsize=(10, 6))
region_charges.plot(kind='bar', color=['red','green','lightblue','purple'], edgecolor='black')
plt.title('Суммарные расходы по регионам')
plt.xlabel('Регионы')
plt.ylabel('Суммарные расходы')
plt.xticks(rotation=45)
plt.tight_layout()
plt.grid(True)
plt.show()
No description has been provided for this image

Данная диаграмма позволяет сделать вывод о том, что лидером по расходам является Юго-восток, а меньше всего тратят на Северо-западе

Третья диаграмма: Круговая диаграмма курящих по полу

In [38]:
smokers_df = df[df['smoker'] == 'yes']
smokers_by_sex = smokers_df['sex'].value_counts()
plt.figure(figsize=(10, 6))
plt.pie(smokers_by_sex, labels=smokers_by_sex.index, autopct='%1.1f%%', colors=['lightcoral', 'lightskyblue'])
plt.title('Процент курящих по полу')
plt.show()
No description has been provided for this image

Данная диаграмма позволяет сделать вывод о том, что среди мужчин процент курящих больше, чем среди женщин.