AIM-PIbd-32-Bulatova-K-R/lab_1/lab_1.ipynb
2024-09-14 10:41:11 +04:00

113 KiB

Начало лабораторной работы

Выгрузка данных из csv файла в датафрейм

In [7]:
import pandas as pd
df = pd.read_csv("..//static//csv//Medical_insurance.csv")
print(df.columns)
Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')
In [2]:
import matplotlib.pyplot as plt
import pandas as pd 
df = pd.read_csv("..//static//csv//Medical_insurance.csv")

labels = 'Мужчины', 'Женщины'
sizes = [df[df["sex"] == "male"].shape[0],df[df["sex"] == "female"].shape[0]]

print(len([df[df["sex"] == "male"].count(),df[df["sex"] == "female"].count()]))

plt.pie(sizes, labels=labels)
plt.show()
2
No description has been provided for this image

Данная круговая диаграмма показывает соотношение мужчин и женщин. Из диаграмм мы видим, что мужчин больше.

In [6]:
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv("..//static//csv//Medical_insurance.csv")

df_first_30 = df.head(30)

region_charges = df_first_30.groupby('region')['charges'].mean().reset_index()

plt.figure(figsize=(10, 6))
plt.bar(region_charges['region'], region_charges['charges'], color=['blue', 'green', 'red', 'purple'], alpha=0.7)
plt.title('Средняя стоимость страховки по регионам (первые 30 строк)')
plt.xlabel('Регион')
plt.ylabel('Средняя стоимость страховки')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
No description has been provided for this image

Данная столбчатая диаграмма показывает распределение стоимости страховки (charges) по регионам (region) для первых 30 строк данных. Это поможет нам увидеть, как стоимость страховки распределяется по регионам в выбранной выборке.

In [5]:
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv("..//static//csv//Medical_insurance.csv")

age_groups = df.groupby('age')['charges'].mean().reset_index()

plt.figure(figsize=(12, 6))
plt.bar(age_groups['age'], age_groups['charges'], color='green', alpha=0.7)
plt.title('Средняя стоимость страховки по возрастным группам')
plt.xlabel('Возраст')
plt.ylabel('Средняя стоимость страховки')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
No description has been provided for this image

Данная гистограмма показывает распределение стоимости страховки (charges) по возрастным группам. Это поможет нам увидеть, как стоимость страховки меняется в зависимости от возраста.