117 KiB
import pandas as pd
df = pd.read_csv("../dataset.csv")
print(df.columns)
Данная диаграмма отображает зависимость курения от стоимости страховки, что позволяет сделать вывод о том, что курящие люди платят больше за страховку
df.plot.scatter(x="smoker", y="charges")
Данная диаграмма отображает зависимость количества детей от стоимости страховки, что позволяет сделать вывод о том, что люди с двумя и тремя детьми платят наиболее высокую цену за страховку. Однако в силу других факторов люди с одним ребенком или без детей могут платить даже большую цену
print(df["children"].min(), df["children"].max())
df.boxplot(column="charges", by="children")
Данная диаграмма отображает зависимость возраста от стоимости страховки, что позволяет сделать вывод о том, что более старые люди платят большую цену за страховку. Желтым цветом составлен тот же самый график, но только на срезе с первой по тридцатую строку, он показывает, что на мельшей выборке можно проследить общую динамику, но сам график становится менее точным
avg = df.groupby('age')['charges'].mean()
avg.plot.line()
subset = df.iloc[0:30]
avg = subset.groupby('age')['charges'].mean()
avg.plot.line()