58 KiB
Начало лабораборной¶
Выгрузка данных из csv файла в датафрейм
import pandas as pd
import numpy as np
df = pd.read_csv("..//..//static//csv//StudentsPerformance.csv")
print (df.columns)
Данная гистограмма в диапазоне с 10 по 51 строки отображает: На оси X значения оценок по математике, разбитые на 100 интервалов. На оси Y будет указано количество записей (частота) в каждом из этих интервалов. Анализируя гистограмму "math score", можно сделать выводы о том, как распределяются оценки. Например, оценку 70 имеет 4 человека, а оценку 18 всего 1 человек из этого диапазона.
df.iloc[10:51].plot.hist(column=["math score"], bins=100)
Данная гистограмма отображает прцоентное соотношение мужчин и женщин. Что позволяет сделать вывод о том, что женщин среди студентов больше, чем мужчин.
import matplotlib.pyplot as plt
labels = 'Женщины', 'Мужчины'
sizes = [len(df[df['gender']== 'female']),
len(df[df['gender']== 'male'])]
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.show()
Данная диаграмма отображает соотношение студентов, которые прошли курс подготовки к тестированию по группам. Что позволяет сделать вывод о том, что, например, больше всего неподготовленных студентов в группе С.
plot = df.groupby(["race/ethnicity", "test preparation course"]).size().unstack().plot.bar(color=["pink", "green"])
plot.legend(["Прошёл", "Не прошёл"])