176 KiB
176 KiB
Выгружаем данные при помощи Pandas из csv файла в количестве 10000 строк.
In [4]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("data/age.csv", nrows=10000)
Смотрим количество и название столбцов таблицы
In [40]:
print(df.describe().transpose())
Узнаем количество людей относящихся к той или иной стране
In [12]:
df['Country'] = df['Country'].str.split('; ')
df1 = df.explode('Country')
countrys = df1.groupby("Country").size().reset_index(name="Count") # type: ignore
country_counts_sorted = countrys.sort_values(by='Count', ascending=False)
top_countries = country_counts_sorted.head(50)
top_countries.plot.bar(x='Country', y='Count', color=['green'])
plt.title('Top Countries by count of people')
plt.xlabel('Country')
plt.ylabel('Number of People')
plt.show()
Длительность жизни по полу
In [11]:
dfgender = df[df['Gender'].isin(['Male', 'Female'])]
dfgender[0:1000].boxplot(column='Age of death', by='Gender')
plt.title('Lifespan by Gender')
plt.suptitle('') # Убираем автоматический заголовок
plt.xlabel('Gender')
plt.ylabel('Lifespan')
plt.show()
Количество людей родившихся в тот или иной год
In [10]:
from matplotlib.pyplot import xlim
df.plot.hist(column=["Birth year"], xlim=(1900, 2000), bins=4000)
Out[10]: