AIM-PIbd-31-LOBASHOV-I-D/lab_1/lab_1.ipynb
2024-09-14 12:36:22 +04:00

131 KiB
Raw Blame History

Начало лабораторной работы

In [12]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("..\\static\\csv\\Forbes Billionaires.csv", index_col="Rank ")

print(df)
                            Name  Networth  Age        Country  \
Rank                                                             
1                     Elon Musk      219.0   50  United States   
2                    Jeff Bezos      171.0   58  United States   
3      Bernard Arnault & family      158.0   73         France   
4                    Bill Gates      129.0   66  United States   
5                Warren Buffett      118.0   91  United States   
...                          ...       ...  ...            ...   
2578     Jorge Gallardo Ballart        1.0   80          Spain   
2578               Nari Genomal        1.0   82    Philippines   
2578             Ramesh Genomal        1.0   71    Philippines   
2578             Sunder Genomal        1.0   68    Philippines   
2578      Horst-Otto Gerberding        1.0   69        Germany   

                       Source                Industry  
Rank                                                   
1               Tesla, SpaceX             Automotive   
2                      Amazon             Technology   
3                        LVMH       Fashion & Retail   
4                   Microsoft             Technology   
5          Berkshire Hathaway  Finance & Investments   
...                       ...                     ...  
2578          pharmaceuticals             Healthcare   
2578                  apparel       Fashion & Retail   
2578                  apparel       Fashion & Retail   
2578                 garments       Fashion & Retail   
2578   flavors and fragrances        Food & Beverage   

[2600 rows x 6 columns]
In [16]:
plt.figure(figsize=(10, 6))
plt.hist(df['Age'], bins=10, edgecolor='black')
plt.title('Распределение возраста')
plt.xlabel('Возраст')
plt.ylabel('Количество')
plt.show()
No description has been provided for this image

Данная диаграмма отображает распределение возраста среди участников датасета, что позволяет сделать вывод о том, что большинство участников находятся в возрастной группе 30-50 лет.

In [19]:
subset_df = df.iloc[0:30]
country_counts = subset_df['Country'].value_counts()
plt.figure(figsize=(10, 6))
plt.pie(country_counts, labels=country_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('Распределение по странам')
plt.show()
No description has been provided for this image

Данная диаграмма отображает распределение участников по странам (срез данных от 1 до 30 строки), что позволяет сделать вывод о том, что большинство участников происходят из США

In [27]:
industry_counts = df['Industry'].value_counts()
plt.figure(figsize=(10, 6))
plt.bar(industry_counts.index, industry_counts.values, color='skyblue')
plt.title('Распределение по отраслям')
plt.xlabel('Отрасль')
plt.ylabel('Количество')
plt.show()
No description has been provided for this image

Данная диаграмма отображает распределение участников по отраслям