AIM-PIbd-31-Potapov-N-S/lab_1/lab1.ipynb

145 KiB
Raw Blame History

No description has been provided for this image

Импортируем библиотеку pandas и загружаем датасет (разделителем указываем точку с запятой)

In [28]:
import pandas as pd
df = pd.read_csv("csv\\dataset25.csv", sep=";")

df["Valuation ($B) "] = pd.to_numeric(df["Valuation ($B) "].str.slice(0, -4).str.replace(",", "."))
df["Total Funding"] = pd.to_numeric(df["Total Funding"].str.slice(1, -2).str.replace(",", ""))

Посмотрим краткое содержание датасета. Видим, что датасет состоит из 100 строк и 10 столбцов

In [29]:
df.info()
df.head()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Company              100 non-null    object 
 1   Valuation ($B)       100 non-null    float64
 2   Country              100 non-null    object 
 3   State                79 non-null     object 
 4   City                 99 non-null     object 
 5   Industries           99 non-null     object 
 6   Founded Year         100 non-null    int64  
 7   Name of Founders     100 non-null    object 
 8   Total Funding        100 non-null    float64
 9   Number of Employees  100 non-null    object 
dtypes: float64(2), int64(1), object(7)
memory usage: 7.9+ KB
Out[29]:
Company Valuation ($B) Country State City Industries Founded Year Name of Founders Total Funding Number of Employees
0 Bytedance 140.0 China Beijing Beijing Content, Data Mining, Internet 2012 Yiming Zhang 7440.0 10.000
1 SpaceX 100.3 United States California Hawthorne Aerospace, Manufacturing, Space Travel, Transp... 2002 Elon Musk 383.0 5,000-10,000
2 Stripe 95.0 United States California San Francisco Finance, FinTech, Mobile Payments, SaaS 2010 John Collison, Patrick Collison 300.0 1,000-5,000
3 Klarna 45.6 Sweden NaN Stockholm E-Commerce, FinTech, Payments, Shopping 2005 Niklas Adalberth, Sebastian Siemiatkowski, Vic... 3471.7 5,000-10,000
4 Epic Games 42.0 United States North Carolina Cary Developer Platform, Gaming, Software, Video Games 1991 Mark Rein, Tim Sweeney 544.9 1,000-5,000

Выведем названия столбцов для удобства

In [30]:
df.columns
Out[30]:
Index(['Company', 'Valuation ($B) ', 'Country', 'State', 'City', 'Industries',
       'Founded Year', 'Name of Founders', 'Total Funding',
       'Number of Employees'],
      dtype='object')

Круговая диаграмма показывает распределение компаний по странам

In [31]:
df["Country"].value_counts().plot.pie()
Out[31]:
<Axes: ylabel='count'>
No description has been provided for this image

Стоимость 10 самых дорогих компаний

In [32]:
plot = df.loc[0:10][["Company", "Valuation ($B) "]].plot.bar(color=["blue"])
plot.set_xticklabels(df.loc[0:10]["Company"])
Out[32]:
[Text(0, 0, 'Bytedance'),
 Text(1, 0, 'SpaceX'),
 Text(2, 0, 'Stripe'),
 Text(3, 0, 'Klarna'),
 Text(4, 0, 'Epic Games'),
 Text(5, 0, 'Canva'),
 Text(6, 0, 'Checkout.com'),
 Text(7, 0, 'Instacart'),
 Text(8, 0, 'Databricks'),
 Text(9, 0, 'Revolut'),
 Text(10, 0, 'FTX')]
No description has been provided for this image

Гистограмма распределение количества компаний по году основания. Диаграмма показывает, что больше всего самых дорогих компаний было основано в период между 2012 и 2015 годом.

In [33]:
df["Founded Year"].value_counts().sort_index().plot.bar()
Out[33]:
<Axes: xlabel='Founded Year'>
No description has been provided for this image

Точечная диаграмма показывает распределение стоимости компании от количества работников. Из диаграммы видно, что больше всего компаний, у которых в штате от 1000 до 5000 человек.

In [34]:
df.plot.scatter(x="Number of Employees", y="Valuation ($B) ", figsize=(12, 4))
Out[34]:
<Axes: xlabel='Number of Employees', ylabel='Valuation ($B) '>
No description has been provided for this image