145 KiB
145 KiB
Импортируем библиотеку pandas
и загружаем датасет (разделителем указываем точку с запятой)
In [28]:
import pandas as pd
df = pd.read_csv("csv\\dataset25.csv", sep=";")
df["Valuation ($B) "] = pd.to_numeric(df["Valuation ($B) "].str.slice(0, -4).str.replace(",", "."))
df["Total Funding"] = pd.to_numeric(df["Total Funding"].str.slice(1, -2).str.replace(",", ""))
Посмотрим краткое содержание датасета. Видим, что датасет состоит из 100 строк и 10 столбцов
In [29]:
df.info()
df.head()
Out[29]:
Выведем названия столбцов для удобства
In [30]:
df.columns
Out[30]:
Круговая диаграмма показывает распределение компаний по странам
In [31]:
df["Country"].value_counts().plot.pie()
Out[31]:
Стоимость 10 самых дорогих компаний
In [32]:
plot = df.loc[0:10][["Company", "Valuation ($B) "]].plot.bar(color=["blue"])
plot.set_xticklabels(df.loc[0:10]["Company"])
Out[32]:
Гистограмма распределение количества компаний по году основания. Диаграмма показывает, что больше всего самых дорогих компаний было основано в период между 2012 и 2015 годом.
In [33]:
df["Founded Year"].value_counts().sort_index().plot.bar()
Out[33]:
Точечная диаграмма показывает распределение стоимости компании от количества работников. Из диаграммы видно, что больше всего компаний, у которых в штате от 1000 до 5000 человек.
In [34]:
df.plot.scatter(x="Number of Employees", y="Valuation ($B) ", figsize=(12, 4))
Out[34]: