114 KiB
114 KiB
Импортируем библиотеку pandas
и загружаем датасет (разделителем указываем точку с запятой)
In [44]:
import pandas as pd
df = pd.read_csv("csv\\dataset25.csv", sep=";")
df["Valuation ($B) "] = pd.to_numeric(df["Valuation ($B) "].str.slice(0, -4).str.replace(",", "."))
df["Total Funding"] = pd.to_numeric(df["Total Funding"].str.slice(1, -2).str.replace(",", ""))
Посмотрим краткое содержание датасета. Видим, что датасет состоит из 100 строк и 10 столбцов
In [45]:
df.info()
df.head()
Out[45]:
In [11]:
df.columns
Out[11]:
Круговая диаграмма показывает распределение компаний по странам
In [61]:
df["Country"].value_counts().plot.pie()
Out[61]:
Гистограмма распределение количества компаний по году основания. Диаграмма показывает, что больше всего самых дорогих компаний было основано в период между 2012 и 2015 годом.
In [72]:
df["Founded Year"].value_counts().sort_index().plot.bar()
Out[72]:
Точечная диаграмма показывает распределение стоимости компании от количества работников. Из диаграммы видно, что больше всего компаний, у которых в штате от 1000 до 5000 человек.
In [80]:
df.plot.scatter(x="Number of Employees", y="Valuation ($B) ", figsize=(12, 4))
Out[80]: