一、数据源

之前，我分享过一期爬虫，用python爬取Top100排行榜：

最终数据结果，是这样的：
TOP100数据

在此数据基础上，做python可视化分析。

二、数据读取

首先，读取数据源：

# 读取csv数据
df = pd.read_csv(csv)

三、数据概览

用shape查看数据形状：

# 查看数据形状
df.shape

用head查看前n行：

# 查看前5行
df.head(5)

用info查看列信息：

# 查看列信息
df.info()

用describe查看统计性分析：

# 描述性统计分析
df.describe()

描述性统计

四、数据清洗

查看是否存在空值：

# 查看空值
df.isna().any()

每列都是False，没有空值。

查看是否存在重复值：

#查看重复值
df.duplicated().any()

False代表没有重复值。

上面我们看到，点踩数都是0，没有分析意义，所以，用drop删除此列：

# 删除没用的列
df.drop('点踩数', axis=1, inplace=True)

删除之后，查看删除结果：

没有点踩数了。

五、可视化分析

5.1 相关性分析（Correlation）

数据中，有播放数、弹幕数、投币数、点赞数、分享数、收藏数等众多数据指标。

我想分析出，这些指标中，谁和综合得分的关系最大，决定性最高。

直接采用pandas自带的corr函数，得出相关性（spearman相关）矩阵：

可以看出，点赞数和综合得分的相关性最高，达到了0.66。

根据此分析结论，进一步画出点赞数和综合得分的分布散点图，验证此结论的正确性。

得出结论：随着点赞数增多，综合得分呈明显上升趋势，进一步得出，二者存在正相关的关系。

5.2 饼图（Pie）

综合得分划分分布区间，绘制出分布饼图。

首先，划分数据区间：

# 设置分段
bins = [1000000, 1500000,2000000, 2500000, 3000000, 10000000]
# 设置标签
labels = [
    '100w-150w',
    '150w-200w',
    '200w-250w',
    '250w-300w',
    '300w-1000w'
]
# 按分段离散化数据
segments = pd.cut(score_list, bins, labels=labels)  # 按分段切割数据
counts = pd.value_counts(segments, sort=False).values.tolist()  # 统计个数