首页 > temp > 简明python教程 >
-
Pandas进阶笔记 (一) Groupby 重难点总结(2)
groupby
对象。这里讨论下如何访问拆分出来的组主要方法为:
-
groups
-
get_group
- 迭代遍历
df_2 = pd.DataFrame({'X': ['A', 'B', 'A', 'B'], 'Y': [1, 4, 3, 2]})
df_2
X | Y | |
---|---|---|
0 | A | 1 |
1 | B | 4 |
2 | A | 3 |
3 | B | 2 |
-
使用
groups
方法可以看到所有的组
df_2.groupby("X").groups
{'A': Int64Index([0, 2], dtype='int64'),
'B': Int64Index([1, 3], dtype='int64')}
-
使用
get_group
方法可以访问到指定的组
df_2.groupby("X", as_index=True).get_group(name="A")
X | Y | |
---|---|---|
0 | A | 1 |
2 | A | 3 |
注意,get_group
方法中,name
参数只能传递单个str
,不可以传入list
,尽管Pandas中的其他地方常常能看到这类传参。如果是多列做主键的拆分,可以传入tuple
。
- 迭代遍历
for name, group in df_2.groupby("X"):
print(name)
print(group,"\n")
A
X Y
0 A 1
2 A 3
B
X Y
1 B 4
3 B 2
这里介绍一个小技巧,如果你得到一个<pandas.core.groupby.groupby.DataFrameGroupBy object
对象,想要将它还原成其原本的 dataframe
,有一个非常简便的方法值得一提:
gropbyed_object.apply(lambda x: x)
囿于篇幅,就不对API逐个解释了,这里仅指出最容易忽视也最容易出错的三个参数
参数 | 注意事项 |
---|---|
level | 仅作用于层次化索引的数据框时有效 |
as_index |
仅对数据框做 agg 操作时有效, |
group_keys |
仅在调用 apply 时有效 |
Part 2: Apply 阶段详解
拆分完成后,可以对各个组做一些的操作,总体说来可以分为以下四类:
- aggregation
- apply
- transform
- filter
先总括地对比下这四类操作
-
任何能将一个
Series
压缩成一个标量值的都是agg
操作,例如求和、求均值、求极值等统计计算 -
对数据框或者
groupby
对象做变换,得到子集或一个新的数据框的操作是apply
或transform
-
对聚合结果按标准过滤的操作是
filter
apply
和 transform
有那么一点相似,下文会重点剖析二者
Talk 4:agg VS apply
agg
和apply
都可以对特定列的数据传入函数,并且依照函数进行计算。但是区别在于,agg
更加灵活高效,可以一次完成操作。而apply
需要辗转多次才能完成相同操作。
df_3 = pd.DataFrame({"name":["Foo", "Bar", "Foo", "Bar"], "score":[80,80,95,70]})
df_3
name | score | |
---|---|---|
0 | Foo | 80 |
1 | Bar | 80 |
2 | Foo | 95 |
3 | Bar | 70 |
我们需要计算出每个人的总分、最高分、最低分
(1)使用apply
方法
df_3.groupby("name", sort=False).score.apply(lambda x: x.sum())
name
Foo 175
Bar 150
Name: score, dtype: int64
df_3.groupby("name", sort=False).score.apply(lambda x: x.max())
name
Foo 95
Bar 80
Name: score, dtype: int64
df_3.groupby("name", sort=False).score.apply(lambda x: x.min())
name
Foo 80
Bar 70
Name: score, dtype: int64
显然,我们辗转操作了3次,并且还需要额外一次操作(将所得到的三个值粘合起来)
(2)使用agg
方法
df_3.groupby("name", sort=False).agg({"score": [np.sum, np.max, np.min]})
score | |||
---|---|---|---|
sum | amax | amin | |
name | |||
Foo | 175 | 95 | 80 |
Bar | 150 | 80 | 70 |
小结 agg
一次可以对多个列独立地调用不同的函数,而apply
一次只能对多个列调用相同的一个函数。
Talk 5:transform VS agg
transform
作用于数据框自身,并且返回变换后的值。返回的对象和原对象拥有相同数目的行,但可以扩展列。注意返回的对象不是就地修改了原对象,而是创建了一个新对象。也就是说原对象没变。
df_4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df_4
A | B | |
---|---|---|
0 | 0 | 1 |
1 | 1 | 2 |
2 | 2 | 3 |
df_4.transform(lambda x: x + 1)
A | B | |
---|---|---|
0 | 1 | 2 |
1 | 2 | 3 |
2 | 3 | 4 |
可以对数据框先分组,然后对各组赋予一个变换,例如元素自增1。下面这个例子意义不大,可以直接做变换。
df_2.groupby("X").transform(lambda x: x + 1)
Y | |
---|---|
0 | 2 |
1 | 5 |
2 | 4 |
3 | 3 |
下面举一个更实际的例子
df_5 = pd.read_csv(r"dataset\tips.csv")
df_5.head()
total_bill | tip | sex | smoker | day | time | size | |
---|---|---|---|---|---|---|---|
0 | 16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
1 | 10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
2 | 21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
3 | 23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
4 | 24.59 | 3.61 | Female | No | Sun | Dinner | 4 |
现在我们想知道每天,各数值列的均值
对比以下 agg
和 transform
两种操作
df_5.groupby("day").aggregate("mean")
total_bill | tip | size | |
---|---|---|---|
day | |||
Fri | 17.151579 | 2.734737 | 2.105263 |
Sat | 20.441379 | 2.993103 | 2.517241 |
Sun | 21.410000 | 3.255132 | 2.842105 |
Thur | 17.682742 | 2.771452 | 2.451613 |
df_5.groupby('day').transform(lambda x : x.mean()).total_bill.unique()
array([21.41 , 20.44137931, 17.68274194, 17.15157895])
观察得知,两种操作是相同的,都是对各个小组求均值。所不同的是,agg
方法仅返回4行(即压缩后的统计值),而transform
返回一个和原数据框同样长度的新数据框。
Talk 6:transform VS apply
transform
和 apply
的不同主要体现在两方面:
-
apply
对于每个组,都是同时在所有列上面调用函数;而transform
是对每个组,依次在每一列上调用函数 -
由上面的工作方法决定了:
apply
可以返回标量、Series
、dataframe
——取决于你在什么上面调用了apply
方法;而transform
只能返回一个类似于数组的序列,例如一维的Series
、array
、list
,并且最重要的是,要和原始组有同样的长度,否则会引发错误。
【例子】通过打印对象的类型来对比两种方法的工作对象
df_6 = pd.DataFrame({'State':['Texas', 'Texas', 'Florida', 'Florida'],
'a':[4,5,1,3], 'b':[6,10,3,11]})
df_6
State | a | b | |
---|---|---|---|
0 | Texas | 4 | 6 |
1 | Texas | 5 | 10 |
2 | Florida | 1 | 3 |
3 | Florida | 3 | 11 |
def inspect(x):
print(type(x))
print(x)
df_6.groupby("State").apply(inspect)
<class 'pandas.core.frame.DataFrame'>
State a b
2 Florida 1 3
3 Florida 3 11
<class 'pandas.core.frame.DataFrame'>
State a b
2 Florida 1 3
3 Florida 3 11
<class 'pandas.core.frame.DataFrame'>
State a b
0 Texas 4 6
1 Texas 5 10
从打印结果我们清晰地看到两点:apply
每次作用的对象是一个 dataframe
,其次第一个组被计算了两次,这是因为pandas
会通过这种机制来对比是否有更快的方式完成后面剩下组的计算。
df_6.groupby(