VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > temp > 简明python教程 >
  • Pandas进阶笔记 (一) Groupby 重难点总结(2)

groupby对象。这里讨论下如何访问拆分出来的组
主要方法为:

  • groups
  • get_group
  • 迭代遍历
df_2 = pd.DataFrame({'X': ['A', 'B', 'A', 'B'], 'Y': [1, 4, 3, 2]})
df_2

  X Y
0 A 1
1 B 4
2 A 3
3 B 2
  1. 使用 groups方法可以看到所有的组
df_2.groupby("X").groups

{'A': Int64Index([0, 2], dtype='int64'),
 'B': Int64Index([1, 3], dtype='int64')}
  1. 使用get_group方法可以访问到指定的组
df_2.groupby("X", as_index=True).get_group(name="A")

  X Y
0 A 1
2 A 3

注意,get_group方法中,name参数只能传递单个str,不可以传入list,尽管Pandas中的其他地方常常能看到这类传参。如果是多列做主键的拆分,可以传入tuple

  1. 迭代遍历
for name, group in df_2.groupby("X"):
    print(name)
    print(group,"\n")

A
   X  Y
0  A  1
2  A  3 

B
   X  Y
1  B  4
3  B  2 

这里介绍一个小技巧,如果你得到一个<pandas.core.groupby.groupby.DataFrameGroupBy object对象,想要将它还原成其原本的 dataframe ,有一个非常简便的方法值得一提:

gropbyed_object.apply(lambda x: x)

囿于篇幅,就不对API逐个解释了,这里仅指出最容易忽视也最容易出错的三个参数

参数 注意事项
level 仅作用于层次化索引的数据框时有效
as_index 仅对数据框做 agg 操作时有效,
group_keys 仅在调用 apply 时有效

Part 2: Apply 阶段详解

拆分完成后,可以对各个组做一些的操作,总体说来可以分为以下四类:

  • aggregation
  • apply
  • transform
  • filter

先总括地对比下这四类操作

  1. 任何能将一个Series压缩成一个标量值的都是agg操作,例如求和、求均值、求极值等统计计算
  2. 对数据框或者groupby对象做变换,得到子集或一个新的数据框的操作是applytransform
  3. 对聚合结果按标准过滤的操作是filter

apply 和 transform有那么一点相似,下文会重点剖析二者

Talk 4:agg VS apply

aggapply都可以对特定列的数据传入函数,并且依照函数进行计算。但是区别在于,agg更加灵活高效,可以一次完成操作。而apply需要辗转多次才能完成相同操作。

df_3 = pd.DataFrame({"name":["Foo", "Bar", "Foo", "Bar"], "score":[80,80,95,70]})
df_3

  name score
0 Foo 80
1 Bar 80
2 Foo 95
3 Bar 70

我们需要计算出每个人的总分、最高分、最低分

(1)使用apply方法

df_3.groupby("name", sort=False).score.apply(lambda x: x.sum())

name
Foo    175
Bar    150
Name: score, dtype: int64
df_3.groupby("name", sort=False).score.apply(lambda x: x.max())

name
Foo    95
Bar    80
Name: score, dtype: int64
df_3.groupby("name", sort=False).score.apply(lambda x: x.min())

name
Foo    80
Bar    70
Name: score, dtype: int64

显然,我们辗转操作了3次,并且还需要额外一次操作(将所得到的三个值粘合起来)

(2)使用agg方法

df_3.groupby("name", sort=False).agg({"score": [np.sum, np.max, np.min]})

  score
  sum amax amin
name      
Foo 175 95 80
Bar 150 80 70

小结 agg一次可以对多个列独立地调用不同的函数,而apply一次只能对多个列调用相同的一个函数。


Talk 5:transform VS agg

transform作用于数据框自身,并且返回变换后的值。返回的对象和原对象拥有相同数目的行,但可以扩展列。注意返回的对象不是就地修改了原对象,而是创建了一个新对象。也就是说原对象没变。

df_4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
df_4

  A B
0 0 1
1 1 2
2 2 3
df_4.transform(lambda x: x + 1)

  A B
0 1 2
1 2 3
2 3 4

可以对数据框先分组,然后对各组赋予一个变换,例如元素自增1。下面这个例子意义不大,可以直接做变换。

df_2.groupby("X").transform(lambda x: x + 1)

  Y
0 2
1 5
2 4
3 3

下面举一个更实际的例子

df_5 = pd.read_csv(r"dataset\tips.csv")
df_5.head()

  total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4

现在我们想知道每天,各数值列的均值
对比以下 agg 和 transform 两种操作

df_5.groupby("day").aggregate("mean")

  total_bill tip size
day      
Fri 17.151579 2.734737 2.105263
Sat 20.441379 2.993103 2.517241
Sun 21.410000 3.255132 2.842105
Thur 17.682742 2.771452 2.451613
df_5.groupby('day').transform(lambda x : x.mean()).total_bill.unique()

array([21.41      , 20.44137931, 17.68274194, 17.15157895])

观察得知,两种操作是相同的,都是对各个小组求均值。所不同的是,agg方法仅返回4行(即压缩后的统计值),而transform返回一个和原数据框同样长度的新数据框。


Talk 6:transform VS apply

transform 和 apply 的不同主要体现在两方面:

  1. apply 对于每个组,都是同时在所有列上面调用函数;而 transform 是对每个组,依次在每一列上调用函数
  2. 由上面的工作方法决定了:apply 可以返回标量、Seriesdataframe——取决于你在什么上面调用了apply 方法;而 transform 只能返回一个类似于数组的序列,例如一维的 Seriesarraylist,并且最重要的是,要和原始组有同样的长度,否则会引发错误。

【例子】通过打印对象的类型来对比两种方法的工作对象

df_6 = pd.DataFrame({'State':['Texas', 'Texas', 'Florida', 'Florida'], 
                   'a':[4,5,1,3], 'b':[6,10,3,11]})
df_6

  State a b
0 Texas 4 6
1 Texas 5 10
2 Florida 1 3
3 Florida 3 11
def inspect(x):
    print(type(x))
    print(x)

df_6.groupby("State").apply(inspect)

<class 'pandas.core.frame.DataFrame'>
     State  a   b
2  Florida  1   3
3  Florida  3  11
<class 'pandas.core.frame.DataFrame'>
     State  a   b
2  Florida  1   3
3  Florida  3  11
<class 'pandas.core.frame.DataFrame'>
   State  a   b
0  Texas  4   6
1  Texas  5  10
 

从打印结果我们清晰地看到两点:apply 每次作用的对象是一个 dataframe,其次第一个组被计算了两次,这是因为pandas会通过这种机制来对比是否有更快的方式完成后面剩下组的计算。

df_6.groupby(
      



  

相关教程