当前位置:
首页 > temp > python入门教程 >
-
pandas(7):查询和筛选数据
数据筛选是处理数据的重要一步。源Excel文件Fancy_Indexing.xlsx:
df = pd.read_excel(r'C:/Users/asus/Desktop/Python/Fancy_Indexing.xlsx')
df
一、截断操作df.truncate()
df.truncate()需要对索引排序才能截断。
# 数据截断
df.truncate(before=2,after=8)
# 对列索引进行排序才能截断,根据索引值截断,而不是下标
df.sort_index(axis=1).truncate(before='班级',after='语文',axis=1)
二、Fancy Indexing
(1)类列表切片[]
# 列操作
df['姓名'] # 选择1列,返回Series
df[['姓名']] # 选择1列,返回DataFrame
df[['姓名','语文']] # 选择多列,返回DataFrame
# 行操作:对下标进行切片,不包含终止位置
df[:] # 全切
df[:3] # 返回前三行
df[4:6] # 返回第5、6行
df[:20:2] # 步长截取
df['数学'][::-1] # 逆序
# 行列同时操作,不可以直接操作
# df[:,['语文']]
(2)基于标签df.loc[]
①单个标签——单行
# 单个标签——单行
df.loc[0] # 0代表是索引值,而不是像列表切片的下标值,字符型索引需要加引号
df.set_index('姓名').loc['任*'] # 字符型索引加引号
# df.set_index('姓名').index.dtype -->dtype('O')
②单个列表标签——多行
# 单个列表标签——多行
df.loc[[0,6,8]]
df.set_index('姓名').loc[['任*','邓*','吴*文']] # 字符型索引加引号
# df.set_index('姓名').loc[[0,6,8]] ->KeyError: 'None of [[0, 6, 8]] are in the [index]'
df.loc[[False, True]*5] # bool数组标签,隔行查找
③切片标签
# 切片标签,标签也可以切片,且和列表切片不同,包含终止位置
# 根据索引值进行切片,所以先排序才能切,和truncate截断一样
df.loc[:3] # 返回前4行,包含3终止位置
df.set_index('姓名').sort_index().loc['任*':'吴*婕'] # 要先进行排序
④逗号双标签
# 逗号双标签——筛选列
# 必须有行元素
df.loc[:,['姓名','语文']] # 行全要,只要‘姓名’‘语文’这两列
df.loc[:10,['姓名','数学']] # 前11行
(3)基于下标位置df.iloc[]
df.iloc[]无论是行选还是列选,都只能用自然索引下标(0-n),不包含终止位置.
df.iloc[2:4,2:3]
df.iloc[:,2:]
df.iloc[[5,2],[4,1]]
df.iloc[5,3] # 返回一个值
# np.r_支持随意筛选,筛选不连续的行或列
df.iloc[np.r_[0,10:15:2,17:19],np.r_[:2,4]]
(4)取具体某一数据 .at/.iat
(5)表达式,bool数组
df[df['班级'] == 1] # 筛选1班信息
df[~(df['班级'] == 1)] # 不等
df[df['姓名'] == '马*泰'] # '马*泰'的所有信息
df.loc[df['姓名'] == '马*泰',['姓名','数学']] # 只筛选'马*泰'姓名、数学成绩
df.loc[(df['数学'] > 90) & (df['语文'] >90)] # 且
df.loc[(df['数学'] > 90) | (df['语文'] >90)] # 或
df.loc[df['语文'] > df['英语']] # 列间判断,比较爱国的同学信息
# df.isin()判断
df[df['姓名'].isin(['罗*倩','张*辉'])]
三、函数筛选
(1)where 和 mask
df.where(cond, other=nan, inplace=False,
axis=None, level=None, errors='raise',
try_cast=False, raise_on_error=None)
如果 cond 为真,保持原来的值,否则替换为other,默认为NaN值。mask相反。
df.where(df > 90) # 不大于90分为NaN
df['语文'].where(df['语文'] > 90) # 语文不大于90为NaN
np.where(df > 90,True,False) # 返回Adarray bool数组
# 2 的偶数倍分数显示,否则为相反数
df[['语文','数学']].where(df[['语文','数学']] % 2 == 0,other=-df[['语文','数学']])
(2)query()
(3)filter()
文章出处:https://www.cnblogs.com/xiaoshun-mjj/p/14692924.html
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
SQL Server -- 解决存储过程传入参数作为s
关于JS定时器的整理
JS中使用Promise.all控制所有的异步请求都完
js中字符串的方法
import-local执行流程与node模块路径解析流程
检测数据类型的四种方法
js中数组的方法,32种方法
前端操作方法
数据类型
window.localStorage.setItem 和 localStorage.setIte
如何完美解决前端数字计算精度丢失与数