-
sql语句大全之sql server 2008亿万数据性能优化实例
最近在开发站长帮手网(www.links.cn)的百度权重查询工具,数据已达亿万级别,主表为关键词主表(包含百度指数,百度收录等字段),字表为网站排名表(1-100)的排名。根据设计惯例,查询的时候主子表通过关键词字段关联查询,查询语句如下:
select top 1000 a.word,a.queryurl,a.irank,a.title,a.baiduurl,a.itraffic1,a.itraffic2,b.ibaiduindex from zibiao a
with(nolock)
inner join zhubiao b with(nolock) on a.word=b.word
where a.queryurl='http://www.links.cn'
order by b.ibaiduindex desc,a.irank
发现速度很慢,快的时候瞬间,慢的时候长达几分钟。分析sql server的查询执行计划如下:
分析这个执行计划图,主要资源开销是在主表的聚集索引查找,应该是子表根据网址找到关键词后,再到主表中查找关键词对应的指数的这一步比较耗时。
因这2个表的更新频率非常高,以为是更新频率太快,导致索引效率降低,于是想到用数据库读写分离的方案,专门拿了一台备用服务器,通过发布订阅的方法 ,将这两张表发布到备用服务器上,专门在备用服务器上做查询,发现速度并没有得到提升。
在csdn上发了一个讨论帖,网友讨论很热烈,sql server的很多版主都有参与讨论,给出的方案也很多。有人说是IO读写瓶颈,于是升级了下服务器,硬盘采用raid10的固态硬盘,内存更是升级到了128G,不过效果仍旧不明显,同样的语句,慢的时候还是需要几十秒。
有网友给出的方案,是建议把主表字段放到子表冗余,以减少关联的资源消耗,再结合以上的执行计划图,确实瓶颈是在主表的的聚集索引查找上,于是单独执行了下子表的irank排序语句:
select top 1000 a.word,a.queryurl,a.irank,a.title,a.baiduurl,a.itraffic1,a.itraffic2 from zibiao a
with(nolock)
where a.queryurl='http://www.links.cn'
order by a.irank
发现执行速度非常快,几乎秒开了,当然irank字段上有建索引的。
测试成功,于是将主表的ibaiduindex字段放到子表冗余,并且建立好索引(这里的索引建立是有技巧的)。执行语句:
select top 1000 a.word,a.queryurl,a.irank,a.title,a.baiduurl,a.itraffic1,a.itraffic2,a.ibaiduindex from zibiao a
with(nolock)
where a.queryurl='http://www.links.cn'
order by a.ibaiduindex desc,a.irank
查询瞬间出来结果。执行计划如下:
这里拿以上这个sql语句来分析,我们该如何建立索引。索引建立包括字段的先后顺序,字段的排序方法,include项都很重要,任何一个弄错,都不能达到好的优化效果。
1.我们肯定需要建立一个组合索引。那么应该组合字段用哪几个呢?这里我的组合字段是:queryurl(这个字段第一, 因为我们最先是根据这个字段进行筛选的)、ibaiduindex、irank
2.这里要注意下,因为我的固定排序就是ibaiduindex desc,irank asc,所以字段的排列顺序应该是:queryurl,ibaiduindex,irank。同时排序的类别是:ibaiduindex desc ,irank asc。这里我一开始没注意,ibaiduindex的排序是asc,结果发现执行上面那个SQL语句仍然需要2秒。
3.索引包含项,也很重要,如果不用包含项,索引查找到主键后, 还要根据主键去查找其他字段。所以我们需要设置索引包含性列,把除掉索引字段中剩余的其他字段都加进去。
优化后的效果就如上面的执行计划图所示,一次非聚集索引查找,就找到我们的数据,而且都不需要排序耗时,因为我们的索引已经按照顺序排列好了。当然,这里要说明下,索引包含确实好用,但是代价就是磁盘的空间。加了索引包含项,数据库空间增加了几十个G。
---------------------
作者:caoshangfei
来源:CSDN
原文:https://blog.csdn.net/caoshangfei/article/details/8761301
版权声明:本文为博主原创文章,转载请附上博文链接!
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式