-
相似度判定 - SQL - 关系型数据库
Structured Query Language —— “结构化查询语言简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统, 可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使它具有极大的灵活性和强大的功能。”
SQL虽然其是主要针对关系型数据库的查询语言,也可以通过“CREATE FUNCTION”自定义函数逻辑,在文本分析的领域发挥作用,如下是对于文字相似度的自定义函数:
- 考虑字符:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
CREATE FUNCTION DBO.FN_Resemble (@Cloumna NVARCHAR( MAX ), @Cloumnb NVARCHAR( MAX ) ) RETURNS FLOAT AS BEGIN DECLARE @num FLOAT ,@len int SET @Cloumna= ISNULL (@Cloumna,0) SET @Cloumnb= ISNULL (@Cloumnb,0) SET @len=1 SET @num=0 WHILE(LEN(@Cloumna)<>0 AND LEN(@CloumnB)<>0) BEGIN WHILE(@len<=LEN(@Cloumna)) BEGIN DECLARE @a NVARCHAR(4) SET @a= '' SET @a= SUBSTRING (@Cloumna,@len,1) IF(CHARINDEX(@a,@CloumnB)>0) BEGIN SET @num=@num+1 END SET @len=@len+1 END SET @num=@num*1.0/LEN(@Cloumna) BREAK END RETURN @num END go |
- 计算字符顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
|
CREATE FUNCTION DBO.FN_Resemble_order (@Cloumna NVARCHAR( MAX ), @Cloumnb NVARCHAR( MAX ) ) RETURNS FLOAT AS BEGIN DECLARE @num FLOAT ,@len int SET @Cloumna= ISNULL (@Cloumna,0) SET @Cloumnb= ISNULL (@Cloumnb,0) SET @len=1 SET @num=0 WHILE(LEN(@Cloumna)<>0 AND LEN(@CloumnB)<>0) BEGIN DECLARE @a NVARCHAR(4) DECLARE @b NVARCHAR(4) IF(LEN(@Cloumna)>=LEN(@CloumnB)) BEGIN WHILE(@len<=LEN(@CloumnB)) BEGIN SET @a= '' SET @a= SUBSTRING (@Cloumna,@len,1) SET @b= '' SET @b= SUBSTRING (@CloumnB,@len,1) IF(@a=@b) BEGIN SET @num=@num+1 END ELSE BEGIN break END SET @len=@len+1 END END ELSE IF (LEN(@Cloumna)<LEN(@CloumnB)) BEGIN WHILE(@len<=LEN(@Cloumna)) BEGIN SET @a= '' SET @a= SUBSTRING (@Cloumna,@len,1) SET @b= '' SET @b= SUBSTRING (@CloumnB,@len,1) IF(@a=@b) BEGIN SET @num=@num+1 END ELSE BEGIN break END SET @len=@len+1 END END SET @num=@num*1.0/LEN(@Cloumna) BREAK END RETURN @num END go |
- 既考虑所包含的字符,也考虑其出现的顺序
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
|
CREATE FUNCTION DBO.FN_Resemble_onebyone (@Cloumna NVARCHAR( MAX ), @Cloumnb NVARCHAR( MAX ) ) RETURNS FLOAT AS BEGIN DECLARE @num FLOAT ,@len int SET @Cloumna= ISNULL (@Cloumna,0) SET @Cloumnb= ISNULL (@Cloumnb,0) SET @len=1 SET @num=0 WHILE(LEN(@Cloumna)<>0 AND LEN(@CloumnB)<>0) BEGIN DECLARE @a NVARCHAR(4) DECLARE @b NVARCHAR(4) IF(LEN(@Cloumna)>=LEN(@CloumnB)) BEGIN WHILE(@len<=LEN(@CloumnB)) BEGIN SET @a= '' SET @a= SUBSTRING (@Cloumna,@len,1) SET @b= '' SET @b= SUBSTRING (@CloumnB,@len,1) IF(@a=@b) BEGIN SET @num=@num+1 END SET @len=@len+1 END END ELSE IF (LEN(@Cloumna)<LEN(@CloumnB)) BEGIN WHILE(@len<=LEN(@Cloumna)) BEGIN SET @a= '' SET @a= SUBSTRING (@Cloumna,@len,1) SET @b= '' SET @b= SUBSTRING (@CloumnB,@len,1) IF(@a=@b) BEGIN SET @num=@num+1 END SET @len=@len+1 END END SET @num=@num*1.0/LEN(@Cloumna) BREAK END RETURN @num END go |
特别地,在关系型数据库中,运用SQL 自定义函数达到数据处理(数据治理)的目的是ETL的基本功能之一;也可以为数据分析的查询取数或者关键指标的换算打基础。
同时,在数据科学领域,数据分析大多数情况,R语言或者Python会主要来承担此类任务,在特殊情况下,这些语言也有包含有相应的函数以帮助分析师做前期的数据清理(类似于SQL的自定义功能)。
相比封装的函数,SQL的这种功能会相对灵活些,更能够根据具体的业务逻辑编写。
出处:https://www.cnblogs.com/yxmings/p/14258482.html
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式