-
富文本中提取文本的方法分享
转自:
http://www.java265.com/JavaJingYan/202205/16534860003509.html
下文笔者讲述从java代码从富文本html中提取文本内容的方法分享,如下所示
今天接到一个需求,将富文本的内容提取并作为消息转发,那么如何提取其中的富文本呢?下文笔者将一一道来,如下所示
今天接到一个需求,将富文本的内容提取并作为消息转发,那么如何提取其中的富文本呢?下文笔者将一一道来,如下所示
实现思路: 只需定义相应的正则表达式 如:提取文本,只需下列的正则表达式 String regx = "(<.+?>)|(</.+?>)";例:
private static Pattern p_image= Pattern.compile("<img.*src\\s*=\\s*(.*?)[^>]*?>",Pattern.CASE_INSENSITIVE);
private static Pattern r_image=Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)");
/**
* 提取富文本中纯文本
*/
public static String getText(String richText) {
String regx = "(<.+?>)|(</.+?>)";
Matcher matcher = Pattern.compile(regx).matcher(richText);
while (matcher.find()) {
// 替换图片
richText = matcher.replaceAll("").replace(" ", "");
}
return richText;
}
/**
* 提取富文本中图片地址
*/
public static List<String> getImgStr(String richText) {
List<String> list = new ArrayList<>();
Matcher pMatcher = pImage.matcher(richText);
while (pMatcher.find()) {
// 得到<img />数据
String img = pMatcher.group();
// 匹配<img>中的src数据
Matcher rMatcher = rImage.matcher(img);
while (rMatcher.find()) {
list.add(rMatcher.group(1));
}
}
return list;
}
private static Pattern p_image= Pattern.compile("<img.*src\\s*=\\s*(.*?)[^>]*?>",Pattern.CASE_INSENSITIVE);
private static Pattern r_image=Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)");
/**
* 提取富文本中纯文本
*/
public static String getText(String richText) {
String regx = "(<.+?>)|(</.+?>)";
Matcher matcher = Pattern.compile(regx).matcher(richText);
while (matcher.find()) {
// 替换图片
richText = matcher.replaceAll("").replace(" ", "");
}
return richText;
}
/**
* 提取富文本中图片地址
*/
public static List<String> getImgStr(String richText) {
List<String> list = new ArrayList<>();
Matcher pMatcher = pImage.matcher(richText);
while (pMatcher.find()) {
// 得到<img />数据
String img = pMatcher.group();
// 匹配<img>中的src数据
Matcher rMatcher = rImage.matcher(img);
while (rMatcher.find()) {
list.add(rMatcher.group(1));
}
}
return list;
}
栏目列表
最新更新
80386学习(二) 80386特权级保护
80386学习(一) 80386CPU介绍
8086汇编语言学习(十) 8086中断
8086汇编语言学习(九) 8086标志寄存器
8086汇编语言学习(九) 8086标志寄存器
8086汇编语言学习(八) 8086子程序
8086汇编语言学习(六) 8086处理结构化数据
8086汇编语言学习(五) 8086寻址方式
8086汇编语言学习(四) 8086汇编程序的编译
8086汇编语言学习(三) 8086中的段和栈
三大常用数据库事务详解之三:事务运行
三大常用关系型数据库事务详解之二:基
三大关系型数据库事务详解之一:基本概
MongoDB常用命令(2)
MongoDB基本介绍与安装(1)
SQLServer触发器调用JavaWeb接口
SQL Server索引的原理深入解析
SqlServer2016模糊匹配的三种方式及效率问题
SQL中Truncate的用法
sqlserver 多表关联时在where语句中慎用tri
在vscode中使用R时,用快捷键来快捷键入卡
VB.NET中如何快速访问注册表
ASP.NET中图象处理过程详解
Vue(1)Vue安装与使用
JavaScript 语言入门
js将一段字符串的首字母转成大写
纯原生html编写的h5视频播放器
H5仿原生app短信验证码vue2.0组件附源码地
TypeScript(4)接口
TypeScript(3)基础类型