java 将html非一般码转换成字符 &x
java 将html特殊码转换成字符 &#x
首先得明白这种特殊码是什么,其实就是unicode吗 只是有格式而已。
集 96c6 是16进制的格式。
注意在量词后面添加? 来实现非贪婪模式
直接上代码吧
package com.xue.tools; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.dom4j.DocumentException; import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.TagNode; import org.htmlcleaner.XPatherException; public class Test { public static void main(String[] args) throws IOException, DocumentException, XPatherException { // 定义正则表达式来搜索中文字符的转义符号 Pattern compile = Pattern.compile("&#.*?;"); // 测试用中文字符 String sourceString = "C集团天c津大唐国际盘山发电有限责任公司"; Matcher matcher = compile.matcher(sourceString); // 循环搜索 并转换 替换 while (matcher.find()) { String group = matcher.group(); // 获得16进制的码 String hexcode = "0" + group.replaceAll("(&#|;)", ""); // 字符串形式的16进制码转成int并转成char 并替换到源串中 sourceString = sourceString.replaceAll(group, (char) Integer.decode(hexcode).intValue() + ""); } System.out.println(sourceString); } }