问一个关于java正则表达式的有关问题(总是少一个字母)
问一个关于java正则表达式的问题(总是少一个字母)
本意是提取网页上的代理服务器的IP,端口以及其他的,一共5个字段。使用下面的表达式,发现第三个group开始,每个group都缺一个字符。即使没有中文也缺一个字符。如好色打印部分。请高手帮忙看看表达式是否有问题。。。。
html字符串自取了2个作为例子
<tr><td>41.65.38.227<script type="text/javascript">document.write(":"+k+q+v+t)</script>:3128</td><td>anonymous </td><td>Feb-17, 06:48</td><td>Egypt</td></tr><tr><td>58.247.178.239<script type="text/javascript">document.write(":"+t+o+t+q)</script>:8081</td><td>anonymous </td><td>Feb-17, 10:38</td><td>China</td></tr>
------解决方案--------------------
试试这个
本意是提取网页上的代理服务器的IP,端口以及其他的,一共5个字段。使用下面的表达式,发现第三个group开始,每个group都缺一个字符。即使没有中文也缺一个字符。如好色打印部分。请高手帮忙看看表达式是否有问题。。。。
private List<String> parsePage_samair(String html){
List<String> ret = new ArrayList<String>();
SpiderProxyBase.baseLog("Enter parsePage_samair");
String regEx = "<tr><td>(\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3})<script.+?[^>]>:(\\d{1,5})</td><td>(.+?)[^<]</td><td>(.+?)[^<]</td><td>(.+?)[^<]</td></tr>";
Pattern pat = Pattern.compile(regEx,Pattern.DOTALL); //取消Pattern.DOTALL标记问题也在
Matcher mat = pat.matcher(html);
while(mat.find()){
StringBuffer result = new StringBuffer();
System.out.println(mat.group(1)); //41.65.38.227
System.out.println(mat.group(2)); //3128
System.out.println(mat.group(3)); //anonymous(这里相对html代码缺一空格)
System.out.println(mat.group(4)); //Feb-17, 06:4缺一字母
System.out.println(mat.group(5)); //Egyp缺一字母
result.append(mat.group(1)).append(";");
result.append(mat.group(2)).append(";");
result.append(mat.group(3)).append(";");
result.append(mat.group(4)).append(";");
result.append(mat.group(5));
ret.add(result.toString());
System.out.println(ret.get(ret.size() -1 ));
}
SpiderProxyBase.baseLog("Exit parsePage_samair");
return ret;
}
html字符串自取了2个作为例子
<tr><td>41.65.38.227<script type="text/javascript">document.write(":"+k+q+v+t)</script>:3128</td><td>anonymous </td><td>Feb-17, 06:48</td><td>Egypt</td></tr><tr><td>58.247.178.239<script type="text/javascript">document.write(":"+t+o+t+q)</script>:8081</td><td>anonymous </td><td>Feb-17, 10:38</td><td>China</td></tr>
------解决方案--------------------
试试这个
String regEx = "<tr><td>(\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3})<script.+?[^>]>:(\\d{1,5})</td><td>(.+?)</td><td>(.+?)</td><td>(.+?)</td></tr>";