有关用perl处理网页的有关问题,
有关用perl处理网页的问题,高手请进!
我用下面这段代码获取网页,然后存成txt格式,可是有的txt文件打开的时候会弹出对话框问是否转成dos格式,会弹出这种对话框的网页,后期我就没法对这个txt文件进行正常的处理,不知道为什么,请大侠指点迷津,多谢了!
use LWP::Simple;
open(NEW, "> union2.txt ");
my @new=();
my $url = 'http://www.shangwu.org.ru/dong/cailing/index.html ';
my @list = get $url;
if(!@list){
die "couldn 't ger $url ";
}
else{
print NEW @list;
close(NEW);
}
------解决方案--------------------
\r是回车符,0x0D,你用16进制查看器(比如UltraEdit的十六进制模式)就可以看到了。
Windows下换行用的是0D 0A,Unix下是0A,Mac下是0D,而这个网页中却是0D 0D 0A,所以删掉一个就是了。
网页中框架的内部源码我不太清楚,但FireFox或许可以查看。
我用下面这段代码获取网页,然后存成txt格式,可是有的txt文件打开的时候会弹出对话框问是否转成dos格式,会弹出这种对话框的网页,后期我就没法对这个txt文件进行正常的处理,不知道为什么,请大侠指点迷津,多谢了!
use LWP::Simple;
open(NEW, "> union2.txt ");
my @new=();
my $url = 'http://www.shangwu.org.ru/dong/cailing/index.html ';
my @list = get $url;
if(!@list){
die "couldn 't ger $url ";
}
else{
print NEW @list;
close(NEW);
}
------解决方案--------------------
\r是回车符,0x0D,你用16进制查看器(比如UltraEdit的十六进制模式)就可以看到了。
Windows下换行用的是0D 0A,Unix下是0A,Mac下是0D,而这个网页中却是0D 0D 0A,所以删掉一个就是了。
网页中框架的内部源码我不太清楚,但FireFox或许可以查看。