php curl函数采集网页出现gzip压缩、编码不同导致的乱码 图文解决方法
方法一:
header("content-type:text/html;charset=utf-8");
$url="http://115.47.116.10/rest/keyword
'";
$content = file_get_contents("compress.zlib://".$url);
$arr=json_decode($content,true);
print_r($arr);
二:
curl乱码有两个方面的原因一个是因为我们采集页面的php页面编码与远程文档编码不致导致的,另一种可能是页面进入了gzip压缩传输导致的,那么我们要如何解决这些问题呢?
gzip压缩传输导致乱码
今天在采集京东的时候发现返回的数据是乱码,网上说可能和压缩有关,看了一下京东的头信息的确进行gzip加密,好吧,那就解压吧
1
|
//将return的字符进行解码
|
另一种解决办法
1
|
;
|
页面编码问题
1
|
;
|
完整代码示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
// curl 伪造agent抓取页面
{
;
{
;
}
;
;
;
;
//这个是解释gzip内容.................
;
;
;
;
;
;
;
}
|