找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1724|回复: 0
打印 上一主题 下一主题

PHP curl实现抓取302跳转后页面的示例

[复制链接]

2500

主题

2513

帖子

7520

积分

论坛元老

Rank: 8Rank: 8

积分
7520
跳转到指定楼层
楼主
发表于 2018-2-14 05:56:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

            PHP的CURL正常抓取页面程序如下:
$url = 'http://www.baidu.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_NOBODY, true);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, 'GET');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_TIMEOUT, 20);
curl_setopt($ch, CURLOPT_AUTOREFERER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$ret = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);
如果你抓取到的是302状态,是因为再抓取的过程中,有的跳转需要给下一个链接传递参数,而下一个链接同时也设置了如果没接收到相应的参数是为非法访问。
curl_setopt($curl, CURLOPT_CUSTOMREQUEST, 'GET');
显示就应该正常了。
上面用来抓取功能,几乎应该没问题的。你可以查一下CURLOPT_CUSTOMREQUEST相关资料。
使用一个自定义的请求信息来代替”GET”或”HEAD”作为HTTP请求。这对于执行”DELETE” 或者其他更隐蔽的HTTP请求。有效值如”GET”,”POST”,”CONNECT”等等。也就是说,不要在这里输入整个HTTP请求。例如输入”GET /index.html HTTP/1.0\r\n\r\n”是不正确的。
            
            
您可能感兴趣的文章:
  • php IIS日志分析搜索引擎爬虫记录程序
  • php 向访客和爬虫显示不同的内容
  • PHP多线程抓取网页实现代码
  • PHP CURL模拟登录新浪微博抓取页面内容 基于EaglePHP框架开发
  • php使用curl和正则表达式抓取网页数据示例
  • PHP实现采集抓取淘宝网单个商品信息
  • 一个PHP实现的轻量级简单爬虫
  • PHP代码实现爬虫记录——超管用
  • PHP爬虫之百万级别知乎用户数据爬取与分析
  • 利用php抓取蜘蛛爬虫痕迹的示例代码
  • php与python实现的线程池多线程爬虫功能示例
  • PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
            
  • 分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    用户反馈
    客户端