找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2029|回复: 0
打印 上一主题 下一主题

PHP实现采集抓取淘宝网单个商品信息

[复制链接]

2536

主题

2536

帖子

7532

积分

论坛元老

Rank: 8Rank: 8

积分
7532
跳转到指定楼层
楼主
发表于 2018-2-14 05:50:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

            调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。
思路:
file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!
具体实现方法:(获取500图,名称,价格,属性及商品描述)
[U]复制代码[/U] 代码如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text
A.获取500图:
[U]复制代码[/U] 代码如下:
preg_match('/]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;
B. 获取名称:
[U]复制代码[/U] 代码如下:
preg_match('/([^]*)/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)
C.获取价格:
[U]复制代码[/U] 代码如下:
preg_match('/]*>([^/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型
D.获取属性:
这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如
[U]复制代码[/U] 代码如下:



















这样特定div中有未知n个标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/]*>([^]|(?R))*/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的……标签后面不是就是,所以我们可以采用变通法达到获取属性标签内容的目的。
[U]复制代码[/U] 代码如下:
preg_match('/]*>.*/is', $text, $text0);
//这个正则会抓取标签,当然我们属性标签就在这个的前面部分。

$text1=preg_replace("/[^]*>.*/is","",$text0);
//匹配到至最后然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。

$attributes=preg_replace("/[^]*>.*/is","",$text1);
//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。
E.获取描述:
通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。
好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“
[U]复制代码[/U] 代码如下:

描述加载中

这几个div是加载描述所必须的,那么下面就是写代码了:
[U]复制代码[/U] 代码如下:
preg_match_all('/]*>[^/is', $text, $content);//页面js脚本
$content=$content[0];
$description='
  
   描述加载中
  ';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。
            
            
您可能感兴趣的文章:
  • php IIS日志分析搜索引擎爬虫记录程序
  • php 向访客和爬虫显示不同的内容
  • PHP多线程抓取网页实现代码
  • PHP CURL模拟登录新浪微博抓取页面内容 基于EaglePHP框架开发
  • php使用curl和正则表达式抓取网页数据示例
  • PHP curl实现抓取302跳转后页面的示例
  • 一个PHP实现的轻量级简单爬虫
  • PHP代码实现爬虫记录——超管用
  • PHP爬虫之百万级别知乎用户数据爬取与分析
  • 利用php抓取蜘蛛爬虫痕迹的示例代码
  • php与python实现的线程池多线程爬虫功能示例
  • PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
            
  • 分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    用户反馈
    客户端