设为首页
收藏本站
用户名
Email
自动登录
找回密码
密码
登录
立即注册
只需一步,快速开始
快捷导航
登录
注册
论坛首页
BBS
建站模版
微站设计
虚拟主机
企业邮箱
博客日志
Blog
搜索
搜索
搜索
热搜
长春
优惠
活动
做网站
本版
帖子
用户
本版
帖子
用户
请
登录
后使用快捷导航
没有帐号?
立即注册
道具
勋章
任务
留言板
设置
我的收藏
退出
时时商务社区
»
论坛首页
›
资讯分享
›
长春建站
›
DEDECMS V5.3采集简易教程
返回列表
查看:
1912
|
回复:
0
DEDECMS V5.3采集简易教程
[复制链接]
新格网络
当前离线
积分
7789
2617
主题
2617
帖子
7789
积分
论坛元老
论坛元老, 积分 7789, 距离下一级还需 9992210 积分
论坛元老, 积分 7789, 距离下一级还需 9992210 积分
积分
7789
发消息
电梯直达
楼主
发表于 2018-2-13 20:41:25
|
只看该作者
|
倒序浏览
|
阅读模式
关键字描述:教程 简易 采集 我们 内容 网址   如果 作者 V5.3
DedeCms V5.3 采集基础教程。
首先说明一下的是,第一次写这种教程,有不当的地方请大家包涵。
进入正文:
采集过程其实就是copy的过程,只不过,我们copy的是显示结果,而采集主要针对源码进行。
第1步,建立节点
我们以图片中的网址为例,目标页面编码一定要选对,不然采集回来的内容会乱码,如果你采集回来的内容有乱码,首先要考虑的是编码问题,这里我们选utf-8,怎么知道别人的编码是什么呢?看看源码就会明白了。
“区域匹配模式”我选择是的正则表达式,因为如果选“字符串”,将有一些广告代码过滤不掉。
第2步:文章网址匹配规则。 生活Tips欢迎您(http://ez4life.cn)
这个就要看采集网站的源代码(图2)了,找到一个包含所有要采集内容网址的代码(要唯一,建议多使用Ctrl F),这样我们就确定了要采集区域的网址,不放心就测试一下。
图2
最后结果如图3
图3
第3步:在前面2步的基础上我们已经找到了需要采集的网址,下面来看具体的采集内容。
在内容配置选项中,如果你比较懒,可以象我一样不要选那么多的选项,只选择你感兴趣的部分,如文章标题,作者及来源等,在dede cmsV5.3中已经把dede V5.1的规则进行了改造,易于初学者使用了,其基本形式是标签和内容放在一块的,V5.1要分开始标签和结束标签,其实原理都是一样的。
这里讲讲自定义作者的问题。V5.3以前的版本采集时可以用@me="作者“的形式自定义作者,而v5.3只能用替换的方法实现了,当然也有不便之处,这样我们就确定了基本的东西了。
第4步:便是我们要的内容核心了,这里会用到比较多的过滤规则,幸好dede V5.3给我们准备了一些常用的,不过,如果你想采集比较复杂的网页那还得学会一些常用的正则表达式了。这样我们就基本学会了dedecms V5.3的采集,是不是有点简单?
侠客站长站 (www.jb51.net )
第5步:导出内容,这个我就不多讲了。
分享到:
QQ好友和群
QQ空间
腾讯微博
腾讯朋友
收藏
0
回复
使用道具
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
用户反馈
客户端