你好,欢迎来到织梦之家,你可以享受本站大量免费模板下载!以及阅读精典教程加实例 !!

织梦采集侠定向采集设置方法-织梦之家(dedehome.com)

时间:2012-06-03 12:23 来源:织梦之家作者:dedehome 点击:
定向采集是织梦采集侠V2.5版亮点功能之一,简单配置采集规则即可精确采集到文章标题、作者、来源、内

定向采集织梦采集侠V2.5版亮点功能之一,简单配置采集规则即可精确采集到文章标题、作者、来源、内容和分页,通过这篇教程大家可以懂得如何配置这些采集规则,从而简单方便的采集内容,熟悉该方法后,您将会抛弃传统复杂的采集方式,采用织梦采集侠的定向采集功能进行采集。织梦仿站教程

和传统的采集方式相比,织梦采集侠的定向采集功能更为简单,不需要编写复杂的采集规则,可供设置的地方就那么几项,简单配置一下即可采集内容。织梦之家

定向采集规则设置

1)目标页面编码
目标页面编码的设置最为简单,您只需要查看一下您要采集的网站页面所采用的是什么编码即可,查看方法很简单,打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,然后在采集规则设置目标页面编码设置对应的编码即可。

2)列表URL
列表URL是您要采集网站的列表

列表URL一般是你需要采集的文章的列表页,因为只有列表页才有众多被采集文章的URL,通过列表URL规则和文章URL规则,可以匹配出该列表页符合文章URL规则的文章页URL来。

如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:,这是首页的,

第一页的URL是:
第二页的URL是:
第三页的URL是:

通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。

3)文章URL
文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

例:

比如我要采集站长之家优化栏目里面的文章,他们的文章URL是



通配后的URL就是:(*)/(*)/(*).shtml

也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。

4)标题规则、作者规则、来源规则、内容规则和分页规则的写法
标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,我现在就一一举例如何设置,有编写过传统采集规则的用户,对插件的规则写法会很容易上手,新用户也是很容易理解的。

[规则说明]:”起始无重复HTML[内容]结尾无重复HTML”,简单的说,右键查看文章源码,标题内容用 [内容] 来代替,然后就是紧接着标题内容左右两边的代码,下面是举例说明,用户可以更直观的了解。

比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,

如:
SEO关键字策略规划技巧心得分享

标题规则
打开后,右键查看源码,通过查看源码,我们可以看到标题“SEO关键字策略规划技巧心得分享”出现的地方有2两处,

1

<title>SEO关键字策略规划技巧心得分享 - 站长之家</title>

1

SEO关键字策略规划技巧心得分享</h1>

根据这两段代码,我们可以写出标题规则为

1

站长之家</title>

1

内容]</h1>

这样的写法就符合插件的规则要求,同[内容]代替要采集的部分,只取其中一个规则即可。

作者规则的写法和标题写法一致,只要找出作者所在位置,和左右两边的代码就行,用[内容]代替作者,该篇文章中没有显示文章作者,所以在此就不演示了。

来源规则
浏览网页我们可以看到该篇文章的来源是cgt88.com,同样是查看文章源码,搜索查看“cgt88.com”所在位置,我们可以看到

1

来源: cgt88.com</span>

这段代码中包含了来源,我们采用同样的方法用[内容]对要采集的“来源”进行替换,来源规则则是:

1

来源span>

内容规则
内容规则和其他规则的写法一样,只是内容过多,不方便搜索查找,得自己浏览源码找到内容部分,内容部分占的位置也是比较多的,查找起来也是很容易的。

从上两张图中我们可以找出文章开头是“网络上谈SEO的文章是漫天飞舞”,结尾是“转载请提供出处。不胜感谢。”,包含文章正文的html分别是

感谢支持织梦之家,你的支持,我们的无限动力!!!
“DEDECMS教程”欢迎分享!:

相关标签:织梦(495)方法(62)采集(86)设置(12)定向(1)

顶一下
(0)
0%
踩一下
(0)
0%

欢迎您报错,或提出宝贵建议,我们将第一时间处理,为大家营造一个良好网上交流平台,感谢支持织梦之家!

在百度中搜索相关文章:织梦采集侠定向采集设置方法
在谷歌中搜索相关文章:织梦采集侠定向采集设置方法
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
昵称(可为空): 验证码: 点击我更换图片