火车头采集器内容页是如何分页采集的
2016-09-09 10:59:36 来源: 浏览: 次
火车头不同的版本设置有些不一样,从网上找的一些内容是一个老版本的,估计是7,8 版本,我这里用的是9.0.11.19版本,就是9版本吧。在网上找的一些设置截图都是不一样的。这里我讲下火车头采集9是如何设置内容页面分页采集的。
我们以火狐社会那个网站为采集列表页面讲。
首先添加列表页地址:
然后设置采集区域和链接提取规则,
采集区域
从 <div class="fl main_left"> 到 <div class="fr main_right">
提取规则 <a class="(*)" href="[参数]" target="_blank"> 然后在拼接di
接下来就是内容页面分页了。
分页有两种情况,第一种是“首页全部列出” ,第二种是“上下页模式”。
这里以这个采集地址为主,我们主要讲首页全部列出的情况。
其实内容页面分页 和 列表页面的分页是差不多的
找到内容页面分页的采集区域是
<p class='article_pages'> 到 </p> ,查看源代码看到
然后连接提取出来 <a href="[参数]"
到了这里再进行熟悉的内容匹配
区域是 <div class="article_content"> 到 <span id="advbox"></span>
然后测试我们的网址
比对下我们的火狐的那个新闻地址,发现我们只是采集了第一页而已。
这里我也耽误了很久,查找了很多,就是找不到为什么,只采集第一页的内容。
因为9这个版本和之前的不一样。用的人估计也不是很多。估计网上有很多破解版的,
他们图个方便,也不会去官方下载,这里建议还是不要搞什么破解版本的,不晓得里面加了什么东西。
关键的一步是
点击内容标签=》数据来源=》点击第一个三角 然后会出来一个列表让你选择=》我们选择默认页和内容分页源码
这里的三个选项分别是 :1.默认页面 2.默认页和内容分页源码 3.关联多页。
再次采集。
大功告成。