火车头采集器内容页是如何分页采集的
2016-09-09 10:59:36 来源：浏览：次

导读：火车头不同的版本设置有些不一样，从网上找的一些内容是一个老版本的，估计是7,8 版本，我这里用的是9 0 11 19版本，就是9版本吧。在网上

火车头不同的版本设置有些不一样，从网上找的一些内容是一个老版本的，估计是7,8 版本，我这里用的是9.0.11.19版本，就是9版本吧。在网上找的一些设置截图都是不一样的。这里我讲下火车头采集9是如何设置内容页面分页采集的。

我们以火狐社会那个网站为采集列表页面讲。

首先添加列表页地址：

火车头采集火狐社会列表页

然后设置采集区域和链接提取规则，

采集区域

从 <div class="fl main_left"> 到 <div class="fr main_right">

提取规则 <a class="(*)" href="[参数]" target="_blank"> 然后在拼接di

火车头采集内容页分页采集区域和链接提取规则

接下来就是内容页面分页了。

分页有两种情况，第一种是“首页全部列出” ，第二种是“上下页模式”。

这里以这个采集地址为主，我们主要讲首页全部列出的情况。

其实内容页面分页和列表页面的分页是差不多的

找到内容页面分页的采集区域是

<p class='article_pages'> 到 </p> ，查看源代码看到

火车头采集内容页面分页的采集区域

然后连接提取出来 <a href="[参数]"

火车头采集内容页分页采集提取规则

到了这里再进行熟悉的内容匹配

区域是 <div class="article_content"> 到 <span id="advbox"></span> 火车头采集内容页匹配

然后测试我们的网址

火车头采集文章页面分页测试

比对下我们的火狐的那个新闻地址，发现我们只是采集了第一页而已。

这里我也耽误了很久，查找了很多，就是找不到为什么，只采集第一页的内容。

因为9这个版本和之前的不一样。用的人估计也不是很多。估计网上有很多破解版的，

他们图个方便，也不会去官方下载，这里建议还是不要搞什么破解版本的，不晓得里面加了什么东西。

关键的一步是

点击内容标签=》数据来源=》点击第一个三角然后会出来一个列表让你选择=》我们选择默认页和内容分页源码

这里的三个选项分别是：1.默认页面 2.默认页和内容分页源码 3.关联多页。

火车头采集默认页和内容分页源码

再次采集。

火车头采集内容页分页采集测试成功

大功告成。

火车头采集器内容页是如何分页采集的 2016-09-09 10:59:36 来源： 浏览： 次