在编写火车头采集器规则时，设置好要采集的列表页地址后

火车头采集器怎么采集内容页网址

火车头采集器怎么采集内容页网址？

在编写火车头采集器规则时，设置好要采集的列表页地址后，就要开始配置采集内容页网址的获取方式。这里就简单讲解下火车头采集器怎么采集内容页网址？首先我们要知道获取内容网址有两种模式，分别是：常规模式和高级模式。

第一种常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页A链接。它有2种方式：A.自动获取地址链接 B.手动设置规则获取。

第二种高级模式：该模式对0级，多级，POST类型网址的抓取有效。即起始网址就是内容页网址；这时需要对多级列表网址采集才能得到最终内容页链接；也可能是post网址类型抓取等情况下使用高级模式。一般情况下使用的较少，初学者可以优先学习常规模式即可。

获取结果如图：

共81个一级网址，但实际我们需要抓取的1级网址是每页40个，所以我们可以通过区域设置和链接过滤设置来获取我们所需要的链接。

这样我们再点击网址采集测试，可以看出结果是正确的。

对于有些由脚本生成的网址，采集器不能自动识别，此时就要手动设置规则获取了。手动设置规则获取设置原理是编写脚本规则，去和源代码里的内容匹配，获取到自己设置的参数即可。其中提取规则里的[参数]，(*) ，[标签:XXX] 都是通配符，可以统配任意字符，区别在于[参数]有返回值，一般用于拼接地址，(*)没有返回值，[标签:XXX]有返回值，返回值给标签。

此时，我们可以取其中的一条代码作为循环匹配，把我们要获取的链接替换成[参数]，需要采集到的值替换成标签。如：

第二种高级模式：高级模式需要清空多级列表，列表地址就是内容页网址，因此不存在获取内容页网址的说法了。

本站内容主要来自各采集器官网和网络上收集的资料，如果有版权问题及时联系站长，会及时做删除处理。如果标记的是原创内容，则有站长原创，转载请保留出处。