v9新版火车头采集器教程
v9新版火车头采集器规则怎么写?想要了解v9新版火车头采集器教程请关注我
进行点击下载“火车头采集器”,注册账号,如下图:
首先,选择左上角的“新建分组”——“单击鼠标左键”——填写好新建分组名称
“分组名称”可以任意写,当然也可以用“采集XXXX网的文章”来命名,点击“确定”如图:
找到左上边的“任务列表”——已经新建好的分组“采集XXXX网的文章”——“单击鼠标右键”——点击“新建任务”。如图:
好好填写任务列表的规则。下面教大家如何填写
找到顶头的“起始网址”,可先不填。可以在右边点击”向导添加”里面填写,如图:
点击“批量网址”,如下图:
(1)在“地址格式”空白栏里,复制想要采集的列表栏目网址 ,(先去对方网站某个栏目看看有多少个翻页,再看看翻页的网址路径,哪个数字在变化,变化的数字就是参数。就要用符号*代替这个会变化的数字。)如下图。
.
.
为什么下图我写共“8”页?因为一个栏目有上百个页面,我只想采集第1页——第8页,所以就填写8。
.
.
如果你想从第1页,采集到第100页,就填写为“100”
填写好这2个规则后,点击下面的“确定”按钮。那么我么就完成第一步“起始网址”的写法规则。
.
.
“获取方式”是默认的“自动获取地址链接”,这个就不要去修改它了。我们只需要填写好“设置区域”写法规则是:
.
.
(1)点击你要采集的栏目页面——单击鼠标右键——点击”查看源代码“
.
.
(2)在代码里找到栏目页面的内容,选定采集栏目页内容的起始代码标签,这个代码标签可以随意选,但前提条件是,整个代码中只有1个这样的代码标签。不能是2个以上,2个以上的不能用。
.
.
(按键盘ctrl+F健,输入这个代码标签,就出来该网页有多少个这样的标签,1个才能用,2个以上不能用。要找到唯一 一个代码标签)
.
.
用同样的方法,找栏目页面内容的结束代码标签,这个标签一般都是在该栏目内容的结束后面,只要是在改内容结束后面的代码都可以用来作结束代码标签。当然啦,这个代码标签只能由1个,不能出现2个。
如图:
选定好栏目内容的起始代码标签后,复制到“设置区域”的第一个空栏目里。如图:
选定好栏目内容的结束代码标签后,复制到设置区域”的第二个空栏目里。如图:
点击右下角的“网址采集测试”,如图:
测试后,如果网址是这么显示出来的,那就是采集成功了。点击其中一个网址左边的“+”符号,可以看到该栏目页面采集到的内容,如图:
好了,以上是火车头采集器,采集栏目页面写法规则。采集内容文章页面的写法规则,我在下一篇详细讲解。打字截图真的好累
版权声明:本站【趣百科】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.qubaik.com/answer/105791.html