趣百科

v9新版火车头采集器教程

编辑:Simone 2024-12-18 16:14:00 551 阅读

v9新版火车头采集器教程

v9新版火车头采集器规则怎么写?想要了解v9新版火车头采集器教程请关注我

进行点击下载“火车头采集器”,注册账号,如下图:

首先,选择左上角的“新建分组”——“单击鼠标左键”——填写好新建分组名称

“分组名称”可以任意写,当然也可以用“采集XXXX网的文章”来命名,点击“确定”如图:

找到左上边的“任务列表”——已经新建好的分组“采集XXXX网的文章”——“单击鼠标右键”——点击“新建任务”。如图:

好好填写任务列表的规则。下面教大家如何填写

找到顶头的“起始网址”,可先不填。可以在右边点击”向导添加”里面填写,如图:

点击“批量网址”,如下图:

(1)在“地址格式”空白栏里,复制想要采集的列表栏目网址 ,(先去对方网站某个栏目看看有多少个翻页,再看看翻页的网址路径,哪个数字在变化,变化的数字就是参数。就要用符号*代替这个会变化的数字。)如下图。

.

.

为什么下图我写共“8”页?因为一个栏目有上百个页面,我只想采集第1页——第8页,所以就填写8。

.

.

如果你想从第1页,采集到第100页,就填写为“100”

填写好这2个规则后,点击下面的“确定”按钮。那么我么就完成第一步“起始网址”的写法规则。

.

.

“获取方式”是默认的“自动获取地址链接”,这个就不要去修改它了。我们只需要填写好“设置区域”写法规则是:

.

.

(1)点击你要采集的栏目页面——单击鼠标右键——点击”查看源代码“

.

.

(2)在代码里找到栏目页面的内容,选定采集栏目页内容的起始代码标签,这个代码标签可以随意选,但前提条件是,整个代码中只有1个这样的代码标签。不能是2个以上,2个以上的不能用。

.

.

(按键盘ctrl+F健,输入这个代码标签,就出来该网页有多少个这样的标签,1个才能用,2个以上不能用。要找到唯一 一个代码标签)

.

.

用同样的方法,找栏目页面内容的结束代码标签,这个标签一般都是在该栏目内容的结束后面,只要是在改内容结束后面的代码都可以用来作结束代码标签。当然啦,这个代码标签只能由1个,不能出现2个。

如图:

选定好栏目内容的起始代码标签后,复制到“设置区域”的第一个空栏目里。如图:

选定好栏目内容的结束代码标签后,复制到设置区域”的第二个空栏目里。如图:

点击右下角的“网址采集测试”,如图:

测试后,如果网址是这么显示出来的,那就是采集成功了。点击其中一个网址左边的“+”符号,可以看到该栏目页面采集到的内容,如图:

好了,以上是火车头采集器,采集栏目页面写法规则。采集内容文章页面的写法规则,我在下一篇详细讲解。打字截图真的好累

版权声明:本站【趣百科】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.qubaik.com/answer/105791.html

相关推荐