网站数据采集文章采集,织梦网站采集功能教程

网站数据采集:网站如何采集数据，网站怎么采集文章呢？下面教程教大家织梦网站采集功能怎么使用，dedecms网站后台采集功能的使用方法其实很简单。

第一步：

登录网站后台，点击采集模块，选择采集节点管理—文章采集—点击确定。

创建采集节点。

第二步：

1.给新建的采集节点命名，这里一某网站为例为教大家操作。

2.目标页面编码：点选和要采集的目标网站的编码一致，目标网站的编码是什么可以在目标网站页面右击—查看源文件—一般在页面最上面有本网站所用的编码类型，如图本次掩饰的网站用的是utf-8，那我们就要选择utf-8。

第三步：

1.引用网址设置：找到我们要采集的目标网站的列表页，在列表页内任意选择一篇文章把这篇文章的链接复制进来就可以了

2.来源属性中匹配网址的设置：在列表页的最下面点击下一页，我们会发现每一页的网址都是有规律的，网址中只有一个数字是不一样的，而这个数字就是每一页的页码数，我们复制任意一个列表页的网址以：http://网址.com/listpage/5574/(*)/list.shtml的格式填入匹配网址中。中间的(*)是变量，代表列表的页数。

然后输入自己要采集多少页，作为演示我采集两页，就输入从1到2.

第四步：

1.文章网址匹配规则设置：在目标网站列表页右击--查看源文件

2.在源文件中找到我们要采集的文章列表区域：本次演示的是从第一篇文章（一道菜轻松除口臭百试百灵）---到最后一篇文章（每晚睡8小时死得快？到底该睡多久）这个区域。

也就是从：区域开始的HTML：

健康提示

——到区域结束的HTML：

这个区域里的内容，把这两段代码分别输入，（注意这两段代码必须在源文件中是唯一的：可以用Ctrl+F查找是否是唯一的，不然采集会出错）

3.保存进入下一步。

第五步：

上面保存进入下一步后看到以下截图，就说明填写正确，然后继续下一步。

第六步：

1.文章标题设置：任意打开列表页一篇文章，右击查看源文件，找到文章标题所在的代码，本次演示站的代码是

男人必知：老中医不外传的10个养肾秘密

。

然后复制这段代码以这种格式

[内容]

填入就好了。

2.文章内容匹配规则设置：和第四步想同，找到文章所在区域的开始代码和结束代码然后填入代码，本次演示站的开始结束代码是和。然后写成[内容]这种格式。

点击保存并预览

第七步：

预览结果如下就可以了，保存并开始采集。

第八步：

采集完成，点击采集节点管理，勾选采集节点，然后导出数据到相应的网站栏目里，演示时采集的是关于健康的文章，所以此处导入到两性健康栏目，勾选排除重复标题，采集重复的会自动过滤掉，然后确定。

第九步：

生成：点击一键更新网站，选择更新当前内容，点击确定更新。会把采集来的文章生成静态的HTML网页。大功告成了！

第十步：

采集规则编写步奏还是挺多的，如果一遍看不懂建议多看几遍，多试几次，本次教程到此结束希望能够帮助大家。

网站数据采集 文章采集,织梦网站采集功能教程

健康提示

男人必知：老中医不外传的10个养肾秘密

[内容]

相关推荐

网站数据采集文章采集,织梦网站采集功能教程