基础教程:新华网采集规则示例教程
下面,我们以新华网为例,讲解一下新起点智慧爬虫采集规则的编写教程。
今天我们要通过新华网的首页来采集新华网财经频道的内容。
一,新建采集规则
1,新建采集任务


如图,新建一个采集任务,在“列表采集规则”的选项卡的“列表网址”输入框中填入新华网首页的网址,并填入任务名。(注意:任务名不得含有符号,且不得以数字开头。
2,列表采集规则
由于新华网的首页中各个频道的内容都有,所以我们需要找到财经频道内容页的特点:
(1),网址中必须包含栏目地址“fortune”;
(2),网址中必须含有以“c_”开头的、后接10个数字,后缀为“.htm"的静态文件。


所以,如上图,我们在内页必含中填入”fortune<*>c_\d{5,12}.htm“。
注:”<*>是通配符,用于替代从“fortune”到“c_”之间的所有内容,\d是指数字,\d{5,12}是指5-12位纯数字。(详见正则表达式相关教程)
3,列表采集测试

在填写完列表页的采集规则后,我们点击采集测试按钮,然后在弹出窗口的“采集模式”中选择“列表页”。这时,网址框中会自动弹出刚才我们所填的列表网址。
这时,我们点击“开始”,稍后就会看到如上图的采集结果。从上图中我们看到,我们获得的采集结果非常完美。
二,内容采集规则
1,新建标题


在标签栏内点击右键,选择“新建”,新建一个标签,修改标签名称为“标题”,并选中“数据来源”中的“智能标题”。如上图。
2,新建内容标签

如图,再新建一个内容标签。
3,新建时间标签

如图,新建时间标签。
4,新建作者标签

如上图,新建作者标签。(注意:图中的用户名须为您网站中已经存在的用户名,否则可能会发布不成功。
5,新建关键词标签

如上图,新建关键词标签,采集规则中填写前面标签规则中已经存在的“标题”和“内容”,两者之间用“+”分开,并在“过滤规则”框内右键,选择“添加”->“抽取热词”。
6,新建class标签

如图,新建class标签。(注意:class为系统预置的分类标签,不可以改名,也不可以缺少。
7,新建来源标签

如图,新建来源标签。
8,新建网址标签

如图,新建网址标签。
9,内容采集测试
注意:在填写完前面的采集规则后,请一定要记得点击“保存”。

如图,在“采集测试”的“采集模式”框中选择“内容页”,填入一条内容页网址,点击“开始”,很快会出现采集结果。
在结果中,我们看到,我们想要的内容全部都采集到了,但是,“标题”和“内容”的采集结果还有一些无关的代码和空格,需要去除,下面我们就开始重新整理格式。
10,标题添加过滤规则

标题的过滤规则。(注意:后字符串中我们输入了一个空格。)
11,内容添加过滤规则

首先,我们新建一条“标签过滤”规则,去除一些不想要的标签。

然后再新建一条“字符替换”规则,过滤内容中的空格、换行和责任编辑及其后面的内容,并在后字符串中填入一个空格。
12,重新测试

保存,然后重新测试后,我们发现内容中还有一些不想要的代码。所以再改一下。
13,重新修改内容标签的过滤规则

如图,我们修改了"内容"标签中“字符替换”规则的前字符串,把从开头到第一个<p>标签的内容去除,把从<1--到结尾的内容全部替换成一个小空格。然后,由于刚才我们忘记了过滤文中的DIV标签,所以我们还在后面添加了两条规则,分别是<div<*>>和</div>,各规则之间我们用"|"进行了分隔。
14,再次测试

点击“保存”,再次进行采集测试,从图中我们看到了,结果已经相当不错了。
三,其它
到此,主要的采集规则已经全部完工,有关“分类采集/发布”等其他细则的规则,请看其他相关教程。

网站公告: