首都之窗采集规则配置实例教程
一,打开软件,点击“新建任务”,填写任务名。

二,输入列表网址

三,确定要采集的内容
此次我们采集首都之窗新闻频道所有的内容页,所以我们在网页上右键,在弹出菜单中选择“查看网页源代码”。
这时,我们可以看得到,该网站的内容页都有一个共性,如:“http://www.beijing.gov.cn/gongkai/ldhd/t1606620.htm”,网页的后缀均为.htm,网页最后一个"/"后面均为t开头的7位数,所以我们可以在网页中锁定这两个要素,寻找必须包含这两个要素的网址。
所以,我们用正则写一个表达式为:"t\d{1,8}.htm",表示为以"t"开头、"."htm结尾,当中含有一个1-8位数的字符串。
如下图:

四,采集测试
然后我们点击右下角的“采集测试”,来测试一下我们刚刚写好的列表页采集规则。
采集测试页点开之后,在采集模式中选择“列表页”,这时网址输入栏中会自动出现我们之前在采集任务中所输入的列表页网址。
这时,我们点击“提交”,片刻即可测试完成。

如图,测试结果显示,我们的采集规则写得非常成功。
五,打开“内容页采集规则”对话框,在标签列表框中右键,然后在弹出菜单中选择“新建”,新建一个标签。
在右侧的标签规则右侧点击“修改”,将标签名修改为“标题”,并在数据来源列表中选择“智能标题”。

六,用上面的方法,再新建一个“内容”标签,并在数据来源列表中选择“智能正文”。
七,新建“关键词”标签,数据来源选择“标签组合”,采集规则填写“标题”、“内容”或“标题+内容”都可以。
然后在“过滤规则”栏中右键,选择“添加”->“抽取热词”。

八,重复上面的步骤,分别建立“时间”、“作者”、“class”、“来源”和“网址”标签。如下图:

时间标签

作者标签

class标签

来源标签

网址标签
注意:一定要注意各标签规则之间的异同之处。
九,填写“分类采集/发布”规则
在进行内容页的采集测试之前,必须要填写“分类采集/发布”规则,否则在进行内容页采集测试时会提示错误。
但是,由于“分类采集/发布”规则较为复杂,我们有专门的教程,所以在此就不详细叙述了。在此,为了进行内容页采集测试的需要,您可以先将以下内容填入“分类采集/发布”的规则输入框中:
社会,http://www.123.com/e/admin/jiekou.php?pw=******,img/p113.txt
十,内容页采集测试
注意,在进行内容页采集测试之前,须先点击“保存”。
打开采集测试对话框,采集模式选“列表页”,提交后会得到我们想要的内容页。
这时我们将采集模式选择为“内容页”,并在刚刚在列表页采集测试中所获得的内容页网址中随意选择一条,复制并粘贴入网址输入框中,然后点击提交,即可得到采集测试结果。
十一,标题采集规则修正

如图,测试完成后,我们会得到上图的测试结果。
在本地发布接口文件(img/p103.txt),我们写了这样一句“title:标题”,表示title字段对应的软件内容页采集标签为“标题”。
很明显,测试结果显示,我们所采集到的内容并不尽如人意。所以,这时我们需要将标题的采集规则修改为“从网页中获取”,并将采集模式选择为“xpath",采集规则填写为"//title"。(xpath规则写法详见xpath教程:http://www.x7d.com.cn/course/2019-10-21/47.html
然后再次测试结果如下:

这时我们发布,我们的标题已经采集成功了,只是还有多余的标签和空格、空行等需要清除。所以,我们将做以下处理:
在”过滤规则“框中右键选择“添加”->“标签过滤”,并选中"<>";
同样的方法,添加“字符替换”,并在前字符串中填写正则:\s+,在后字符串中输入一个空格。
(正则表达式的写法详见正则提取规则:http://www.x7d.com.cn/course/2019-10-21/48.html

再次进行内容页采集测试,我们发布,我们的标题采集规则已经OK了。
十二,用同样的方法,我们对内容标签的采集规则进行修正。
如上图,在newstext标签中含有\n、\3000、多余的div标签,且p标签还有align格式,所以我们添加以下过滤规则来处理:
(1)、新建“标签过滤”标签,并选中“div";
(2)、新建“字符替换”标签,并在前字符串输入框中填写:\s+,后字符串输入框中填写一个空格(这里输入一个空格,是因为防止将图片、视频和带有格式的标签中的空格替换掉了);
(3)、再新建一个“字符替换”标签,在前字符串输入框中填入:<p(*)> ,然后在后字符串输入框中填写:<p>
然后再重新进行采集测试。

如图,测试发现,我们的过滤规则写得非常的完美。
到此,本条采集规则已经编写OK。

网站公告: