中国政府网采集规则配置实例教程
一,打开新起点智慧爬虫,点击“新建任务”,进入任务配置对话框。


二,首先取一个任务名,然后将我们要采集的列表页网址复制进列表采集规则的网址输入框中。

三,我们打开要采集的网页,确定我们要采集的网址和区域范围,并在网址上右键并选择“查看网页源代码”,找到相应的网页源代码。

如图,由于我们要采集的是要闻这一块儿的网址,所以我们找到了下面这段代码。

如下图,由于我们所要采集的区域在政务联播的前面,所以我们在政务联播的前面找到了一段标志性的字符串。如下图:

现在我们就可以利用上面找到的两段代码,来组成一段正则表达式了。
四,我们回到软件的“列表采集规则”对话框,并利用前面找到的代码组成正则表达式“<div class="column4">(*)<div class="column4_leftPart2">”,然后写入采集范围输入框中。如下图:

正则表达式中,我们使用了(*),表示从<div class="column4">开始,到<div class="column4_leftPart2">结束,两者之间的所有内容(详见正式提取教程:http://www.x7d.com.cn/course/2019-10-21/48.html
五,现在我们来测试一下刚刚写的列表页的采集规则。
点击采集测试,在弹出窗口的采集模式中选择“列表页”,然后点击提交。

测试结果显示,除了我们所想的网址,软件还采集到了几个栏目页网址,所以我们还需要把它们排除掉。
六,所以我们在不得包含输入框中填入“yaowen|gundong”,然后再次测试。

如图,测试结果显示,我们的采集规则非常的完美。
八,现在我们开始编写内容页的采集规则。
我们先在标签列表框中右键并选择新建,新建一个标签。
然后我们再修改标签名为“标题”,选择数据来源为“智能标题”。

九,用同样的方法,我们再新建以下几个标签:
(1),标签名:内容,选择数据来源为“智能正文”;
(2),标签名:关键词,数据来源:标签组合,采集规则:标题,过滤规则:抽取热词;
(3),标签名:时间,数据来源:智能时间;
(4),标签名:作者,数据来源:自定义,采集规则:米米,可可
(5),标签名:class,数据来源:标签组合,采集规则:标题+正文;
(6),标签名:来源,数据来源:自定义,采集规则:中国政府网;
(7),标签名:网址,数据来源:从网址中获取。

十,在分类采集/发布中,我们填入“,,img/p77.txt”

十一,保存,然后进行内容页采集测试。
打开采集测试页,选择一条我们在列表采集测试中获取到的网址并填入网址输入框中,然后在采集模式中选择“内容页”。如下图:

如下图,提交后,我们得到了以下结果:

从图中,我们可以看得到,title和newstext中有很多空行、空格及多余的标签和格式化的内容。
对照“分类采集/发布”中我们所填写的本地接口文件“img/p77.txt”,我们发现,title即是软件的“标题”标签,newstext即为“内容”标签。
十二,点击“标题”标签,在过滤规则中右键选择“添加”-->“字符替换”,然后在前字符串中填入“\s+”,后字符串中键入一个空格;

重新进行内容采集测试,如图,标题的采集规则已经修改OK了。
十三,点击“内容”标签,在过滤规则右键选择“添加”,然后点击“标签过滤”,并勾选"div”;
右键选择“添加”,添加一个“字符替换”规则,并在前字符串中输入"\s+",后字符串中输入一个空格;
右键选择 “添加”,再添加一个“字符替换”规则,在前字符串中输入"<p(*)>",后字符串中输入"<p>"。

如图,重新进行内容采集测试后,我们发现,所有采集到的内容,都已经处理好了。
到此,采集规则就算已经做好了。

网站公告: