内容采集规则

内容采集规则的原始界面。
新建标签时,我们需要在“标签列表”区块内右键单击,选择“新建”,就可以成功新建一个标签。

如图,新建标签后,右侧会弹出标签规则界面,这时您就可以编辑标签规则了。
特强注意:
A,新建标签前,首先您需要先把左下角的任务名给填写好了才可以,否则将新建标签。
B,每个采集规则必须拥有一个class标签,且该class标签必须满足以下条件:
a,该class标签的数据来源必须选择“标签组合”;
b,该class标签必须要其采集规则输入框中所填写的标签之后;
c,该class标签的过滤规则必须添加“智能分类”。
下面我们详细说一下如何编辑标签规则。
1,修改标签名
点击标签名后面的“修改”按钮,即会弹出标签规则输入框,这时修改标签名后点击“提交”,标签名就完成修改了。
2,数据来源
数据来源有8个选项,分别为“从网页中获取”、“从网址中获取”、“在返回信息中获取”、“智能标题”、“智能正文”、“智能时间”、“自定义”和“标签组合”。
首先,采集一篇文章,我们推荐你选择“智能标题”、“智能正文”和“智能时间”等智能模式。
a,当“数据来源”选择了“从网页中获取”、“从网址中获取”或者“在返回信息中获取”时,采集模式有“xpath”、“正则提取”和“Json”,分别对应xpath、正则提取和Json等3种采集模式。
此时,无论你选择何种采集模式,后面的“采集规则”输入框中,均需要填写相应的采集规则。
规则的具体写法详见xpath教程(http://www.x7d.com.cn/course/2019-10-21/47.html)、正则提取教程(http://www.x7d.com.cn/course/2019-10-21/48.html)和Json教程(http://www.x7d.com.cn/course/2019-10-21/49.html)。
下面我们举几个例子。
如果有一个网页的代码如下:
<header>
<title>这里是标题</title>
</header>
<body>
<div class="a">
<p>这里是内容a</p>
<p>这里是内容a</p>
<p>这里是内容a</p>
</div>
<div class="t">2019-11-15 13:26:25
</div>
<div class="b">
<p>这里是内容b</p>
<p>这里是内容b</p>
<p>这里是内容b</p>
</div>
<div class="c">
<p>这里是内容c</p>
<p>这里是内容c</p>
<p>这里是内容d</p>
</div>
</body>
(1),从网页中获取,采集文章标题的xpath采集规则为://title
(2),从网页中获取,采集文章标题的re正则提取规则为:<title>(*)</title>
(3),从网页中获取,采集内容a的xpath采集规则为://div[@class='a']
(4),从网页中获取,采集内容a的re正则提取规则为:<div class="a">(*)</div> 或者:<div class="a">(*)<div class="b">
(5),从网页中获取,采集内容b和内容c的xpath采集规则为://div[@class='b']|//div[@class='c']
(6),从网页中获取,采集内容b和内容c的正则提取规则为:<div class="b">(*)$ 或者:<div class="b">(*)</body>
(7),从网页中获取,采集时间的xpath采集规则为://div[@class='t']
(8),从网页中获取,采集时间的re正则提取规则为:<div class="t">(*)</div> 或者,您还可以使用较为复杂的正则写法:\d{4}-\d{2}-\d{2] \d{2}:\d{2}:\d{2}
b,当“数据来源”选择了“智能标题”或“智能正文”时,采集模式和采集规则均呈现灰色、即不可操作状态。这时,软件会自动抽取文章标题和文章正文。
c,当“数据来源”选择了“智能时间”时,采集模式有“系统时间”和“网页时间”两个选项。
当您选择了系统时间时,软件会自动提取您电脑的系统时间;而当您选择了网页时间时,软件则会自动从网页中抽取文章的发布时间。
此外,您还可以通过后面的“时间格式”来对所获得的时间进行格式化。
时间格式化规则:
%y 两位数的年份表示(00-99)
%Y 四位数的年份表示(000-9999)
%m 月份(01-12)
%d 月内中的一天(0-31)
%H 24小时制小时数(0-23)
%I 12小时制小时数(01-12)
%M 分钟数(00=59)
%S 秒(00-59)
所以,2019年11月15日 13点25分58秒的时间格式化规则为:%Y年%m月%d %H点%M分%s秒;
2019-11-15 13:25:58 的时间格式化规则为:%Y-%m-%d %H:%M:%s;
当然,如果您只想保留年月日,或者想要略去其中的几项也是可以的。
比如:2019-11-15 的时间格式化规则为:%Y-%m-%d;
2019-11-15 13:25 的时间格式化规则为:%Y-%m-%d %H:%M;
一般情况下,时间格式化输入框中为空即可,此时系统默认的时间格式为:%Y-%m-%d %H:%M:%s。
d,当“数据来源”选择了“自定义”时,采集模式有“默认排序”和“随机选择”两个选项。
这时,“采集规则”输入框中,您需要输入1个或多个字符串供系统选择。
注意:当采集规则输入多个字符串时,各个字符串之间需用半角逗号分隔开。
如果“采集模式”选择了“默认排序”,软件将按照从先到后的顺序依次选择您在“采集规则”中输入的字符串;而如果“采集模式”选择了“随机选择”时,软件将会随机选择在“采集规则”中所输入的字符串。
e,当“数据来源”选择了“标签组合”时,采集模式将变为不可操作状态,这时您需要在标签列表中选择一个或多个标签并填入“采集规则”输入框中。
注意:当“采集规则”中需要填写多个标签时,各个标签之间需用“+”号进行分隔。
3,过滤规则
用于数据整理。
过滤规则的添加及处理:在过滤规则区块内点击右键,会弹出一个下拉菜单,选择合适的选项,即可完成添加、编辑、删除、清空、下移、下移、到顶、到底等所有操作。
下面介绍过滤规则中相关标签的使用方法。
a,字符替换

字符替换,用于替换数据中的字符或字符串。
字符替换支持正则表达式。(正则表达式写法详见正则提取教程:http://www.x7d.com.cn/course/2019-10-21/48.html
假如我们采集到了如下这段内容:
<div class="a">时间:xxx 作者:xxx  \s\r\t\n    </div>
<p style="xxxx">\n 我是内容    \n</p>
<p style="xxxx">我是内容</p>
<p style="xxxx">我是内容</p>
要做如下处理:
(1),将文中的div标签替换为p标签,前字符串规则为:div 后字符串的规则为:p;
(2),去除文中class="a"和style="xxxx"等格式,前字符串的规则为:class="(*)"|style="(*)" 后字符串为空即可;
(3),选取所有的p标签,并在内容的前后分别插入字符串aaaa和字符串bbbb,前字符串的规则为:<p(*)>(*)</p> 如果要保留p标签的格式,则后字符串的规则为:<p\1>aaaa\2bbbb</p>;而如果想要将p标签的style格式清除的话,则后字符串的规则为<p>aaaa\2bbbb</p>
说明,后字符串中的\1和\2分别代表前字符串中第一个和第二个(*)所获取到的内容,如果有更多的话,还可以用\3、\4... ...来表示。
(4),选取所有的p标签,清除p标签格式,并将p标签内的内容随机修改为aaa我是内容bbb、ccc我是内容ddd或者eee我是内容fff,那么前字符串的规则为:<p(*)>(*)</p> ,而后字符串则需要填入:
<p>aaa\1bbb</p>
<p>ccc\1ddd</p>
<p>eee\1fff</p>
即每行填写一段匹配规则
(5),此外,我们发现,文中还有一些空格和诸如\s、\r、\n和\t等内容,如果需要将其全部清除的话,我们可以在前字符串输入框中填写:\s+,表示匹配0到多个空格、空行和空白字符,此时后字符串为空即可;
(6),如果我们单独清除其中的\n和\t的话,前字符串可以填入:\n|\t,此时后字符串留空即可。
更多正则提取规则请见正则提取教程(http://www.x7d.com.cn/course/2019-10-21/48.html
b,内容截取

内容截取,用于截取数据中的内容,并对内容进行选择、插入、过滤、分割和排序等操作。
内容截取支持正则表达式。正则表达式的写法详见正则提取教程(http://www.x7d.com.cn/course/2019-10-21/48.html)。
假如我们采集到了如下这段内容:
<div class="a">
<p>时间:xxx 作者:xxx 来源:xxx</p>
<p>111,222,333。444,555,666。</p>
<p>123,223,323。423,523,623。</p>
<p>133,233,333。433,533,633。</p>
<p>134,234,334。434,534,634。</p>
<p>144,244,344。444,544,644。</p>
<p>微信号:xxx 二维码:xxx </p>
</div>
下面,我们将对上述内容做如下处理:
(1),如果需要抽取文中p标签中的内容时,需要将前字符串正则表达式为:<p>(*)</p>,后字符串:<p>\1</p>,选择模式默认,选择段落为空,分段排序选择正序;
(2),如果要抽取文中p标签中的内容,并将第一段和最后一段删除时,前字符串正则表达式应写为:<p>(*)</p>,后字符串:<p>\1</p>,选择模式:过滤,选择段落:0,-1,分段排序选择正序;
(3),如果要抽取文中p标签中的内容,将p标签改为div标签,并将第二段和倒数第二段删除时,前字符串正则表达式应写为:<p>(*)</p>,后字符串:<div>\1</div>,选择模式:过滤,选择段落:2,-2,分段排序选择乱排;
(4),如果要使用句号作为分隔符将文章进行重新分段,删除第一段和倒数第二段的内容,把句号替换为叹号,最后再打乱段落时,我们可以把前字符串填写为一个句号,后字符串填写为一个叹号,选择模式为过滤,选择段落为:0,-2,分段排序为乱排。
更多功能欢迎大家积极探索。
更多正则表达式的写法详见正则提取教程(http://www.x7d.com.cn/course/2019-10-21/48.html)。

c,标签过滤

标签过滤用于过滤数据中不需要的标签。
d,抽取热词
用于在数据中抽取热词,默认为5个。
e,智能分类
用于对数据进行自动分类(默认使用系统自带分类词表,如有特殊需求需配置分类词表。)
f,字数统计
用于统计数据中各类型字符的数量。
g,繁简转换
用于对数据中的繁体字和简体字进行互转。
h,汉英互译
用于汉语与英语的互译

网站公告: