列表采集规则

图为列表采集规则选项卡
1,列表网址
用于输入列表网址。
多条网址中间用半格逗号分开。
2,采集深度
用于控制采集深度,默认为1。
当数字为0时,列表页即视为内容页。
当数字大于1时,视为采集多级列表。
3,采集范围
采集范围用于控制列表页的采集范围。支持正则表达式(教程详见正则提取规则:http://www.x7d.com.cn/course/2019-10-21/48.html
假如,我们要采集的列表页网页代码如下:
<div class="a">
  <a href="url">text</a>
  <a href="url">text</a>
  <a href="url">text</a>
</div>
<div class="b">
  <a href="url">text</a>
  <a href="url">text</a>
  <a href="url">text</a>
</div>
<div class="c">
  <a href="url">text</a>
  <a href="url">text</a>
  <a href="url">text</a>
</div>
如果我们要选择第一个div标签(即class名为a的div)中的网址,那么我们就可以在采集范围中填入'<div class="a">(*)</div>'或者'<div class="a">(*)<div class="b">';
如果我们要选择第二个div标签(即class名为b的div)中的网址,那么我们就可以在采集范围中填入'<div class="b">(*)</div>'或者'<div class="b">(*)<div class="c">';
4,必须包含和不得包含
是指获取的内容页网址必须包含的字符串和不得包含的字符串。支持正则表达式(教程详见正则提取规则:http://www.x7d.com.cn/course/2019-10-21/48.html
假如,我们要采集的列表页中含有以下各种不同的网址:
a,<a href="http://www.123.com/">t15522</a>
b,<a href="http://www.123.com/aaa/">t15522</a>
c,<a href="http://www.123.com/bbb/index.html">t15522</a>
d,<a href="http://www.123.com/ccc/2019/11/16/s5312.html">s5312</a>
e,<a href="http://www.123.com/aaa/2019/11/13/t15521.html">t15521</a>
f,<a href="http://www.123.com/bbb/2019/11/14/t15522.html">t15522</a>
g,<a href="http://www.123.com/ccc/2019/11/15/t15523.html">t15523</a>
而我们只想要提取e、f、g这三种网址,那么我们就可以填写一条必须包含的正则表达式:"t\d{1,5}.html",其中,"\d"在正则表达式中表示数字,{1,5}表示匹配1至5次,所以我们在“必须包含”中填写"t\d{1,5}.html"的意思就是指网址中必须包含一个以"t"开头、以".html"结尾,并且两者之间包含1至5位数字的字符串。
假如我们想要提取d、e、f、g这四个网址的话,我们则有两种写法:
(1).最简单的写法,直接在“必须包含”输入框中填写"2019"或"2019/11";
(2).在“必须包含”输入框中填写两段正则表达式,两者之间用分隔符"|"隔开。具体写法为:"t\d{1,5}.html|s\d{1,4}.html"。
“不得包含”输入框的填写方法与“必须包含”类似。
比如,我们想要采集上述网址中的d、e、f这三条网址,那么我们就可以在“必须包含”输入框中填入"t\d{1,5}.html|s\d{1,4}.html",然后在不得包含输入框中填入"ccc"用来排除网址中含有"ccc"字段的网址,或者填入"t15523",用于排除"t15523.html"这个网页。
5,在列表中提取标题
是指在获取内容页网址时,在列表页中提取标题。
6,检测重复网址
用于检测所获取的内容页网址有无重复。

网站公告: