正则提取规则设置教程
re正则是另一种常用的标签提取工具,比xpath还要常用。如需系统学习的话,大家可以自行百度“re正则教程"。
一,基本语法
\d    匹配0-9的所有数字,相当于[0-9]
\D    匹配非数字字符,相当于[^0-9]
\w    匹配一个数字、字母或下划线,相当于[A-Za-z_0-9]
\W    匹配非数字、字母或下划线,相当于[^A-Za-z_0-9]
\s     匹配空格、空行、空白字符,相当于 [ \f\n\r\t\v]
\S    匹配非空格,相当于 [^ \f\n\r\t\v];
^     从开头匹配
$      匹配至结尾
()      标记表达式的开始与结束位置
*       通配符
\       字符转义
+      匹配一次或多次
?       匹配0次或1次
{n}    匹配n次
{m,n}    匹配m次到n次
|        分隔符
二,软件常用表达式
\s+    匹配所有空格、空行或空白字符;
\d{0,n}    匹配一个0到n位数;
<*> 等同于 (.*?),匹配前字符串到后字符串之间的内容
<n>,等同于\n和\g<n>,代替符。
<img(.*?)> 匹配所有的图片
<div class="c">(.*?)</div>    匹配从<div class="c">到</div>的内容
^(.*?)<div class="c">    匹配从开头到<div class="c">的所有内容
?(.*?)$    匹配从?到结尾的所有内容
^(.*?)$    匹配从开头到结尾的所有内容
[a-z0-9]    匹配所有的小写字母和数字
<div(.*?)>|</div>    匹配所有的div标签

网站公告: