常用的re模块的正则匹配的表达式

oXiaoChong

2020-01-08

关注关注

常用的re模块的正则匹配的表达式

re库的主要功能

常用的re模块的正则匹配的表达式

5.3最小匹配

常用的re模块的正则匹配的表达式

正则表达式使用

#正则表达式
#一种通用的字符串表达框架
#简洁表达的一组字符串的表达式
#针对字符串表达的“简洁”和“特征”的是思想

#作用：
#表达文本类型的特征
#同时查找或者替换一组字符串
#匹配字符串的全部或者部分区域

#正则表达式的使用
#编译：将符合正则表达式语法的字符串转化成正则表达式特征

re模块常用的功能函数

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

re.match()

re.match(pattern,string,flags) pattern可以代表正则表达式，也可以代表字符串
flag用来控制正则表达式的方式，如是否区分大小写，多行匹配等

re.match()的意思是从字符串的起始位置开始匹配一个模式，匹配不到返回none

import re

m = re.match('www', 'www.santotang.com')
print('匹配的结果:', m)  # <re.Match object; span=(0, 3), match='www'>
                                            # 前3个
print("匹配的起始和终点：",m.span())# (0, 3)
print("开始：",m.start())#0
print('结束：',m.end())#3

line = "Fat cats are smarter than dogs, is it right?"
m = re.match(r'(.*) are (.*?)dogs',line)
print('匹配的整句话:',m.group())
print('匹配的第一个结果：',m.group(1))#Fat cats(.*)会尽量的多匹配。贪婪模式
print('匹配的第二个结果：',m.group(2))#smarter than （.*?）非贪婪模式
print('匹配的结果列表：',m.groups())# ('Fat cats', 'smarter than ')

re.search()

re.search() 用法和re.match()相同，不同的是re.match()从开头开始匹配，re.search()返回整个字符串的第一个成功的匹配

a = re.search('com','www.santostang.com')
print(a)#<re.Match object; span=(15, 18), match='com'>

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

pattern    匹配的正则表达式
string    要匹配的字符串。
flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group(num=0)    匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()    返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。

示例1

#!/usr/bin/python
# -*- coding: UTF-8 -*- 
 
import re
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配


# 执行结果
(0, 3)
None

示例2

# !/usr/bin/python
import re

line = "Cats are smarter than dogs"

matchObj = re.match(r'(.*) are (.*?) .*', line, re.M | re.I)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")


# 执行结果
matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。即找到就返回

函数语法：

re.search(pattern, string, flags=0)

函数参数说明：

pattern    匹配的正则表达式
string    要匹配的字符串。
flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group(num=0)    匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()    返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。

示例1

#!/usr/bin/python
# -*- coding: UTF-8 -*- 
 
import re
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配


# 执行结果 找去字符所在位置
(0, 3)
(11, 14)

示例2

#!/usr/bin/python
import re
 
line = "Cats are smarter than dogs";
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if searchObj:
   print "searchObj.group() : ", searchObj.group()
   print "searchObj.group(1) : ", searchObj.group(1)
   print "searchObj.group(2) : ", searchObj.group(2)
else:
   print "Nothing found!!"


# 执行结果
searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

示例

#!/usr/bin/python
import re
 
line = "Cats are smarter than dogs";
 
matchObj = re.match( r'dogs', line, re.M|re.I) # 不是起始位置
if matchObj:
   print "match --> matchObj.group() : ", matchObj.group()
else:
   print "No match!!"
 
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print "search --> matchObj.group() : ", matchObj.group()
else:
   print "No match!!"


# 执行结果
No match!!
search --> matchObj.group() :  dogs

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern : 正则中的模式字符串。

repl : 替换的字符串，也可为一个函数。

string : 要被查找替换的原始字符串。

count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

示例

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print "电话号码是 : ", num


# 执行结果

电话号码是:  2004-959-559 
电话号码是 :  2004959559

repl 参数是一个函数

以下示例中奖字符串中的匹配的数字乘以2：

示例

#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))


# 执行结果

A46G8HFD1134

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式

flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写

re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境

re.M 多行模式

re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）

re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

re.X 为了增加可读性，忽略空格和 # 后面的注释

示例

>>>import re
>>> pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
>>> m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
>>> print m
None
>>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
>>> print m
None
>>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
>>> print m                                         # 返回一个 Match 对象
<_sre.SRE_Match object at 0x10a42aac0>
>>> m.group(0)   # 可省略 0
'12'
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span([group]) 方法返回 (start(group), end(group))。

再看看一个例子：

>>>import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写
>>> m = pattern.match('Hello World Wide Web')
>>> print m                               # 匹配成功，返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>
>>> m.group(0)                            # 返回匹配成功的整个子串
'Hello World'
>>> m.span(0)                             # 返回匹配成功的整个子串的索引
(0, 11)
>>> m.group(1)                            # 返回第一个分组匹配成功的子串
'Hello'
>>> m.span(1)                             # 返回第一个分组匹配成功的子串的索引
(0, 5)
>>> m.group(2)                            # 返回第二个分组匹配成功的子串
'World'
>>> m.span(2)                             # 返回第二个分组匹配成功的子串
(6, 11)
>>> m.groups()                            # 等价于 (m.group(1), m.group(2), ...)
('Hello', 'World')
>>> m.group(3)                            # 不存在第三个分组
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
IndexError: no such group

re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式为：

findall(string[, pos[, endpos]])

参数：

string : 待匹配的字符串。

pos : 可选参数，指定字符串的起始位置，默认为 0。

endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

查找字符串中的所有数字：

示例

# -*- coding:UTF8 -*-
 
import re
 
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
 
print(result1)
print(result2)


# 执行结果
['123', '456']
['88', '12']

re.finditer

和findall类似，在字符串中找到正则表达式所匹配的所有字串，并把他们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

参数：

pattern    匹配的正则表达式

string    要匹配的字符串。

flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

示例

# -*- coding: UTF-8 -*-
 
import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )


# 执行结果

12 
32 
43 
3

re.split

split方法按照能够匹配的子串讲字符串分割后返回列表，它的使用形式如下:

re.split(pattern, string[, maxsplit=0, flags=0])

参数

pattern    匹配的正则表达式

string    要匹配的字符串。

maxsplit    分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

flags    标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

示例

>>>import re
>>> re.split('\W+', 'runoob, runoob, runoob.')
['runoob', 'runoob', 'runoob', '']
>>> re.split('(\W+)', ' runoob, runoob, runoob.') 
['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']
>>> re.split('\W+', ' runoob, runoob, runoob.', 1) 
['', 'runoob, runoob, runoob.']
 
>>> re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割
['hello world']

正则表达式对象

re.RegexObject

re.compile() 返回 RegexObject 对象。

re.MatchObject

group() 返回被 RE 匹配的字符串。

    start() 返回匹配开始的位置

    end() 返回匹配结束的位置

    span() 返回一个元组包含匹配 (开始,结束) 的位置

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

re.I    使匹配对大小写不敏感

re.L    做本地化识别（locale-aware）匹配

re.M    多行匹配，影响 ^ 和 $

re.S    使 . 匹配包括换行在内的所有字符

re.U    根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X    该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r‘\t‘，等价于 ‘\t‘)匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

^    匹配字符串的开头

$    匹配字符串的末尾。

.    匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。

[...]    用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'

[^...]    不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。

re*    匹配0个或多个的表达式。

re+    匹配1个或多个的表达式。

re?    匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式

re{ n}    精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。

re{ n,}    匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。

re{ n, m}    匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a| b    匹配a或b

(re)    匹配括号内的表达式，也表示一个组

(?imx)    正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。

(?-imx)    正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。

(?: re)    类似 (...), 但是不表示一个组

(?imx: re)    在括号中使用i, m, 或 x 可选标志

(?-imx: re)    在括号中不使用i, m, 或 x 可选标志

(?#...)    注释.

(?= re)    前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。

(?! re)    前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功

(?> re)    匹配的独立模式，省去回溯。

\w    匹配字母数字及下划线

\W    匹配非字母数字及下划线

\s    匹配任意空白字符，等价于 [\t\n\r\f].

\S    匹配任意非空字符

\d    匹配任意数字，等价于 [0-9].

\D    匹配任意非数字

\A    匹配字符串开始

\Z    匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。

\z    匹配字符串结束

\G    匹配最后匹配完成的位置。

\b    匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。

\B    匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。

\n, \t, 等.    匹配一个换行符。匹配一个制表符。等

\1...\9    匹配第n个分组的内容。

\10    匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

校验数字的表达式

1.数字

^[0-9]\*$

2.n位的数字

^\d{n}$

3.至少n位的数字

^\d{n,}$

4.m-n位的数字

^\d{m,n}$

5.零和非零开头的数字

^(0|[1-9][0-9]\*)$

6.非零开头的最多带两位小数的数字

^([1-9][0-9]\*)+(\.[0-9]{1,2})?$

7.带1-2位小数的正数或负数

^(\-)?\d+(\.\d{1,2})$

8.正数、负数、和小数

^(\-|\+)?\d+(\.\d+)?$

9.有两位小数的正实数

^[0-9]+(\.[0-9]{2})?$

10.有1~3位小数的正实数

^[0-9]+(\.[0-9]{1,3})?$

11.非零的正整数

^[1-9]\d\*$ 或 ^([1-9][0-9]\*){1,3}$ 或 ^\+?[1-9][0-9]\*$

12.非零的负整数

^\-[1-9][]0-9"\*$ 或 ^-[1-9]\d\*$

13.非负整数

^\d+$ 或 ^[1-9]\d\*|0$

14.非正整数

^-[1-9]\d\*|0$ 或 ^((-\d+)|(0+))$

15.非负浮点数

^\d+(\.\d+)?$ 或 ^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0$

16.非正浮点数

^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*))|0?\.0+|0$

17.正浮点数

^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*$ 或 ^(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*))$

18.负浮点数

^-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*)$ 或 ^(-(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*)))$

19.浮点数

^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0)$

校验字符的表达式

1.汉字

^[\u4e00-\u9fa5]{0,}$

2.英文和数字

^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

3.长度为3-20的所有字符

^.{3,20}$

4.由26个英文字母组成的字符串

^[A-Za-z]+$

5.由26个大写英文字母组成的字符串

^[A-Z]+$

6.由26个小写英文字母组成的字符串

^[A-Z]+$

7.由数字和26个英文字母组成的字符串

^[A-Za-z0-9]+$

8.由数字、26个英文字母或者下划线组成的字符串

^\w+$ 或 ^\w{3,20}$

9.中文、英文、数字包括下划线

^[\u4E00-\u9FA5A-Za-z0-9_]+$

10.中文、英文、数字但不包括下划线等符号

^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11.禁止输入含有~的字符

[^~\x22]+

特殊需求表达式

1.Email地址

^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$

2.域名

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

3.InternetURL

[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$

号码

1.手机号码

^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

2.国内电话号码(0511-4405222、021-87888822)

\d{3}-\d{8}|\d{4}-\d{7}

3.电话号码正则表达式（支持手机号码，3-4位区号，7-8位直播号码，1－4位分机号）:

((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)

身份证号(15位、18位数字)，最后一位是校验位，可能为数字或字符X

(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)

账号与密码

1.帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

2.密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)

^[a-zA-Z]\w{5,17}$

3.强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在 8-10 之间)

^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z])[a-zA-Z0-9]{8,10}$

4.强密码(必须包含大小写字母和数字的组合，可以使用特殊字符，长度在8-10之间)

^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z]).{8,10}$

时间

1.日期格式

^\d{4}-\d{1,2}-\d{1,2}

2.一年的12个月(01～09和1～12)

^(0?[1-9]|1[0-2])$

3.一个月的31天(01～09和1～31)

^((0?[1-9])|((1|2)[0-9])|30|31)$

xml文件

^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

中文字符的正则表达式

[\u4e00-\u9fa5]

空白行的正则表达式

\n\s\*\r (可以用来删除空白行)

HTML标记的正则表达式

<(\S\*?)[^>]\*>.\*?|<.\*? /> ( 首尾空白字符的正则表达式^\s\*|\s\*$或(^\s\*)|(\s\*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)

腾讯QQ号

[1-9][0-9]{4,} (腾讯QQ号从10000开始)

中国邮政编码

[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

IP地址

((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

常用的re模块的正则匹配的表达式

正则 wv sw

oXiaoChong

0 关注 0 粉丝 0 动态

关注关注

MySQL全面瓦解之查询的正则匹配详解

上一章查询的过滤条件，我们了解了MySQL可以通过 like % 通配符来进行模糊匹配。同样的，它也支持其他正则表达式的匹配，我们在MySQL中使用 REGEXP 操作符来进行正则表达式匹配。似，但又强大很多，能够实现一些很特殊的、复杂的规则匹配。如果

杨德龙 2020-11-11

MongoDB查询之高级操作详解（多条件查询、正则匹配查询等）

MongoDB查询文档使用find()方法，同时find()方法以非结构化的方式来显示所有查询到的文档。db.collection.find -- 返回所有符合查询条件的文档。$type操作符是基于BSON类型来检索集合中匹配的数据类型，MongoDB中可

不要皱眉 5评论 2020-10-14

ASP删除img标签的style属性只保留src的正则函数

'功能:将IMG代码格式化为<img src="XXX" />格式,只保留SRC属性，去掉IMG标签的其他属性。

满地星辰 2020-09-16

想要在JS中把正则玩得飘逸，学会这几个函数的使用必不可少

在之前的一系列文章中，我们讲解了很多关于正则表达式的知识。那么作为一个前端工程师，如果想要把这些知识应用到我们平时的开发中去的话，就需要知道在JavaScript中，能够使用正则的函数有哪些？然后它们各自的功能是什么？有哪些需要注意的地方？只有掌握好了每一

梦的天空 2020-08-25

liunx正则危险符号“*”星号

sed符号是一个替换符号，用于文件替换，现在我们像grep一样，把b替换成z，按照我最开始的写法，只要有b的都替换成z，所以写法是。sed “s/b*/z/g” 含义sed "s/查找字符/替换字符/全局替换"，但是下面的结果另外们大吃

lrjnlp 2020-07-19

正则 : 模式

贪婪模式和懒惰模式都会进行回溯；匹配两次相关的字符时，匹配到不符合要求的字符后，这个字符才算匹配完，然后继续匹配下一个字符；默认模式就是贪婪模式，正则会在满足要求的情况下尽可能多的匹配字符知道匹配到不符合要求的字符为止；模式符号)来表示正则的匹配模式，使用

qidu 2020-07-05

CTF-字符？正则？

通过读代码可以看出只要我们构造出符合正则表达式的字符串通过GET传参传过去就可以看到 key 即 flag. . （一个点）：表示可以匹配任何字符；{n,m} ：前面的字符重复4~7次；\ （反斜线）：后面的字符被转义；至此，我们可以对这道题的正则表达式进

flyingssky 2020-07-05

10、正则

pat = re.compile ## 此处的AA是正则表达式，用来取验证其他字符串是否符合AA. m = pat.search ## search字符串是被校验的内容，若不匹配，则返回None. print ## 找出至少一个或多个

flyingssky 2020-06-27

形式语言与自动机五正则语言的三个性质

自动机理论非常完美！！自动机的表述有纯数学形式的五元组形式、状态转移图、状态转移表。接下来以研究正则语言（3型）的性质为主。但是也要知道即使是更强的上下文无关文法，其描述能力也是受限的。上面的B、C找不到正则表达式，也就找不到有限自动机。DFA中的F指的是

RuoShangM 2020-06-17

[javascript] 获取正则子表达式里的内容

js中每一个括号匹配的内容可以被RegExp对象捕获到，存储在RegExp.$1…

jyj00 2020-06-16

JS leetcode 宝石与石头题解分析，正则字符组也有妙用

简单问题简单做，今天的题目来自leetcode771. 宝石与石头，字符串相关的一道题，题目描述如下：。J 中的字母不重复，J 和 S中的所有字符都是字母。字母区分大小写，因此"a"和"A"是不同类型的石头。S 和

天高任鸟飞 2020-06-13

什么？你还不会身份证号码验证？最全的身份证正则验证js

var city={11:"北京",12:"天津",13:"河北",14:"山西",15:"内蒙古",21:"辽宁",22:"

Darklovy 2020-06-11

用它匹配大数据长文本，让你的处理效率提升 100 倍！

原来文本匹配的方式一直是用中规中矩的正则来做，最近在实际生产中由于数据量骤升，现有数据量提高了大约 3-4 倍，原本使用正则处理已经到了瓶颈，这次又有增量对生产来说可谓雪上加霜，而且随着正则词越加越多，匹配效率也越来越差，数据量的激增再加上正则词越加越多，

qidu 2020-06-08

linux正则应用场景

sed 本身也是一个管线命令，可以分析 standard input 的啦！而且 sed还可以将数据进行取代、删除、新增、撷取特定行等等的功能呢。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后，则只有

Darklovy 2020-06-07

模块-re模块

findall ：会匹配字符串中所有符合规则的项并返回一个列表，如果没有匹配到返回一个空列表。search ：会从头到尾从带匹配匹配字符串中取出第一个符合条件的项，后面即使有也不再继续

jyj00 2020-06-06

前端常用正则校验

非零开头的最多带两位小数的数字：^+?正数、负数、和小数：^?有1~3位小数的正实数：^[0-9]+?中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{

flyingssky 2020-06-04

node环境下console语句对非空数组输出时，会清空正则捕获组。

如代码所示，当我在console输出语句中对正则捕获RegExp.$X进行split分割,，结果后续的任何语句均无法读取到正则捕获组RegExp.$X的值。const args = RegExp.$1.split(‘,‘).map;console.log;

山水沐光 2020-05-26

正则注意事项

1， -o 仅显示匹配的内容，默认情况下grep显示对应的整行,如果要做统计的话,需要sed去除不要的部分, 但grep提供了仅显示需要的部分, 使sed脚本更简单.注意，grep 只支持匹配而不能替换匹配到的内容。grep 支持不同的匹配模式，比如默认

山水沐光 2020-05-25

mongodb正则$regex命令行简单使用

{ <field>: { $regex: /pattern/, $options: ‘<options>‘ } }

Buerzhu 2020-05-17

JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的.//那个时候自己正则还不算很精通, 也没有(?//比如像字面量 "abc\\\"", 则会匹配为 "a

zjcheerup 2020-05-14

常用的re模块的正则匹配的表达式

常用的re模块的正则匹配的表达式

re库的主要功能

5.3最小匹配

正则表达式使用

re模块常用的功能函数

re.match()

re.search()

re.match函数

re.search方法

re.match与re.search的区别

检索和替换

repl 参数是一个函数

re.compile 函数

re.findall

re.finditer

re.split

正则表达式对象

re.RegexObject

re.MatchObject

正则表达式修饰符 - 可选标志

正则表达式模式

校验数字的表达式

1.数字

2.n位的数字

3.至少n位的数字

4.m-n位的数字

5.零和非零开头的数字

6.非零开头的最多带两位小数的数字

7.带1-2位小数的正数或负数

8.正数、负数、和小数

9.有两位小数的正实数

10.有1~3位小数的正实数

11.非零的正整数

12.非零的负整数

13.非负整数

14.非正整数

15.非负浮点数

16.非正浮点数

17.正浮点数

18.负浮点数

19.浮点数

校验字符的表达式

1.汉字

2.英文和数字

3.长度为3-20的所有字符

4.由26个英文字母组成的字符串

5.由26个大写英文字母组成的字符串

6.由26个小写英文字母组成的字符串

7.由数字和26个英文字母组成的字符串

8.由数字、26个英文字母或者下划线组成的字符串

9.中文、英文、数字包括下划线

10.中文、英文、数字但不包括下划线等符号

11.禁止输入含有~的字符

特殊需求表达式

1.Email地址

2.域名

3.InternetURL

号码

1.手机号码

2.国内电话号码(0511-4405222、021-87888822)

3.电话号码正则表达式（支持手机号码，3-4位区号，7-8位直播号码，1－4位分机号）:

身份证号(15位、18位数字)，最后一位是校验位，可能为数字或字符X

账号与密码

1.帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)

2.密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)

3.强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在 8-10 之间)

4.强密码(必须包含大小写字母和数字的组合，可以使用特殊字符，长度在8-10之间)

时间

1.日期格式

2.一年的12个月(01～09和1～12)

3.一个月的31天(01～09和1～31)

xml文件

中文字符的正则表达式

空白行的正则表达式

HTML标记的正则表达式

腾讯QQ号

中国邮政编码

IP地址

相关推荐