正则表达式(regular expression)是一种用形式化语法描述的文本匹配模式。在需要处理大量文本处理的应用中有广泛的使用,我没使用的编辑器,IDE中的搜索常用正则表达式作为搜索模式。玩过*nix系统的都知道如sed,grep,awk这类的命令,他们是非常强大的文本处理工具。几乎所有的语言都有对正则表达式的支持,有的直接在语法中支持,有的使用扩展库的形式。python使用的就是扩展库re。
re.search(pattern,string,flag=0)
搜索文本中的匹配的模式是最常用的.以模式和文本作为输入,如果有匹配则返回一个Match对象,反之返回None。
每个Match对象包括相关的匹配信息:原字符串、正则表达式和匹配的文本在字符串中的位置。
import re
pattern = "this"
text = "Does this text match the pattern?"
match = re.search(pattern, text) # 返回一个Match对象
print match.re.pattern # 要匹配的正则表达式"this"
print match.string # 匹配的文本"Does this match the pattern?"
print match.start() # 匹配的开始位置 5
print match.end() # 匹配的结束位置 9
re.compile(pattern,flag=0)
如果程序中频繁的使用到同一个正则表达式,每次使用的时候都写一遍正则表达式不仅不高效而且会大大增加出错的几率,re提供了compile函数将一个表达式字符串编译为一个RegexObject。
模块级函数会维护已编译表达式的一个缓存,而这个缓存是的大小是有限制的。直接使用已经编译的表达式可以避免缓存查找的开销,并且在加载模块时就会预编译所有的表达式。
import re
regex = re.compile("this")
text = "Does this text match the pattern?"
match = regex.search(text)
if match:
print "match"
match.group(0) #返回匹配的字符串
else:
print "not match"
re.findall(pattern, string, flag=0)
使用search会返回匹配的单个实例,使用findall会返回所有匹配的不重叠的子串。
import re
pattern = 'ab'
text = 'abbaaabbbbaaaaaa'
re.findall(pattern, text) # 返回['ab', 'ab']
re.finditer(pattern, string, flag=0)
finditer会返回一个迭代器,会生成Match实例,不像findall()返回字符串.
import re
pattern = 'ab'
text = 'abbaaabbbbaaaaaa'
match = re.finditer(pattern, text)
for m in match:
print m.start()
print m.end()
以上的例子会分别输出两次匹配结果的起始位置和结束位置。
正则匹配默认采用的是贪婪算法,也就是说会re在匹配的时候会利用尽可能多的输入,而使用?可以关闭这种贪心行为,只匹配最少的输入。这之前先说下量词。
量词是为了简化正则表达式的读写而定义的,通用的形式是{m,n},这表示匹配的个数至少是m,最多是n,在','之后不能有空格,否则会出错,并且均为闭区间。
{n} 之前的元素必须出现n次
除了之上,还有三个常用的量词*,?和+
* 等价于{0,}
还有^和$,分别表示段或者字符串的开始与结束。
import re
re.search("^travell?er$", "traveler") # True
re.search("^travell?er$", "traveller") # True
re.search("^ab\*", "abbbbbbb") # True,返回"abbbbbbb"
re.search("^ab\*?", "abbbbbbb") # True,返回"a"
re.search("^ab+", "abbbbbbb") # True,返回"abbbbbbb"
re.search("^ab+?", "abbbbbbb") # True,返回"ab"
对于一些预定义的字符集可以使用转义码可以更加紧凑的表示,re可以识别的转义码有3对,6个,分别为三个字母的大小写,他们的意义是相反的。
\d : 一个数字
如果想指定匹配的内容在文本的相对位置,可以使用锚定,跟转义码类似。
^ 字符或行的开始
import re
the_str = "This is some text -- with punctuation"
re.search(r'^\w+', the_str).group(0) # This
re.search(r'\A\w+', the_str).group(0) # This
re.search(r'\w+\S*$', the_str).group(0) # punctuation
re.search(r'\w+\S*\Z', the_str).group(0) # punctuation
re.search(r'\w*t\W*', the_str).group(0) # text --
re.search(r'\bt\w+', the_str).group(0) # text
re.search(r'\Bt*\B', the_str).group(0) # 没有匹配
用组来解析匹配,简单的说就是在一个正则表达式中有几个小括号()将匹配的表达式分成不同的组,使用group()函数来获取某个组的匹配,其中0为整个正则表达式所匹配的内容,后面从1开始从左往右依次获取每个组的匹配,即每个小括号中的匹配。使用groups()可以获取所有的匹配内容。
import re
the_str = "--aabb123bbaa"
pattern = r'(\W+)([a-z]+)(\d+)(\D+)'
match = re.search(pattern, the_str)
match.groups() # ('--', 'aabb', '123', 'bbaa')
match.group(0) # '--aabb123bbaa'
match.group(1) # '--'
match.group(2) # 'aabb'
match.group(3) # '123'
match.group(4) # 'bbaa'
python对分组的语法做了扩展,我们可以对每个分组进行命名,这样便可以使用名称来调用。语法:(?P
import re
the_str = "--aabb123bbaa"
pattern = r'(?P<not_al_and_num>\W+)(?P<al>[a-z]+)(?P<num>\d+)(?P<not_num>\D+)'
match = re.search(pattern, the_str)
match.groups() # ('--', 'aabb', '123', 'bbaa')
match.groupdict() # {'not_al_and_num': '--', 'not_num': 'bbaa', 'num': '123', 'al': 'aabb'}
match.group(0) # '--aabb123bbaa'
match.group(1) # '--'
match.group(2) # 'aabb'
match.group(3) # '123'
match.group(4) # 'bbaa'
match.group('not_al_and_num') # '--'
match.group('al') # 'aabb'
match.group('num') # '123' '
match.group('not_num') # 'bbaa'
以上的group()方法在使用的时候需要注意,只有在有匹配的时候才会正常运行,否则会抛错,所以在不能保证有匹配而又要输出匹配结果的时候,必须做校验。
在re中可以设置不通的标志,也就是search()和compile()等中都包含的缺省变量flag。使用标志可以进行完成一些特殊的要求,如忽略大小写,多行搜索等。
import re
the_str = "this Text"
re.findall(r'\bt\w+', the_str) # ['this']
re.findall(r'\bt\w+', the_str, re.IGNORECASE) # ['this', 'Text']
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。