正则表达式笔记
一、概述
1、概念
正则表达式是你所定义的模式模板,Linux工具可以用它来过滤文本。Linux工具(比如sed编辑器或gawk程序)能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式,它就会被接受并进一步处理;如果数据不匹配模式,它就会被滤掉。
数据流 → 正则表达式 → (1)匹配的数据 (2)滤掉的数据
正则表达式(或称Regular Expression,简称RE),是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的分割、匹配、查找及替换操作。即正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。
简单来说就是通过一些特殊字符的排序,用以删除、查找、替换一行或者多行文字字符串的程序。
2、作用
通常用于判断语句中,用来检查某一字符串是否满足某一格式。正则表达式是由普通字符与元字符组成:
- 普通字符包括大小写字母、数字、标点符号及一些其他符号
- 元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式
3、可达到的目的
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
- 给定的字符串是否符合正则表达式的过滤逻辑(称作匹配)
- 可以通过正则表达式,从字符串中获取我们想要的特定部分
二、基础正则
1、基础正则常见元字符(支持的工具:grep、egrep、sed、awk)
元字符 | 描述 | 示例 |
---|---|---|
\ |
转义字符,用于取消特殊符号的含义 | \! , \n , \$ 等 |
^ |
匹配字符串开始的位置 | ^a , ^the , ^# , ^[a-z] |
$ |
匹配字符串结束的位置 | word$ , ^$ 匹配空行 |
. |
匹配除\n 之外的任意的一个字符 |
lo.*k , lo.k , l..k |
* |
匹配前面一个字符出现0次或者多次 | loo*k , lo*k |
[list] |
匹配list列表中的一个字符 | go[ola]d , [abc] , [a-z] , [a-z0-9] , [0-9] 匹配任意一位数字 |
[^list] |
匹配任意非list列表中的一个字符 | [^0-9] , [^A-Z0-9] , [^a-z] 匹配任意一位非小写字母 |
\{n\} |
匹配前面一个字符n次 | lo\{2\}k , '[0-9]\{2\}' 匹配两位数字 |
\{n,\} |
匹配前面一个字符不少于n次 | lo\{2,\}k , '[0-9]\{2,\}' 匹配两位及两位以上数字 |
\{n,m\} |
匹配前面一个字符n到m次 | lo\{2,3\}k , '[0-9]\{2,3\}' 匹配两位到三位数字 |
注: egrep、awk使用
{n}
,{n,}
,{n, m}
匹配时"{}“前不用加”"
示例演示
1、*
匹配前面一个字符0次或者多次
[root@rhel8 ~]# cat a.txt
lk
lok
look
loook
looooook
loooooaaak
looooooook
abbbbcd
abbbbcd666
ooooloooook
oooooolk
aoblck
[root@rhel8 ~]# grep "loo*k" a.txt
lok
look
loook
looooook
looooooook
ooooloooook
[root@rhel8 ~]# grep "lo*k" a.txt
lk
lok
look
loook
looooook
looooooook
ooooloooook
oooooolk
2、.
匹配除\n
之外的任意的一个字符
[root@rhel8 ~]# grep "lo.*k" a.txt
lok
look
loook
looooook
loooooaaak
looooooook
ooooloooook
[root@rhel8 ~]# grep "lo.k" a.txt
look
[root@rhel8 ~]# grep "l..k" a.txt
look
3、\{n\}
, \{n,\}
, \{n,m\}
使用
[root@rhel8 ~]# grep "lo\{2\}k" a.txt
look
[root@rhel8 ~]# grep "lo\{3\}k" a.txt
loook
[root@rhel8 ~]# grep "lo\{3,\}k" a.txt
loook
looooook
looooooook
ooooloooook
[root@rhel8 ~]# grep "lo\{3,5\}k" a.txt
loook
ooooloooook
4、^
和$
使用
^
匹配字符串开始的位置
$
匹配字符串结束的位置
^$
匹配空行
[root@rhel8 ~]# cat b.txt
aa
abd
cdd
cdc
cdd
[root@rhel8 ~]# grep "^c" b.txt
cdd
cdc
cdd
[root@rhel8 ~]# grep "d$" b.txt
abd
cdd
cdd
[root@rhel8 ~]# grep "^$" b.txt
5、[list]
和[^list]
使用
[root@rhel8 ~]# cat c.txt
lok
lo12k
lo1k
loAk
loBk
look
loak
lodk
abcd
1234
[root@rhel8 ~]# grep "lo[a-zA-Z0-9]k" c.txt
lo1k
loAk
loBk
look
loak
lodk
[root@rhel8 ~]# grep "lo[ABo]k" c.txt
loAk
loBk
look
[root@rhel8 ~]# grep "lo[^a-zA-Z]k" c.txt
lo1k
[root@rhel8 ~]# grep "[^a-zA-Z]" c.txt
lo12k
lo1k
1234
三、扩展正则
扩展正则元字符
元字符 | 描述 | 示例 | ||
---|---|---|---|---|
+ |
匹配前面一个字符1次以上 | lo+k ,匹配lok、look、loook等 |
||
? |
匹配前面一个字符0次或者1次 | lo?k ,匹配lk或lok |
||
() |
将括号中的字符串作为一个整体 | l(oo)+k ,匹配look、looook等 |
||
` | ` | 以或的方式匹配字符串 | `l(oo | ab)k`,匹配look或labk |
{} |
允许为可重复的正则表达式指定一个上限 | {n} 重复n次;{n,} 重复n次或更多次;{n,m} 重复n到m次 |
示例演示
1、+
匹配前面一个字符1次以上
[root@rhel8 ~]# egrep "lo+k" a.txt
lok
look
loook
looooook
looooooook
ooooloooook
2、?
匹配前面一个字符0次或者1次
[root@rhel8 ~]# egrep "lo?k" a.txt
lk
lok
oooooolk
3、()
将括号中的字符串作为一个整体
[root@rhel8 ~]# egrep "l(oo)+k" a.txt
look
looooook
looooooook
4、|
以或的方式匹配字符串
[root@rhel8 ~]# echo labk >> a.txt
[root@rhel8 ~]# egrep "l(oo|ab)+k" a.txt
look
looooook
looooooook
labk
5、{}
允许为可重复的正则表达式指定一个上限
[root@rhel8 ~]# egrep "lo{3}k" a.txt
loook
[root@rhel8 ~]# egrep "lo{3,}k" a.txt
loook
looooook
looooooook
ooooloooook
[root@rhel8 ~]# egrep "lo{3,5}k" a.txt
loook
ooooloooook
四、特殊的字符组
字符组 | 描述 |
---|---|
[[:alpha:]] |
匹配任意字母字符,不管是大写还是小写 |
[[:alnum:]] |
匹配任意字母数字字符09、AZ或a~z |
[[:blank:]] |
匹配空格或tab键 |
[[:digit:]] |
匹配0~9之间的数字 |
[[:lower:]] |
匹配小写字母字符a~z |
[[:print:]] |
匹配任意可打印字符 |
[[:punct:]] |
匹配标点符号 |
[[:space:]] |
匹配任意空白字符:空格、tab、NL、FF、VT和CR |
[[:upper:]] |
匹配任意大写字母字符A~Z |