正则表达式及shell编程--grep

发布于:2023-01-27 ⋅ 阅读:(593) ⋅ 点赞:(0)

目录

正则定义

基础表达式

扩展表达式

正则表达式相关命令

grep命令

​编辑

sort排序

uniq

tr

cut

paste


正则定义

通常用于判断语句中,用来检查某一字符是否满足某一格式
普通字符包括大小写字母,数字,标点符号及一些其他符号
元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

基础表达式

基础正则表达式常见元字符:(支持的工具:grep,egrep,sed,awk)

\ 转义字符,用于取消特殊符号的含义,例: \!、\n、\$等
^ 匹配字符串开始的位置,例: ^a、^the、^#、^[a-z]
$ 匹配字符串结束的位置,例: word$ 、^$匹配空行
. 匹配除\n之外的任意的一个字符,例: go.d、g..d
* 匹配前面子表达式o次或者多次,例: goo*d、go.*d
[list] 匹配list列表中的一个字符,例: go[ola]d,[abc]、[a-z]、[a-z0-9]、[0-9]匹配任意一位数字
[^list] 匹配任意非list列表中的一个字符,例:[^0-9]、[^A-Z0-9]、[^a-z]匹配任意一位非小写字母
\{n\} 匹配前面的子表达式n次,例: go\{2\}d、'[0-9]\{2\}'匹配两位数字
\{n,\} 匹配前面的子表达式不少于n次,例: go\{2,\}d、'[0-9]\{2,3\}'匹配两位及两位以上数字
\n,m\) 匹配前面的子表达式n到m次,例: go\{2,3\}d、'[0-9]\(2,3\}'匹配两位到三位数字

注: egrep、awk使用{n}、{n,}、{n,m}匹配时“{}“前不用加""\”

扩展表达式

扩展正则表达式元字符:(支持的工具: egrep、 awk)

+ 匹配前面子表达式1次以上,例: go+d,将匹配至少一个o,如lgod、good、goood等
? 匹配前面子表达式0次或者1次,例: go?d,将匹配gd或god
() 将括号中的字符串作为一个整体,例1: g(oo)+d,将匹配oo整体1次以上,如lgood、gooood等
| 以或的方式匹配字条串,例: g(oo|la)d,将匹配good或者glad

定位符

^ 匹配输入字符串开始的位置

$匹配输入字符串结尾的位置

非打印字符

\n匹配一个换行符

\r匹配一个回车符

\t匹配一个制表符

正则表达式相关命令

grep命令

格式:

grep 选项 文件

过滤文本中的字符串,

命令产生的字符

选项:

-color=auto 对匹配到的文本着色显示
-m # 匹配 # 次后停止
-v 显示不被 pattern 匹配到的行 , 即取反
-i 忽略字符大小写
-n 显示匹配的行号
-c 统计匹配的行数
-o 仅显示匹配到的字符串
-q 静默模式,不输出任何信息
-A # after, 后 # 行
-B # before, 前 # 行
-C # context, 前后各 # 行
-e 实现多个选项间的逻辑 or 关系
-w 匹配整个单词
-E

使用 ERE ,相当于 egrep

-F 不支持正则表达式,相当于 fgrep
-f file 根据模式文件,处理两个文件相同内容 把第一个文件作为匹配条件
-r 递归目录,但是不处理软链接
-R 递归目录,处理软链接
-v "^$" 过滤空行

sort排序

基本用法: sort 选项 文件

默认是按照首字母排序

-t 指定分隔符
-k 指定需要排序的lie
-n 已数字形式排序
-r 反向排序
-u 去重

 

uniq

uniq 选项...文件....

(只能将连续的重复去掉)

-c

统计字符出现的次数

-d 只显示有连续重复的行
-u 只显示出现1次的行(2个及2个以上不显示)

 

tr

转换,当转换数值不足时,一直转换成最后一个

-d 删除匹配到的字符
-s 压缩 将连续的a 压缩成1个
-c 反向取值(例如:tr -c 456,匹配文件中除了 456的字符)

cut

切片 提取需要的列

格式:

cut [ 选项 ]... [ 文件 ]...

-d 指明分隔符
-f 需要例数
# 第#个字段,例如 3
#,#[,#] 离散的多个字段,例如 1,3,6
#-# 连续的多个字段, 例如 1-6

paste

-d 指定分隔符

粘贴


网站公告

今日签到

点亮在社区的每一天
去签到