linux文本处理三剑客之三:grep

发布于:2022-11-29 ⋅ 阅读:(255) ⋅ 点赞:(0)

原文参考:grep GNU官方文档

grep

grep

grep是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。

一. 用法

grep [选项]... PATTERN [FILE]...
例如: grep -i 'hello world' menu.h main.c

用法解释:
-i:是选项,可以有多个选项,也可以没有选项,选择默认
‘hello world’: 是PATTERN
menu.h main.c:是FILE,可以有多个文件,文件之间不需要逗号隔离;也可以缺省,通过管道方式提供数据源

二. 参数与选项

操作环境:ubuntu16.04 X86
grep版本:grep (GNU grep) 2.25

文件控制:
  -A, --after-context=N   打印文本及其后面N 行(N代表一个整数,下同)
  -B, --before-context=N  打印文本及其前面N 行
  -C, --context=N       打印匹配行前面N行和后面N行
  -N                      等同于 --context=N
      --color[=WHEN],
      --colour[=WHEN]       使用标记高亮匹配字串;
                            WHEN 可以是`always', `never'或`auto'
  -U, --binary              将文件视为二进制
  -u, --unix-byte-offsets   忽略CR 字符,报告字节偏移
			     (MSDOS/Windows)
正则表达式选择与解释:
  -E, --extended-regexp     PATTERN 是一个可扩展的正则表达式(缩写为 ERE)
  -F, --fixed-strings       PATTERN 是一组由断行符分隔的字符串。
  -G, --basic-regexp        PATTERN 是一个基本正则表达式(缩写为 BRE)
  -P, --perl-regexp         PATTERN 是一个 Perl 正则表达式
  -e, --regexp=PATTERN      用 PATTERN 来进行匹配操作
  -f, --file=FILE           从 FILE 中取得 PATTERN
  -i, --ignore-case         忽略大小写
  -w, --word-regexp         强制 PATTERN 完全匹配字词
  -x, --line-regexp         仅选择与整行完全匹配的匹配项。精确匹配整行内容(包括行首行尾那些看不到的空格内容都要完全匹配)
  -z, --null-data           一个 0 字节的数据行,但不是空行

杂项:
  -s, --no-messages         不显示错误信息
  -v, --invert-match        反转匹配,选择不匹配的行
  -V, --version             显示版本信息并退出
      --help                显示此帮助并退出

输出控制:
  -m, --max-count=N         N 次匹配后停止
  -b, --byte-offset         输出的同时打印字节偏移
  -n, --line-number         输出的同时打印行号
      --line-buffered       每行输出清空
  -H, --with-filename       为每一匹配项打印文件名
  -h, --no-filename         输出时不显示文件名前缀
      --label=LABEL         将LABEL 作为标准输入文件名前缀
  -o, --only-matching       只显示匹配PATTERN 部分的行
  -q, --quiet, --silent     不显示所有常规输出
      --binary-files=TYPE   设定二进制文件的TYPE 类型;
                            TYPE 可以是`binary', `text', 或`without-match'
  -a, --text                等同于 --binary-files=text
  -I                        等同于 --binary-files=without-match
  -d, --directories=ACTION  读取目录的方式;
                            ACTION 可以是`read', `recurse',或`skip'
  -D, --devices=ACTION      读取设备、先入先出队列、套接字的方式;
                            ACTION 可以是`read'或`skip'
  -r, --recursive           等同于--directories=recurse
  -R, --dereference-recursive       同上,但遍历所有符号链接
      --include=FILE_PATTERN  只查找匹配FILE_PATTERN 的文件
      --exclude=FILE_PATTERN  跳过匹配FILE_PATTERN 的文件和目录
      --exclude-from=FILE   跳过所有除FILE 以外的文件
      --exclude-dir=PATTERN  跳过所有匹配PATTERN 的目录。
  -l, --files-with-matches  只打印匹配FILES 的文件名
  -L, --files-without-match  只打印不匹配FILEs 的文件名
  -c, --count               只打印每个FILE 中的匹配行数目
  -T, --initial-tab         行首tabs 分隔(如有必要)
  -Z, --null                在FILE 文件最后打印空字符

'egrep' 即'grep -E'。'fgrep' 即'grep -F'。
直接调用'egrep' 或是'fgrep' 均已被废弃。
若FILE 为 -,将读取标准输入。不带FILE,读取当前目录,除非命令行中指定了-r 选项。
如果少于两个FILE 参数,就要默认使用-h 参数。
如果有任意行被匹配,那退出状态为 0,否则为 1;
如果有错误产生,且未指定 -q 参数,那退出状态为 2。


三. 实例操作

准备文档 1.txt

1.beijing
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong
7.sichuan
8.chongqing
9.qinghai
10.xizang

开始练习

一. 文件控制

1. -A, --after-context=N 打印匹配文本及其后面N 行
oldeleven@delln4050 ~$ grep -A 1 'henan' 1.txt 
2.henan
3.hebei

代码注释:打印匹配包含’henan’的行和它的下一行

2. -B, --before-context=N 打印匹配文本及其前面N 行
oldeleven@delln4050 ~$ grep -B 1 'henan' 1.txt 
1.beijing
2.henan

代码注释:打印匹配包含’henan’的行和它的上一行

3. -C, --context=N 打印匹配文本以及前面N 行和后面N行
oldeleven@delln4050 ~$ grep --context=2 'jiangxi' 1.txt 
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong

代码注释:打印匹配包含’shanghai’的行、它的上一行和它的下一行

二. 正则表达式选择与解释:

1. -E, --extended-regexp PATTERN 是一个可扩展的正则表达式(缩写为 ERE)
oldeleven@delln4050 ~$ grep  \d+ 1.txt 

oldeleven@delln4050 ~$ grep -E 's|sh' 1.txt 
5.shanghai
7.sichuan

代码注释:打印包含’s’或者’sh’的行

2. -F, --fixed-strings 将模式解释为固定字符串,而不是正则表达式。
oldeleven@delln4050 ~$ grep [0-9] 1.txt 
1.beijing
2.henan
3.hebei
4.jiangxi
5.shanghai
6.guangdong
7.sichuan
8.chongqing
9.qinghai
10.xizang
11. 安徽
oldeleven@delln4050 ~$ grep -F [0-9] 1.txt 

代码注释:-F之后的字符串不再是正则表达式,而是一个普通的字符串,此时的字符串如果能匹配到,就输出这一行;
那么什么时候会用到-F选项呢?
一串关键字中包含了特殊字符,而你又不想用复杂的正则表达式去匹配的时候。那么grep -F 就派上了用场

3. -G, --basic-regexp PATTERN 是一个基本正则表达式(缩写为 BRE),是GNU grep 默认匹配方式
oldeleven@delln4050 ~$ grep -G 's\|sh' 1.txt 
5.shanghai
7.sichuan

代码注释:BRE使用’|'时,需要用\转义,GNU grep默认为BRE匹配
BRE 和ERE的区别:
GNU BRE (、)、{、}、+、?、|都必须转义使用
GNU ERE 元字符不必转义,+、?、(、)、{、}、|可以直接使用,支持\1、\2

4. -e, --regexp=PATTERN 用来分隔多个PATTERN,执行or操作
oldeleven@delln4050 ~$ grep -e s -e sh 1.txt 
5.shanghai
7.sichuan

代码注释:打印包含’s’或者’sh’的行

5. -f, --file=FILE 从 FILE 中取得 PATTERN

准备文件3.txt

oldeleven@delln4050 ~$ cat 3.txt 
s
sh

oldeleven@delln4050 ~$ grep -f 3.txt 1.txt 
5.shanghai
7.sichuan

代码注释:用3.txt中的每一行当做PATTERN,去1.txt中匹配

6. -i, --ignore-case 忽略大小写
oldeleven@delln4050 ~$ grep -i 'sh' 1.txt 
5.shanghai

代码注释:打印包含’sh’的行,忽略’sh’大小写

7. -w, --word-regexp 强制 PATTERN 仅完全匹配字词
oldeleven@delln4050 ~$ grep -w "sh" 1.txt
匹配结果空白

oldeleven@delln4050 ~$ grep -w "shanghai" 1.txt 
5.shanghai

代码注释:强制匹配一个完整的字符,PATTERN为一个完整的字符

8. -x, --line-regexp 强制 PATTERN 完全匹配一行
oldeleven@delln4050 ~$ grep -x '2.henan' 1.txt 
2.henan

代码注释:强制完全匹配’2.henan’这一行,PATTERN为一行完整的数据

9. -z, --null-data 一个 0字节的数据行,但不是空行

三. 输出控制

1. -m, --max-count=N N 次匹配后停止
oldeleven@delln4050 ~$ grep 'h' 1.txt 
2.henan
3.hebei
5.shanghai
7.sichuan
8.chongqing
9.qinghai

代码注解:匹配包含’h’的行

oldeleven@delln4050 ~$ grep -m 3 'h' 1.txt 
2.henan
3.hebei
5.shanghai

代码注解:匹配包含’h’的行,但只匹配3次就终止

2. -n, --line-number 输出的同时打印行号
oldeleven@delln4050 ~$ grep -n 'h' 1.txt 
2:2.henan
3:3.hebei
5:5.shanghai
7:7.sichuan
8:8.chongqing
9:9.qinghai

代码注解:打印行号

3. --line-buffered 行缓冲模式

GNU官方说明:对标准输出使用行缓冲,不管输出设备是什么。默认情况下,对于交互式设备,标准输出是行缓冲的,否则是完全缓冲的。使用全缓冲区时,输出缓冲区在满时被刷新;使用行缓冲,缓冲区也会在每个输出行之后刷新。缓冲区大小取决于系统。

4. -H, --with-filename 为每一匹配项打印文件名
oldeleven@delln4050 ~$ grep -H 'h' 1.txt test.txt 
1.txt:2.henan
1.txt:3.hebei
1.txt:5.shanghai
1.txt:7.sichuan
1.txt:8.chongqing
1.txt:9.qinghai
test.txt:1:yanhualei:100
test.txt:2:shidiwei
test.txt:8:head

5. -h, --no-filename 输出时不显示文件名前缀
oldeleven@delln4050 ~$ sudo grep -r 127.0.0.1 /etc
/etc/dhcp/dhclient.conf:#prepend domain-name-servers 127.0.0.1;
/etc/dhcp/dhclient.conf:#  option domain-name-servers 127.0.0.1;
/etc/init/network-interface.conf:        ifconfig lo 127.0.0.1 up || true
/etc/nginx/sites-available/default:	# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
/etc/nginx/sites-available/default:	#	fastcgi_pass 127.0.0.1:9000;
/etc/mongod.conf:  bindIp: 127.0.0.1
/etc/hosts:127.0.0.1	localhost
/etc/security/access.conf:#+ : root : 127.0.0.1
/etc/java-8-openjdk/net.properties:# localhost & 127.0.0.1).
/etc/java-8-openjdk/net.properties:# localhost & 127.0.0.1).
/etc/speech-dispatcher/modules/ivona.conf:#IvonaServerHost "127.0.0.1"
/etc/postfix/main.cf.proto:#debug_peer_list = 127.0.0.1
/etc/default/docker:#export http_proxy="http://127.0.0.1:3128/"
/etc/rabbitmq/rabbitmq-env.conf:#NODE_IP_ADDRESS=127.0.0.1

oldeleven@delln4050 ~$ sudo grep -r -h  127.0.0.1 /etc
#prepend domain-name-servers 127.0.0.1;
#  option domain-name-servers 127.0.0.1;
        ifconfig lo 127.0.0.1 up || true
	# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
	#	fastcgi_pass 127.0.0.1:9000;
  bindIp: 127.0.0.1
127.0.0.1	localhost
#+ : root : 127.0.0.1
# localhost & 127.0.0.1).
# localhost & 127.0.0.1).
#IvonaServerHost "127.0.0.1"
#debug_peer_list = 127.0.0.1
#export http_proxy="http://127.0.0.1:3128/"
#NODE_IP_ADDRESS=127.0.0.1

代码注释:第一段代码搜索了/etc下包含127.0.0.1的文件,并按照“文件路径:文档内容”的方式输出到终端;第二段代码使用了-h选项,禁止了显示文件路径部分

6.–label=LABEL 将LABEL 作为标准输入文件名前缀
oldeleven@delln4050 ~$ cat /etc/passwd|grep  -H false

(标准输入):syslog:x:104:108::/home/syslog:/bin/false
(标准输入):_apt:x:105:65534::/nonexistent:/bin/false
(标准输入):messagebus:x:106:110::/var/run/dbus:/bin/false
(标准输入):uuidd:x:107:111::/run/uuidd:/bin/false
(标准输入):lightdm:x:108:114:Light Display Manager:/var/lib/lightdm:/bin/false
(标准输入):whoopsie:x:109:117::/nonexistent:/bin/false
(标准输入):avahi-autoipd:x:110:119:Avahi autoip 


oldeleven@delln4050 ~$ cat /etc/passwd|grep --label=/etc/passwd -H false

/etc/passwd:syslog:x:104:108::/home/syslog:/bin/false
/etc/passwd:_apt:x:105:65534::/nonexistent:/bin/false
/etc/passwd:messagebus:x:106:110::/var/run/dbus:/bin/false
/etc/passwd:uuidd:x:107:111::/run/uuidd:/bin/false
/etc/passwd:lightdm:x:108:114:Light Display Manager:/var/lib/lightdm:/bin/false
/etc/passwd:whoopsie:x:109:117::/nonexistent:/bin/false
/etc/passwd:avahi-autoipd:x:110:119:Avahi autoip 


代码注释:打印标签作为文件名的标准输入(主要用于管道处理)

7. -o, --only-matching 只显示每行匹配PATTERN 部分
oldeleven@delln4050 ~$ grep -o 'shanghai' 1.txt 
shanghai

-o 选项表示只输出匹配的字串,而不是整行内容

8. -q, --quiet, --silent 不显示所有常规输出
oldeleven@delln4050 ~$ grep -q 'sh' 1.txt 

9. -r, --recursive 递归查找,等同于–directories=recurse
oldeleven@delln4050 ~$ grep -r shanghai *

1.txt:5.shanghai


代码注释:查找当前文件夹的所有文件,和所有子文件中的文件中包含’shanghai’的文件与行数据

10. -l, --files-with-matches 只打印匹配FILES 的文件名
oldeleven@delln4050 ~$ grep -l "sh" 1.txt 2.txt 3.txt
1.txt

代码注释:打印匹配包含’sh’的行在 1.txt 2.txt 3.txt中的哪个文件中

11. -L, --files-without-match 只打印不匹配FILEs 的文件名
oldeleven@delln4050 ~$ grep -L "sh" 1.txt 2.txt 3.txt
2.txt
3.txt

代码注释:与-l含义相反

12. -c, --count 只打印每个FILE 中的匹配行数目
oldeleven@delln4050 ~$ grep -c 'ing' 1.txt 
3

代码注释:打印1.txt中包含’ing’的行有几个

13. -T, --initial-tab 输出行前缀控制
oldeleven@delln4050 ~$ grep  -H 访客 -T /etc/passwd
/etc/passwd    :guest-l32znk:x:999:998:访客:/tmp/guest-l32znk:/bin/bash
/etc/passwd    :guest-sqrwfr:x:998:997:访客:/tmp/guest-sqrwfr:/bin/bash
/etc/passwd    :guest-c42f8v:x:996:995:访客:/tmp/guest-c42f8v:/bin/bash
/etc/passwd    :guest-vnknd9:x:997:996:访客:/tmp/guest-vnknd9:/bin/bash

代码注释:初始标签确保实际行内容的第一个字符位于制表位上,以便对齐标签看起来很正常。在匹配信息和其前的附加信息之间加入tab以使格式整齐。

四. 杂项

1. -s, --no-messages 不显示错误信息
2. -v, --invert-match 反转匹配,选择不匹配的行
3. -V, --version 显示版本信息并退出
4. --help 显示此帮助并退出
本文含有隐藏内容,请 开通VIP 后查看