正则表达式与文本处理

目录

一、正则表达式

1、正则表达式定义

1.1正则表达式的概念及作用

1.2、正则表达式的工具

1.3、正则表达式的组成

2、基础正则表达式

3、扩展正则表达式

4、元字符操作

4.1、查找特定字符

4.2、利用中括号“[]”来查找集合字符

4.3、查找行首“^”与行尾字符“$”

4.4、查找任意一个字符“.”与重复字符“*”

4.5、查找连续字符范围“{}”

二、、grep语句

1、grep用法

2、grep案例

2.1、统计root字符总行数

 2.2、不区分大小写查找the所有的行

2.3、将没有出现 root 的行取出来

2.4、过滤出IP

三、sed命令

1、sed概述

1.1、sed定义

1.2、sed工作原理

2、sed基本用法

3、sed具体操作

3.1、打印输出

3.1.2、显示范围 行号

3.1.3、奇偶数表示

3.2、增加内容

3.3、删除

3.4、替换

3.5、插入文件

3.6、同时编辑

3.7、读取完退出

四、awk命令

1、awk定义

2、工作原理

3、工作流程

3.1、运行模式

3.2、执行流程

4、基本语法

4.1、命令格式

5、实验操作

5.1、内建变量

5.2、内置变量

5.3、BEGIN END 运算

5.4、awk高级用法

5.5、awk if语句

5.6、BEGIN END 循环

五、总结


一、正则表达式

1、正则表达式定义

1.1正则表达式的概念及作用

正则表达式(Regular Expression,简称 regex 或 regexp)是一种用于描述字符串模式的工具。它是一种强大的文本处理工具,用于查找、匹配、替换或验证字符串中的文本数据。

正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。


1.2、正则表达式的工具

  • grep
  • sed
  • awk
  • egrep 

1.3、正则表达式的组成

正则表达式---通常用于判断语句中,用来检查某一字符串是否满足某一格式

  • 普通字符:普通字符包括大小写字母、数字、标点符号及一些其他符号
     
  • 元字符:元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

LINUX 中常用的有两种正则表达式引擎

  • 基础正则表达式:BRE
  • 扩展正则表达式: ERE

2、基础正则表达式

支持的工具

  • grep
  • egrep
  • sed
  • awk

转义字符:

符号描述
\转义符,将特殊字符进行转义,忽略其特殊意义。
^匹配行首,匹配字符串的开始。
$匹配行尾,匹配字符串的结尾。
.匹配除换行符 \r\n 之外的任意单个字符。
[list]匹配 list 列表中的一个字符。
[^list]匹配任意不在 list 列表中的一个字符。
*匹配前面子表达式 0 次或者多次。
\{n\}匹配前面的子表达式 n 次。
\{n,\}匹配前面的子表达式不少于 n 次。
\{n,m\}匹配前面的子表达式 n 到 m 次。

注意:

  • egrep、awk使用{n}、{n, }、{n, m}匹配时“{}"前不用加"\”
  • egrep -E -n 'wo{2}d' test.txt   //-E 用于显示文件中符合条件的字符
  • egrep -E -n 'wo{2,3}d' test.txt

3、扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用  范围更广的扩展正则表达式。
 

支持工具

  • egrep
  • awk

常用的几个扩展正则表达式元字符

符号描述
+重复一个或者一个以上的前一个字符。
?零个或者一个的前一个字符。
|使用或者(or)的方式找出多个字符。
()查找“组”字符串。
()+辨别多个重复的组。

例如:

①、

+重复一个或者一个以上的前一个字符。

②、

?零个或者一个的前一个字符。

③、

|使用或者(or)的方式找出多个字符。

④、

()查找“组”字符串。

⑤、

()+辨别多个重复的组。

4、元字符操作

4.1、查找特定字符

查找文件中的字符 “the” 

反向选择:查找文件中不包含“the”

4.2、利用中括号“[]”来查找集合字符

  • 查找文件中“shirt”与“short”这两个字符串

  • 查找包含重复单个字符“oo”时

  • 查找“oo”前面不是“w”的字符串

  • 查找“oo”前面不是小写字母的字符串

“a-z”表示小写字母,大写字母则通过“A-Z”表示。

  • 查找文件中包含数字的行

4.3、查找行首“^”与行尾字符“$”

基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中, 查询“the”字符串时出现了很多包含“the”的行,如果想要查询以“the”字符串为行首的行,则可以通过“^”元字符来实现。

  • 例如:

查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,查询大写字母开头的行则使用
“^[A-Z]”规则,若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。

  • 例如:

以小写字母开头

  • 以大写字母开头 

  • 以字母开头 

“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]” 符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。

  • 例如:

  • 查询空白行

4.4、查找任意一个字符“.”与重复字符“*”

前面提到,在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如执行以下命令就可以查找“w??d”的字符串,即共有四个字符,以 w 开头 d 结尾。

“*”代表的是重复零个或多个前面的单字符。 

4.5、查找连续字符范围“{}”

在上面的示例中,使用了“.”与“*”来设定零个到无限多个重复的字符,如果想要限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个 o 的连续字符,这个时候就需要使用基础正则表达式中的限定范围的字符“{}”。因为“{}”在 Shell 中具有特殊意义,所以在使用“{}”字符时,需要利用转义字符“\”,将“{}”字符转换成普通字符。“{}”字符的使用方法如下所示。


①、查询两个 o 的字符。

②、查询以 w 开头以 d 结尾,中间包含 2~7个 o 的字符串。

③、查询以 w 开头以 d 结尾,中间包含 2 个或 2 个以上 o 的字符串。

二、、grep语句

1、grep用法

grep 是用于在文件或文本输入中搜索匹配特定模式的行的工具,并输出包含该模式的行。它非常适合用于过滤和查找文本中的特定字符串或正则表达式。

  • 语法格式
grep [选项]… 查找条件 目标文件
  • 使用参数
选项描述
-E开启扩展正则表达式 (Extended Regular Expressions)。允许使用更复杂的正则表达式。
-c计算匹配到的行数。
-i忽略大小写的不同(大小写视为相同)。
-o仅显示匹配到的字符串,而不是整行。
-v反向选择,显示不包含搜索字符串的行。
--color=auto为匹配的字符串部分添加颜色显示。
-n显示匹配行的行号。

2、grep案例

2.1、统计root字符总行数

root@localhost opt]# grep -c root /etc/passwd

 2.2、不区分大小写查找the所有的行

[root@localhost opt]# grep -i "the" cxc.txt

2.3、将没有出现 root 的行取出来

[root@localhost opt]# cat 222.txt 
[root@localhost opt]# grep -v root /opt/222.txt 

2.4、过滤出IP

[root@localhost opt]# ifconfig ens33 |grep -o "[0-9]\+\.[0-9]\+\.[0-9]\+\.[0-9]\+"

三、sed命令

1、sed概述

1.1、sed定义

sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于Shell脚本中,用以完成各种自动化处理任务。


1.2、sed工作原理

读入新的一行内容到缓存空间;

从指定的操作指令中取出第一条指令,判断是否匹配pattern;

如果不匹配,则忽略后续的编辑命令,回到第2步继续取出下一条指令;

如果匹配,则针对缓存的行执行后续的编辑命令;完成后,回到第2步继续取出下一条指令;

当所有指令都应用之后,输出缓存行的内容;回到第1步继续读入下一行内容;

当所有行都处理完之后,结束;

2、sed基本用法

  • 使用格式
sed [选项] '操作' 参数
sed [选项] -f scriptfile 参数
  • 常用选项
选项说明
-e 或 --expression=用指定命令或者脚本来处理输入的文本文件。
-f 或 --file=用指定的脚本文件来处理输入的文本文件。
-h 或 --help显示帮助信息。
-n、--quiet 或 --silent仅显示处理后的结果,不输出原始输入。
-i[.bak]直接编辑文本文件。如果指定 .bak,会创建备份文件。
-r 或 -E使用扩展正则表达式(Extended Regular Expressions, ERE)。
-s将多个文件视为独立文件,而不是单个连续的长文件流。
  • sed常用命令动作
选项说明
p打印输出
d删除指定行
i在指定行之前插入内容
a在指定行后面插入内容
c替换指定行所有内容
s搜索替换

3、sed具体操作

3.1、打印输出

[root@localhost home]# sed '' 123.txt 
[root@localhost home]# sed 'p' 123.txt 
[root@localhost home]# sed -n 'p' 123.txt 

3.1.2、显示范围 行号
[root@localhost home]# sed -n '1p' 123.txt 
[root@localhost home]# sed -n '1,3p' 123.txt 
[root@localhost home]# sed -n '1p;3p;5p' 123.txt 
[root@localhost home]# sed -n '1,+3p'  123.txt 

3.1.3、奇偶数表示
[root@localhost home]# sed -n '1~2p' 123.txt 
[root@localhost home]# sed -n '2~2p' 123.txt 
[root@localhost home]# sed -n '2~3p' 123.txt 
[root@localhost home]# sed -n '$p' 123.txt 
[root@localhost home]# 
[root@localhost home]# sed -n '/cxc/p' 123.txt 
[root@localhost home]# sed -n '/haha$/p' 123.txt 

[root@localhost home]# sed -n '/[0-9]/p' 456.txt 
[root@localhost home]# sed -n '/^root/p' 456.txt 
[root@localhost home]# sed -n '1!p' 456.txt 
[root@localhost home]# sed -n '/root/!p' 456.txt 
[root@localhost home]# sed -n '$=' 456.txt 

sed默认不支持扩展正则,如果要支持,需要加-r选项

3.2、增加内容

[root@localhost home]# sed '2ihello world' 456.txt

[root@localhost home]# sed '4ihello\nworld' 456.txt 

[root@localhost home]# sed '1ahello world' 456.txt

[root@localhost home]# sed '$ahello world' 456.txt 

注意:a或者i后面的所有内容都会被理解为需要添加的内容

3.3、删除

[root@localhost home]# sed '1d' 123.txt      //删除第一行2	zmx:oppo3	root:root4	wjh:1235	jjg:4566	jhw:7897  njnj:kgc8  ky37:lhai9  kfc:ail10  mdl:keyi
[root@localhost home]# sed '1,3d' 123.txt     //删除一到三行4	wjh:1235	jjg:4566	jhw:7897  njnj:kgc8  ky37:lhai9  kfc:ail10  mdl:keyi
[root@localhost home]# sed '/123/d' 123.txt    //删除带有123的行1	cxc:haha2	zmx:oppo3	root:root5	jjg:4566	jhw:7897  njnj:kgc8  ky37:lhai9  kfc:ail10  mdl:keyi
[root@localhost home]# 

3.4、替换

  • 常用选项
选项说明
g行内全局替换,替换行中的所有匹配项
p显示替换成功的行
w /PATH/FILE将替换成功的行保存至指定的文件中
I, i忽略大小写(i 是基本正则表达式的选项,I 是扩展正则表达式的选项)
[root@localhost home]# sed '/^root/ckgc' 456.txt    //以root开头的行替换成kgc
cxc:haha 
zmx:oppo
kgc                   //已替换
wjh:123
jjg:456
jhw:789
njnj:kgc
ky37:lhai
kfc:ail
mdl:keyi
[root@localhost home]# 
[root@localhost home]# sed '/haha/cnjzb' 456.txt   //带有haha字符的行替换成njzb
njzb                           //已替换
zmx:oppo
root:root
wjh:123
jjg:456
jhw:789
njnj:kgc
ky37:lhai
kfc:ail
mdl:keyi
njzb                       //已替换
[root@localhost home]# 

这里没有真的改变文件内容,只是输出到屏幕,如果想要真的替换,需要用-i选项,建议用-i之前对原文 件进行备份

3.5、插入文件

[root@localhost home]# sed '3r /etc/hosts' 456.txt     //将/etc/hosts文件插入到第三行下面
cxc:haha 
zmx:oppo
root:root
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
wjh:123
jjg:456
jhw:789
njnj:kgc
ky37:lhai
kfc:ail
mdl:keyi
lala:haha
[root@localhost home]# sed '$r /etc/hosts' 456.txt     //插入到最后一行
cxc:haha 
zmx:oppo
root:root
wjh:123
jjg:456
jhw:789
njnj:kgc
ky37:lhai
kfc:ail
mdl:keyi
lala:haha
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
[root@localhost home]# 

3.6、同时编辑

sed支持一个或多个-e参数

//提取第一行和第三行
[root@localhost home]# sed -n -e '1p' -e '3p' 123.txt 1	cxc:haha3	root:root
[root@localhost home]# sed -ne '1p' -ne '3p' 123.txt 1	cxc:haha3	root:root
[root@localhost home]# 

3.7、读取完退出

(注意:q不要和-i一起使用,以免覆盖源文件)

正常情况下sed会在读取完所有数据行之后退出,但是我们可以随时使用q指令来提前退出sed

[root@localhost home]# sed '3q' 123.txt    //表示仅显示处理后的结果1	cxc:haha2	zmx:oppo3	root:root
[root@localhost home]# 

四、awk命令

1、awk定义

20世纪70年代诞生于贝尔实验室,现在centos7用的是gawk之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。

  • AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。
  • 它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描、过滤、统计汇总工作
  • 数据可以来自标准输入也可以是管道或文件

有多种版本:

  • AWK:原先来源于 AT & T 实验室的的AWK
  • NAWK:New awk,AT & T 实验室的AWK的升级版
  • GAWK:即GNU AWK。所有的GNU/Linux发布版都自带GAWK,它与AWK和NAWK完全兼容

Linux中现在使用的是gawk 

2、工作原理

当读到第一行时,匹配条件,然后执行指定动作,再接着读取第二行数据处理,不会默认输出 如果没有定义匹配条件默认是匹配所有数据行。

awk隐含循环,条件匹配多少次动作就会执行多少次 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按 模式或者条件执行编辑命令。

3、工作流程

3.1、运行模式

正则表达式 : /root/ 匹配含有 root 的行 /*.root/

关系表达式: < > && || + *

匹配表达式: ~ !~ 动作:

变量 命令 内置函数 流控制语句它的语法结构如下:

3.2、执行流程

BEGIN 语句设置计数和打印头部信息,在任何动作之前进行

END 语句输出统计结果,在完成动作之后执行

AWK执行的流程非常简单:读(Read)、执行(Execute)与重复(Repeat)。

下面的流程图描述出 了AWK的工作流程:

​​​​​​​

①、开始块(BEGIN block):

顾名思义,开始块就是在程序启动的时候执行的代码部分,并且它在整个过程中只执行一次。一般情况 下,我们在开始块中初始化一些变量。BEGIN是AWK的关键字,因此它必须是大写的。不过,开始块部 分是可选的,你的程序可以没有开始块部分。

②、主体块(Body Block):

对于每一个输入的行,都会执行一次主体部分的命令。默认情况下,对于输入的每一行,AWK都会执行 命令。注意:在主体块部分,没有关键字存在。

③、结束块(END Block):

它是在程序结束时执行的代码。END也是AWK的关键字,它也必须大写。与开始块相似,结束块也是可选的。

4、基本语法

4.1、命令格式

awk 选项' 模式或条件{操作}' 文件1 文件2 ...
awk -f 脚本文件 文件1 文件2 ..

AWK 支持两种不同类型的变量:内建变量(可直接使用),自定义变量awk 内置变量(预定义变量)

变量解释
FS指定每行文本的字段分隔符,默认为空格或制表位
NF当前处理的行的字段个数,对应于当前的字段数(列的个数)
NR当前处理的行的行号(序数),对应于当前的行号
$0当前处理的行的整行内容
$n当前处理行的第 n 个字段(第 n 列)
FILENAME被处理的文件名(当前输入文件的名)
FNR各文件分别计数的行号
OFS输出字段分隔符,默认值是一个空格
ORS输出记录分隔符,默认值是一个换行符
RS行分隔符,默认是换行符

5、实验操作

5.1、内建变量

awk 包含几个特殊的内建变量(可直接用)如下所示:

变量解释
FS指定每行文本的字段分隔符,默认为空格或制表位
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)
$0当前处理的行的整行内容
$n当前处理行的第 n 个字段(第 n 列)
FILENAME被处理的文件名
RS行分隔符
[root@localhost opt]# awk '{print}'      //再打印一边
123
123
456
456
[root@localhost opt]# awk '{print"hellow"}'      //字符串需要添加双引号
123
hellow
456
hellow
[root@localhost opt]# cat /etc/passwd |head -10 > zz.txt
[root@localhost opt]# 
[root@localhost opt]# awk -F: '{print $1}' zz.txt   //自定义冒号为分隔符显示分隔之后的第一列
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
[root@localhost opt]# awk -F: '{print $1,$2}' zz.txt  //逗号有空格效果,打印第一列和第二列
root x
bin x
daemon x
adm x
lp x
sync x
shutdown x
halt x
mail x
operator x
[root@localhost opt]# awk -F: '{print $1" "$2}' zz.txt   //空格需要使用双引号括起来
root x
bin x
daemon x
adm x
lp x
sync x
shutdown x
halt x
mail x
operator x
[root@localhost opt]# awk -F: '{print $1"\t"$2}' zz.txt  //用制表符作为分隔符输出
root	x
bin	x
daemon	x
adm	x
lp	x
sync	x
shutdown	x
halt	x
mail	x
operator	x
[root@localhost opt]# awk -F[:/] '{print $4}' zz.txt   //定义多个分隔符
0
1
2
4
7
0
0
0
12
0
[root@localhost opt]# 

5.2、内置变量

awk常用内置变量:$1、$2、NF、NR、$0

  • $1:代表第一列
  • $2:代表第二列以此类推
  • $0:代表整行
  • NF:一行的列数
  • NR:行数
[root@localhost opt]# awk -F: '/root/{print $0}' zz.txt    //打印包含root的整行内容
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost opt]# awk -F: '/root/{print $1,$6}' zz.txt  //打印包含root的第一列和第六列
root /root
operator /root
[root@localhost opt]# awk '/root/' zz.txt     //打印包含root的行
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost opt]# awk -F[:/] '{print NF}' zz.txt   //以:/分割,打印每一行的列数
10
10
10
11
12
10
10
10
12
10
[root@localhost opt]# awk -F[:/] '{print NR}' zz.txt   //显示行号
1
2
3
4
5
6
7
8
9
10
[root@localhost opt]# awk -F: '{print NR,$0}' zz.txt   //每一行显示行号
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8 halt:x:7:0:halt:/sbin:/sbin/halt
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
10 operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost opt]# awk 'NR==2' zz.txt 
bin:x:1:1:bin:/bin:/sbin/nologin
[root@localhost opt]# awk -F: 'NR==2{print $1}' zz.txt   //打印第二行的第一列
bin
[root@localhost opt]# awk -F: '{print $NF}' zz.txt    //打印最后一列 
/bin/bash
/sbin/nologin
/sbin/nologin
/sbin/nologin
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologi
/sbin/nologin
[root@localhost opt]# awk 'END{print NR}' zz.txt     //打印总行数
10
[root@localhost opt]# awk 'END{print $0}' zz.txt 
operator:x:11:0:operator:/root:/sbin/nologin
[root@localhost opt]# awk -F: '{print"当前有"NF"列"}' zz.txt  //打印列数
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
当前有7列
[root@localhost opt]# awk -F: '{print"第"NR"行有"NF"列"}' zz.txt  //打印每一行有多少列
第1行有7列
第2行有7列
第3行有7列
第4行有7列
第5行有7列
第6行有7列
第7行有7列
第8行有7列
第9行有7列
第10行有7列
[root@localhost opt]# 

5.3、BEGIN END 运算

逐行执行开始之前执行什么任务,结束之后再执行什么任务,用BEGIN、END

BEGIN一般用来做初始化操作,仅在读取数据记录之前执行一次

END一般用来做汇总操作,仅在读取完数据记录之后执行一次

[root@localhost opt]# 
[root@localhost opt]# awk 'BEGIN{x=10;print x}'        
10
[root@localhost opt]# awk 'BEGIN{x=10;print x+5}'
15 
[root@localhost opt]# awk 'BEGIN{x=10;x++;print x+1}'  //BEGIN在处理文件之前,所以后面不跟
文件名也不影响
12
[root@localhost opt]# awk 'BEGIN{print x+1}'        //不指定初始值,初始值就为0
1
[root@localhost opt]# awk 'BEGIN{print 3.5+2.5}'     //小数也可以运算
6
[root@localhost opt]# awk 'BEGIN{print 6-2}'
4
[root@localhost opt]# awk 'BEGIN{print 2*6}'
12
[root@localhost opt]# awk 'BEGIN{print 3^2}'
9
[root@localhost opt]# awk 'BEGIN{print 1/2}'
0.5
[root@localhost opt]# 

关于数值与字符串的比较

比较符号:==、 != 、<= 、 >=、<、>

[root@localhost opt]# awk 'NR==5{print}' zz.txt    //打印第五行
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin[root@localhost opt]# awk 'NR==5' zz.txt    //打印第五行
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin[root@localhost opt]# awk 'NR<5' zz.txt    //打印1、2、3、4行
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin[root@localhost opt]# awk -F: '$3==0' zz.txt       //打印第三列等于0的行
root:x:0:0:root:/root:/bin/bash[root@localhost opt]# awk -F: '$1=="root"' zz.txt   //打印第一列等于root的行
root:x:0:0:root:/root:/bin/bash[root@localhost opt]# awk -F: '$3>=1000' /etc/passwd    //打印第三列大于1000的行
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin
cxc:x:1000:1000:cxc:/home/cxc:/bin/bash[root@localhost opt]# awk -F: '$3<10 || $3>1000' /etc/passwd   //打印第三列小于10或者大于100的行
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
nfsnobody:x:65534:65534:Anonymous NFS User:/var/lib/nfs:/sbin/nologin[root@localhost opt]# awk -F: 'NR>4 && NR<7' zz.txt     //打印5、6行
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
[root@localhost opt]# seq 200 | awk '$1%7==0 && $1~/7/'   //所有能被7整除并且包含数字7的整数数字
7
70
77
147
175
[root@localhost opt]# 

其他内置变量的用法FS(输入)、OFS、NR、FNR、RS、ORS

  • FS:输入字段的分隔符 默认是空格
  • OFS:输出字段的分隔符 默认也是空格
  • FNR:读取文件的记录数(行号),从1开始,新的文件重新重1开始计数
  • RS:输入行分隔符 默认为换行符
  • ORS:输出行分隔符 默认也是为换行符

5.4、awk高级用法

定义引用变量

[root@localhost opt]# 
[root@localhost opt]# a=100
[root@localhost opt]# awk -v b="$a" 'BEGIN{print b}'
#将系统的变量a,在awk里赋值为变量b,然后调用变量b -v 选项将其传递给 awk
100
[root@localhost opt]# 
[root@localhost opt]# awk 'BEGIN{print "'$a'"}' 
#直接调用的话需要先用双引号再用单引号
100
[root@localhost opt]# 
[root@localhost opt]# awk -vc=1 'BEGIN{print c}'     //awk直接定义变量并引用
1
[root@localhost opt]# 
[root@localhost opt]# df -h | awk 'BEGIN{getline}/root/{print $0}'
#调用函数getline,读取一行数据的时候并不是得到当前行而是当前行的下一行
/dev/mapper/centos-root   26G  5.1G   21G   20% /
[root@localhost opt]# 
[root@localhost opt]# seq 10 | awk '{getline;print $0}'  //显示偶数行
2
4
6
8
10
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# seq 10 | awk '{print $0;getline}'     //显示奇数行
1
3
5
7
9
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# 

5.5、awk if语句

awk的if语句也分为单分支、双分支和多分支

[root@localhost opt]# awk -F: '{if($3<10){print $0}}' /etc/passwd 

#第三列小于10的打印整行
[root@localhost opt]# awk -F: '{if($3<10){print $3}else{print $1}}' /etc/passwd

#第三列小于10的打印第三列,否则打印第一列

[root@localhost opt]# awk -F: '{if($3<10){print $0}}' /etc/passwd   
//第三列小于10的打印整行
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# 
[root@localhost opt]# awk -F: '{if($3<10){print $3}else{print $1}}' /etc/passwd
//第三列小于10的打印第三列,否则打印第一列
0
1
2
3
4
5
6
7
8
operator
games
ftp
nobody
systemd-network
dbus
polkitd
abrt
libstoragemgmt
rpc
colord
saslauth
setroubleshoot
rtkit
pulse
qemu
ntp
radvd
chrony
tss
usbmuxd
geoclue
sssd
gdm
rpcuser
nfsnobody
gnome-initial-setup
avahi
postfix
sshd
tcpdump
cxc
[root@localhost opt]# 

5.6、BEGIN END 循环

awk还支持for循环、while循环、函数、数组等

①、第一步:运行BEGIN{ commands }语句块中的语句。

BEGIN语句块在awk开始从输入流中读取行之前被运行,这是一个可选的语句块,比方变量初始化、打 印输出表格的表头等语句通常能够写在BEGIN语句块中。

②、第二步:从文件或标准输入(stdin)读取一行。然后运行pattern{ commands }语句块,它逐行扫描文 件,从第一行到最后一行反复这个过程。直到文件所有被读取完成。

pattern语句块中的通用命令是最重要的部分,它也是可选的。假设没有提供pattern语句块,则默认运 行{ print },即打印每个读取到的行。awk读取的每一行都会运行该语句块。

③、第三步:当读至输入流末尾时,运行END{ commands }语句块。

END语句块在awk从输入流中读取全然部的行之后即被运行。比方打印全部行的分析结果这类信息汇总 都是在END语句块中完毕,它也是一个可选语句块。

(这三个部分缺少任何一部分都可以)

[root@localhost opt]# awk 'BEGIN {n=0 ; while ("w" | getline) n++ ; {print n-2}}'
//调用w命令,并用来统计在线用户数
2[root@localhost opt]# awk 'BEGIN {FS=":"} ;{if($3>=5){print}}' zz.txt 
//先处理完BEGIN的内容,再打印文本里面的内容
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin[root@localhost opt]# awk -F ":" '! ($3<10){print} ' zz.txt 
//输出第3个字段的值不小于10的行
operator:x:11:0:operator:/root:/sbin/nologin[root@localhost opt]# awk 'BEGIN{x=0};/\/bin\/bash$/ {x++;print x,$0};END {print x}' /etc/passwd
//统计以/ bin/bash结尾的行数
1 root:x:0:0:root:/root:/bin/bash
2 cxc:x:1000:1000:cxc:/home/cxc:/bin/bash
cxc:x:1000:1000:cxc:/home/cxc:/bin/bash

五、总结

grep 和 egrep 文本过滤 (更适合单纯的查找或匹配文本)

sed 流编辑器 实现编辑的(更适合编辑匹配到的文本)

awk 文本报告生成器 实现格式化文本输出(更适合格式化文本,对文本进行较复杂格式处理)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/389382.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[C++探索]初始化列表,static成员,友元函数,内部类,匿名对象

&#x1f496;&#x1f496;&#x1f496;欢迎来到我的博客&#xff0c;我是anmory&#x1f496;&#x1f496;&#x1f496; 又和大家见面了 欢迎来到C探索系列 作为一个程序员你不能不掌握的知识 先来自我推荐一波 个人网站欢迎访问以及捐款 推荐阅读 如何低成本搭建个人网站…

二百五十二、OceanBase——Linux上安装OceanBase数据库(二):新用户配置ssh免密登录

一、目的 在OBD页面上部署OceanBase数据库时发现&#xff0c;需要把新用户也要配置ssh免密登录 二、前提 root用户已经设置免密登录 三、配置步骤 1 切换到新用户obadmin [roothurys23 ~]# su obadmin 2 执行命令生成秘钥文件 [obadminhurys23 oceanbase]$ ssh-keygen …

SSH实现电脑VScode免密登录到虚拟机其原理

在网上想看一下这个原理。发现写的还是比较乱&#xff0c;所以自己总结了一份方便回顾 SSH免密登录的原理主要基于非对称密钥加密技术&#xff0c;比较常用的是RSA算法。 以下是SSH免密登录的详细步骤和原理&#xff1a; 1. 生成密钥对 在客户端上生成一对密钥&#xff0c;…

初识Docker及管理Docker

Docker部署 初识DockerDocker是什么Docker的核心概念镜像容器仓库 容器优点容器在内核中支持2种重要技术&#xff1a;Docker容器与虚拟机的区别 安装Docker源码安装yum安装检查Docker Docker 镜像操作配置镜像加速器&#xff08;阿里系&#xff09;搜索镜像获取镜像查看镜像信息…

【综合案例】使用DevEco Studio编写B站视频卡片

效果展示 知识点 层叠布局 介绍&#xff1a;层叠布局具有较强的 组件层叠 能力。 使用场景&#xff1a;卡片层叠效果 特点&#xff1a;层叠操作 更简洁&#xff0c;编码效率更高。【绝对定位的优势是更灵活】 Stack容器内的子元素顺序是先写的在最下面&#xff0c;即从下到上依…

Linux服务器CPU使用率或CPU负载较高问题的排查及解决方案

本文主要介绍当Linux系统ECS实例CPU使用率或CPU负载较高时&#xff0c;如何排查分析及常见案例说明。 操作场景 在您使用ECS实例过程中&#xff0c;可能会遇到实例CPU使用率或CPU负载持续较高的情况&#xff0c;您可以按照以下步骤排查定位具体问题。 找到影响CPU使用率或CPU…

每日期刊分享

检索:知网 G4 刊期:现收25年3-4月刊版面&#xff0c;预计25年4-5月出刊: 收稿范围:收小学到高中的教育教学稿件

react高级组件ProForm实现输入框搜索

实现界面 <Col span{12}><ProForm.Itemname"name"label"推荐用户"><AutoCompleteclassName"pro-field pro-field-md"placeholder"请输入用户名"options{NameArr}onSearch{debounce(searchUser, 500)}onSelect{onSelect…

MATLAB(9)GIS模型

一、介绍 在GIS&#xff08;地理信息系统&#xff09;中&#xff0c;模型的实现可以非常多样化&#xff0c;取决于你想要解决的具体问题。MATLAB作为一个强大的数值计算和可视化工具&#xff0c;可以被用来开发GIS相关的模型&#xff0c;尽管它不是专门为GIS设计的&#xff08…

jeecguniapp上传附件/图片及预览

一、上传图片 具体页面显示是 注意事项是传递除文件外的参数需要包在formData里 formData:{UUID:that.state.id,type:bill,}, 二、预览图片及附件 重点是附件预览图片预览即图片更换图片path显示 pdf预览代码 同事写的给的笔记及注意事项

亚马逊自养买家账号的优点和测评优势

很多人可能会认为&#xff0c;自行培育买家账号&#xff08;即自养号&#xff09;的成本相对较高&#xff0c;如果仅仅用于产品测评&#xff0c;可能会觉得性价比不高。然而&#xff0c;买家账号在电商运营中其实拥有多重重要作用&#xff0c;远不止于简单的测评功能。 那么&am…

文案人的梦工场,网易入职指南!

网易云对于咱们一些有点文艺的文案策划来说&#xff0c;简直就是梦中情司。 在这里工作锻炼机会很多&#xff0c;也很开拓眼界&#xff0c;能获得相当于在别处3倍能力的成长速度&#xff0c;福利待遇也是很好的。 要进入网易云音乐做文案策划&#xff0c;你可以按照以下步骤进…

qiankun 微前端 隔离子应用样式,解决 ant-design-vue 子应用样式污染问题(已落地)

样式冲突产生原因 先分析乾坤qiankun 构建之后&#xff0c;会根据你的配置 给每个子应用生成一个id&#xff0c; 当加载到对应子应用的时候&#xff0c;就把内容放到对应的id 标签里去&#xff0c; 这样能有效的隔离 js 代码&#xff0c;但是样式是加载在全局的 所以 当两个子…

全开源TikTok跨境商城源码/TikTok内嵌商城+搭建教程/前端uniapp+后端

多语言跨境电商外贸商城 TikTok内嵌商城&#xff0c;商家入驻一键铺货一键提货 全开源完美运营 海外版抖音TikTok商城系统源码&#xff0c;TikToK内嵌商城&#xff0c;跨境商城系统源码 接在tiktok里面的商城。tiktok内嵌&#xff0c;也可单独分开出来当独立站运营 二十一种…

大模型之技术概述

本文作为大模型综述第一篇&#xff0c;介绍大模型技术基本情况。 目录&#xff1a; 1.大模型技术的发展历程 2.大模型技术的生态发展 3.大模型技术的风险与挑战 1.大模型技术的发展历程 2006 年 Geoffrey Hinton 提出通过逐层无监督预训练的方式来缓解由于梯度消失而导致的…

HyperDiffusion阅读

ICCV 2023 创新点 HyperDiffusion&#xff1a;一种用隐式神经场无条件生成建模的新方法。 HyperDiffusion直接对MLP权重进行操作&#xff0c;并生成新的神经隐式场。 HyperDiffusion是与维度无关的生成模型。可以对不同维度的数据用相同的训练方法来合成高保真示例。 局限性…

贪心算法—股票交易时机Ⅱ

在此前我们已经介绍过贪心算法以及股票交易时机Ⅰ&#xff0c;有需要的话可以移步至贪心算法_Yuan_Source的博客-CSDN博客 题目介绍 122. 买卖股票的最佳时机 II - 力扣&#xff08;LeetCode&#xff09; 给你一个整数数组 prices &#xff0c;其中 prices[i] 表示某支股票第…

楼宇智能技术实训室解决方案

一、楼宇智能技术实训室建设背景 随着信息技术的迅猛发展&#xff0c;智能化已经成为现代建筑发展的重要趋势。楼宇智能技术&#xff0c;作为智能化建筑的核心支撑&#xff0c;集成了物联网、大数据、云计算、人工智能等多种先进技术&#xff0c;实现了楼宇内部各类设施、系统…

【Java算法专场】前缀和(上)

前言 在求数组或者矩阵求和等问题&#xff0c;我们如果采用暴力解法&#xff0c;时间复杂度可能会达到O(n)或者更高&#xff0c;因此&#xff0c;我们可利用前缀和来解决。 前缀和 前缀和是指序列中的n项和&#xff0c;相当于数学问题中秋数列的前n项和。主要用于数组或列表中…

ElasticSearch入门(六)SpringBoot2

private String author; Field(name “word_count”, type FieldType.Integer) private Integer wordCount; /** Jackson日期时间序列化问题&#xff1a; Cannot deserialize value of type java.time.LocalDateTime from String “2020-06-04 15:07:54”: Failed to des…