windows ubuntu sed,awk,grep篇,8,Awk 语法和基础命令

目录

51.Awk 命令语法

52.Awk 程序结构(BEGIN,body,END)区域

53.打印命令

54.模式匹配


Awk 是一个维护和处理文本数据文件的强大语言。在文本数据有一定的格式,即每行数据包
含多个以分界符分隔的字段时,显得尤其有用。即便是输入文件没有一定的格式,你仍然可
以使用 awk 进行基本的处理。 Awk 当然也可以没有输入文件,那不是必须的。简言之, AWK
是一种能处理从琐碎的小事到日常例行公事的强大语言。
学习 AWK 的难度要比学习其他任意语言的难度都小。如果你已经掌握了 C 语言,那么你会
发现学习 AWK 将会是如此简单和容易。 AWK 最开始由三个人开发—— A.Aho B.W.Kernighan P.Weinberger 。所有 AWK 的名字来
自他们名字的第一个字母。
下面是 AWK 的几个变种:
  AWK 是最原始的 AWK
  NAWK new AWK
  GAWK GNU AWK 。所有 linux 发行版都默认使用 GAWK ,它和 AWK 以及 NAWK
完全兼容。
本书包含了原始 AWK 的所有基础功能,以及 GAWK 特有的一些高级功能。在安装了 NAWK
GAWK 的操作系统上,你仍然可以直接使用 awk 命令,它会根据情况调用 nawk gawk
linux 系统为例,你会看到 awk 是一个指向 gawk 的符号链接,所以在 linux 上执行 awk
gawk 将会调用 gawk
$ ls -l /bin/awk /bin/gawk
lrwxrwxrwx 1 root root 4 Apr 8 2011 /bin/awk -> gawk
-rwxr-xr-x 1 root root 319336 Dec 3 2008 /bin/gawk
本书示例将用到下面三个文件,请先建立它们,然后用它们来运行所有示例。
employee.txt 文件
employee.txt 文件以逗号作为字段分界符,包含 5 个雇员的记录,其格式如下:
employee-number,employee-name,employee-title
建立该文件 :
$ vi employee.txt
101,John Doe,CEO
102,Jason Smith,IT Manager
103,Raj Reddy,Sysadmin
104,Anand Ram,Developer
105,Jane Miller,Sales Manager
items.txt 文件
items.txt 是一个以逗号作为字段分界符的文本文件,包含 5 条记录,其格式如下:
items-number,item-description,item-category,cost,quantity-available
建立该文件 :
$ vi items.txt
101,HD Camcorder,Video,210,10
102,Refrigerator,Appliance,850,2
103,MP3 Player,Audio,270,15
104,Tennis Racket,Sports,190,20
105,Laser Printer,Office,475,5
items-sold.txt 文件 items-sold.txt 是一个以空格作为字段分界符的文本文件,包含 5 条记录。每条记录都是特定
商品的编号以及当月的销售量 (6 个月 ) 。因此每条记录有 7 个字段。第一个字段是商品编号,
第二个字段到第七个字段是 6 个月内每月的销售量。其格式如下:
item-number qty-sold-month1 qty-sold-month2 qty-sold-month3 qty-sold-month4
qty-sold-month5 qty-sold-month6
建立该文件 :
$ cat items-sold.txt
101 2 10 5 8 10 12
102 0 1 4 3 0 2
103 10 6 11 20 5 13
104 2 3 4 0 6 5
105 10 2 5 7 12 6

51.Awk 命令语法

Awk 基础语法 :
Awk –Fs ‘/pattern/ {action}’ input-file
(或者)
Awk –Fs ‘{action}’ input-file
上面语法中:
z -F 为字段分界符。如果不指定,默认会使用空格作为分界符。
z /pattern/ {action} 需要用单引号引起来。
z /pattern/ 是可选的。如果不指定, awk 将处理输入文件中的所有记录。如果指定一
个模式, awk 则只处理匹配指定的模式的记录。
z {action} awk 命令,可以是单个命令,也可以多个命令。整个 action( 包括里面的
所有命令 ) 都必须放在 { } 之间。
z Input-file 即为要处理的文件
下面是一个演示 awk 语法的非常简单的例子 :
$ awk -F: '/mail/ {print $1}' /etc/passwd
mail
mailnull
这个例子中 :
z -F 指定字段分界符为冒号,即各个字段以冒号分隔。请注意,你也可以把分界符
用双引号引住, -F”:” 也是正确的。
z /mail/ 指定模式, awk 只会处理包含关键字 mail 的记录
z {print $1} 动作部分,该动作只包含一个 awk 命令,它打印匹配 mail 的每条记录的
1 个字段
z /etc/passwd 即是输入文件
awk 命令放入单独的文件中(awk 脚本)当需要执行很多 awk 命令时,可以把/pattern/{action}这一部分放到单独的文件中,然后调 用它:
awk –Fs –f myscript.awk input-file
myscript.awk 可以使用任意扩展名(或者不用扩展名)。但是加上扩展名.awk 便于维护,也可
以在这个文件中设置字段分界符(后面详述),然后调用:
awk –f myscript.awk input-file

52.Awk 程序结构(BEGIN,body,END)区域

典型的 awk 程序包含下面三个区域 :
1. BEGIN 区域
Begin 区域的语法 :
BEGIN { awk-commands }
BEGIN 区域的命令只最开始、在 awk 执行 body 区域命令之前执行一次。
z BEGIN 区域很适合用来打印报文头部信息,以及用来初始化变量。
z BEGIN 区域可以有一个或多个 awk 命令
z 关键字 BEGIN 必须要用大写
z BEGIN 区域是可选的
2. body 区域
body 区域的语法 :
/pattern/ {action}
body 区域的命令每次从输入文件读取一行就会执行一次
z 如果输入文件有 10 行,那 body 区域的命令就会执行 10 ( 每行执行一次 )
z Body 区域没有用任何关键字表示,只有用正则模式和命令。
3. END block
END 区域的语法 :
END { awk-commands }
END 区域在 awk 执行完所有操作后执行,并且只执行一次。
z END 区域很适合打印报文结尾信息,以及做一些清理动作
z END 区域可以有一个或多个 awk 命令
z 关键字 END 必须要用大写
z END 区域是可选的
Awk 的执行流程
下面的例子包含上上述的三个区域:
$ awk 'BEGIN { FS=":";print "----header----" } \
/mail/ {print $1} \
END {print "----footer----"}' /etc/passwd
----header----
mail
mailnull
----footer----
提示:如果命令很长,即可以放到单行执行,也可以用 \ 折成多行执行。上面的例子用 \ 把命
令折成了 3 行。
在这个例子中: z BEGIN { FS=”:”;print “----header----“ } BEGIN 区域,它设置了字段分界符变量 FS(
文详述 ) 的值,然后打印报文头部信息。这个区域仅在 body 区域循环之前执行一次。
z /mail/{print $1} body 区域,包含一个正则模式和一个动作,即在输入文件中搜索
包含关键字 mail 的行,并打印第一个字段。
z END {print “----footer----“ } END 区域,打印报文尾部信息。
z /etc/passwd 是输入文件,每行记录都会执行一次 body 区域里的动作。
上面的例子中,除了可以在命令行上执行外,还可以通过脚本执行。
首先建立下面的文件 myscript.awk, 它包含了 begin,body end
$vi myscript.awk
BEGIN {
FS=":"
print "---header---"
}
/mail/ {
print $1
}
END {
print "---footer---"
}
然后,如下所示,在 /etc/passwd 上执行 myscript.awk 文件:
$awk -f myscript.awk /etc/passwd
---header---
mail
---footer---
请注意, awk 脚本中,注释以 # 开头。如果要编写复杂的 awk 脚本,最后接受下面的建议:
*awk 文件中写上足够多的注释,这样以后再次使用该脚本时,更易于读懂。
下面是随机列出的一些简单的例子,用例演示 awk 各个区域的不同组合方式:
只有 body 区域 :
awk –F: ‘{ print $1 }’ /etc/passwd
同时具有 begin,body end 区域 :
awk –F: ‘BEGIN{printf “username\n-------\n”}\
{ print $1 }\
END {print “----------“ }’ /etc/passwd
只有 begin body 区域 :
Awk –F: ‘BEGIN {print “UID”} {print $3}’ /etc/passwd
关于使用 BEGIN 区域的提示 :
只使用 BEGIN 区域在 awk 中是符合语法的。在没有使用 body 区域时,不需要指定输入文件,
因为 body 区域只在输入文件上执行。所以在执行和输入文件无关的工作时,可以只使用
BEGIN 区域。下面的不少例子中,只包含 BEGIN 区域,用来说明 awk 的不同部分是如何执行
的。你可以因地制宜地使用下面的例子。
只包含 BEGIN 的简单示例 :
$awk ‘BEGIN { print “Hello,World!” }’
Hello World!
多个输入文件 :
注意,可以为 awk 指定多个输入文件。如果指定了两个文件,那么 body 区域会首先在第一
个文件的所有行上执行,然后在第二个文件的所有行上执行。
多个输入文件示例 :
$awk 'BEING { FS=":";print "---header---" }\
/mail/ {print $1}\
END { print "---footer---"}' /etc/passwd /etc/group
mail:x:8:12:Mailer
mail:x:12:
maildrop:!:59:
---footer---
注意,即是指定了多个文件, BEGIN END 区域,仍然只会执行一次。

53.打印命令

默认情况下, awk 的打印命令 print( 不带任何参数 ) 会打印整行数据。下面的例子等价于 ”cat
employee.txt” 命令 .
$awk '{print}' employee.txt
101,John Doe,CEO
102,Jason Smith,IT Manager
103,Raj Reddy,Sysadmin
104,Anand Ram,Developer
105,Jane Miller,Sales Manager
也可以通过传递变量 ”$ 字段序号 作为 print 的参数来指定要打印的字段。我们猜想例子应该
只打印雇员名称 ( 2 个字段 )
$awk '{print $2}' employee.txt
Doe,CEO
Smith,IT
Reddy,Sysadmin
Ram,Developer
Miller,Sales
等等,这个输出好像和预期不符。它打印了从姓氏开始直到记录结尾的所有内容。这是因为
awk 默认的字段分隔符是空格, awk 准确地执行了我们要求的动作,它以空格作为分隔符,
打印第 2 个字段。当使用默认的空格作为字段分隔符时, 101,Johne 变成了第一条记录的第
一个字段, Doe,CEO 变成了第二个字段。因此上面例子中, awk Doe,CEO 作为第二个字段
打印出来了。
要解决这个文件,应该使用-F 选项为 awk 指定一个逗号”,”最为字段分隔符。
$awk -F ',' '{print $2}' employee.txt
John Doe Jason Smith
Raj Reddy
Anand Ram
Jane Miller
当字段分隔符是单个字符时,下面的所有写法都是争取的,即可以把它放在单引号或双引号
中,或者不使用引号:
awk –F ‘,’ ‘{print $2}’ employee.txt
awk –F “,” ‘{print $2}’ employee.txt
awk –F , ‘{print $2}’ employee.txt
ᨀ示 : 也可使用 FS 变量来达到同样的目的。后面会介绍这个 awk 内置变量的用法。
一个简单的例子,用来输出雇员姓名,职位,同时附带 header footer 信息 :
$awk 'BEGIN{FS=",";print "---------\nName Title\n------------\n";}\
{print $2,"\t",$3}\
END {print "-------------------"}' employee.txt
---------
Name Title
------------
John Doe CEO
Jason Smith IT Manager
Raj Reddy Sysadmin
Anand Ram Developer
Jane Miller Sale
这个例子中,输出结果各字段并没有很好地对齐,后面章节将会介绍如何处理这个问题。这
个例子还展示了如何使用 BEGIN 来打印 header 以及如何使用 END 来打印 footer.
请注意, $0 代表整条记录。下面两个命令是等价的,都打印 employee.txt 的所有行 :
awk ‘{print}’ employee.txt
awk ‘{print $0}’ employee.txt

54.模式匹配

你可以只在匹配特殊模式的行数执行 awk 命令。
下面的例子只打印管理者的姓名和职位:
$awk -F ',' '/Manager/ {print $2,$3}' employee.txt
Jason Smith IT Manager
Jane Miller Sales Manager
下面的例子只打印雇员 id 102 的雇员的信息:
$awk -F ',' '/^102/{print "Emp id 102 is",$2}' \
> employee.txt
Emp id 102 is Jason Smith

资料来源于《SedandAwk101Hacks》,大家有兴趣可以买一本,也可以关注我,我更新完它。

曾经,我花费大半月将它们跑完,现在啥都忘了,还是要常用。

只为学习交流,不为获利,侵权联系立删。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316061.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sCrypt全新上线RUNES功能

sCrypt智能合约平台全新上线一键etch/mint RUNES功能! 请访问 https://runes.scrypt.io/ 或点击阅读原文体验! 关于sCrypt sCrypt是BSV区块链上的一种智能合约高级语言。比特币使用基于堆栈的Script语言来支持智能合约,但是用原生Script编…

微信小程序实时日志使用,setFilterMsg用法

实时日志 背景 为帮助小程序开发者快捷地排查小程序漏洞、定位问题,我们推出了实时日志功能。开发者可通过提供的接口打印日志,日志汇聚并实时上报到小程序后台。开发者可从We分析“性能质量->实时日志->小程序日志”进入小程序端日志查询页面&am…

《异常检测——从经典算法到深度学习》27 可执行且可解释的在线服务系统中重复故障定位方法

《异常检测——从经典算法到深度学习》 0 概论1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法3 基于One-Class SVM的异常检测算法4 基于高斯概率密度异常检测算法5 Opprentice——异常检测经典算法最终篇6 基于重构概率的 VAE 异常检测7 基于条件VAE异常检测8 Donut: …

AI 工具合集

以下工具来源于互联网,可能会失效,请参考使用 网红工具 名称链接说明GPT-4https://chat.openai.com/ 需要梯子,需要付费。功能最强大的聊天机 器人。 文心一言https://yiyan.baidu.com/welcome 国内版 GPT,需要申请账号。回答问…

ChromaDB教程

使用 Chroma DB,管理文本文档、将文本嵌入以及进行相似度搜索。 随着大型语言模型 (LLM) 及其应用的兴起,我们看到向量数据库越来越受欢迎。这是因为使用 LLM 需要一种与传统机器学习模型不同的方法。 LLM 的核心支持技术之一是…

IDEA使用技巧(常用设置、快捷键等)

IDEA使用技巧 一、IDEA常用基本设置设置代码背景颜色/主题/字体Ctrl鼠标滚轮缩放字体大小设置字符编码左右两侧的Project,Structure,Maven等按钮消失新增类似sout,psvm的模版切换某个模块编译的JDK版本 二、常用快捷键CtrlAltT包裹代码Alt回车联想补全Ct…

How to solve matplotlib Chinese garbled characters in Ubuntu 22.04

conda create -n huizhou python3.8conda activate huizhouconda install numpy matplotlibpip install mplfontsmplfonts init# 导入必要的库 import numpy as np import matplotlib.pyplot as plt# 创建角度数组,从0到2π x np.linspace(0, 2 * np.pi, 100)# 计算…

七、OSPF特殊区域及其特性

目录 OSPF区域分类 hello报文中option字段 1.末节区域(Stub区域) 2.完全末节区域(Toally Stub区域) 3.七类LSA 4.非完全末节区域(NSSA区域) 5.完全非完全末节区域(Toally NSSA区域&#…

Windows Server配置网卡绑定:NIC组合

正文共:1024 字 12 图,预估阅读时间:1 分钟 在网络设备上,为了提高可靠性,一般会配置链路聚合(Link Aggregation)(网络之路28:二层链路聚合),同样…

# 从浅入深 学习 SpringCloud 微服务架构(四)Ribbon

从浅入深 学习 SpringCloud 微服务架构(四)Ribbon 段子手168 一、ribbon 概述以及基于 ribbon 的远程调用。 1、ribbon 概述: Ribbon 是 Netflixfa 发布的一个负载均衡器,有助于控制 HTTP 和 TCP客户端行为。 在 SpringCloud 中 Eureka …

UE Snap03 启动参数设置

UE Snap03 启动参数设置 UE打包后传入自定义参数及解析。 void UGameInstance::StartGameInstance() {Super::StartGameInstance();UE_LOG(LogTemp, Warning, TEXT("--StartGameInstance--"));FString param;FParse::Value(FCommandLine::Get(), TEXT("-UserN…

【Ant-Desgin 头像上传框】限制数量为1张图片,base64,其他需求可以改我组件中的代码

Ant-Desgin 头像上传框 样式图参数主要代码UpLoad 组件父组件 样式图 图片数量限制为1,当选择了图片后,需要切换图像时需点击头像完成切换 参数 /*** description: 图片上传组件* param {*} action: 上传地址* param {*} width: 宽度* param {*} height…

flink Unsupported operand types: IF(boolean, NULL, String)

问题:业务方存储了NULL 字符串,需要处理为 null select if(anull,null,a); 结果遇到了 Unsupported operand types: IF(boolean, NULL, String),根据报错反馈,很明显应该是没有对 null 自动转换&#xff…

应用层协议 -- HTTPS 协议

目录 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 2、理解“加密” 二、对称加密 1、理解对称加密 2、对称加密存在的问题 三、非对称加密 1、理解非对称加密 2、中间人攻击 3、CA 证书和数字签名 四、总结 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 HTTPS 也是…

untiy avpro播放超过8K视频的解决方案

安转LAV Filters解码器,然后指定Avpro使用这个解码器播放即可 第一步 安装解码器 下载链接 第二步 AVPro设置 MediaPlayer脚本中一共两处

jasypt组件死锁bug案例分享

事故描述 1、上午9.55发布了一个Apollo动态配置参数; 2、片刻后,服务器接口开始出现大量的超时告警,似乎是某资源被耗尽不足分配; 3、正值业务请求高峰的上午十点(平台上午10点会有一些活动会拉一波用户流量&#x…

深入docker-swarm overlay网络模型

目录 1.简介 2.网络模型 3.docker_gwbridge网络 3.1.docker_gwbridge网关地址 3.2.检查docker_gwbridge网络 3.2.1.查找任务容器eth接口 3.2.2.查找ingress-sbox容器eth接口 4.检查ingress网络 4.1.检查ingress网络 4.2.检查ingress网络的命名空间 4.2.1.查找任务容…

VBA技术资料MF147:从Excel运行PowerPoint演示文稿

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

12 Junit单元测试、反射、注解

单元测试 介绍 Junit单元测试是做什么的? 就是针对最小的功能单元(方法),编写测试代码对其进行正确性测试。 Junit单元测试框架 可以用来对方法进行测试,它是由Junit公司开源出来的 Junit单元测试的优点是什么? 可以灵活的…

深度学习中的子空间、线性变换和矩阵概念应用

1.表示子空间 在深度学习中,“不同的表示子空间”通常是指模型通过不同的参数(例如权重矩阵)将输入数据映射到不同的高维空间,这些空间被称为表示子空间。每个子空间都能够捕获输入数据中不同的特征或模式。以下是一些详细解释&am…