一把小刀,直插 class 文件的小心脏

大家好,我是二哥呀,假期结束了,学起来吧!

今天我拿了一把小刀,准备解剖一下 Java 的 class 文件。

CS 的世界里流行着这么一句话,“计算机科学领域的任何问题都可以通过增加一个中间层来解决”。对于 Java 来说,JVM 就是这么一个产物,“Write once, Run anywhere”之所以能实现,靠得就是 JVM,它能在不同的操作系统下运行同一份源代码编译后的 class 文件。

Java 是跨平台的,JVM 作为中间层,自然要针对不同的操作系统提供不同的实现。拿 JDK 11 来说,它的实现就有上图中提到的这么多种。

通过不同操作系统的 JVM,我们的源代码就可以不用根据不同的操作系统编译成不同的二进制可执行文件了,跨平台的目标也就实现了。那这个 class 文件到底是什么玩意呢?它是怎么被 JVM 识别的呢?

我们用 IDEA 编写一段简单的 Java 代码,文件名为 Hello.java。

package com.itwanger.jvm;
class Hello {public static void main(String[] args) {System.out.println("Hello!");}
}

点击编译按钮后,IDEA 会帮我们自动生成一个名为 Hello.class 的文件,在 target/classes 的对应包目录下。直接双击打开后长下面这样子:

//
// Source code recreated from a .class file by IntelliJ IDEA
// (powered by Fernflower decompiler)
//package com.itwanger.jvm;class Hello {Hello() {}public static void main(String[] args) {System.out.println("Hello!");}
}

看起来和源代码很像,只是多了一个空的构造方法,对吧?它是 class 文件被 IDEA 自带的反编译工具 Fernflower 反编译后的样子。那真实的 class 文件长什么样子呢?

可以在 terminal 面板下用 xxd Hello.class 命令来查看。

咦?完全看不懂的样子呢。它是 class 文件的一种十六进制形式,xxd 这个命令的神奇之处就是它能将一个给定文件转换成十六进制形式。

01、魔数

第一行中有一串特殊的字符 cafebabe,它就是一个魔数,是 JVM 识别 class 文件的标志,JVM 会在验证阶段检查 class 文件是否以该魔数开头,如果不是则会抛出 ClassFormatError

魔数 cafebabe 的中文意思显而易见,咖啡宝贝,再加上 Java 的图标本来就是一个热气腾腾的咖啡,可见 Java 与咖啡的渊源有多深。

02、版本号

紧跟着魔数后面的四个字节 0000 0037 分别表示副版本号和主版本号。也就是说,主版本号为 55(0x37 的十进制),也就是 Java 11 对应的版本号,副版本号为 0。

上一个 LTS 版本是 Java 8,对应的主版本号为 52,也就是说 Java 9 是 53,Java 10 是 54,只不过 Java 9 和 Java 10 都是过渡版本,下一个 LTS 版本是 Java 17,预计 2021 年 9 月份推出。

03、常量池

紧跟在版本号之后的是常量池,字符串常量和较大的证书都会存储在常量池中,当使用这些数值时,会根据常量池中的索引来查找。

Java 定义了 boolean、byte、short、char 和 int 等基本数据类型,它们在常量池中都会被当做 int 来处理。我们来通过一段简单的 Java 代码了解下。

public class ConstantTest {public final boolean bool = true;public final char aChar = 'a';public final byte b = 66;public final short s = 67;public final int i = 68;
}

布尔值 true 的十六进制是 0x01、字符 a 的十六进制是 0x61,字节 66 的十六进制是 0x42,短整型 67 的十六进制是 0x43,整形 68 的十六进制是 0x44。所以编译生成的整形常量在 class 文件中的位置如下图所示。

第一个字节 0x03 表示常量的类型为 CONSTANT_Integer_info,是 JVM 中定义的 14 种常量类型之一,对应的还有 CONSTANT_Float_infoCONSTANT_Long_infoCONSTANT_Double_info,对应的标识分别是 0x04、0x05、0x06。

对于 int 和 float 来说,它们占 4 个字节;对于 long 和 double 来说,它们占 8 个字节。来个 long 型的最大值观察下。

public class ConstantTest {public final long ong = Long.MAX_VALUE;
}

来看一下它在 class 文件中的位置。05 开头,7f ff ff ff ff ff ff ff 结尾,果然占 8 个字节,以前知道 long 型会占 8 个字节,但没有直观的感受,现在有了。

接下来,我们再来看一段代码。

class Hello {public final String s = "hello";
}

“hello”是一个字符串,它的十六进制为 68 65 6c 6c 6f,我们来看一下它在 class 文件中的位置。

前面还有 3 个字节,第一个字节 0x01 是标识,标识类型为 CONSTANT_Uft8_info,第二个和第三个自己 0x00 0x05 用来表示第三部分字节数组的长度。

CONSTANT_Uft8_info 类型对应的,还有一个 CONSTANT_String_info,用来表示字符串对象(之前代码中的 s),标识是 0x08。前者存储了字符串真正的值,后者并不包含字符串的内容,仅仅包含了一个指向常量池中 CONSTANT_Uft8_info 的索引。来看一下它在 class 文件中的位置。

CONSTANT_String_info 通过索引 19 来找到 CONSTANT_Uft8_info

除此之外,还有 CONSTANT_Class_info,用来表示类和接口,结构和 CONSTANT_String_info 类似,第一个字节是标识,值为 0x07,后面两个字节是常量池索引,指向 CONSTANT_Utf8_info——字符串存储的是类或者接口的全路径限定名。

拿 Hello.java 类来说,它的全路径限定名为 com/itwanger/jvm/Hello,对应的十六进制为“636f6d2f697477616e6765722f6a766d2f48656c6c6f”,是一串 CONSTANT_Uft8_info,指向它的 CONSTANT_Class_info 在 class 文件中的什么位置呢?

先不着急,这里给大家介绍一款可视化字节码的工具 jclasslib bytecode viewer,可以直接在 IDEA 的插件市场安装。安装完成后,选中 class 文件,然后在 View 菜单里找到 Show Bytecode With Jclasslib 子菜单,就可以查看 class 文件的关键信息了。

从上图中可以看到,常量池的总大小为 23,索引为 04 的 CONSTANT_Class_info 指向的是是索引为 21 的 CONSTANT_Uft8_info,值为 com/itwanger/jvm/Hello。21 的十六进制为 0x15,有了这个信息,我们就可以找到 CONSTANT_Class_info 在 class 文件中的位置了。

0x07 是第一个字节,CONSTANT_Class_info 的标识符,然后是两个字节,标识索引。

还有 CONSTANT_NameAndType_info,用来标识字段或方法,标识符为 12,对应的十六进制是 0x0c。后面还有 4 个字节,前两个是字段或者方法的索引,后两个是字段或方法的描述符,也就是字段或者方法的类型。

来看下面这段代码。

class Hello {public void testMethod(int id, String name) {}
}

用 jclasslib 可以看到 CONSTANT_NameAndType_info 包含的索引有两个。

一个是 4,一个是 5,可以通过下图来表示 CONSTANT_NameAndType_info 的构成。

对应 class 文件中的位置如下图所示。

接下来是 CONSTANT_Fieldref_infoCONSTANT_Methodref_infoCONSTANT_InterfaceMethodref_info,它们三个的结构比较类似,可以通过下面的伪代码来表示。

CONSTANT_*ref_info {u1 tag;u2 class_index;u2 name_and_type_index;
}

学过 C 语言的符号表(Symbol Table)的话,对这段伪代码并不会陌生。

  • tag 为标识符,Fieldref 的为 9,也就是十六进制的 0x09;Methodref 的为 10,也就是十六进制的 0x0a;InterfaceMethodref 的为 11, 也就是十六进制的 0x0b。
  • class_index 为 CONSTANT_Class_info 的常量池索引,表示字段 | 方法 | 接口方法所在的类信息。
  • name_and_type_index 为 CONSTANT_NameAndType_info 的常量池索引,拿 Fieldref 来说,表示字段名和字段类型;拿 Methodref 来说,表示方法名、方法的参数和返回值类型;拿 InterfaceMethodref 来说,表示接口方法名、接口方法的参数和返回值类型。

还有 CONSTANT_MethodHandle_infoCONSTANT_MethodType_infoCONSTANT_InvokeDynamic_info,我就不再一一说明了,大家也可以拿把小刀去试一试。

啊,class 文件中最复杂的常量池部分就算是解剖完了,真不容易!

04、访问标记

紧跟着常量池之后的区域就是访问标记(Access flags),这个标记用于识别类或接口的访问信息,比如说到底是 class 还是 interface?是 public 吗?是 abstract 抽象类吗?是 final 类吗?等等。总共有 16 个标记位可供使用,但常用的只有其中 7 个。

来看一个简单的枚举代码。

public enum Color {RED,GREEN,BLUE;
}

通过 jclasslib 可以看到访问标记的信息有 0x4031 [public final enum]

对应 class 文件中的位置如下图所示。

05、this_class、super_class、interfaces

这三部分用来确定类的继承关系,this_class 为当前类的索引,super_class 为父类的索引,interfaces 为接口。

来看下面这段简单的代码,没有接口,默认继承 Object 类。

class Hello {public static void main(String[] args) {}
}

通过 jclasslib 可以看到类的继承关系。

  • this_class 指向常量池中索引为 2 的 CONSTANT_Class_info
  • super_class 指向常量池中索引为 3 的 CONSTANT_Class_info
  • 由于没有接口,所以 interfaces 的信息为空。

对应 class 文件中的位置如下图所示。

06、字段表

一个类中定义的字段会被存储在字段表(fields)中,包括静态的和非静态的。

来看这样一段代码。

public class FieldsTest {private String name;
}

字段只有一个,修饰符为 private,类型为 String,字段名为 name。可以用下面的伪代码来表示 field 的结构。

field_info {u2 access_flag;u2 name_index;u2 description_index;
}
  • access_flag 为字段的访问标记,比如说是不是 public | private | protected,是不是 static,是不是 final 等。
  • name_index 为字段名的索引,指向常量池中的 CONSTANT_Utf8_info, 比如说上例中的值就为 name。
  • description_index 为字段的描述类型索引,也指向常量池中的 CONSTANT_Utf8_info,针对不同的数据类型,会有不同规则的描述信息。

1)对于基本数据类型来说,使用一个字符来表示,比如说 I 对应的是 int,B 对应的是 byte。

2)对于引用数据类型来说,使用 L***; 的方式来表示,L 开头,; 结束,比如字符串类型为 Ljava/lang/String;

3)对于数组来说,会用一个前置的 [ 来表示,比如说字符串数组为 [Ljava/lang/String;

对应到 class 文件中的位置如下图所示。

07、方法表

方法表和字段表类似,区别是用来存储方法的信息,包括方法名,方法的参数,方法的签名。

就拿 main 方法来说吧。

public class MethodsTest {public static void main(String[] args) {}
}

先用 jclasslib 看一下大概的信息。

  • 访问标记是 public static 的。
  • 方法名为 main。
  • 方法的参数为字符串数组;返回类型为 Void。

对应到 class 文件中的位置如下图所示。

08、属性表

属性表是 class 文件中的最后一部分,通常出现在字段和方法中。

来看这样一段代码。

public class AttributeTest {public static final int DEFAULT_SIZE = 128;
}

只有一个常量 DEFAULT_SIZE,它属于字段中的一种,就是加了 final 的静态变量。先通过 jclasslib 看一下它当中一个很重要的属性——ConstantValue,用来表示静态变量的初始值。

  • Attribute name index 指向常量池中值为“ConstantValue”的常量。
  • Attribute length 的值为固定的 2,因为索引只占两个字节的大小。
  • Constant value index 指向常量池中具体的常量,如果常量类型为 int,指向的就是 CONSTANT_Integer_info

我画了一副图,可以完整的表示字段的结构,包含属性表在内。

对应到 class 文件中的位置如下图所示。

来看下面这段代码。

public class MethodCode {public static void main(String[] args) {foo();}private static void foo() {}
}

main 方法中调用了 foo 方法。通过 jclasslib 看一下它当中一个很重要的属性——Code, 方法的关键信息都存储在里面。

  • Attribute name index 指向常量池中值为“Code”的常量。
  • Attribute length 为属性值的长度大小。
  • bytecode 存储真正的字节码指令。
  • exception table 表示方法内部的异常信息。
  • maximum stack size 表示操作数栈的最大深度,方法执行的任意期间操作数栈深度都不会超过这个值。
  • maximum local variable 表示临时变量表的大小,注意,并不等于方法中所有临时变量的数量之和,当一个作用域结束,内部的临时变量占用的位置就会被替换掉。
  • code length 表示字节码指令的长度。

对应 class 文件中的位置如下图所示。

到此为止,class 文件的内部算是剖析得差不多了,希望能对大家有所帮助。第一次拿刀,手有点颤,如果哪里有不足的地方,欢迎大家在评论区毫不留情地指出来!

文末给大家推荐一份 GitHub 上星标 115k+ 的 Java 学习教程吧,我亲自整理的,包括 Java 基础、Java 容器、Java 并发、Java 虚拟机和 Java IO,可以说非常全面。


我是沉默王二,Java 领域的优质创作者,CSDN 粉丝已经突破了 20 万+,应该说很强了,希望我整理的这份 Java 学习资料能帮助到大家。

太赞了,GitHub 上标星 115k+ 的 Java 教程!

这篇内容超级硬核,对 class 文件解剖了很长时间,累坏了,记得帮我点赞鼓励下啦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22209.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

emlog仿小刀模板

简介: 此模板是模仿小刀的模板,修改首页左广告图下内容,比之前更实用。修复无法搜索以及标签问题。删除文章页千篇一律的免责声明。添加右侧投稿和top悬浮标,可以和之前的top共存。友链中的部分链接可以在module.php修改。最近更…

高仿小刀娱乐网系统源码+积分功能+前台投稿

简介: 前台带会员投稿审核,收藏等功能,后台有插件,可扩展支持支付等,功能齐全。 用(极致CMS)套的模板,免费商用的CMS,可以自定义二开功能,附带积分功能! 安装教程&#…

Android——教你10分钟手敲 Butter Knife(小刀注解)

教你10分钟手敲 Butter Knife(小刀注解) 在用 AndroidStudio 集成 Butter Knife(小刀注解)的时候感觉像极了J2EE的Spring IOC容器 自己研究了一下,我来分享一下,小编会:多注释,多贴码,尽量降低同学们的学习时间成本&am…

最新织梦程序精仿小刀娱乐网资源网主题模板源码

介绍: 当初花了300块买的一套源码,跟小刀同款一模一样,仿的大鹏资源网 网盘下载地址: https://zijiewangpan.com/NfH3vcZyxvf 图片:

小刀娱乐网源码2020版

简介: 小刀娱乐网源码是aspaccess/mssql架构网站系统,电脑版,手机版,平板版无缝切换,一个后台同步管理,整站生成静态利于搜索收录,dreamweaver打开可视化修改。 专为制作“小刀娱乐网、QQ教程…

最新精仿小刀娱乐资源网模板源码,带前台会员投稿审核功能

介绍: 安装方法一: 1、将根目录文件上传服务器 2、将根目录1x6d.sql导入mysql数据库 3、环境需要支持PHP5.6(推荐PHP7.2),mysql5.0 4、配置数据库Conf/config.php 填写数据库账户密码 5、删除根目录安装文件install …

新版仿小刀资源网模板—木鱼cms

介绍: 仿小刀资源网模板新鲜出炉,使用的是muyucms 仿小刀资源网页面 1比1还原 这套模板使用了全新的轻量cms系统 木鱼cms 网盘下载地址: http://kekewl.net/38Bsc80j7460 图片:

晗枫emlog仿小刀网修复版模板

介绍: 晗枫开源的emlog仿小刀HFdao模板,测试之后和小刀网的没什么差别,EMLOG用户的福利模板,全开源免费发布。 JS各大搜索引擎自动提交收录! 最后如果自己二开请留个版权作者开发不易,不做伸手党&#xff…

php小刀娱乐网源码,PHP精仿小刀娱乐网资源下载站网站整站源码

【温馨提示】源码包解压密码:www.youhutong.com 资源描述 PHP精仿小刀娱乐网资源下载站网站整站源码 源码介绍: 网友花了300多元买的源码。 该源码使用dedecms系统去仿小刀娱乐网资源下载站一套源码模板,安装简单。非常适合做资源素材站用。 …

emlog程序仿小刀娱乐网模板最终版本分享

介绍: 上个版本本次修复广告横幅只显示大图的问题,修复文字广告在手机不显示文章置顶广告移除热门, 现在不在热门显示了修复免责一类,关于这些,不再是看文章那种了左侧大图轮播去掉,不在显示箭头&#xff…

Emlog程序小刀娱乐网同款顶踩插件

介绍: 插件适用于EMLOG,插件仿的小刀娱乐网插件。 没个样式也非常好看加上两个表情包 很有趣,就插件已经适用Emlog系统了,效果还不错! 将压缩包里的digg文件上传到你emlog的插件目录下即可 然后在echo_log.php文章页的…

emlog高仿小刀新版本模板

介绍: 此模板是模仿小刀的模板,修改首页左广告图下内容,比之前更实用。 修复无法搜索以及标签问题。 删除文章页千篇一律的免责声明。 添加右侧投稿和top悬浮标,可以和之前的top共存。 友链中的部分链接可以在module.php修改。 最…

最新emlog程序仿小刀模板源码

介绍: 此模板是模仿小刀的模板,修改首页左广告图下内容,比之前更实用。 修复无法搜索以及标签问题。 删除文章页千篇一律的免责声明。 添加右侧投稿和top悬浮标,可以和之前的top共存。 友链中的部分链接可以在module.php修改。 最…

EMLOG插件采集小刀模板

介绍: 插件目前支持采集,只需输入网站文章地址,然后绑定你自己网站的分类ID就行了。 网盘下载地址: http://kekewangLuo.net/uP8ixoLc0k4 图片:

象棋里的小刀剜心

象棋里的小刀剜心,也叫"小鬼拍门",指得是,用兵吃到对方的士,然后用其他子力击杀将(帅)的方法。这种杀法需要提前计算好攻击的方向、子力的运输步骤等。下面介绍其典型案例。 1、"顿挫"小刀剜心 1.1 残局图 …

欧洲地图

1、欧洲地图 2、欧洲地形图

chatgpt赋能python:Python调色板:一篇全面介绍

Python调色板:一篇全面介绍 如果您正在寻找一个有效的编程语言,那么Python很可能就是您需要的。Python是一种高级编程语言,它已经成为最流行的编程语言之一,尤其是在数据分析、科学计算、云计算和机器学习方面。而今天我们要介绍…

ChatGPT「代码解释器」来了!图片秒变视频

转自:智元 【新智元导读】坐等3个多月,ChatGPT「代码解释器」终于全面开放了,一大波魔法来袭。 家人们,终于来了! 刚刚,ChatGPT「代码解释器」测试版正式向所有Plus用户开放。 OpenAI的科学家Karpathy对此还…

chatgpt赋能python:Python调色板

Python调色板 在python中,绘制有吸引力的图表可以让数据更好地展示。一个好的颜色方案可以让这些图表更加优美和易于理解。python中有许多工具,可以帮助我们为图表选择适当的颜色,其中调色板(palette)是其中之一。 什…

大模型时代的prompt学习(持续更新)

目录 为什么要学prompt基本原则prompt撰写框架Base Prompt FrameworkCRISPE Prompt Framework 场景撰写文案文档竞品分析产品设计数据分析 chain of thoughtzero shotin context learning(few shot)Self-Consistency Program-Aidedprompt tipsTo Do and Not To Doadd examples引…