MJDK 如何实现压缩速率的 5 倍提升?

MJDK 是基于 OpenJDK 构建的美团 JDK 发行版。本文主要介绍 MJDK 是如何在保障 java.util.zip.* API 及压缩格式兼容性的前提下,实现压缩/解压缩速率提升 5-10 倍的效果。希望相关的经验能够帮助到更多的技术同学。

1 前言

数据压缩技术[1]因可有效降低数据存储及传输成本,在计算机领域有非常广泛的应用(包括网络传输、文件传输、数据库、操作系统等场景)。主流压缩技术按其原理可划分为无损压缩[2]、有损压缩[3]两类,工作中我们最常用的压缩工具 zip 和 gzip ,压缩函数库 zlib,都是无损压缩技术的应用。Java 应用中对压缩库的使用包括:处理 HTTP 请求时对 body 的压缩/解压缩操作、使用消息队列服务时对大消息体(如>1M)的压缩/解压缩、数据库写入前及读取后对大字段的压缩/解压缩操作等。常见于监控、广告等涉及大数据传输/存储的业务场景。

美团基础研发平台曾经开发过一种基于 Intel 的 isa-l 库优化的 gzip 压缩工具及 zlib[4] 压缩库(又称:mzlib[5] 库),优化后的压缩速度可提升 10 倍,解压缩速度能提升 2 倍,并已在镜像分发、图片处理等场景长期稳定使用。遗憾的是,受限于 JDK[6] 对压缩库调用的底层设计,公司 Java8 服务一直无法使用优化后的 mzlib 库,也无法享受压缩/解压缩速率提升带来的收益。为了充分发挥 mzlib 的性能优势为业务赋能,在 MJDK 的最新版本中,我们改造并集成了 mzlib 库,完成了JDK中 java.util.zip.* 原生类库的优化,可实现在保障 API 及压缩格式兼容性的前提下,将内存数据压缩速率提升 5-10 倍的效果。本文主要介绍该特性的技术原理,希望相关的经验给大家带来一些启发或者帮助。

2 数据压缩技术

计算机领域的数据压缩技术的发展大致可分为以下三个阶段:

详细时间节点如下:

  • 20世纪50~80年代,香农创立信息论,为数据压缩技术奠定了理论基础。期间出现多种经典算法,如 Huffman 编码、LZ 系列编码等。
  • 1989年,Phil Katz推出文件归档软件 PKZIP(zip 前身),并公开文件归档格式 zip 及其使用的数据压缩算法 deflate(Huffman 与 LZ77 的组合算法)的所有技术参数。
  • 1990年,Info-ZIP 小组基于公开的 deflate 算法编写了可移植的、免费的、开源实现 zip 和 unzip,极大地扩展了 .zip 格式的使用。
  • 1992年,Info-ZIP 小组基于 zip 的 deflate 算法代码,推出了文件压缩工具 gzip(GUN zip),用于替代 Unix 下的 compress(有专利纠纷)。通常 gzip 会与归档工具 tar 结合使用来生成压缩的归档格式,文件扩展名为 .tar.gz。
  • 1995年,Info-ZIP 小组成员Jean-loup Gailly 和 Mark Adler 基于 gzip 源码中的 deflate 算法实现,推出了压缩库:zlib 。通过库函数调用的方式,为其他场景(如PNG压缩)提供通用的压缩/解压缩能力。同年,在 RFC 中发布了 DEFLATE、ZLIB、GZIP 三种数据压缩格式。其中 DEFLATE 是原始压缩数据流格式,ZLIB、GZIP 则是在前者的基础上包装数据头及校验逻辑等。此后随着 zip、gzip 工具及 zlib 库的广泛应用,DEFLATE 成为互联网时代数据压缩格式的事实标准。
  • 2010年后,各大型互联网公司陆续开源了新的压缩算法及实现,如:LZFSE(Apple)、Brotli(Google)、Zstandard(Facebook)等,在压缩速度和压缩比方面均有不同程度的提升。常见的压缩库如下(需要注意的是:由于压缩算法协议的差异,这些函数库不能交叉使用,数据压缩/解压缩必须使用同一种算法操作):

3 压缩技术在 Java 中的应用及优化思路

前面我们介绍了压缩技术的基础知识,本章节主要介绍 MJDK8_mzlib 版本实现压缩速率 5 倍提升的技术原理。分两部分进行阐述:第一部分,介绍原生 JDK 中压缩/解压缩 API 的底层原理;第二部分,分享 MJDK 的优化思路。

3.1 Java 语言中压缩/解压缩 API 实现原理

Java 语言中,我们可以使用 JDK 原生压缩类库(java.util.zip.*)或第三方 Jar 包提供的压缩类库两种方式来实现数据压缩/解压缩,其底层原理是通过 JNI (Java Native Interface) 机制,调用 JDK 源码或第三方 Jar 包中提供的共享库函数。详细对比如下:

其中在使用方式上,两者区别可参考如下代码。

(1)JDK 原生压缩类库(zlib 压缩库)

zip 文件压缩/解压缩代码 demo(Java)

public class ZipUtil {//压缩public void compress(File file, File zipFile) {byte[] buffer = new byte[1024];try {InputStream     input  = new FileInputStream(file);ZipOutputStream zipOut = new ZipOutputStream(new FileOutputStream(zipFile));zipOut.putNextEntry(new ZipEntry(file.getName()));int length = 0;while ((length = input.read(buffer)) != -1) {zipOut.write(buffer, 0, length);}input.close();zipOut.close();} catch (Exception e) {e.printStackTrace();}}//解压缩public void uncompress(File file, File outFile) {byte[] buffer = new byte[1024];try {ZipInputStream input  = new ZipInputStream(new FileInputStream(file));OutputStream   output = new FileOutputStream(outFile);if (!outFile.getParentFile().exists()) {outFile.getParentFile().mkdir();}if (!outFile.exists()) {outFile.createNewFile();}int length = 0;while ((length = input.read(buffer)) != -1) {output.write(buffer, 0, length);}input.close();output.close();} catch (Exception e) {e.printStackTrace();}}
}

gzip 文件压缩/解压缩代码 demo(Java)

public class GZipUtil {public void compress(File file, File outFile) {byte[] buffer = new byte[1024];try {InputStream      input  = new FileInputStream(file);GZIPOutputStream gzip   = new GZIPOutputStream(new FileOutputStream(outFile));int              length = 0;while ((length = input.read(buffer)) != -1) {gzip.write(buffer, 0, length);}input.close();gzip.finish();gzip.close();} catch (Exception e) {e.printStackTrace();}}public void uncompress(File file, File outFile) {try {FileOutputStream out    = new FileOutputStream(outFile);GZIPInputStream  ungzip = new GZIPInputStream(new FileInputStream(file));byte[]           buffer = new byte[1024];int              n;while ((n = ungzip.read(buffer)) > 0) {out.write(buffer, 0, n);}ungzip.close();out.close();} catch (Exception e) {e.printStackTrace();}}
}

(2)第三方压缩类库(此处以Google推出的snappy压缩库举例,其他第三方类库原理基本类似)分成两步。

第一步:pom文件中添加依赖Jar包(C语言)

<dependency><groupId>org.xerial.snappy</groupId><artifactId>snappy-java</artifactId><version>1.1.8.4</version></dependency>

第二步:第二步,调用接口进行压缩/解压缩操作(C语言)

public class SnappyDemo {public static void main(String[] args) {String input = "Hello snappy-java! Snappy-java is a JNI-based wrapper of "+ "Snappy, a fast compresser/decompresser.";byte[] compressed = new byte[0];try {compressed = Snappy.compress(input.getBytes("UTF-8"));byte[] uncompressed = Snappy.uncompress(compressed);String result = new String(uncompressed, "UTF-8");System.out.println(result);} catch (IOException e) {e.printStackTrace();}}

综上所述,JDK 中默认使用的压缩库是 zlib,虽然业务可以通过第三方 Jar 包的方式使用其他的压缩库算法,但是因为 Snappy 等算法的压缩数据格式与 zlib 支持的 DEFLATE、ZLIB、GZIP 不同,混合使用会有兼容性问题。

除此之外, zlib 库(1995年推出)本身的迭代速度非常缓慢(原因:应用范围广且稳定、无商业组织维护),这里使用测试集 Silesia corpus 测试了 OpenJDK 7u76(2014 年发行)、8u45(2015 年发行)、8u312(2022 年发行)中内置压缩类库的性能,从图表中可看出,三者在压缩耗时、压缩比两方面均未有明显的优化效果,难以满足业务日益增长的压缩性能需求场景。因此,我们选择在 MJDK 中集成 zlib 优化,实现既兼容原生接口实现,又能提升压缩性能的效果。

Silesia corpus是压缩方法性能基准测试集,提供一套涵盖现时使用的典型资料类别的档案资料。文件的大小在6 MB 到51 MB 之间,文件格式包括 text、exe、html、picture、database、bin data 等。测试数据类别如下:

3.2 MJDK 优化方案

通过 3.1 章节,我们知道 Java 原生的 java.util.zip.* 类库中的数据压缩/解压缩能力最终是调用 zlib 库实现的,因此 JDK 的压缩性能提升问题就可转换为对 JDK 使用的 zlib 库的优化。

3.2.1 优化思路

除原生 zlib 外,同样使用 deflate 算法的压缩库有Intel ISA-L、Intel IPP、Zopfli,直接基于 zlib 源码优化的项目有 zlib-cloudflare,它们与 zlib 间的对比如下:

综上,我们选择基于 Intel 开源的 ISA-L(原理是使用 intel sse/avx/avx2/avx256 的扩展指令,并行运算多个流来提升底层函数的执行性能) 来完成 zlib 的改造优化。

1. zlib 改造流程(重点在 API 的兼容性改造)

优化后的 mzlib 库在线上稳定运行 3 年以上,压缩速率提升在 5 倍以上,有效解决了上文提到基础研发平台曾在镜像构建、图片处理等场景面临过压缩/解压缩耗时较高的问题。

2. JDK 层面变更

3.2.2 优化效果

测试说明

  • 测试集:Silesia corpus
  • 测试内容:GZip 压缩/解压缩文件、Zip 压缩/解压缩文件

测试结论

  • 兼容性测试(通过):改造后的 Java 类库的 Zip、Gzip 压缩/解压缩接口可正常使用,与原生 JDK 中的接口交叉进行压缩/解压缩操作验证通过。
  • 性能测试(通过):在同一基准 update 版本下,MJDK8_mzlib 数据压缩耗时比 OpenJDK8 降低 5-10 倍,压缩比无较大波动(增加 3% 左右)。

目前,美团内部的文档协同服务已使用该 MJDK 版本,进行用户协同编辑记录数据(> 6M)的压缩存储,验证了该功能在线上的稳定运行,压缩性能提升在 5 倍以上。

作者:美团技术团队

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/126335.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

strerror函数

目录 strerror 函数介绍&#xff1a; 举例&#xff1a; 使用案例&#xff1a; 优化&#xff1a; perror&#xff1a; strerror 函数介绍&#xff1a; 函数声明&#xff1a; char * strerror ( int errnum );头 文 件&#xff1a;#include <string.h>返 回 值&a…

01_前端css编写的三种方式

前言 CSS的引入方式共有三种&#xff1a;行内样式、内部样式表、外部样式表 一、内联式引入 用法&#xff1a; 在元素上直接通过style属性进行设置css样式设置 示例&#xff1a; <h1 style"color:red;">style属性的应用</h1> <p style"font-si…

hive指定字段插入数据,包含了分区表和非分区表

1、建表 语句如下&#xff1a; CREATE EXTERNAL TABLE ods_lineitem_full (l_shipdate date,l_orderkey bigint,l_linenumber int,l_partkey int,l_suppkey int,l_quantity decimal(15, 2),l_extendedprice decimal(15, 2),l_discount de…

数据结构-第一期——数组(Python)

目录 00、前言&#xff1a; 01、一维数组 一维数组的定义和初始化 一维变长数组 一维正向遍历 一维反向遍历 一维数组的区间操作 竞赛小技巧&#xff1a;不用从a[0]开始&#xff0c;从a[1]开始 蓝桥杯真题练习1 读入一维数组 例题一 例题二​ 例题三 实战训…

每日刷题|回溯法解决全排列问题第二弹之解决字符串、字母大小排列问题

食用指南&#xff1a;本文为作者刷题中认为有必要记录的题目 前置知识&#xff1a;回溯法经典问题之全排列 ♈️今日夜电波&#xff1a;带我去找夜生活—告五人 0:49 ━━━━━━️&#x1f49f;──────── 4:59 …

安科瑞铁塔基站能耗监控解决方案

安科瑞 华楠 1 背景概述 5G发展&#xff0c;基站先行。5G基站的选址建设&#xff0c;是保证5G信号覆盖的基础&#xff0c;因此5G基站建设是5G产业布局的一部分&#xff0c;也是5G成熟的基础。 2G、3G、4G均是低频段信号传输&#xff0c;宏基站几乎能应付所有的信号覆盖。但由…

SpringMVC入门详细介绍

一. SpringMVC简介 Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架&#xff0c;通过把Model&#xff0c;View&#xff0c;Controller分离&#xff0c;将web层进行职责解耦&#xff0c;把复杂的web应用分成逻辑清晰的几部分&#xff0c;简化开发&a…

ctfshow 反序列化

PHP反序列化前置知识 序列化和反序列化 对象是不能在字节流中传输的&#xff0c;序列化就是把对象转化为字符串以便存储和传输&#xff0c;反序列化就是将字符串转化为对象 魔术方法 __construct() //构造&#xff0c;当对象new时调用 __wakeup() //执行unserialize()时&am…

南方科技大学博士研究生奖助学金,深圳大学

目录 南方科技大学 中南大学 南京大学 厦门大学 苏州大学 中南财经政法大学 深圳大学 南方科技大学 https://ocean.sustech.edu.cn/ocean/public/upload/download/3/2.pdf 南方科技大学的在读研究生&#xff0c;每人每年都会得到40000元的补助&#xff0c;这40000块钱分…

【C++】继承基础知识一遍过

目录 一&#xff0c;概念 二&#xff0c;继承定义 1. 继承格式 2. 访问限定符与继承方式的关系 3. 继承父类成员访问方式的变化 小结&#xff1a; 三. 父类与子类对象赋值转化 四&#xff0c;继承作用域 1.特点 2. 测试题 五&#xff0c;派生类不一样的默认成员函…

用深度强化学习来玩Chrome小恐龙快跑

目录 实机演示 代码实现 实机演示 用深度强化学习来玩Chrome小恐龙快跑 代码实现 import os import cv2 from pygame import RLEACCEL from pygame.image import load from pygame.sprite import Sprite, Group, collide_mask from pygame import Rect, init, time, display,…

centos7手动配置jdk1.8环境与maven环境

安装jdk1.8 链接&#xff1a;https://pan.baidu.com/s/1_P7jHzH4Lk2jcPWWD7pi4w 提取码&#xff1a;6kkm winscp软件上传压缩包到Linux中 解压 # 解压到/usr/local/java目录下 tar -zxvf jdk-8u381-linux-x64.tar.gz -C /usr/local/java配置环境变量 vi /etc/profile # 最后…

听觉刺激期间的神经血管耦合:ERPs和fNIRS血流动力学

导读 强度依赖性振幅变化(IDAP)已在事件相关电位(ERPs)中进行了广泛的研究&#xff0c;并与多种精神疾病相关联。本研究旨在探讨功能近红外光谱(fNIRS)在IDAP范式中的应用&#xff0c;该范式与ERPs相关&#xff0c;可以指示神经血管耦合的存在。两个实验分别有33和31名参与者。…

【C#】C#调用进程打开一个exe程序

文章目录 一、过程二、效果总结 一、过程 新建WinForm程序&#xff0c;并写入代码&#xff0c;明确要调用的程序的绝对路径&#xff08;或相对路径&#xff09;下的exe文件。 调用代码&#xff1a; 这里我调用的另一个程序的路径是&#xff1a; F:\WindowsFormsApplication2…

MPP 与 SMP 的区别,终于有人讲明白了【文末送书】

文章目录 导读01 SMP1. SMP 的典型特征2. SMP的优缺点 02 分布式MPP计算架构1. MPP 架构核心原理2. MPP 典型特征3. MPP优缺点 写作末尾 导读 当今数据计算领域主要的应用程序和模型可大致分为在线事务处理&#xff08;On-line Transaction Processing &#xff0c;OLTP&#…

如何为虚拟机添加磁盘,扩充原有分区的磁盘空间

如何为虚拟机添加磁盘&#xff0c;扩充原有分区的磁盘空间 关机新增磁盘 虚拟机关机的状态下&#xff0c;在 VMware 当中新增一块磁盘&#xff0c;选中左边要添加磁盘的虚拟机镜像&#xff0c;然后鼠标右键点击设置。 选中磁盘点击添加 点击下一步&#xff0c;悬着SCSI这个…

vue3 封装千分位分隔符自定义指令

toLocaleString作用&#xff1a;在没有指定区域的基本使用时&#xff0c;返回使用默认的语言环境和默认选项格式化的字符串。可点击进入MDN查看 // 千分位分隔符指令 import { Directive, DirectiveBinding } from vueconst thousandSeparator: Directive {mounted(el: any, …

好玩的js特效

记录一些好玩的js特效 1、鱼跳跃特效 引入jquery:https://code.jquery.com/jquery-3.7.1.min.js 源码如下&#xff1a; <!--引入jquery--> <script src"https://code.jquery.com/jquery-3.7.1.min.js"></script> <!--引入跳跃源码--> <s…

深入理解 JVM 之——字节码指令与执行引擎

更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 类文件结构 Write Once&#xff0c;Run Anywhere 对于 C 语言从程序到运行需要经过编译的过程&#xff0c;只有经历了编译后&#xff0c;我们所编写的代码才能够翻译为机器可以直接运行的二进制代码&#x…

230. 二叉搜索树中第K小的元素

230. 二叉搜索树中第K小的元素 C代码&#xff1a;二叉树 int kthSmallest(struct TreeNode* root, int k){// struct TreeNode** stack malloc(sizeof(struct TreeNode*) * 10000); // root 是结构体的地址struct TreeNode* stack[10000];int stkTop 0;while (root ! NULL …