Java stream使用与执行原理

stream简介

Stream: A sequence of elements supporting sequential and parallel aggregate operations

stream为sequential即单线程串行操作,parallelStream支持并行操作,本文只讨论sequential的stream。

stream常用操作

    @Datastatic class Course {private Long number;private LocalDateTime beginTime;private List<Long> studentIds;}public void streamOperations(List<Course> courses) {// 映射并去重List<Long> courseNumbers = courses.stream().filter(Objects::nonNull).map(Course::getNumber).distinct().collect(Collectors.toList());// 先按开始时间排序后按number排序List<Course> sortedCourses = courses.stream().sorted(Comparator.comparing(Course::getBeginTime).thenComparing(Course::getNumber)).collect(Collectors.toList());// 根据number组成map, 如果有相同的number会抛异常Map<Long, Course> num2Lesson1 = courses.stream().collect(Collectors.toMap(Course::getNumber, Function.identity()));// 根据number组成map, 如果有相同的number会执行降级逻辑Map<Long, Course> num2Lesson2 = courses.stream().collect(Collectors.toMap(Course::getNumber, Function.identity(), (v1, v2) -> v1));// 根据number聚合Map<Long, List<Course>> num2Lessons = courses.stream().filter(Objects::nonNull).collect(Collectors.groupingBy(Course::getNumber));// 根据number聚合某个字段Map<Long, List<LocalDateTime>> number2BeginTimes = courses.stream().filter(Objects::nonNull).collect(Collectors.groupingBy(Course::getNumber,Collectors.mapping(Course::getBeginTime, Collectors.toList())));// 根据number找到number下最大beginTime的CourseMap<Long, Optional<Course>> number2MaxBeginTimeCourse = courses.stream().filter(r -> Objects.nonNull(r.getBeginTime())).collect(Collectors.groupingBy(Course::getNumber, Collectors.maxBy(Comparator.comparing(Course::getBeginTime))));// 获取course下所有的studentIdList<Long> allStudentIds = courses.stream().map(Course::getStudentIds).flatMap(Collection::stream).distinct().collect(Collectors.toList());}

stream原理

基本原理

        list.stream().filter(Objects::nonNull).map(World::toString).distinct().collect(Collectors.toList());

以上面的处理为例,分别经过了过滤->映射->去重->聚合三个操作,在stream内部会通过一个链表将这三个操作联系起来,一个操作被称为一个stage(或pipeline),每个stage会指向上下游的stagesourceStage(即哨兵头节点),如下图所示:

在这里插入图片描述

对应的在AbstractPipeline类中有三个字段分别引用链表上下游节点和链表的哨兵头节点:

abstract class AbstractPipeline<E_IN, E_OUT, S extends BaseStream<E_OUT, S>>extends PipelineHelper<E_OUT> implements BaseStream<E_OUT, S> {// Backlink to the head of the pipeline chain (self if this is the source stage).private final AbstractPipeline sourceStage;// The "upstream" pipeline, or null if this is the source stage.private final AbstractPipeline previousStage;  // The next stage in the pipeline, or null if this is the last stage. Effectively final at the point of linking to the next pipeline.      private AbstractPipeline nextStage;  ...    
}

stage可分为3类(可以在各个Reference类中找到下面3个内部类):

  • Header: 哨兵头节点,用户无需感知
  • StatelessOp: 无状态stage,如过滤
  • StatefulOp: 有状态stage,如聚合

对应的在ReferencePipeline中有3个内部类:

abstract class ReferencePipeline<P_IN, P_OUT>extends AbstractPipeline<P_IN, P_OUT, Stream<P_OUT>>implements Stream<P_OUT>  {static class Head<E_IN, E_OUT> extends ReferencePipeline<E_IN, E_OUT> {...}abstract static class StatelessOp<E_IN, E_OUT> extends ReferencePipeline<E_IN, E_OUT> {...}abstract static class StatefulOp<E_IN, E_OUT> extends ReferencePipeline<E_IN, E_OUT> {...}  ...     
}

以上提到的三种名词:pipeline,stage,op 都是指代链表里的一个操作节点,即 pipeline == stage == op,类似一个生物学人具有多个社会学身份。

再来看看代码实现,其uml类图如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
Java对BaseStream接口的实现是 AbstractPipelineBaseStream可分为基于引用类型和基于基础类型,其中基于引用类型实现为ReferencePipleline,基于数值基础类型分别有实现LongPiplelineIntPiplelineDoublePipleline

pipeline中封装了stream sourceintermediate operations,一个pipeline代表一次操作,比如过滤、去重等,当 pipeline 被引用时则称为stage,多个stage可以通过Fluent Api组装起来实现流式处理,组装的过程即是构建一个链表的过程。

当我们调用一个集合的stream()方法时,会调用StreamSupport#stream方法构造一个header pipeline:

public interface Collection<E> extends Iterable<E> {...default Stream<E> stream() {// 传入Collection自定义个Spliterator,返回一个 header pipelinereturn StreamSupport.stream(spliterator(), false);}...// Collection自定义的Spliteratordefault Spliterator<E> spliterator() {return Spliterators.spliterator(this, 0);}...
}public final class StreamSupport {...// 生成 header pipelinepublic static <T> Stream<T> stream(Spliterator<T> spliterator, boolean parallel) {Objects.requireNonNull(spliterator);return new ReferencePipeline.Head<>(spliterator,StreamOpFlag.fromCharacteristics(spliterator),parallel);}...
}
java.util.Spliterator

两个问题:

  1. Spliterator是干嘛的?
  2. stream为什么需要Spliterator?

An object for traversing and partitioning elements of a source.

可以看到Spliterator支持对数据进行遍历和分割,对应的在接口中有tryAdvance + forEachRemaining用于遍历,有trySplit支持分割。

trySplit方法返回的是Spliterator,所以Spliterator是一种类似细胞分裂的方式执行,对一个ArrayList进行分割:

        List<Integer> list = new ArrayList<>();for (int i = 1; i <= 5; i++) {list.add(i);}Spliterator<Integer> sourceSpliterator = list.spliterator();Assertions.assertEquals(5, sourceSpliterator.estimateSize());// 执行一次,输出1,剩下2345四个元素可分割和遍历sourceSpliterator.tryAdvance(i -> Assertions.assertEquals(1, i));Assertions.assertEquals(4, sourceSpliterator.estimateSize());Spliterator<Integer> subSpliterator1 = sourceSpliterator.trySplit();// 2 3Assertions.assertEquals(2, sourceSpliterator.estimateSize());// 4 5Assertions.assertEquals(2, subSpliterator1.estimateSize());List<Integer> list2 = new ArrayList<>();list2.add(1);// 只有一个元素时进行split,此时spliterator1==nullSpliterator<Integer> spliterator1 = list2.spliterator().trySplit();Assertions.assertNull(spliterator1);

Spliterator只对未遍历过的元素(未被tryAdvance执行到且未执行forEachRemaining)执行trySplit,如果没有trySplit返回null, 同样stream流只运行执行一次。

同时Spliterator有以下特性,可以包含多个:

  • ORDERED: 遍历和分割保证顺序
  • DISTINCT: 非重复
  • SORTED: 遍历和分割时以一种顺序执行,通过getComparator方法提供自定义比较器
  • SIZED: estimateSize放回返回固定值
  • SUBSIZED: trySplit之后所有的Spliterator同时支持SIZED和SUBSIZED特性
  • IMMUTABLE: 遍历和分割的对象不能有结构变更
  • CONCURRENT: 支持多线程安全遍历和分割

所有特性以bitset的方式记录在一个int类型值中,通过characteristics方法获取。

那么为什么stream要用Spliterator呢?

Spliterator是并行流(Parallel Stream)背后的关键机制。当调用集合的parallelStream()方法时,该方法内部会创建一个Spliterator来遍历和分割集合中的元素。然后,Java的并行框架(如ForkJoinPool)会利用这些Spliterator来分配任务给多个线程,以实现并行处理。

java.util.stream.Sink

stream的操作都在该接口中实现

An extension of Consumer used to conduct values through the stages of a stream pipeline,
with additional methods to manage size information, control flow, etc.

通常使用内部抽象类ChainedReference构建一个Sink链,ChainedReference 中指向链条的下一个Sink
stream支持多元素操作如sorted和单元素操作如map,如何组合这两种操作呢?stream即是通过Sink接口实现。

Sink包含三个主要接口:

interface Sink<T> extends Consumer<T> {// 调用该接口表示stage开始接收数据,size表示要接受的数据个数,-1表示未知或无限制default void begin(long size) {}// 调用该接口表示stage数据接受完毕,当需要操作所有数据时,可在这里操作,比如sorted就在这里做排序default void end() {}// 调用该接口表示stage开始操作单个数据default void accept(int value)...
}

注意以上接口都是default,如果子接口(如TerminalSink)没实现表示默认不做操作。

以以下stream流为例:


list = [3,2,5]list.stream().filter(Objects::nonNull).map(i -> i + "hello").distinct().sorted().forEach(System.out::println);

当我们调用list.stream.filter.map.distinct.sorted.collect时,
会首先正向构建一个stage操作双向链表,即filter <-> map <-> distinct <-> sorted <-> collect
最后在链接TerminalOp类型的stage时(这里是collect)会调用AbstractPipeline#wrapSink方法构建Sink单向链表,Sink单向链表的指向顺序也是filter -> map -> distinct -> sorted -> collect,但其构建顺序是反向的,即collect -> sorted -> distinct -> map -> filter,如下图所示:

在这里插入图片描述

代码如下:

abstract class AbstractPipeline<E_IN, E_OUT, S extends BaseStream<E_OUT, S>>extends PipelineHelper<E_OUT> implements BaseStream<E_OUT, S> {...// .stream()执行时表示中间操作stage的个数// .parallelStream()执行时表示前面有状态的中间操作个数,因为有状态依赖的必须sequential执行private int depth;@Overridefinal <P_IN> Sink<P_IN> wrapSink(Sink<E_OUT> sink) {Objects.requireNonNull(sink);for ( @SuppressWarnings("rawtypes") AbstractPipeline p=AbstractPipeline.this; p.depth > 0; // 前面的stagep=p.previousStage) {sink = p.opWrapSink(p.previousStage.combinedFlags, sink);}return (Sink<P_IN>) sink;}...    
}

来模拟[3,2,5]作为输入时的stream流程:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/422407.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS应用开发( Beta5.0)HOS-用户认证服务:面部识别

介绍 User Authentication Kit&#xff08;用户认证服务&#xff09;提供了基于用户在设备本地注册的人脸和指纹来认证用户身份的能力。 用户向应用/系统服务请求访问某些个人数据或执行某些敏感操作时&#xff0c;应用/系统服务将调用系统用户身份认证控件对用户身份进行认证…

MySQL之库和表操作

目录 一&#xff1a;对库的操作 1.创建数据库 2.查看数据库列表 3.显示创建数据库的语句 4.删除数据库 5.字符集与校验集 6.确认当前所处的数据库 7.修改数据库 8.备份和恢复 9.查看连接情况 二:对表的操作 1.创建表 2.查看表 3.删除表 4.修改表 接下来的日…

Java 设计模式-状态模式

目录 一. 概述 二. 主要角色 三. 代码示例 四. 优缺点 优点&#xff1a; 缺点&#xff1a; 五. 常见应用场景 一. 概述 状态模式是一种行为设计模式&#xff0c;它允许一个对象在其内部状态改变时改变它的行为。对象看起来好像修改了它的类。状态模式把所有的与一个特定…

信息安全工程师(1)计算机网络分类

一、按分布范围分类 广域网&#xff08;WAN&#xff09;&#xff1a; 定义&#xff1a;广域网的任务是提供长距离通信&#xff0c;运送主机所发送的数据。其覆盖范围通常是直径为几十千米到几千千米的区域&#xff0c;因此也被称为远程网。特点&#xff1a;连接广域网的各个结点…

利用高德+ArcGIS优雅获取任何感兴趣的矢量边界

荷花十里&#xff0c;清风鉴水&#xff0c;明月天衣。 四时之景不同&#xff0c;乐亦无穷尽也。今天呢&#xff0c;梧桐君给大家讲解一下&#xff0c;如何利用高德地图&#xff0c;随机所欲的获取shp边界数据。 文章主要分成以下几个步骤&#xff1a; 首先搜索你想获取的矢量…

【文献阅读】Unsupervised Machine Learning for Bot Detection on Twitter

Abstract 引入新特征&#xff0c;并降低所提模型的复杂性&#xff0c;从而提高基于聚类算法的机器人识别准确性。 最小化数据集维度和选择重要特征来实现的。 实验证明该方法的特征可以与四种不同的聚类技术&#xff08;agglomerating、k-medoids、DBSCAN 和 K-means&#x…

企业数字化转型、建设和升级面临的主要难题和解决之道(2)

用爱编程30年&#xff0c;倾心打造工业和智能智造软件研发平台SCIOT,用创新的方案、大幅的让利和极致的营销&#xff0c;致力于为10000家的中小企业实现数字化转型&#xff0c;打造数字化企业和智能工厂&#xff0c;点击上边蓝色字体&#xff0c;关注“AI智造AI编程”或文末扫码…

rocm Linpack 编译构建系统解析

0. 购买amd显卡&#xff0c;安装rocm 1, 编译 rocHPL 下载源码&#xff1a; $ git clone --recursive https://github.com/ROCm/rocHPL.git 编译&#xff1a; $ cd rocHPL/ $ ./install.sh --prefix${PWD}/../local/ 会自动 git clone blit,ucx,opempi, $ ./mpirun_rochpl …

相互作用先验下的 3D 分子生成扩散模型 - IPDiff 评测

IPDiff 是一个基于蛋白质-配体相互作用先验引导的扩散模型&#xff0c;首次把配体-靶标蛋白相互作用引入到扩散模型的扩散和采样过程中&#xff0c;用于蛋白质&#xff08;口袋&#xff09;特异性的三维分子生成。 本文将对 IPDiff 实际的分子生成能力进行评测。 一、背景介绍 …

web基础之SSRF

1、内网访问 题目提示&#xff1a;访问位于127.0.0.1的flag.php&#xff1b;直接利用ssrf漏洞访问?url127.0.0.1/flag.php 2、伪协议读取文件 &#xff08;1&#xff09;题目提示&#xff1a;尝试去读取一下Web目录下的flag.php吧 &#xff08;2&#xff09;什么是伪协议&a…

AttackGen - AI 网络安全事件响应测试工具,附下载链接

为了提高我们团队在安全活动中的响应效率&#xff0c;我关注到了一款叫 AttackGen 的工具&#xff0c;我们需要的是一个既能快速生成场景又能准确反映现实威胁的工具。 在红蓝对抗中&#xff0c;我们经常要模拟各种攻击场景&#xff0c;以测试我们的防御水平。这不仅仅是为了“…

快排Java

快速排序的复杂度 快排代码 package leetcode;import java.util.Arrays;public class QuickSort {public static void quickSort(int[] array, int low, int high) {if (low < high) {int pivotIndex partition(array, low, high);quickSort(array, low, pivotIndex - 1);…

浙大数据结构:03-树2 List Leaves

这道题我借用了一点上一题的代码思路&#xff0c;这题考察的主要是层序遍历&#xff0c;即用队列来实现&#xff0c;当然此处我依然采用数组模拟队列来实现。 机翻 1、条件准备 map的键存下标&#xff0c;后面值分别存左右子树的下标&#xff0c;没有子树就存-1. head数组只…

Buzzer:一款针对eBPF的安全检测与模糊测试工具

关于Buzzer Buzzer是一款功能强大的模糊测试工具链&#xff0c;该工具基于Go语言开发&#xff0c;可以帮助广大研究人员简单高效地开发针对eBPF的模糊测试策略。 功能介绍 下面给出的是当前版本的Buzzer整体架构&#xff1a; 元素解析&#xff1a; 1、ControlUnit&#xff1a…

Java 后端接口入参 - 联合前端VUE 使用AES完成入参出参加密解密

加密效果&#xff1a; 解密后的数据就是正常数据&#xff1a; 后端&#xff1a;使用的是spring-cloud框架&#xff0c;在gateway模块进行操作 <dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>30…

51单片机-AT24C02(IIC总线介绍及其时序编写步骤)-第一节(下一节实战)

IIC开始通信&#xff08;6大步&#xff09; 我以前的文章也有对基本常用的通信协议讲解&#xff0c;如SPI UART IIC RS232 RS485 CAN的讲解&#xff0c;可前往主页查询&#xff0c;&#xff08;2024.9.12,晚上20&#xff1a;53&#xff0c;将AT24C02存储芯片&#xff0c;掉电不…

charles配置安卓抓包(避坑版)

1. 下载Charleshttps://www.charlesproxy.com/ 2. 安装&#xff0c;疯狂点击下一步即可 3. 注册&#xff1a;打开Charles&#xff0c;选择“Help”菜单中的“Register Charles”&#xff0c;进网站生成密钥&#xff1a;https://www.zzzmode.com/mytools/charles/,将生成的密钥…

【Linux修行路】信号的产生

目录 ⛳️推荐 一、信号的产生 二、产生信号的系统调用 2.1 kill——给指定的进程发送指定的信号 2.2 模拟实现指令 kill 2.3 raise——给调用的进程发送指定的信号 2.4 abort——给调用者发送 6 号信号 三、验证哪些信号不可以被捕捉 四、为什么除0和解引用空指针会给…

【C++】——vector

文章目录 vector介绍vector的使用vector的构造vector迭代器vector空间增减vector增删查改 vector介绍 vector是一个动态数组&#xff0c;可以根据需求变大变小vector支持随机访问vector会自动管理内存分配和释放vector在尾部添加和删除的效率非常高&#xff0c;中间和头部插入较…