现代大数据架构Kappa

现代大数据架构Kappa

news/2024/11/23 23:57:56/文章来源:https://blog.csdn.net/zhaoyu_1979/article/details/143084177

现代大数据架构中的Kappa架构是一种处理大数据的架构，它作为Lambda架构的替代方案出现，旨在简化数据处理流程。以下是对Kappa架构的详细介绍：

一、核心思想

Kappa架构的核心思想是简化数据处理流程，通过使用单一的流处理层来同时处理实时和批量数据，从而避免了Lambda架构中需要维护两套系统（批处理层和速度层）的复杂性。

二、主要组件与流程

流引入：从各种源连续引入数据并存储在事件日志中，例如Apache Kafka。事件日志充当持久、容错的存储机制，可保留事件的完整历史记录。
流处理：流处理层使用事件日志中的数据，应用实时计算，并生成所需的输出。像Apache Kafka Streams或Apache Flink这样的技术可用于处理和分析。
输出服务：处理后的数据可通过各种输出通道访问，例如实时仪表板、API或数据接收器，以供进一步分析或使用。

三、关键特性

单一处理层：Kappa架构使用单一的流处理层来处理所有数据，无论是实时数据还是批量数据。
数据重放：通过重放历史数据，Kappa架构能够重新计算出与批处理相同的结果，实现实时和批量处理的一致性。
即时查询：支持对最新数据进行即时查询，提供低延迟的数据处理能力。
简化架构：不需要单独的批处理层和速度层，简化了系统架构和维护工作。
数据一致性：通过数据重放机制，确保实时处理和批量处理结果的一致性。
易于扩展：基于流处理，可以水平扩展来处理不断增长的数据量。

四、优缺点

优点：

简化开发和维护：通过移除批处理层，减少了开发和维护的复杂性。
低延迟处理：数据近乎实时地处理，无需批量计算。
数据一致性：不需要同步和合并来自不同层的数据，简化了数据一致性管理。

缺点：

流式重新处理历史的吞吐能力可能低于批处理，但可以通过增加计算资源来弥补。
在处理某些需要分析大型历史数据集的用例时，可能会带来挑战，因为Kappa架构主要关注实时处理。

五、应用场景

Kappa架构适用于主要关注实时处理和低延迟见解的场景。例如，在需要实时分析大量数据以提供即时洞察力的业务场景中，Kappa架构可以发挥重要作用。

综上所述，Kappa架构作为一种现代大数据架构方案，通过简化数据处理流程、提供低延迟处理能力和数据一致性保证，为大数据处理提供了有效的解决方案。然而，在选择是否使用Kappa架构时，需要根据具体的应用场景和需求进行权衡和决策。

六，Lambda架构和Kappa架构区别

Lambda架构和Kappa架构是处理大数据流的两种流行架构模式，它们旨在处理大规模的数据流，并能够提供实时数据处理的能力。这两种架构各有特点，适用于不同的业务场景。

Lambda架构

Lambda架构由Nathan Marz提出，旨在解决大数据系统中的复杂性问题，特别是需要处理大量实时数据的系统。Lambda架构的核心思想是结合使用批处理和流处理两种方法来处理数据。

Lambda架构通常包含三个层次：

批处理层（Batch Layer）：负责处理大量的历史数据。这一层使用批处理方式来计算输入数据的批视图（batch view），并存储处理结果。批处理层处理的数据通常有一定的延迟。
速度层（Speed Layer）：负责处理实时数据流。这一层使用流处理技术来计算输入数据的实时视图（real-time view），以提供低延迟的数据处理能力。
服务层（Serving Layer）：将批处理层和速度层的计算结果合并起来，以提供一个统一的数据视图。用户查询时，服务层会同时访问批视图和实时视图，以提供最终的查询结果。

Lambda架构的优点是能够同时处理历史数据和实时数据，提供准确和低延迟的数据处理能力。缺点是架构相对复杂，需要维护两套数据处理逻辑。

Kappa架构

Kappa架构由Jay Kreps提出，可以看作是Lambda架构的简化版本。Kappa架构的核心思想是仅使用一套流处理系统来处理实时数据和历史数据，从而简化系统架构。

Kappa架构主要包含两个部分：

流处理层：这一层使用流处理技术处理所有数据（包括实时数据和历史数据）。通过重新处理历史数据，流处理层可以生成新的数据视图。
服务层：和Lambda架构一样，服务层负责向用户提供数据查询服务。区别在于，Kappa架构中的服务层只需要访问流处理层生成的数据视图。

Kappa架构的优点是架构简单，维护成本低，因为只需要维护一套数据处理逻辑。缺点是对流处理系统的要求较高，需要流处理系统能够高效地处理大量的历史数据和实时数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/451850.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

就是这个样的粗爆，手搓一个计算器：热量计算器

就是这个样的粗爆，手搓一个计算器：热量计算器

作为程序员，没有合适的工具，就得手搓一个，PC端，移动端均可适用。废话不多说，直接上代码。 HTML: <div class"calculator"> <label for"weight">体重 (kg):</label> <inpu…

阅读更多...

Git之代已修改文件的目录高亮设置

Git之代已修改文件的目录高亮设置

不管Android Studio或者Idea，进入Setting 选择如图所示，并进行勾选就可以高亮了。

阅读更多...

【C++】类的默认成员函数：深入剖析与应用（上）

【C++】类的默认成员函数：深入剖析与应用（上）

😀在上一篇文章中我们初步了解了C的基础概念，现在我们进行对C类的默认成员函数进行更加深入的理解！ 👉【C新手入门指南：从基础概念到实践之路】目录 💯前言 💯构造函数一、构造函数的定义…

阅读更多...

Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)

Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)

1.、环境及软件准备 Ambari-2.7.4和HDP-3.1.4下载，提取码：3rwq 环境：CentOS7(我这里使用的是CentOS7.9版本)、三台虚拟机，单节点内存13GB、存储80GB 软件：mysql5.7+、jdk8、ambari-2.7.4.0-centos7.tar.gz、HDP-3.1.4.0-centos7-rpm.tar.gz、HDP-UTILS-1.1.0.22-centos7…

阅读更多...

Nodejs使用http模块创建Web服务器接收解析RFID读卡器刷卡数据

Nodejs使用http模块创建Web服务器接收解析RFID读卡器刷卡数据

本示例使用设备： https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.1d292c1buHvw58&ftt&id22173428704 Javascript源码 //引用http模块创建web服务器，监听指定的端口获取以GET、POST、JSON等方式上传的数据，并回应驱动读卡…

阅读更多...

阿里云数据库导出 | 数据管理（兼容数据库备份）

阿里云数据库导出 | 数据管理（兼容数据库备份）

文章目录 1、数据库导出2、操作步骤3、DMS - Data Management Service 1、数据库导出 2、操作步骤 3、DMS - Data Management Service

阅读更多...

C#的自定义对话框和提示窗体 - 开源研究系列文章

C#的自定义对话框和提示窗体 - 开源研究系列文章

上次的应用因为需要用到对话框和提示窗体，然后系统自带的MessageBox界面个人又看不上，所以就想自己编写一个自定义的窗体，于是有了本文，具体的已经应用到笔者其它的应用里了。 1、项目目录； 2、源码介绍；…

阅读更多...

Bootstrapping、Bagging 和 Boosting

Bootstrapping、Bagging 和 Boosting

bagging方法如下： bagging和boosting比较

阅读更多...

k8s-对命名空间资源配额

k8s-对命名空间资源配额

对k8s命名空间限制的方法有很多种，今天来演示一下很常用的一种用的k8s对象就是ResourceQuota 一：创建命名空间 kubectl create ns test #namespace命名空间可以简写成ns 二： 对命名空间进行限制创建resourcequota vim resourcequ…

阅读更多...

秋招面试题记录_半结构化面试

秋招面试题记录_半结构化面试

c八股(可能问的多一点) 1.简单说说C11语法特性答： 1.auto以及decltype自动类型推导，避免手动声明复杂类型，减少冗长代码提升了可读性和安全性。 2.智能指针自动释放内存 (具体说说) 有shared和unique 差异主要体现在所有权、内存开销、…

阅读更多...

Java项目-基于Springboot的高校党务系统项目(源码+说明).zip

Java项目-基于Springboot的高校党务系统项目(源码+说明).zip

作者：计算机学长阿伟开发技术：SpringBoot、SSM、Vue、MySQL、ElementUI等，“文末源码”。开发运行环境开发语言：Java数据库：MySQL技术：SpringBoot、Vue、Mybaits Plus、ELementUI工具：IDEA/…

阅读更多...

基于SpringBoot的“社区医院管理服务系统”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“社区医院管理服务系统”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“社区医院管理服务系统”的设计与实现（源码数据库文档PPT) 开发语言：Java 数据库：MySQL 技术：SpringBoot 工具：IDEA/Ecilpse、Navicat、Maven 系统展示系统首页界面图用户注册界面图医生界面…

阅读更多...

OpenWRT 和 Padavan 路由器配置网络打印机实现远程打印

OpenWRT 和 Padavan 路由器配置网络打印机实现远程打印

本文首发于只抄博客，欢迎点击原文链接了解更多内容。前言之前有给大家介绍过 Armbian 安装 CUPS 作为打印服务器，像是 N1 盒子、玩客云，甚至是随身 WiFi 都可以通过 CUPS 来进行打印。但是有些朋友不想专门为打印机添置一个设备&#xff0…

阅读更多...

jeecg3版本的vue，离线启动

jeecg3版本的vue，离线启动

jeecg的vue2版本已经停止维护，所以只能用vue3的版本。3版本中使用的是pnpm（npm的增强版本）下载依赖。使用pnpm安装的node_modules，不能直接复制到离线主机中（因为在 pnpm安装过程中，会给依赖的配置文件写死…

阅读更多...

数据库、数据仓库、数据湖和数据中台有什么区别

数据库、数据仓库、数据湖和数据中台有什么区别

很多企业在面对数据存储和管理时不知道如何选择合适的方式，数据库、数据仓库、数据湖和数据中台，这些方式都是什么？有什么样的区别？企业根据其业务类型该选择哪一种？本文就针对这些问题，来探讨下这些方式都…

阅读更多...

React路由基本使用嵌套路由动态路由获取路由参数异步路由根据配置文件来生成路由

React路由基本使用嵌套路由动态路由获取路由参数异步路由根据配置文件来生成路由

文章目录 React-router的三个版本react-router使用嵌套路由动态路由获取路由参数Params参数Query参数Location信息控制跳转地址异步路由根据配置文件生成路由 React-router的三个版本 React-router 服务端渲染使用React-router-dom 浏览器端渲染使用React-router-native Rea…

阅读更多...

Electron入门笔记

Electron入门笔记

Electron入门笔记 ElectronElectron 是什么Electron流程模型创建第一个Electron项目配置自动重启主进程和渲染进程通信打包应用 Electron Electron 是什么跨平台的桌面应用开发框架使用 JavaScript、HTML 和 CSS 构建桌面应用程序的框架。嵌入 Chromium和 Node.js Electro…

阅读更多...

基于System.js的微前端实现（插件化）

目录写在前面一、微前端相关知识 （一）概念 （二） 优势 （三） 缺点 （四）应用场景 （五）现有框架 1. qiankun 2. single-spa 3. SystemJ…

阅读更多...

机器学习课程学习周报十七

机器学习课程学习周报十七

机器学习课程学习周报十七文章目录机器学习课程学习周报十七摘要Abstract一、机器学习部分1. 变分推断/推理1.1 证据下界1.2 q ( z ) {q(z)} q(z)的选取 2. VAE2.1 Auto-Encoder的简单回顾2.2 为什么提出VAE2.3 VAE的数学原理 3. Diffusion Model的数学原理3.1 Training算法…

阅读更多...

【C语言】递归函数变量的作用域

【C语言】递归函数变量的作用域

变量的作用域全局变量：在整个程序内可以识别，且唯一。局部变量：仅在当前函数内有效，比如main函数、用户自定义函数。递归函数指的是一类函数，函数调用自身，包括递推和回归。使用递归的方式&#xff0c…

阅读更多...

最新文章

推荐文章