【大数据架构（3）】Lambda vs. Kappa Architecture-选择你需要的架构

文章目录

一. Data Processing Architectures
- 1. Lambda Architecture
- - 1.1. 架构说明
  - - a. Data Ingestion Layer
    - b. Batch Layer (Batch processing)
    - c. Speed Layer (Real-Time Data Processing)
    - d. Serving Layer
  - 1.2. Lambda Architecture的优缺点
  - 1.3. 使用案例
- 2. Kappa Architecture
- - 2.1. Kappa Architecture特点
  - - Speed Layer (Stream Layer)
  - 2.2. 优缺点
  - 2.3. 使用场景
  - - a. 大量实时场景
    - b. 实时数仓
二. Comparison of Lambda and Kappa Architectures
- 1. Data Processing Systems
- 2. Data Storage
- 3. Complexity
三. The Importance of Choosing the Right Data Processing Architecture for a Business

比较总览

Lambda architecture uses separate batch and stream processing systems, making it scalable and fault-tolerant but complex to set up and maintain (as it duplicates processing logic).
Kappa architecture simplifies the pipeline with a single stream processing system as it treats all data as streams, providing flexibility and ease of maintenance, but requires experience in stream processing and distributed systems.

Lambda architecture is well-suited when companies have mixed requirements for stream and batch processing, e.g., for real-time analytics and multiple batch processing tasks or data lakes, while Kappa architecture is ideal for continuous data pipelines, real-time data processing, and IoT systems.

一. Data Processing Architectures

数据处理架构被设计为处理数据摄入、处理、以及存储大数据量。这使得组织可以从数据中分析、抽取出有价值的洞察，这帮助他们提高决策，优化操作以及驱动生长。

如下有lamba和kappa架构，都可用于处理不同类型的数据。企业需要考虑他们的数据处理需求，以便找到合适的架构来实现他们的目标和需求。

1. Lambda Architecture

1.1. 架构说明

lambda架构提供了一个用于处理大数据的可拓展、容错和灵活的系统，这是Nathan Marz在2011提出的，主要用于解决处理实时需求。

lamba架构使用两个处理系统来处理实时和离线任务。离线系统处理批数据，并存储在例如数据仓库，或分布式文件系统中。实时系统用于处理实时数据，并存储在分布式数据层。

在这里插入图片描述

lamba架构中，有四层，用于处理和存储大数据，如下：

a. Data Ingestion Layer

这层用于收集和存储数据，比如log日志，传感器、消息队列和API等。数据通常是实时摄取的，并同时被送入批处理层和速度层。

b. Batch Layer (Batch processing)

批处理层用于处理大数据并存储到数据仓库、或分布式文件系统中。此层可以使用hadoop或spark来处理数据。批处理层用于处理大数据，并提供所有数据的完整视图。

c. Speed Layer (Real-Time Data Processing)

速度层用于处理实时数据，并存储到例如消息队列或者NoSQL数据库中。此层可以使用FLink或storm。流数据层用于处理大数据流，并提供最新的数据视图。

d. Serving Layer

服务层是 Lambda 架构的一个组件，负责实时向用户提供查询结果。通常作为批处理层和流处理层之上的一层实现。它通过查询层访问，该层允许用户使用查询语言（例如 SQL 或 Apache Hive 的 HiveQL）查询数据。

服务层旨在提供快速可靠的访问查询结果的能力，无论数据是从批处理还是流处理层访问。它通常使用分布式数据存储，如 NoSQL 数据库或分布式缓存，来存储查询结果并实时向用户提供。

服务层是 Lambda 架构的重要组成部分，因为它允许用户以一致的方式访问数据，而不受底层数据处理架构的影响。它还在支持实时应用程序方面发挥着关键作用，例如需要快速访问最新数据的仪表板和分析应用程序。

1.2. Lambda Architecture的优缺点

优点：

可伸缩性：Lambda 架构被设计用于处理大量数据，并且可以水平扩展，以满足业务的需求。
容错性：Lambda 架构被设计为容错性强，具有多个层和系统共同工作，以确保数据可靠地处理和存储。
灵活性：Lambda 架构灵活，可以处理各种数据处理工作负载，从历史批处理到流式架构。

缺点：

复杂性：
Lambda架构是一个复杂的系统，使用多个层和系统来处理和存储数据。对于不熟悉分布式系统和数据处理框架的企业来说，建立和维护它可能具有挑战性。尽管其层被设计用于不同的流水线，但底层逻辑存在重复部分，这会给程序员带来不必要的编码开销。

错误和数据不一致性：
由于不同工作流程的实现被复制了两次（尽管遵循相同的逻辑，实现方式不同），您可能会遇到批处理和流处理引擎产生不同结果的问题。这很难发现，很难调试。（所以使用同一个架构去处理任务、或合并需求（比如：整表同步+增量同步）到同一个任务中，对于系统和数据维护很重要）

架构锁定：
重新组织或迁移存储在 Lambda 架构中的现有数据可能非常困难。

1.3. 使用案例

Lambda 架构是一种适用于各种数据处理工作负载的数据处理架构。

它特别适用于处理大量数据并提供低延迟的查询结果，因此非常适用于实时分析应用程序，如仪表板和报告。
Lambda 架构还非常适用于批处理任务，例如数据清洗、转换和聚合，以及流处理任务，例如事件处理、机器学习模型、异常检测和欺诈检测。
此外，Lambda 架构通常用于构建数据湖，这是集中存储结构化和非结构化静态数据的存储库，并且非常适合处理物联网设备生成的高容量数据流。

2. Kappa Architecture

2.1. Kappa Architecture特点

Kappa 架构是一种数据处理架构，旨在为实时处理大量数据提供可伸缩、容错和灵活的系统。它作为 Lambda 架构的一种替代方案而开发，Lambda 架构使用两个独立的数据处理系统来处理不同类型的数据处理工作负载。

In contrast to Lambda, Kappa architecture uses a single data processing system to handle both batch processing and stream processing workloads, as it treats everything as streams. This allows it to provide a more streamlined and simplified data processing pipeline while still providing fast and reliable access to query results.

与 Lambda 不同，Kappa 架构使用单一的数据处理系统来处理批处理和流处理工作负载，因为它将所有内容都视为流。这使其能够提供更简化、更流畅的数据处理管道，同时仍然能够快速可靠地访问查询结果。

在这里插入图片描述

Speed Layer (Stream Layer)

在 Kappa 架构中，只有一个主要层：流处理层。该层负责收集、处理和存储实时流数据。

您可以将其视为 Lambda 方法的演进，去除了批处理系统。通常使用流处理引擎实现，如 Apache Flink、Apache Storm、Apache Kinesis、Apache Kafka（或许多其他流处理框架），旨在处理高容量的数据流并快速可靠地提供。

在 Kappa 架构中，流处理层分为两个主要组件：摄取组件和处理组件。

摄取组件：
该组件负责收集传入数据并存储来自各种来源的原始数据，例如日志文件、传感器和 API。数据通常是实时摄取的，并存储在分布式数据存储中，如消息队列或 NoSQL 数据库中。

处理组件：
该组件负责在数据到达时进行处理，并将结果存储在分布式数据存储中。通常使用流处理引擎实现，例如 Apache Flink 或 Apache Storm，并设计用于处理高容量数据流并快速可靠地提供对查询结果的访问。在 Kappa 架构中，没有单独的服务层。相反，流处理层负责实时向用户提供查询结果。

在这里插入图片描述

2.2. 优缺点

优点：

简洁和流畅的流水线：
Kappa 架构使用单一的数据处理系统来处理批处理和流处理工作负载，相较于 Lambda架构，这使得其建立和维护更为简单。通过减少编码开销，这可以使数据处理流水线更容易管理和优化。

支持对历史数据进行高吞吐量的大数据处理：
尽管可能感觉 Kappa 架构并非专为这类问题设计，但它能够优雅地支持这些用例，允许直接从流处理作业进行数据重新处理。

迁移和重组的便利性：
由于只有一个流处理流水线，可以通过从规范数据存储中创建新数据流（比如flink任务进行集群数据迁移ing）来执行迁移和重组。

分层存储：

分层存储是一种根据数据的访问模式和性能需求将数据存储在不同存储层中的方法。分层存储的思想是通过将不同类型的数据存储在最合适的存储层上，优化存储成本和性能。
例如，企业可能选择将历史数据存储在更低成本、容错性强的分布式存储层，如对象存储中，同时将实时数据存储在性能更高的存储层，如分布式缓存或 NoSQL 数据库中。分层存储使 Kappa 架构成为一种具有成本效益和弹性的数据处理技术，无需传统数据湖(ing)。

缺点：

复杂性：
尽管 Kappa 架构比 Lambda更简单，但对于那些不熟悉流处理框架的企业来说，建立和维护仍然可能很复杂（回顾流处理中的常见挑战）。

高昂的基础设施费用和可伸缩性问题（当设置不当时）：
在事件流平台中存储大数据可能成本高昂。为了使其更具成本效益，可以使用云提供商的数据湖方法（如 AWS S3 或 GCP Google Cloud Storage）。另一种常见的大数据架构方法是使用 Apache Kafka 作为流层构建“流式数据湖”，（ing）并使用对象存储来实现长期。

在这里插入图片描述

2.3. 使用场景

a. 大量实时场景

Kappa 架构是一种数据处理架构，旨在为实时处理大量数据提供灵活、容错和可扩展的架构。它非常适用于各种实时数据处理、机器学习模型和实时数据分析、物联网系统等许多使用情况，都可以通过单一技术堆栈实现。

在这里插入图片描述

b. 实时数仓

111

和lambda架构相比，kappa架构没有离线数仓，通过kafka实现了实时数仓。kafka的存储代替了lambda架构中的批处理部分。

此架构优点：

Kafka可以保存更长时间的历史数据，它不仅起到消息队列的作用，也可以存储数据，替代数据库。
Flink流处理引擎解决了事件乱序下计算结果的准确性问题。
Kappa架构相对更简单，实时性更好，所需的计算资源远小于Lambda架构，随着实时处理需求的不断增长，更多的企业开始使用Kappa架构。

此架构缺点：

kappa架构中用的kafka，本身kafka只是一个消息中间件，对于长周期历史的存储还是不行。
没有血缘关系管理
里面的数据都是以topic的形式存储，无法像离线数仓一样，通过schema和表名来确定数据血缘。比如一个数据有问题，你不知道下游收到的影响范围，也不知道受影响的严重性，只能广而告之。对于一些损失无法做到及时的发现及阻断就很被动。
不支持update
这个是kappa架构最严重的问题。举个例子，实时数仓里有个5分钟的窗口，假设有一条数据发生时延，没有按时到达，那么5分钟后就会按照逻辑完成计算。因为没有update，这条数据没有被计算，结果也就从这时候开始出错。

二. Comparison of Lambda and Kappa Architectures

1. Data Processing Systems

Lambda 架构使用两个独立的数据处理系统来处理不同类型的数据处理工作负载：一个批处理系统和一个流处理系统。
在 Lambda 架构中，程序员需要学习和维护两个处理框架，并以加倍的方式支持任何日常代码更改。这种分离（如果没有以相同的方式实现）可能导致流处理与批处理产生不同的结果，从而可能引发进一步的业务问题。
相比之下，Kappa架构则通过单一的流处理引擎（流层）来处理完整的数据处理。
Kappa 架构在实时处理数据时使用相同的代码，消除了为批处理和流处理维护单独代码库的额外工作的需要。这使其成为一种更高效、不易出错的解决方案。