刘泽浩的博客

Flink性能调优

1、 Flink作业并行度的设置 Flink作业的并行度决定了每个算子（Operator）处理数据的并行执行程度。并行度越高，Flink能够分配更多的计算资源来处理任务，从而提高吞吐量。Flink提供了多种方式来设置作业的并行度： 1.1 全局并行度作业级别的并行度可以在作业启动时进行配置，控制整个Flink作业的并行度。设置方式： env.setParallelism(4); // 设置全局并行度为4 这种方式会影响到所有算子的并行度，通常适用于简单的作业。 1.2 算子级别并行度 Flink支持设置算子级别的并行度，使得不同的算子可以有不同的并行度。可以通过调用setParallelism()方法单独设置算子的并行度。设置方式： DataStream<String> stream = env.addSource(new MySource()); stream.map(new MyMapFunction()).setParallelism(4); // 设置map算子的并行度为4 这种方式可以灵活地调节不同算子的资源分配，确保作业在负载高的场景下更加灵活。 1.3 环境变量并行度通过Flink配置文件flink-conf.yaml中的parallelism.default参数设置默认并行度。这个参数控制作业在没有显式设置并行度的情况下使用的默认并行度。设置方式： parallelism.default: 4 1.4 TaskManager并行度限制 Flink作业的并行度还受到集群中TaskManager的可用资源（CPU、内存等）的限制。TaskManager的并行度通常会根据节点的资源（例如每个TaskManager有多少个CPU核心）来确定。 2、在实际场景中调优并行度调优Flink作业的并行度，需要综合考虑作业的资源消耗、吞吐量、延迟等因素。以下是一些常见的调优策略： 2.1 基于任务的特点调整并行度对于计算密集型任务（例如复杂的Map、Reduce、Join操作），增加并行度可以分摊计算负载，提高吞吐量。此时，可以尝试提高相关算子的并行度。对于I/O密集型任务（如从外部系统读取数据或写入数据），增加并行度时可能不会带来线性的性能提升，反而可能导致过多的并行读取/写入，给外部系统带来压力，因此要谨慎调整I/O操作相关算子的并行度。 2.2 资源分配与任务调度 Flink支持为每个算子配置特定的资源要求（如CPU、内存），合理配置算子的资源可以确保作业在不同的并行度下获得适当的资源支持。在资源不足的情况下，Flink会自动对作业进行资源调度。可以通过调整TaskManager的内存和CPU配置，来确保作业能够获得足够的资源。 2.3 利用Flink的动态扩缩容特性在实际场景中，负载可能会随着时间变化，Flink支持动态调整并行度，通过flink run命令传递 -p 参数或者在运行时修改作业的并行度，动态调整作业的处理能力。 flink run -p 8 my-job....

Flink ML

1、Flink ML概述 Flink ML是Flink提供的一组机器学习功能和算法库，旨在简化大规模流式数据中的机器学习任务。Flink ML提供了用于数据预处理、特征工程、模型训练和评估等功能，允许用户将机器学习模型直接集成到流处理作业中。通过集成机器学习，Flink可以在实时数据流的环境中执行预测、分类、回归等任务。 2、Flink ML的核心组件 Flink ML通过Flink ML库（Flink Machine Learning Library）为机器学习提供以下几个关键功能：数据预处理（Preprocessing）：Flink ML提供了对流数据的转换、特征选择和特征构建等操作，帮助用户准备数据进行机器学习任务。算法实现：Flink ML实现了多个常见的机器学习算法，包括回归、分类、聚类、推荐等算法。支持对大规模数据进行并行训练。模型评估和调优：Flink ML支持对机器学习模型进行评估，基于性能指标进行模型选择和超参数调优。模型部署和推理：Flink ML允许将训练好的机器学习模型用于实时流处理，提供实时推理功能。 3、Flink ML的集成方式 Flink ML通过以下几种方式与Flink作业集成：集成ML算法到流作业中：Flink ML支持将机器学习算法集成到流式作业中。在流处理的每个阶段，可以对数据进行实时分析并预测。例如，可以在数据流中添加分类器或回归模型来进行预测，或者使用聚类算法对数据进行分组。与 FLink 的 Table API 和 SQL 集成：Flink ML可以通过Table API或Flink SQL进行数据转换、训练模型并生成预测。这使得机器学习与流处理的业务逻辑紧密结合，便于实时预测和分析。使用 Flink ML 进行分类任务假设我们有一个实时数据流（例如来自Kafka的流数据），我们希望基于流数据进行实时分类。使用Flink ML，你可以像以下方式进行集成：准备数据流：从Kafka获取流数据并将其转换为一个表（或者数据流）。数据预处理：对流数据进行特征提取、标准化、缺失值填充等预处理操作。Flink ML提供了丰富的转换算子和特征工程工具来处理这些任务。训练模型：使用Flink ML提供的分类算法（如逻辑回归、决策树等），在批处理模式下训练模型。然后将训练好的模型与实时数据流进行结合，用于实时预测。模型评估和实时推理：在训练过程中，模型会在训练集上进行评估，调整参数。训练好的模型可以实时推理并为新的数据点提供预测。 StreamExecutionEnvironment env = StreamExecutionEnvironment....

Flink SQL API

1、Flink SQL API 概述 Flink SQL API是Flink提供的一种高层次的接口，允许用户通过SQL语法对流数据（Stream）进行查询、聚合、连接、窗口化等操作。它使得流处理更加易于理解和使用，特别是对于熟悉传统关系型数据库SQL的用户。Flink SQL支持流处理和批处理，并且能够与 Fink 的核心引擎进行无缝集成。 2、 Flink SQL API的基本概念 2.1 Table 和 Table API Flink SQL API通过Table和Table API实现对数据的处理： Table：Flink SQL处理的数据抽象，既可以表示流（流数据表），也可以表示批（批数据表）。 Table API：用于构建流处理和批处理的API，Flink SQL是对Table API的一个扩展，支持SQL查询。 2.2 Flink SQL CLI 和 SQL Clients Flink SQL CLI：是Flink提供的命令行工具，用户可以在其中执行 SQL 查询并查看结果。 Flink SQL Client：可以与Flink集群交互，支持对流数据和批数据执行 SQL 查询。 3、使用 SQL 语法对流数据进行查询 Flink SQL支持类似于传统数据库的SQL查询，包括选择、过滤、分组、排序等操作。以下是一些常见的SQL查询操作： 3.1 查询流数据例如，查询一个流表（Stream Table）中的数据： SELECT user_id, transaction_amount FROM transactions WHERE event_time >= TIMESTAMP '2023-01-01 00:00:00'; 3....

Flink的API

Flink 提供了丰富的 API，以支持不同的数据处理任务，比如批处理和流处理任务。Flink 的 API 主要可以分为以下几类： 1. DataStream API（流处理） DataStream API 是 Flink 用于流处理的核心 API，支持实时数据的处理。它的主要功能包括：创建 DataStream：通过 env.addSource() 从外部数据源创建流，或者使用 env.fromElements() 创建一个静态的流。 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<String> stream = env.fromElements("a", "b", "c", "d"); 转换操作：对流数据进行转换（map, filter, flatMap, etc.）。 DataStream<String> result = stream.map(value -> value.toUpperCase()); 窗口（Windowing）： Flink 提供了多种窗口类型（如滑动窗口、滚动窗口等）来对流数据进行分组处理。 DataStream<String> windowedStream = stream .keyBy(value -> value) .window(TumblingEventTimeWindows.of(Time.seconds(5))) .sum(0); 状态管理（Stateful Processing）： Flink 提供了丰富的状态管理功能，可以在流处理中维护和查询状态。 stream .keyBy(value -> value) .process(new KeyedProcessFunction<String, String, String>() { @Override public void processElement(String value, Context ctx, Collector<String> out) { // 操作状态 } }); 时间和水印（Time & Watermarks）：通过水印（Watermark）来处理乱序数据，支持事件时间和处理时间的窗口。...

Flink与Kafka集成

Apache Flink 与 Apache Kafka 的集成非常常见，因为 Kafka 常用于 Flink 的数据源和接收器，提供了高吞吐量、可扩展的实时流处理功能。下面是 Flink 与 Kafka 集成的基本步骤： 1. 引入依赖在使用Flink与Kafka集成时，你需要在项目中引入Kafka的连接器依赖。以Maven为例，添加以下依赖： <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka</artifactId> <version>${flink.version}</version> </dependency> 确保将 flink.version替换为你正在使用的Flink版本。 2. 创建 Kafka 消费者（DataSource） Flink提供了Kafka连接器来从Kafka中读取数据。使用 FlinkKafkaConsumer 类来创建一个Kafka消费者。下面是一个简单的示例： import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.flink.streaming.api.functions.source.SourceFunction; import java.util.Properties; public class FlinkKafkaExample { public static void main(String[] args) throws Exception { // Flink 流处理环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置 Kafka 配置 Properties properties = new Properties(); properties....

Flink与常见的连接器连接

1、Flink与常见连接器的连接方式 Flink通过Flink连接器（Connectors）与各种外部系统进行集成。这些连接器是Flink中的一个重要组成部分，允许Flink从外部系统读取数据或将数据写入外部系统。在Flink中，连接器通常通过Source（读取数据）和Sink（输出数据）来完成任务。 1.1 Kafka连接器 Kafka是一个分布式流处理平台，广泛用于实时数据流的传输。Flink可以通过Kafka连接器高效地读取Kafka中的消息，并将处理后的数据写回Kafka或其他系统。 Flink提供了FlinkKafkaConsumer（用于读取数据）和FlinkKafkaProducer（用于写入数据）类。通过配置Kafka的消费者组、主题、偏移量等参数，Flink与Kafka集成，能够支持高吞吐量和低延迟的数据流处理。例如，读取Kafka数据流： FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>( "my-topic", new SimpleStringSchema(), properties); DataStream<String> stream = env.addSource(consumer); Flink与Kafka的高效集成依赖于Kafka的高吞吐量和Flink的低延迟处理能力，结合Flink的水位线（水位管理机制）和时间处理，可以精准地控制流处理的精确度和状态一致性。 1.2 HDFS连接器 HDFS（Hadoop分布式文件系统）是一个常用的分布式存储系统，Flink可以将处理后的数据存储到HDFS中进行持久化。 Flink提供了HdfsSink和HdfsSource类，支持将数据从HDFS中读取或写入到HDFS中。例如，Flink通过StreamingFileSink将流式数据写入HDFS： StreamingFileSink<String> sink = StreamingFileSink .forRowFormat(new Path("/path/to/output"), new SimpleStringEncoder<String>()) .build(); stream.addSink(sink); Flink与HDFS集成能够处理大量数据，并利用HDFS的分布式存储特性进行高效存储。通过批处理模式和流处理模式结合，可以实现大规模数据的持久化。 1.3 Cassandra连接器 Cassandra是一个分布式的NoSQL数据库，用于存储结构化数据。Flink与Cassandra的连接器可以将实时处理的结果存储到Cassandra中，或者从Cassandra中读取数据进行进一步的流处理。 Flink提供了CassandraSource和CassandraSink类，用于在流处理中读取和写入Cassandra数据库。例如，Flink通过CassandraSink将数据写入Cassandra： CassandraSink.addSink(dataStream) .setHost("localhost") .setQuery("INSERT INTO table_name (key, value) VALUES (?, ?)") .build(); Flink与Cassandra的集成可以实现实时流数据的存储和查询，并且通过Cassandra的高并发读写特性，Flink能够高效处理大规模数据。Flink还支持自定义分区器，以优化写入性能。 1.4 Elasticsearch连接器 Elasticsearch是一个基于Lucene的搜索引擎，适用于实时数据索引和搜索。Flink的Elasticsearch连接器可以用于将实时处理的结果实时地存储到Elasticsearch中，或者从Elasticsearch中获取数据进行流处理。...

Savepoint与Checkpoint

Savepoint与Checkpoint的区别 1、Checkpoint：自动触发：Checkpoint是Flink中用于容错的机制，通常由系统定期自动触发。它会保存作业的状态，在作业发生故障时，Flink可以通过恢复Checkpoint的状态来重新启动作业。存储位置：Checkpoint的状态存储通常会写入到外部持久化存储中（例如HDFS、S3、NFS等），这也是Flink容错的一部分。恢复：Flink在作业失败时会自动从最近的Checkpoint恢复，并继续执行，保证作业的精确一次语义。保留策略：Flink会根据配置的检查点保留策略自动清理旧的检查点，保持系统的存储空间不被占满。 2、Savepoint：手动触发：与Checkpoint不同，Savepoint是由用户手动触发的，通常用于作业升级或故障恢复等特殊场景。Savepoint提供了更高的灵活性和控制性。作业的持久保存：Savepoint是作业状态的持久化快照，可以作为一种“备份”，保存作业状态，以便以后进行恢复，尤其在进行作业重启、升级或迁移时使用。存储位置：Savepoint的存储位置可以与Checkpoint相同，但通常会使用用户指定的位置，确保恢复时的准确性。如何利用Savepoint进行作业的手动恢复 1、触发Savepoint：可以通过Flink的命令行工具或者Flink的REST API来手动触发Savepoint。例如，使用flink savepoint命令，可以指定保存位置。示例命令： flink savepoint :job_id --target-directory /path/to/savepoint/directory 2、停止当前作业：在恢复作业之前，通常需要停止当前的Flink作业。这可以通过Flink Web UI或命令行工具来完成： flink cancel :job_id 3、从Savepoint恢复作业：在Flink中恢复作业时，可以指定使用之前保存的Savepoint作为恢复点。通过指定Savepoint路径，可以从该状态恢复作业的执行。使用命令行进行恢复时，通常使用flink run命令，指定Savepoint路径： flink run -s /path/to/savepoint/directory :job.jar 4、作业恢复后的行为：作业从指定的Savepoint路径恢复后，Flink会加载保存的状态并从那里继续执行。这样，作业能够恢复到Savepoint保存时的精确状态，保证没有丢失任何数据。 Savepoint是用户主动触发的作业状态快照，主要用于作业的手动恢复或升级场景，而Checkpoint是Flink系统自动进行的容错机制，保证作业的容错性和高可用性。通过Savepoint，用户可以精准地控制作业状态的保存与恢复。

Flink检查点机制和两阶段提交协议的源码和运行机制

1. 检查点（Checkpoint）机制 1.1 检查点的作用检查点机制是Flink保证故障恢复和状态一致性的重要部分。通过定期生成检查点，Flink将作业的状态和偏移量保存到外部持久化存储中。在发生故障时，可以从最近一次成功的检查点恢复流处理任务，确保程序状态与输入数据的一致性。 1.2 检查点的运行原理 Flink使用**分布式快照算法（Chandy-Lamport 算法）**来实现检查点，整个过程如下：触发检查点 JobManager 定期（或手动触发）向 Source 任务发送 CheckpointBarrier（检查点屏障）。每个 Source Task 接收到检查点信号后，开始生成检查点快照，并向下游算子传播检查点屏障。屏障传播 CheckpointBarrier会随着数据流传播，确保所有任务（算子）的状态在同一个屏障之前被保存。当屏障到达算子时，算子会先保存当前状态，然后继续处理后续的数据。保存状态每个任务（Task）将其状态保存到 State Backend中（如内存、RocksDB、文件系统）。任务会将检查点状态的元信息报告给 JobManager。完成检查点当所有任务都完成了检查点保存，JobManager 会标记检查点成功。失败的检查点会被丢弃，不影响程序运行。 1.3 核心源码分析关键类：CheckpointCoordinator CheckpointCoordinator 是Flink检查点机制的核心类，负责协调检查点的生成、屏障传播和状态存储。核心方法： public CompletableFuture<CompletedCheckpoint> triggerCheckpoint( CheckpointProperties props, String externalSavepointLocation, boolean isPeriodic, boolean advanceToEndOfTime); 作用：负责触发新的检查点。逻辑 JobManager向Source Task下发 CheckpointBarrier。收集每个算子的状态元数据。将状态元数据存储到持久化存储（如 HDFS）。屏障传播：BarrierBuffer BarrierBuffer 是屏障传播的核心类，负责管理检查点屏障。核心逻辑：...

Flink的Exactly-once

在Apache Flink中，exactly-once是Flink为保证数据一致性和可靠性而提供的一种状态一致性语义。理解Flink的exactly-once，需要从Flink的分布式流处理架构、状态管理以及检查点机制几个关键部分入手。 1. 什么是Flink的Exactly-once? 在流处理系统中，数据一致性语义有三种： At-most-once：数据最多处理一次，可能会丢失数据。 At-least-once：数据至少处理一次，可能会重复处理。 Exactly-once：数据严格保证只处理一次，既不丢失数据，也不重复处理。在Flink中，exactly-once保证了应用程序的状态与输入数据严格一一对应，即使在故障发生时，Flink也能恢复到一致的状态，从而确保数据的准确性和一致性。 2. Flink如何实现Exactly-once？ Flink通过以下机制实现了exactly-once： 2.1 状态管理 Flink 的核心是状态化流处理。任务（operator）在运行时会维护状态，用于存储中间计算结果，比如：窗口操作（window）的中间聚合结果。分组（keyed state）的中间计算结果。这些状态被存储在Flink的State Backend中，如内存（默认）、文件系统、RocksDB等。 2.2 检查点（Checkpoint）检查点是Flink实现exactly-once的核心。通过检查点机制，Flink会周期性地将程序状态和处理的偏移量（offset）存储到持久化存储中（如 HDFS）。当任务发生故障时，Flink会回滚到最近一次成功的检查点，重新开始处理。检查点的流程：生成快照：Flink定期触发检查点操作。数据流中的每个算子将其状态保存到State Backend中。对齐检查点 Flink使用了分布式快照算法（Chandy-Lamport算法）来实现检查点对齐。数据流中的Barrier（屏障）用来标记检查点的边界。存储检查点：检查点完成后，所有状态和偏移量都会被保存到外部存储系统中。 2.3 两阶段提交（Two-phase Commit） Flink的Sink算子（如Kafka Sink或数据库Sink）采用两阶段提交协议，确保输出端也能实现exactly-once。两阶段提交的流程：第一阶段（预提交） Sink算子将数据写入目标系统的事务中，但事务未提交（即预提交阶段）。第二阶段（提交）当检查点完成后，Flink向Sink算子发送确认信号，Sink再将事务正式提交。如果检查点失败，Flink会回滚状态和数据，从而避免输出端出现错误数据。 3.Flink的Exactly-once和分布式系统的关系 Flink的exactly-once并不是指输入数据严格只流经一次，而是指最终结果与输入数据处理一次的效果一致。这是通过状态和偏移量一致性来实现的。在分布式流处理中的意义：数据流可能会出现故障和重试，导致某些数据重复被处理（Flink通过状态和检查点来避免重复影响最终结果）。依赖外部系统（如Kafka、数据库）时，Flink使用事务机制来保证最终结果的一致性。 4.Flink中Exactly-once的应用场景实时数据处理：需要对每条数据进行精确计算，如金融交易处理、电商订单分析等。分布式状态管理：如复杂流式聚合和窗口计算，状态的精确性至关重要。与外部系统集成使用Kafka作为Source或Sink时，通过事务机制实现exactly-once。与数据库集成时，通过两阶段提交保证一致性。 5.Flink的Exactly-once和Kafka的Exactly-once Flink和Kafka都支持exactly-once，但它们的侧重点有所不同： Flink的Exactly-once：主要解决流处理框架内部的状态一致性。不仅保证中间状态的一致性，还保证最终结果的一致性（包括Sink）。 Kafka的Exactly-once：保证消息传递的exactly-once，即生产者和消费者之间的数据一致性。在Flink和Kafka联合使用时，Flink的Source和Sink可以通过Kafka的事务机制进一步加强外部系统的一致性。...

Flink处理流数据以及使用窗口来分组和聚合流中的数据

Flink 提供了强大的流处理功能，特别是通过窗口（Window）操作来分组和聚合流中的数据。窗口操作在实时流数据处理中至关重要，可以帮助我们根据时间或数据量进行数据的分组和聚合。Flink提供了几种常用的窗口类型，如滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）和会话窗口（Session Window），它们分别适用于不同的应用场景。 1. 流数据处理的基础在Flink中，流数据是通过DataStream API处理的，它支持高效的分布式流处理，Flink提供了对有状态的操作（例如窗口操作、聚合操作）的支持，可以在数据流中进行各种转换、计算和聚合。流数据在Flink中的处理通常基于以下几个步骤：（1）数据源：定义输入源，可以是 Kafka、Socket、文件等。（2）数据转换：使用算子（例如 map、flatMap、filter 等）对流数据进行处理。（3）窗口操作：通过定义窗口来分组流数据，并在窗口内对数据进行聚合或计算。（4）输出：将处理结果输出到外部存储或下游系统（例如数据库、Kafka、文件系统等）。 2. Flink 中的窗口类型 2.1. 滚动窗口（Tumbling Window）滚动窗口是最常见的窗口类型，数据按照固定的时间间隔被分割成不重叠的窗口。在每个时间段内，所有数据会被归入到该时间段对应的窗口中，窗口之间没有重叠。特点：时间段是固定大小的，不重叠。每个时间段的数据被处理一次，处理完后窗口关闭。常用于定时的聚合计算。适用场景：按固定时间间隔进行统计或聚合，如每 5 分钟统计一次销售数据。示例代码： DataStream<Tuple2<String, Long>> input = ...; // 定义滚动窗口，窗口大小为 10 秒 DataStream<Tuple2<String, Long>> result = input .keyBy(0) // 按第一个字段（如用户ID）进行分组 .timeWindow(Time.seconds(10)) // 10秒滚动窗口 .sum(1); // 对窗口内的数据进行聚合，求和 2.2. 滑动窗口（Sliding Window）滑动窗口与滚动窗口类似，但它的窗口会根据指定的滑动步长进行滑动，因此不同窗口之间会有重叠的数据。每个窗口的数据集合会包含来自前一个窗口的数据。...