2019-01-05

tools

Apache Kafka - 分布式流处理平台

项目简介

Apache Kafka是由LinkedIn开发并开源的分布式流处理平台，现在是Apache软件基金会的顶级项目。Kafka最初设计为高吞吐量的发布-订阅消息系统，现已发展成为一个完整的流处理平台，能够处理万亿级别的消息。

Kafka的核心思想是将数据流看作一个分布式的、持久化的、可复制的提交日志。这种设计使得Kafka不仅能够作为消息中间件使用，还能作为数据流平台，支持实时数据管道和流应用程序的构建。

主要特性

高吞吐量：单机支持百万级TPS的消息处理
可扩展性：水平扩展，支持动态添加节点
持久性：消息持久化存储，支持数据回放
容错性：多副本机制，保证数据不丢失
实时性：毫秒级延迟的消息传递
多语言支持：提供Java、Python、Go等多种客户端

项目原理

核心概念

Topic（主题）：

消息的分类，类似于数据库中的表
每个Topic可以有多个分区
生产者发布消息到Topic，消费者从Topic读取消息

Partition（分区）：

Topic的物理分割
保证分区内消息的有序性
支持并行处理和负载均衡

Producer（生产者）：

向Kafka发送消息的客户端
可以选择分区策略
支持批量发送和异步发送

Consumer（消费者）：

从Kafka读取消息的客户端
组成消费者组进行负载均衡
支持手动和自动提交偏移量

集群架构

Kafka集群架构
├── Zookeeper集群
│   ├── Leader选举
│   ├── 配置管理
│   └── 服务发现
├── Kafka Broker集群
│   ├── Broker-1 (Leader)
│   ├── Broker-2 (Follower)
│   └── Broker-3 (Follower)
├── Producer集群
│   ├── Producer-1
│   └── Producer-2
└── Consumer Group
    ├── Consumer-1
    ├── Consumer-2
    └── Consumer-3

消息存储机制

Kafka使用分段日志存储：

Topic分区存储结构
partition-0/
├── 00000000000000000000.log    # 消息段文件
├── 00000000000000000000.index  # 索引文件
├── 00000000000000000000.timeindex # 时间索引
├── 00000000000000001000.log
├── 00000000000000001000.index
└── leader-epoch-checkpoint     # Leader纪元文件

副本机制

Leader副本：处理所有读写请求
Follower副本：从Leader同步数据，提供容错
ISR（In-Sync Replicas）：与Leader保持同步的副本集合
ACK机制：控制消息确认级别（0、1、all）

使用场景

1. 实时数据管道

构建可靠的数据管道，在系统间传输数据。

2. 流式处理

与Apache Storm、Spark Streaming等配合，进行实时数据处理。

3. 日志聚合

收集分布式系统的日志数据，进行集中处理和分析。

4. 事件溯源

存储应用程序的所有状态变更事件，支持事件回放。

5. 微服务通信

作为微服务架构中的异步消息通信中间件。

具体案例

案例1：生产者发送消息

import org.apache.kafka.clients.producer.*;
import org.apache.kafka.common.serialization.StringSerializer;

public class KafkaProducerExample {
    public static void main(String[] args) {
        // 配置生产者属性
        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        
        // 性能优化配置
        props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);          // 批量大小
        props.put(ProducerConfig.LINGER_MS_CONFIG, 10);              // 等待时间
        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432);    // 缓冲区大小
        props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "snappy"); // 压缩算法
        props.put(ProducerConfig.ACKS_CONFIG, "all");                // 确认级别
        props.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE); // 重试次数
        
        Producer<String, String> producer = new KafkaProducer<>(props);
        
        try {
            for (int i = 0; i < 1000; i++) {
                String key = "key-" + i;
                String value = "message-" + i + "-" + System.currentTimeMillis();
                
                ProducerRecord<String, String> record = 
                    new ProducerRecord<>("user-events", key, value);
                
                // 异步发送消息
                producer.send(record, new Callback() {
                    @Override
                    public void onCompletion(RecordMetadata metadata, Exception exception) {
                        if (exception == null) {
                            System.out.printf("消息发送成功: topic=%s, partition=%d, offset=%d%n",
                                metadata.topic(), metadata.partition(), metadata.offset());
                        } else {
                            System.err.println("消息发送失败: " + exception.getMessage());
                        }
                    }
                });
                
                // 控制发送速率
                if (i % 100 == 0) {
                    Thread.sleep(1000);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            producer.close();
        }
    }
}

案例2：消费者订阅消息

import org.apache.kafka.clients.consumer.*;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;

public class KafkaConsumerExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "user-events-group");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        
        // 消费者配置优化
        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);  // 手动提交偏移量
        props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 500);      // 每次拉取记录数
        props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 1024);      // 最小拉取字节数
        props.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 500);     // 最大等待时间
        
        Consumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Arrays.asList("user-events"));
        
        try {
            while (true) {
                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));
                
                Map<TopicPartition, OffsetAndMetadata> offsets = new HashMap<>();
                
                for (ConsumerRecord<String, String> record : records) {
                    // 处理消息
                    processMessage(record);
                    
                    // 记录偏移量
                    TopicPartition partition = new TopicPartition(record.topic(), record.partition());
                    OffsetAndMetadata offset = new OffsetAndMetadata(record.offset() + 1);
                    offsets.put(partition, offset);
                    
                    System.out.printf("接收消息: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
                        record.topic(), record.partition(), record.offset(), record.key(), record.value());
                }
                
                // 手动提交偏移量
                if (!offsets.isEmpty()) {
                    consumer.commitSync(offsets);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            consumer.close();
        }
    }
    
    private static void processMessage(ConsumerRecord<String, String> record) {
        // 业务逻辑处理
        try {
            // 模拟处理时间
            Thread.sleep(10);
            
            // 这里可以添加实际的业务处理逻辑
            // 如：数据库操作、API调用、数据转换等
            
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        }
    }
}

案例3：Kafka Streams流处理

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.*;
import org.apache.kafka.streams.kstream.*;

public class KafkaStreamsExample {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-wordcount");
        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
        
        StreamsBuilder builder = new StreamsBuilder();
        
        // 读取输入流
        KStream<String, String> textLines = builder.stream("text-input");
        
        // 单词计数流处理
        KTable<String, Long> wordCounts = textLines
            .flatMapValues(textLine -> Arrays.asList(textLine.toLowerCase().split("\\W+")))
            .filter((key, word) -> word.length() > 0)
            .groupBy((key, word) -> word)
            .count(Materialized.as("counts-store"));
        
        // 输出结果
        wordCounts.toStream().to("wordcount-output", Produced.with(Serdes.String(), Serdes.Long()));
        
        // 用户行为分析流
        KStream<String, String> userEvents = builder.stream("user-events");
        
        // 计算每个用户的事件计数（5分钟窗口）
        KTable<Windowed<String>, Long> userEventCounts = userEvents
            .selectKey((key, value) -> {
                // 假设value格式为 "userId:eventType:timestamp"
                return value.split(":")[0];
            })
            .groupByKey()
            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
            .count();
        
        // 检测异常活动（每5分钟超过100个事件）
        userEventCounts
            .filter((windowedUserId, count) -> count > 100)
            .toStream()
            .map((windowedUserId, count) -> {
                String userId = windowedUserId.key();
                String alert = String.format("警告: 用户 %s 在5分钟内产生了 %d 个事件", userId, count);
                return new KeyValue<>(userId, alert);
            })
            .to("user-alerts");
        
        Topology topology = builder.build();
        System.out.println(topology.describe());
        
        KafkaStreams streams = new KafkaStreams(topology, props);
        streams.start();
        
        // 优雅关闭
        Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
    }
}

案例4：Kafka Connect配置

{
  "name": "mysql-source-connector",
  "config": {
    "connector.class": "io.confluent.connect.jdbc.JdbcSourceConnector",
    "connection.url": "jdbc:mysql://localhost:3306/testdb",
    "connection.user": "kafka",
    "connection.password": "kafka123",
    "table.whitelist": "users,orders,products",
    "mode": "incrementing",
    "incrementing.column.name": "id",
    "timestamp.column.name": "updated_at",
    "topic.prefix": "mysql-",
    "poll.interval.ms": 1000,
    "batch.max.rows": 500,
    "key.converter": "org.apache.kafka.connect.json.JsonConverter",
    "value.converter": "org.apache.kafka.connect.json.JsonConverter",
    "key.converter.schemas.enable": true,
    "value.converter.schemas.enable": true
  }
}

{
  "name": "elasticsearch-sink-connector",
  "config": {
    "connector.class": "io.confluent.connect.elasticsearch.ElasticsearchSinkConnector",
    "connection.url": "http://localhost:9200",
    "type.name": "_doc",
    "topics": "mysql-users,mysql-orders",
    "key.ignore": "true",
    "schema.ignore": "true",
    "batch.size": 1000,
    "max.in.flight.requests": 5,
    "flush.timeout.ms": 10000,
    "retry.backoff.ms": 100,
    "max.retries": 3
  }
}

案例5：集群监控脚本

#!/bin/bash
# Kafka集群监控脚本

KAFKA_HOME=/opt/kafka
BOOTSTRAP_SERVERS=localhost:9092

echo "=== Kafka集群状态监控 ==="

# 检查Broker状态
echo "1. Broker列表:"
$KAFKA_HOME/bin/kafka-broker-api-versions.sh --bootstrap-server $BOOTSTRAP_SERVERS | head -5

# 检查Topic列表
echo -e "\n2. Topic列表:"
$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server $BOOTSTRAP_SERVERS --list

# 检查Consumer Group状态
echo -e "\n3. Consumer Group状态:"
$KAFKA_HOME/bin/kafka-consumer-groups.sh --bootstrap-server $BOOTSTRAP_SERVERS --list

# 检查特定Topic的详细信息
echo -e "\n4. Topic详细信息:"
$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server $BOOTSTRAP_SERVERS --describe --topic user-events

# 检查Consumer Group延迟
echo -e "\n5. Consumer Group延迟:"
$KAFKA_HOME/bin/kafka-consumer-groups.sh --bootstrap-server $BOOTSTRAP_SERVERS --describe --group user-events-group

# 检查磁盘使用情况
echo -e "\n6. 日志目录磁盘使用:"
du -sh /var/kafka-logs/*

# 检查JVM内存使用
echo -e "\n7. JVM内存使用:"
jps | grep Kafka | while read pid name; do
    echo "Process: $name (PID: $pid)"
    jstat -gc $pid | tail -1
done

性能优化建议

1. 生产者优化

// 批量处理优化
props.put(ProducerConfig.BATCH_SIZE_CONFIG, 32768);        // 32KB批量大小
props.put(ProducerConfig.LINGER_MS_CONFIG, 20);            // 延迟20ms等待批量
props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");   // 高效压缩算法

// 内存和网络优化
props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 67108864);   // 64MB缓冲区
props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);

2. 消费者优化

// 拉取优化
props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 50000);    // 50KB最小拉取
props.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 300);    // 300ms最大等待
props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 1000);    // 每次拉取1000条记录

3. Broker配置优化

# server.properties
# 网络配置
num.network.threads=8
num.io.threads=16
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600

# 日志配置
num.partitions=12
default.replication.factor=3
min.insync.replicas=2

# 性能配置
log.segment.bytes=1073741824
log.retention.hours=168
log.retention.bytes=1073741824
log.cleanup.policy=delete

# 压缩配置
compression.type=producer

4. 硬件配置建议

CPU：16-32核心，支持高并发处理
内存：32-64GB，用于页面缓存和JVM堆
存储：SSD或高速SATA，多块磁盘并行I/O
网络：万兆以太网，减少网络延迟

Apache Kafka作为现代数据架构的核心组件，其高吞吐量、低延迟和强一致性特性使其成为构建实时数据管道和流处理应用的首选平台。通过合理的配置和优化，Kafka可以支撑企业级的大规模实时数据处理需求。

编外计划 - 日志

To be or not to be,--that is question.