利用 eBPF 和 Kotlin Multiplatform 构建无 Sidecar 模式的服务网格可观测性探针

云原生

文章字数: 3k

阅读时长: 13 分

要实现服务网格的可观测性，传统的 Sidecar 模式通过注入代理来拦截所有应用流量，但这带来了显著的资源开销和网络延迟。一个生产环境中更优的方案是利用 eBPF 在内核层面直接捕获网络事件，实现零侵入、高性能的监控。挑战在于，如何为这个基于 C 语言的底层 eBPF 探针构建一个健壮、可维护且跨平台的上层控制应用。

这里的核心问题是用户空间工具的开发效率与底层性能之间的矛盾。通常的选择是 Go 或 Rust，但我们将探索一个非常规但高效的路径：使用 Kotlin Multiplatform (KMP) 结合其 Kotlin/Native 编译器，直接与 eBPF 的 C 库（如 libbpf）进行交互。

我们首先定义内核与用户空间通信的数据契约，这是一个简单的 C 结构体，用于描述一个网络事件：

// event.h
#ifndef EVENT_H
#define EVENT_H

#include <linux/types.h>

#define TASK_COMM_LEN 16

// 定义事件类型
enum event_type {
    EVENT_TYPE_CONNECT,
    EVENT_TYPE_DATA,
    EVENT_TYPE_CLOSE,
};

// 网络事件的数据结构
struct net_event_t {
    __u64 timestamp_ns;      // 事件时间戳 (纳秒)
    __u32 pid;               // 进程ID
    __u32 tid;               // 线程ID
    __u8 comm[TASK_COMM_LEN]; // 进程名

    enum event_type type;    // 事件类型 (连接, 数据, 关闭)
    __u8 ip_version;         // IP 版本 (4 or 6)

    // L4 信息
    __u16 sport;
    __u16 dport;
    __u8 saddr[16];
    __u8 daddr[16];

    // 数据传输信息
    __s64 data_len;          // 数据长度, 对于 connect/close 为 0
};

#endif // EVENT_H

这个 net_event_t 结构体是整个系统的核心。eBPF 程序在内核中填充它，而我们的 Kotlin/Native 应用在用户空间消费它。这种设计将底层数据捕获与上层业务逻辑清晰地解耦。

eBPF 探针：内核的眼睛

eBPF 程序必须小巧、高效且安全。我们将使用 kprobes 挂载到内核网络相关的几个关键函数上，以捕获完整的连接生命周期。具体来说：

tcp_connect: 捕获建连事件，记录源/目的 IP 和端口。
tcp_close: 捕获连接关闭事件。
tcp_sendmsg / tcp_recvmsg: 捕获数据收发事件，记录数据量。

以下是我们的 eBPF C 代码 (probe.bpf.c)。在真实项目中，我们会使用 libbpf-bootstrap 脚手架来简化开发，但这里的代码展示了核心逻辑。

// probe.bpf.c
#include "vmlinux.h"
#include <bpf/bpf_helpers.h>
#include <bpf/bpf_tracing.h>
#include <bpf/bpf_core_read.h>
#include "event.h"

// 定义一个 perf event array map，用于向用户空间发送数据
struct {
    __uint(type, BPF_MAP_TYPE_PERF_EVENT_ARRAY);
    __uint(key_size, sizeof(u32));
    __uint(value_size, sizeof(u32));
} events SEC(".maps");

// 一个临时的 map，用于在 enter/exit kprobe 之间传递 sock 指针
struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 10240);
    __type(key, u64);
    __type(value, struct sock *);
} sock_map SEC(".maps");

// 通用的事件填充与提交函数
static __always_inline void submit_event(void *ctx, struct sock *sk, enum event_type type, s64 data_len) {
    struct net_event_t event = {};
    u64 id = bpf_get_current_pid_tgid();
    
    // 填充通用字段
    event.timestamp_ns = bpf_ktime_get_ns();
    event.pid = id >> 32;
    event.tid = (__u32)id;
    bpf_get_current_comm(&event.comm, sizeof(event.comm));
    event.type = type;
    event.data_len = data_len;

    // 从 sock 结构体中读取网络信息 (需要 CO-RE)
    // __sk_common 是内核内部结构，通过 vmlinux.h 可访问
    struct sock_common skc = BPF_CORE_READ(sk, __sk_common);
    event.ip_version = BPF_CORE_READ(&skc, skc_family) == AF_INET ? 4 : 6;
    event.sport = bpf_ntohs(BPF_CORE_READ(&skc, skc_lport));
    event.dport = bpf_ntohs(BPF_CORE_READ(&skc, skc_dport));

    if (event.ip_version == 4) {
        bpf_core_read(&event.saddr[0], 4, &skc.skc_rcv_saddr);
        bpf_core_read(&event.daddr[0], 4, &skc.skc_daddr);
    } else {
        bpf_core_read(&event.saddr[0], 16, &skc.skc_v6_rcv_saddr.in6_u.u6_addr32);
        bpf_core_read(&event.daddr[0], 16, &skc.skc_v6_daddr.in6_u.u6_addr32);
    }

    // 提交事件到 perf buffer
    bpf_perf_event_output(ctx, &events, BPF_F_CURRENT_CPU, &event, sizeof(event));
}

// kprobe: tcp_connect
SEC("kprobe/tcp_connect")
int BPF_KPROBE(tcp_connect, struct sock *sk) {
    u64 id = bpf_get_current_pid_tgid();
    // 暂存 sock 指针，供 kretprobe 使用
    bpf_map_update_elem(&sock_map, &id, &sk, BPF_ANY);
    return 0;
}

// kretprobe: tcp_connect (在函数返回时触发)
SEC("kretprobe/tcp_connect")
int BPF_KRETPROBE(tcp_connect_ret, int ret) {
    u64 id = bpf_get_current_pid_tgid();
    struct sock **skpp;
    skpp = bpf_map_lookup_elem(&sock_map, &id);
    if (!skpp) {
        return 0;
    }
    bpf_map_delete_elem(&sock_map, &id);

    // ret 为 0 表示连接成功
    if (ret == 0) {
        submit_event(ctx, *skpp, EVENT_TYPE_CONNECT, 0);
    }
    return 0;
}

// kprobe: tcp_close
SEC("kprobe/tcp_close")
int BPF_KPROBE(tcp_close, struct sock *sk) {
    submit_event(ctx, sk, EVENT_TYPE_CLOSE, 0);
    return 0;
}

// kprobe: tcp_sendmsg
SEC("kprobe/tcp_sendmsg")
int BPF_KPROBE(tcp_sendmsg, struct sock *sk, struct msghdr *msg, size_t size) {
    submit_event(ctx, sk, EVENT_TYPE_DATA, (s64)size);
    return 0;
}

char LICENSE[] SEC("license") = "GPL";

这份代码有几个关键点：

CO-RE (Compile Once – Run Everywhere): 我们使用了 vmlinux.h 和 bpf_core_read，这使得编译出的 eBPF 字节码可以适应不同版本的内核，是生产环境部署的必要条件。
Map 使用: events map 是用户空间和内核空间通信的桥梁。sock_map 则用于在 tcp_connect 的入口和出口探针之间传递 struct sock 指针，因为只有在函数返回后我们才能确定连接是否成功。
错误处理: 在真实的 eBPF 程序中，对 bpf_map_lookup_elem 等函数的返回值检查是必须的，这里为了简洁省略了部分。

Kotlin/Native 用户空间代理：连接 C 与 JVM 的世界

现在进入最核心的部分：如何用 Kotlin 编写一个能够加载、附加并与上述 eBPF 程序交互的本地应用。这得益于 Kotlin/Native 的 C Interop 功能。

第一步是定义 C 库的互操作性。我们需要创建一个 .def 文件，告诉 Kotlin/Native 编译器我们需要链接哪些 C 库（主要是 libbpf）以及需要暴露哪些头文件。

// src/nativeInterop/cinterop/libbpf.def
headers = bpf/bpf.h bpf/libbpf.h ../../../event.h
linkerOpts = -L/usr/lib64 -lbpf

event.h 是我们自己定义的共享结构体头文件，必须包含进来。

当 Gradle 构建项目时，它会自动根据这个 .def 文件生成 Kotlin 绑定代码。然后，我们就可以在 Kotlin 中像调用普通 Kotlin 函数一样调用 libbpf 的 C 函数，像访问 Kotlin 数据类一样访问 net_event_t 结构体。

graph TD
    A[eBPF Program in C
probe.bpf.c] -- Clang/LLVM --> B[eBPF Object File
probe.bpf.o]
    C[Shared Header
event.h] -- Kotlin/Native cinterop --> D[Kotlin Bindings for Structs]
    E[libbpf C Library] -- Kotlin/Native cinterop --> F[Kotlin Bindings for Functions]
    G[Kotlin/Native Agent
Agent.kt] -- uses --> D
    G -- uses --> F
    G -- loads --> B
    H[Kernel]
    B -- loaded into --> H
    I[Perf Buffer]
    H -- writes to --> I
    G -- reads from --> I

接下来是 Kotlin/Native 代理的核心实现。

// src/nativeMain/kotlin/Agent.kt
import kotlinx.cinterop.*
import libbpf.*
import event.* // 自动生成的绑定

// 全局变量，用于在信号处理中清理资源
private var running = true
private var bpfObject: CPointer<bpf_object>? = null

// Perf Buffer 轮询的回调函数
fun handleEvent(ctx: COpaquePointer?, cpu: Int, data: COpaquePointer?, size: UInt) {
    if (data == null) return

    // 将裸指针转换为我们的事件结构体指针
    val event = data.reinterpret<net_event_t>().pointed

    // 格式化输出
    val comm = event.comm.toKString()
    val typeStr = when (event.type) {
        event_type.EVENT_TYPE_CONNECT -> "CONNECT"
        event_type.EVENT_TYPE_DATA -> "DATA"
        event_type.EVENT_TYPE_CLOSE -> "CLOSE"
        else -> "UNKNOWN"
    }
    
    // IP地址转换 (这里只展示IPv4的简化逻辑)
    val saddr = event.saddr.get(0).toUByte().toString() + "." +
                event.saddr.get(1).toUByte().toString() + "." +
                event.saddr.get(2).toUByte().toString() + "." +
                event.saddr.get(3).toUByte().toString()

    val daddr = event.daddr.get(0).toUByte().toString() + "." +
                event.daddr.get(1).toUByte().toString() + "." +
                event.daddr.get(2).toUByte().toString() + "." +
                event.daddr.get(3).toUByte().toString()


    println(
        "%-16s %-6d %-10s %-22s -> %-22s %-8s".format(
            comm,
            event.pid,
            typeStr,
            "$saddr:${event.sport}",
            "$daddr:${event.dport}",
            if (event.data_len > 0) "len: ${event.data_len}" else ""
        )
    )
}

fun main(args: Array<String>) {
    val objPath = if (args.isNotEmpty()) args[0] else "probe.bpf.o"

    // 设置 libbpf 的日志回调，这对于调试至关重要
    libbpf_set_print(staticCFunction { level, format, va_list ->
        // 在生产代码中，这里应该对接一个真正的日志框架
        vprintf(format, va_list)
        0
    })

    // 打开并加载 BPF object 文件
    bpfObject = bpf_object__open_file(objPath, null)
    if (bpfObject == null) {
        println("Error: Failed to open BPF object file at $objPath. Errno: ${native.errno.errno}")
        return
    }

    // 加载 BPF 程序到内核
    if (bpf_object__load(bpfObject) != 0) {
        println("Error: Failed to load BPF object. Errno: ${native.errno.errno}")
        bpf_object__close(bpfObject)
        return
    }

    // 附加 BPF 程序到 kprobes
    memScoped {
        var prog = bpf_object__find_program_by_name(bpfObject, "tcp_connect")
        bpf_program__attach(prog)

        prog = bpf_object__find_program_by_name(bpfObject, "tcp_connect_ret")
        bpf_program__attach(prog)

        prog = bpf_object__find_program_by_name(bpfObject, "tcp_close")
        bpf_program__attach(prog)

        prog = bpf_object__find_program_by_name(bpfObject, "tcp_sendmsg")
        bpf_program__attach(prog)
    }

    println("Successfully loaded and attached BPF programs. Waiting for events...")
    println("%-16s %-6s %-10s %-22s -> %-22s %-8s".format("COMM", "PID", "TYPE", "SADDR:SPORT", "DADDR:DPORT", "DATA"))

    // 设置 Perf Buffer
    val eventsMapFd = bpf_object__find_map_fd_by_name(bpfObject, "events")
    val perfBuffer = perf_buffer__new(eventsMapFd, 8, staticCFunction(::handleEvent), null, null, null)
    if (perfBuffer == null) {
        println("Error: Failed to setup perf buffer. Errno: ${native.errno.errno}")
        bpf_object__close(bpfObject)
        return
    }

    // 注册信号处理器，用于优雅退出
    // 在真实应用中，需要使用更完善的信号处理机制
    // signal(SIGINT, staticCFunction { running = false })

    // 主循环，轮询 perf buffer
    while (running) {
        val err = perf_buffer__poll(perfBuffer, 100) // 100ms timeout
        if (err < 0) {
            // -EINTR 表示被信号中断，是正常退出路径
            if (err == -platform.posix.EINTR) {
                break
            }
            println("Error polling perf buffer: $err")
            break
        }
    }
    
    // 清理资源
    println("\nDetaching BPF programs and cleaning up...")
    perf_buffer__free(perfBuffer)
    bpf_object__close(bpfObject)
}

这段 Kotlin 代码的精妙之处在于：

C Interop: kotlinx.cinterop 是魔法的来源。staticCFunction 用于将一个 Kotlin顶层函数或 Lambda 包装成一个 C 函数指针，这在设置回调函数（如 handleEvent）时至关重要。memScoped 用于管理原生内存分配。
类型安全: 尽管是在和 C 库交互，但 Kotlin 的类型系统依然提供了很大程度的保护。生成的绑定 event_type.EVENT_TYPE_CONNECT 比在 C 中使用宏或魔术数字更安全。
资源管理: 必须手动管理 eBPF 对象的生命周期，bpf_object__close 和 perf_buffer__free 的调用是必需的，否则会导致内核资源泄露。一个常见的错误是在异常路径上忘记清理。
数据转换: data.reinterpret<net_event_t>().pointed 是将从内核收到的 void* 类型的裸指针安全地转换为 Kotlin 可以理解的结构体对象的标准做法。event.comm.toKString() 则将 C 语言的 char 数组转换为 Kotlin 字符串。

构建与部署的考量

要将这个系统跑起来，构建流程分为两部分：

编译 eBPF 程序: 使用 clang 将 probe.bpf.c 编译成 eBPF 字节码文件 probe.bpf.o。这一步需要 BTF (BPF Type Format) 信息，通常通过 -g -O2 -target bpf -c 等参数实现。
编译 Kotlin/Native 应用: 使用 Gradle，它会先执行 cinterop 任务生成绑定，然后调用 konan 编译器将 Kotlin 代码编译成一个独立的、无需 JVM 的可执行文件。build.gradle.kts 的配置大致如下：

// build.gradle.kts (simplified)
kotlin {
    linuxX64("native") { // 或者 macosX64, etc.
        binaries {
            executable {
                entryPoint = "main"
            }
        }
        compilations.getByName("main") {
            cinterops {
                val libbpf by creating {
                    defFile(project.file("src/nativeInterop/cinterop/libbpf.def"))
                    compilerOpts("-I/usr/include") // 根据系统环境调整
                }
            }
        }
    }
}

这个方案的价值在于，我们获得了一个高性能、无依赖的本地可执行文件，可以轻松地通过容器或二进制分发到任何目标机器上。同时，业务逻辑和控制平面的未来迭代可以用一种现代、安全的语言进行，而不是陷入 C/C++ 的泥潭。

适用边界与未来展望

这个实现为我们提供了一个 L4 层的网络可观测性探针。它的性能远超 Sidecar 代理，因为它只在关键路径点执行轻量级的 eBPF 程序，并将数据批量发送到用户空间进行异步处理。

然而，当前方案存在局限性：

L7 解析: 它无法解析应用层协议，如 HTTP/gRPC 的请求细节。要实现 L7 解析，eBPF 程序需要变得更复杂，可能需要使用 uprobes 挂载到用户空间的 SSL/TLS 库函数上来解密流量，这大大增加了复杂性和脆弱性。
流量控制: 该探针目前只具备可观测性。要实现服务网格的流量治理（如重试、熔断），eBPF 程序需要修改 socket 的行为，例如通过 bpf_msg_redirect_hash 等辅助函数，这需要更深入的内核知识。
C Interop 的复杂性: 虽然 Kotlin/Native 的 C Interop 很强大，但处理复杂的 C API、指针和内存管理依然需要非常谨慎。一个常见的坑是 C 结构体的内存对齐问题，可能导致 Kotlin 读取到错误的数据。

未来的优化路径可以是在此基础上，将 Kotlin Agent 作为一个更大事物的一部分。例如，它可以将采集到的事件通过 gRPC 上报给一个用 Kotlin (JVM) 编写的中心化控制平面，实现集群范围内的拓扑发现和指标聚合。Kotlin Multiplatform 的代码共享能力在这里会发挥巨大作用，控制平面和 Agent 之间的数据模型（Protobuf 定义）可以共用一份 Kotlin 代码。这彻底打通了从内核观测到上层平台应用的全栈技术路径。

服务网格 eBPF Kotlin Multiplatform

构建连接无服务器与传统基础设施的反应式控制平面：Vercel Functions、NATS与Puppet的异构集成

2023-10-27 架构设计

NATS Serverless Puppet Vercel Functions IaC Control Plane

构建边缘设备高基数时序数据平台的架构权衡与实现

2023-10-27 架构设计

TimescaleDB Istio WebSockets ORM OpenFaaS