ขยายเคอร์เนลด้วย eBPF

Extended Berkeley Packet Filter (eBPF) เป็นเครื่องเสมือนในเคอร์เนลที่เรียกใช้โปรแกรม eBPF ที่ผู้ใช้ระบุเพื่อขยายฟังก์ชันการทำงานของเคอร์เนล โปรแกรมเหล่านี้สามารถเชื่อมต่อกับโปรเบสหรือเหตุการณ์ในเคอร์เนล และใช้เพื่อรวบรวมสถิติ เคอร์เนลที่มีประโยชน์ ตรวจสอบ และแก้ไขข้อบกพร่อง ระบบจะโหลดโปรแกรมลงในเคอร์เนลโดยใช้ bpf(2) syscall และผู้ใช้เป็นผู้ระบุเป็นบล็อกไบนารีของคำสั่งเครื่อง eBPF ระบบบิลด์ของ Android รองรับการคอมไพล์โปรแกรม C เป็น eBPF โดยใช้ไวยากรณ์ไฟล์บิลด์แบบง่ายที่อธิบายไว้ในเอกสารนี้

ดูข้อมูลเพิ่มเติมเกี่ยวกับโครงสร้างและข้อมูลภายในของ eBPF ได้ที่หน้า eBPF ของ Brendan Gregg

Android มีโปรแกรมโหลดและไลบรารี eBPF ที่โหลดโปรแกรม eBPF ในเวลาบูต

ตัวโหลด Android BPF

ระหว่างการเปิดเครื่อง Android ระบบจะโหลดโปรแกรม eBPF ทั้งหมดที่ /system/etc/bpf/ โปรแกรมเหล่านี้คือออบเจ็กต์ไบนารีที่ระบบบิลด์ Android สร้างขึ้นจากโปรแกรม C และมีไฟล์ Android.bp ในซอร์สโค้ด Android ระบบบิลด์จะจัดเก็บออบเจ็กต์ที่สร้างขึ้นไว้ที่ /system/etc/bpf และออบเจ็กต์เหล่านั้นจะกลายเป็นส่วนหนึ่งของอิมเมจระบบ

รูปแบบของโปรแกรม C eBPF ของ Android

โปรแกรม C ของ eBPF ต้องมีรูปแบบดังต่อไปนี้

#include <bpf_helpers.h>

/* Define one or more maps in the maps section, for example
 * define a map of type array int -> uint32_t, with 10 entries
 */
DEFINE_BPF_MAP(name_of_my_map, ARRAY, int, uint32_t, 10);

/* this also defines type-safe accessors:
 *   value * bpf_name_of_my_map_lookup_elem(&key);
 *   int bpf_name_of_my_map_update_elem(&key, &value, flags);
 *   int bpf_name_of_my_map_delete_elem(&key);
 * as such it is heavily suggested to use lowercase *_map names.
 * Also note that due to compiler deficiencies you cannot use a type
 * of 'struct foo' but must instead use just 'foo'.  As such structs
 * must not be defined as 'struct foo {}' and must instead be
 * 'typedef struct {} foo'.
 */

DEFINE_BPF_PROG("PROGTYPE/PROGNAME", AID_*, AID_*, PROGFUNC)(..args..) {
   <body-of-code
    ... read or write to MY_MAPNAME
    ... do other things
   >
}

LICENSE("GPL"); // or other license

สถานที่:

  • name_of_my_map คือชื่อของตัวแปรแผนที่ ชื่อนี้จะบอกตัวโหลด BPF เกี่ยวกับประเภทของแผนที่ที่จะสร้าง พร้อมพารามิเตอร์ใด คําจํากัดความของ Struct นี้มาจากbpf_helpers.h ส่วนหัวที่รวมอยู่ด้วย
  • PROGTYPE/PROGNAME แสดงถึงประเภทของโปรแกรมและชื่อโปรแกรม ประเภทของโปรแกรมอาจเป็นประเภทใดก็ได้ที่แสดงในตารางต่อไปนี้ เมื่อไม่มีประเภทโปรแกรมที่ระบุไว้ จะไม่มีรูปแบบการตั้งชื่อที่เข้มงวดสำหรับโปรแกรม เพียงแค่ต้องระบุชื่อให้กระบวนการที่แนบโปรแกรมทราบ

  • PROGFUNC คือฟังก์ชันที่เมื่อคอมไพล์แล้วจะอยู่ในส่วนของไฟล์ผลลัพธ์

Kprobe เกี่ยวเนื่องกับ PROGFUNC ที่คำสั่งเคอร์เนลโดยใช้โครงสร้างพื้นฐาน Kprobe PROGNAME ต้องเป็นชื่อของฟังก์ชันเคอร์เนลที่กำลังทำการเฝ้าติดตาม ดูข้อมูลเพิ่มเติมเกี่ยวกับ kprobe ได้จากเอกสารประกอบเคอร์เนล kprobe
จุดติดตาม ฮุก PROGFUNC เข้ากับจุดติดตาม PROGNAME ต้องอยู่ในรูปแบบ SUBSYSTEM/EVENT ตัวอย่างเช่น ส่วนการติดตามจุดสําหรับการแนบฟังก์ชันกับเหตุการณ์การเปลี่ยนบริบทของโปรแกรมจัดสรรเวลาจะเป็น SEC("tracepoint/sched/sched_switch") โดยที่ sched คือชื่อของซับระบบการติดตาม และ sched_switch คือชื่อของเหตุการณ์การติดตาม ดูข้อมูลเพิ่มเติมเกี่ยวกับจุดติดตามได้ในเอกสารประกอบเกี่ยวกับเคอร์เนลเหตุการณ์การติดตาม
skfilter โปรแกรมทําหน้าที่เป็นตัวกรองซ็อกเก็ตเครือข่าย
schedcls โปรแกรมทํางานเป็นตัวจัดประเภทการเข้าชมเครือข่าย
กลุ่มก๊อกบ๊อก โปรแกรมจะทำงานทุกครั้งที่กระบวนการใน CGroup สร้าง AF_INET หรือ AF_INET6 socket

ดูประเภทเพิ่มเติมได้ในซอร์สโค้ดของตัวโหลด

ตัวอย่างเช่น โปรแกรม myschedtp.c ต่อไปนี้จะเพิ่มข้อมูลเกี่ยวกับ PID ของงานล่าสุดที่ทำงานบน CPU บางตัว โปรแกรมนี้บรรลุเป้าหมายด้วยการสร้างแผนที่และกำหนดฟังก์ชัน tp_sched_switch ซึ่งแนบไปกับเหตุการณ์การติดตาม sched:sched_switch ได้ ดูข้อมูลเพิ่มเติมได้ที่การแนบโปรแกรมกับจุดติดตาม

#include <linux/bpf.h>
#include <stdbool.h>
#include <stdint.h>
#include <bpf_helpers.h>

DEFINE_BPF_MAP(cpu_pid_map, ARRAY, int, uint32_t, 1024);

struct switch_args {
    unsigned long long ignore;
    char prev_comm[16];
    int prev_pid;
    int prev_prio;
    long long prev_state;
    char next_comm[16];
    int next_pid;
    int next_prio;
};

DEFINE_BPF_PROG("tracepoint/sched/sched_switch", AID_ROOT, AID_SYSTEM, tp_sched_switch)
(struct switch_args *args) {
    int key;
    uint32_t val;

    key = bpf_get_smp_processor_id();
    val = args->next_pid;

    bpf_cpu_pid_map_update_elem(&key, &val, BPF_ANY);
    return 1; // return 1 to avoid blocking simpleperf from receiving events
}

LICENSE("GPL");

มาโครใบอนุญาตใช้เพื่อตรวจสอบว่าโปรแกรมใช้งานร่วมกับใบอนุญาตของเคอร์เนลได้หรือไม่เมื่อโปรแกรมใช้ฟังก์ชันตัวช่วย BPF ที่เคอร์เนลมีให้ ระบุชื่อใบอนุญาตของโปรแกรมในรูปแบบสตริง เช่น LICENSE("GPL") หรือ LICENSE("Apache 2.0")

รูปแบบของไฟล์ Android.bp

หากต้องการให้ระบบบิลด์ของ Android สร้างโปรแกรม eBPF .c คุณต้องสร้างรายการในไฟล์ Android.bp ของโปรเจ็กต์ เช่น หากต้องการสร้างโปรแกรม C ของ eBPF ชื่อ bpf_test.c ให้สร้างรายการต่อไปนี้ในไฟล์ Android.bp ของโปรเจ็กต์

bpf {
    name: "bpf_test.o",
    srcs: ["bpf_test.c"],
    cflags: [
        "-Wall",
        "-Werror",
    ],
}

รายการนี้จะรวมโปรแกรม C ที่ทำให้เป็นออบเจ็กต์ /system/etc/bpf/bpf_test.o เมื่อบูต ระบบ Android จะโหลดโปรแกรม bpf_test.o ลงในเคอร์เนลโดยอัตโนมัติ

ไฟล์ที่มีอยู่ใน sysf

ในระหว่างการบูต ระบบ Android จะโหลดออบเจ็กต์ eBPF ทั้งหมดจาก /system/etc/bpf/ โดยอัตโนมัติ สร้างแผนที่ที่โปรแกรมต้องการ และปักหมุดโปรแกรมที่โหลดไว้ด้วยแผนที่ไปยังระบบไฟล์ BPF ไฟล์เหล่านี้สามารถใช้เพื่อโต้ตอบกับโปรแกรม eBPF หรืออ่านแผนที่ต่อไปได้ ส่วนนี้อธิบายรูปแบบการตั้งชื่อไฟล์เหล่านี้และตำแหน่งของไฟล์ใน sysfs

ระบบจะสร้างและปักหมุดไฟล์ต่อไปนี้

  • สําหรับโปรแกรมที่โหลด สมมติว่า PROGNAME คือชื่อโปรแกรม และ FILENAME คือชื่อไฟล์ eBPF C โปรแกรมโหลดของ Android จะสร้างและปักหมุดแต่ละโปรแกรมที่ /sys/fs/bpf/prog_FILENAME_PROGTYPE_PROGNAME

    ตัวอย่างเช่น สําหรับตัวอย่างจุดตรวจ sched_switch ก่อนหน้าใน myschedtp.c ระบบจะสร้างไฟล์โปรแกรมและปักหมุดไว้ที่ /sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch

  • สำหรับแผนที่ที่สร้างขึ้น สมมติว่า MAPNAME เป็นชื่อของแผนที่และ FILENAME เป็นชื่อของไฟล์ eBPF C ตัวโหลด Android จะสร้างและปักหมุดแผนที่แต่ละรายการกับ /sys/fs/bpf/map_FILENAME_MAPNAME

    ตัวอย่างเช่น ในตัวอย่างจุดติดตาม sched_switch ก่อนหน้าใน myschedtp.c ระบบจะสร้างไฟล์แผนที่และปักหมุดไว้ที่ /sys/fs/bpf/map_myschedtp_cpu_pid_map

  • bpf_obj_get() ในไลบรารี BPF ของ Android จะแสดงตัวระบุไฟล์จากไฟล์ /sys/fs/bpf ที่ปักหมุดไว้ คุณสามารถนําตัวระบุไฟล์นี้ไปใช้กับการดำเนินการเพิ่มเติมได้ เช่น การอ่านแผนที่หรือการแนบโปรแกรมกับจุดติดตาม

ไลบรารี Android BPF

ไลบรารี BPF ของ Android มีชื่อว่า libbpf_android.so และเป็นส่วนหนึ่งของระบบไฟล์ ไลบรารีนี้ช่วยให้ผู้ใช้มีความสามารถระดับต่ำของ eBPF ที่จําเป็นสําหรับการสร้างและอ่านแผนที่ การสร้างโปรบ์ แทร็กพอยต์ และบัฟเฟอร์ประสิทธิภาพ

แนบโปรแกรมกับจุดติดตาม

ระบบจะโหลดโปรแกรมการติดตามจุดเมื่อบูตโดยอัตโนมัติ หลังจากโหลดแล้ว คุณต้องเปิดใช้งานโปรแกรม Tracepoint โดยทำตามขั้นตอนต่อไปนี้

  1. โทรหา bpf_obj_get() เพื่อขอรับโปรแกรม fd จากตำแหน่งของไฟล์ที่ปักหมุดไว้ ดูข้อมูลเพิ่มเติมได้ที่ไฟล์ที่มีใน sysfs
  2. เรียก bpf_attach_tracepoint() ในไลบรารี BPF โดยส่งโปรแกรม fd และชื่อจุดติดตาม

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแนบsched_switchจุดตรวจโค้ด ที่กําหนดไว้ในไฟล์ต้นฉบับ myschedtp.c ก่อนหน้า (ไม่แสดงการตรวจสอบข้อผิดพลาด)

  char *tp_prog_path = "/sys/fs/bpf/prog_myschedtp_tracepoint_sched_sched_switch";
  char *tp_map_path = "/sys/fs/bpf/map_myschedtp_cpu_pid";

  // Attach tracepoint and wait for 4 seconds
  int mProgFd = bpf_obj_get(tp_prog_path);
  int mMapFd = bpf_obj_get(tp_map_path);
  int ret = bpf_attach_tracepoint(mProgFd, "sched", "sched_switch");
  sleep(4);

  // Read the map to find the last PID that ran on CPU 0
  android::bpf::BpfMap<int, int> myMap(mMapFd);
  printf("last PID running on CPU %d is %d\n", 0, myMap.readValue(0));

อ่านจากแผนที่

แผนที่ BPF รองรับโครงสร้างหรือประเภทคีย์และค่าที่ซับซ้อนตามต้องการ ไลบรารี Android BPF มีคลาส android::BpfMap ที่ใช้เทมเพลต C++ เพื่อสร้างอินสแตนซ์ BpfMap โดยอิงตามประเภทคีย์และค่าสำหรับแผนที่ที่เป็นปัญหา ตัวอย่างโค้ดก่อนหน้านี้สาธิตการใช้ BpfMap ที่มีคีย์และค่าเป็นจำนวนเต็ม จำนวนเต็มอาจเป็นโครงสร้างที่กำหนดเองก็ได้

ดังนั้นคลาส BpfMap ที่ใช้เทมเพลตจึงช่วยให้คุณกำหนดออบเจ็กต์ BpfMap ที่กําหนดเองซึ่งเหมาะกับแผนที่หนึ่งๆ ได้ จากนั้นคุณจะเข้าถึงแผนที่ได้โดยใช้ฟังก์ชันที่สร้างขึ้นเองซึ่งจะรับรู้ประเภท ส่งผลให้โค้ดสะอาดขึ้น

ดูข้อมูลเพิ่มเติมเกี่ยวกับ BpfMap ได้ที่แหล่งที่มาของ Android

แก้ไขข้อบกพร่อง

ในระหว่างการบูต ระบบจะบันทึกข้อความหลายรายการที่เกี่ยวข้องกับการโหลด BPF หากกระบวนการโหลดไม่สำเร็จไม่ว่าด้วยเหตุผลใดก็ตาม ระบบจะแสดงข้อความบันทึกโดยละเอียดใน logcat การกรองบันทึก logcat ตาม bpf จะพิมพ์ข้อความทั้งหมดและข้อผิดพลาดโดยละเอียดทั้งหมดระหว่างเวลาในการโหลด เช่น ข้อผิดพลาดของโปรแกรมตรวจสอบ eBPF

ตัวอย่าง eBPF ใน Android

โปรแกรมต่อไปนี้ใน AOSP มีตัวอย่างเพิ่มเติมในการใช้ eBPF

  • netd โปรแกรม C แบบ eBPF ใช้โดย Daemon ของเครือข่าย (netd) ใน Android เพื่อวัตถุประสงค์ต่างๆ เช่น การกรองซ็อกเก็ตและการรวบรวมสถิติ หากต้องการดูวิธีใช้โปรแกรมนี้ ให้ตรวจสอบแหล่งที่มาของเครื่องมือตรวจสอบการเข้าชม eBPF

  • time_in_state โปรแกรม eBPF C จะคำนวณระยะเวลาที่แอป Android ทำงานที่ความถี่ CPU ต่างๆ ซึ่งจะใช้คำนวณพลังงาน

  • ใน Android 12 gpu_mem โปรแกรม C แบบ eBPF จะติดตามการใช้งานหน่วยความจำ GPU ทั้งหมดสำหรับแต่ละกระบวนการและทั้งระบบ โปรแกรมนี้ใช้สำหรับทำโปรไฟล์หน่วยความจำ GPU