Tìm hiểu về báo cáo MTE

Sự cố SIGSEGV với mã 9 (SEGV_MTESERR) hoặc mã 8 (SEGV_MTEAERR) là lỗi Gắn thẻ bộ nhớ. Tiện ích gắn thẻ bộ nhớ (MTE) là một Tính năng Armv9 được hỗ trợ trên Android 12 trở lên. MTE là một cách triển khai phần cứng của tính năng gắn thẻ bộ nhớ. Công nghệ này cung cấp tính năng bảo vệ bộ nhớ chi tiết để phát hiện và giảm thiểu lỗi an toàn bộ nhớ.

Trong C/C++, một con trỏ được trả về từ lệnh gọi Malloc() hoặc toán tử new() hoặc các hàm tương tự có thể chỉ được dùng để truy cập bộ nhớ trong giới hạn phân bổ đó và chỉ khi hoạt động phân bổ đang hoạt động (không được giải phóng hoặc xoá-ed). MTE được dùng trong Android để phát hiện các lỗi vi phạm quy tắc này, được gọi là "Tràn vùng đệm"/"Vùng đệm tràn" trong báo cáo sự cố và "Sử dụng sau khi giải phóng" vấn đề.

MTE có 2 chế độ: đồng bộ (hoặc "đồng bộ hoá") và không đồng bộ (hoặc "không đồng bộ"). Lựa chọn trước đây chạy nhiều hơn chậm nhưng cung cấp chẩn đoán chính xác hơn. Tuỳ chọn sau chạy nhanh hơn, nhưng chỉ có thể đưa ra chi tiết gần đúng. Chúng tôi sẽ đề cập đến cả hai nội dung riêng biệt vì thông tin chẩn đoán hơi khác nhau.

MTE chế độ đồng bộ

Ở chế độ đồng bộ ("đồng bộ hoá") của MTE, SIGSEGV gặp sự cố với mã 9 (SEGV_MTESERR).

pid: 13935, tid: 13935, name: sanitizer-statu  >>> sanitizer-status <<<
uid: 0
tagged_addr_ctrl: 000000000007fff3
signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x800007ae92853a0
Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0
x0  0000007cd94227cc  x1  0000007cd94227cc  x2  ffffffffffffffd0  x3  0000007fe81919c0
x4  0000007fe8191a10  x5  0000000000000004  x6  0000005400000051  x7  0000008700000021
x8  0800007ae92853a0  x9  0000000000000000  x10 0000007ae9285000  x11 0000000000000030
x12 000000000000000d  x13 0000007cd941c858  x14 0000000000000054  x15 0000000000000000
x16 0000007cd940c0c8  x17 0000007cd93a1030  x18 0000007cdcac6000  x19 0000007fe8191c78
x20 0000005800eee5c4  x21 0000007fe8191c90  x22 0000000000000002  x23 0000000000000000
x24 0000000000000000  x25 0000000000000000  x26 0000000000000000  x27 0000000000000000
x28 0000000000000000  x29 0000007fe8191b70
lr  0000005800eee0bc  sp  0000007fe8191b60  pc  0000005800eee0c0  pst 0000000060001000

backtrace:
      #00 pc 00000000000010c0  /system/bin/sanitizer-status (test_crash_malloc_uaf()+40) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
      #01 pc 00000000000014a4  /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
      #02 pc 00000000000019cc  /system/bin/sanitizer-status (main+1032) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
      #03 pc 00000000000487d8  /apex/com.android.runtime/lib64/bionic/libc.so (__libc_init+96) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)

deallocated by thread 13935:
      #00 pc 000000000004643c  /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::quarantineOrDeallocateChunk(scudo::Options, void*, scudo::Chunk::UnpackedHeader*, unsigned long)+688) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)
      #01 pc 00000000000421e4  /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::deallocate(void*, scudo::Chunk::Origin, unsigned long, unsigned long)+212) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)
      #02 pc 00000000000010b8  /system/bin/sanitizer-status (test_crash_malloc_uaf()+32) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
      #03 pc 00000000000014a4  /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)

allocated by thread 13935:
      #00 pc 0000000000042020  /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::allocate(unsigned long, scudo::Chunk::Origin, unsigned long, bool)+1300) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)
      #01 pc 0000000000042394  /apex/com.android.runtime/lib64/bionic/libc.so (scudo_malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)
      #02 pc 000000000003cc9c  /apex/com.android.runtime/lib64/bionic/libc.so (malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331)
      #03 pc 00000000000010ac  /system/bin/sanitizer-status (test_crash_malloc_uaf()+20) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
      #04 pc 00000000000014a4  /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)

Tất cả báo cáo sự cố MTE đều chứa tệp kết xuất thanh ghi thông thường và dấu vết ngược cho thời điểm mà đã phát hiện thấy vấn đề. "Nguyên nhân:" dòng cho biết lỗi do MTE phát hiện sẽ chứa "[MTE]" như trong ví dụ ở trên, cùng với thông tin chi tiết khác. Trong trường hợp này, loại lỗi cụ thể được phát hiện là "Sử dụng sau khi giải phóng" và "0 byte vào phân bổ 32 byte tại 0x7ae92853a0" cho chúng tôi biết kích thước và địa chỉ phân bổ cũng như số chênh lệch trong phân bổ mà chúng tôi đã cố gắng truy cập.

Báo cáo sự cố của MTE cũng bao gồm cả các dấu vết ngược lại, chứ không chỉ là dấu vết từ thời điểm phát hiện.

"Sử dụng sau khi giải phóng" lỗi thêm "xử lý theo" và "phân bổ theo" vào tệp kết xuất sự cố, hiển thị dấu vết ngăn xếp tại thời điểm bộ nhớ này được giải phóng (trước khi bộ nhớ được sử dụng!), và thời gian phân bổ trước đó. Các báo cáo này cũng cho bạn biết luồng nào đã thực hiện phân bổ/giải phóng. Cả 3 luồng đều phát hiện luồng, phân bổ luồng và phân bổ luồng tương tự trong ví dụ đơn giản này, nhưng trong các trường hợp thực tế phức tạp hơn, thì nhất thiết là đúng và việc biết rằng chúng khác nhau có thể là một đầu mối quan trọng trong việc tìm ra liên quan đến đồng thời.

"Tràn vùng đệm" và "Buffer Underflow" chỉ cung cấp thêm thông tin "được phân bổ theo" ngăn xếp, vì theo định nghĩa chúng chưa được giải quyết (hoặc sẽ xuất hiện dưới dạng "Sử dụng sau khi hết thời gian miễn phí"):

Cause: [MTE]: Buffer Overflow, 0 bytes right of a 32-byte allocation at 0x7ae92853a0
[...]
backtrace:
[...]
allocated by thread 13949:

Chú ý cách dùng từ "phải" ở đây: điều này có nghĩa là chúng tôi cho bạn biết số byte sau cuối của phân bổ, quyền truy cập không chính xác là; dòng tiền sẽ hiển thị "trái" và là byte trước khi bắt đầu phân bổ.

Có nhiều nguyên nhân tiềm ẩn

Đôi khi, báo cáo SEGV_MTESERR chứa dòng sau:

Note: multiple potential causes for this crash were detected, listing them in decreasing order of likelihood.

Điều này xảy ra khi có nhiều nguồn gốc lỗi mà chúng tôi không thể xác định được và là nguyên nhân thực tế. Chúng tôi in tối đa 3 đề xuất như vậy theo thứ tự gần đúng xác suất, và giao việc phân tích cho người dùng.

signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x400007b43063db5
backtrace:
    [stack...]

Note: multiple potential causes for this crash were detected, listing them in decreasing order of probability.

Cause: [MTE]: Use After Free, 5 bytes into a 10-byte allocation at 0x7b43063db0
deallocated by thread 6663:
    [stack...]
allocated by thread 6663:
    [stack...]

Cause: [MTE]: Use After Free, 5 bytes into a 6-byte allocation at 0x7b43063db0
deallocated by thread 6663:
    [stack...]

allocated by thread 6663:
    [stack...]

Trong ví dụ trên, chúng tôi đã phát hiện hai quá trình phân bổ gần đây tại cùng một địa chỉ bộ nhớ có thể là mục tiêu dự kiến của hoạt động truy cập bộ nhớ không hợp lệ. Điều này có thể xảy ra khi sử dụng lại các lượt phân bổ bộ nhớ trống – ví dụ: nếu bạn có trình tự như mới, miễn phí, mới, miễn phí, mới, miễn phí, truy cập. Số tiền phân bổ gần đây hơn sẽ được in trước.

Chẩn đoán chi tiết về nguyên nhân

"Nguyên nhân" của sự cố phải cho thấy mức phân bổ bộ nhớ mà con trỏ được truy cập bắt nguồn ban đầu. Rất tiếc, phần cứng MTE không có cách nào để chuyển đổi từ con trỏ có thẻ không khớp sang quy trình phân bổ. Để giải thích sự cố SEGV_MTESERR, Android phân tích dữ liệu sau:

  • Địa chỉ lỗi (bao gồm cả thẻ con trỏ).
  • Danh sách lượt phân bổ vùng nhớ khối xếp gần đây với dấu vết ngăn xếp và thẻ bộ nhớ.
  • Các cơ cấu phân bổ hiện tại (trực tiếp) lân cận và thẻ bộ nhớ tương ứng.

Bất kỳ bộ nhớ nào được giải phóng gần đây tại địa chỉ lỗi mà thẻ bộ nhớ khớp với thẻ địa chỉ lỗi đều có thể là "Sử dụng sau khi giải phóng" nguyên nhân.

Bất kỳ bộ nhớ trực tiếp nào lân cận mà thẻ bộ nhớ khớp với thẻ địa chỉ lỗi đều có thể là "Buffer Overflow" (hay "Vùng đệm dưới luồng") là nguyên nhân.

Các lớp phân bổ ở gần sự cố hơn – theo thời gian hoặc trong không gian – được xem là có nhiều khả năng xảy ra hơn so với các lớp ở xa.

Vì bộ nhớ được giải phóng thường được sử dụng lại và số lượng giá trị thẻ khác nhau nhỏ (dưới 16), nên không phải là điều bất thường khi tìm thấy một số đề xuất có khả năng xảy ra và không có cách nào để tự động tìm ra nguyên nhân thực sự. Đây là lý do tại sao đôi khi báo cáo MTE liệt kê nhiều nguyên nhân tiềm ẩn.

Nhà phát triển ứng dụng nên xem xét các nguyên nhân tiềm ẩn, bắt đầu bằng nguyên nhân có khả năng cao nhất. Thông thường, bạn có thể dễ dàng lọc ra các nguyên nhân không liên quan dựa trên dấu vết ngăn xếp.

MTE ở chế độ không đồng bộ

Ở chế độ không đồng bộ ("không đồng bộ") của MTE, SIGSEGV gặp sự cố với mã 8 (SEGV_MTEAERR).

Lỗi SEGV_MTEAERR không xảy ra ngay khi một chương trình thực hiện hoạt động truy cập bộ nhớ không hợp lệ. Chúng tôi phát hiện vấn đề này ngay sau khi sự kiện diễn ra và chương trình sẽ bị chấm dứt tại thời điểm đó. Điểm này thường là lệnh gọi hệ thống tiếp theo, nhưng cũng có thể là một gián đoạn bộ tính giờ – tóm lại là bất kỳ quá trình chuyển đổi từ không gian người dùng sang nhân hệ điều hành nào.

Lỗi SEGV_MTEAERR không lưu giữ địa chỉ bộ nhớ (địa chỉ này luôn hiển thị dưới dạng "-------"). Dấu vết ngược tương ứng với thời điểm phát hiện điều kiện (tức là tại lệnh gọi hệ thống tiếp theo hoặc lượt chuyển đổi theo bối cảnh khác), chứ không phải thời điểm thực hiện hoạt động truy cập không hợp lệ.

Điều này có nghĩa là mã "chính" dấu vết ngược trong sự cố MTE không đồng bộ thường không liên quan. Do đó, lỗi chế độ không đồng bộ sẽ khó gỡ lỗi hơn nhiều so với lỗi chế độ đồng bộ hoá. Chúng được hiểu rõ nhất là cho thấy sự tồn tại của lỗi bộ nhớ trong mã lân cận trong luồng nhất định. Nhật ký ở cuối tệp tombstone có thể cung cấp gợi ý về những gì thực sự đã xảy ra. Nếu không, hành động được khuyến nghị là tái tạo lỗi trong chế độ đồng bộ hóa và sử dụng chẩn đoán tốt hơn mà chế độ đồng bộ hóa cung cấp!

Chủ đề nâng cao

Trong trường hợp này, tính năng gắn thẻ bộ nhớ hoạt động bằng cách gán giá trị thẻ 4 bit (0..15) ngẫu nhiên cho mọi quá trình phân bổ vùng nhớ khối xếp. Giá trị này được lưu trữ trong một vùng siêu dữ liệu đặc biệt tương ứng với bộ nhớ vùng nhớ khối xếp được phân bổ. Cùng một giá trị được gán cho byte quan trọng nhất của con trỏ vùng nhớ khối xếp được trả về qua các hàm như Malloc() hoặc toán tử new().

Khi tính năng kiểm tra thẻ được bật trong quá trình này, CPU sẽ tự động so sánh byte trên cùng của con trỏ với thẻ bộ nhớ cho mọi lượt truy cập vào bộ nhớ. Nếu các thẻ này không khớp nhau, CPU sẽ báo hiệu lỗi dẫn đến sự cố.

Do số lượng giá trị thẻ có thể bị hạn chế, nên phương pháp này chỉ mang tính xác suất. Bất kỳ vị trí bộ nhớ nào không nên truy cập bằng một con trỏ nhất định (chẳng hạn như nằm ngoài giới hạn hoặc sau khi giải phóng ("con trỏ treo") đều có khả năng chứa một giá trị thẻ khác và gây ra sự cố. Có khoảng 7% khả năng không phát hiện được lỗi nào. Vì các giá trị thẻ được chỉ định ngẫu nhiên, nên khả năng phát hiện lỗi tiếp theo là khoảng 93%.

Bạn có thể xem giá trị thẻ trong trường địa chỉ lỗi cũng như trong tệp kết xuất đăng ký, như được đánh dấu bên dưới. Bạn có thể dùng phần này để kiểm tra xem thẻ có được thiết lập hợp lý hay không, cũng như xem các cơ cấu phân bổ bộ nhớ lân cận khác có cùng giá trị thẻ vì chúng có thể là nguyên nhân tiềm ẩn gây ra lỗi ngoài những lỗi được liệt kê trong báo cáo. Chúng tôi cho rằng việc này sẽ chủ yếu hữu ích cho những người đang làm việc trong quá trình triển khai MTE hoặc các thành phần hệ thống cấp thấp khác, chứ không phải cho các nhà phát triển.

signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x0800007ae92853a0
Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0
    x0  0000007cd94227cc  x1  0000007cd94227cc  x2  ffffffffffffffd0  x3  0000007fe81919c0
    x4  0000007fe8191a10  x5  0000000000000004  x6  0000005400000051  x7  0000008700000021
    x8  0800007ae92853a0  x9  0000000000000000  x10 0000007ae9285000  x11 0000000000000030
    x12 000000000000000d  x13 0000007cd941c858  x14 0000000000000054  x15 0000000000000000
    x16 0000007cd940c0c8  x17 0000007cd93a1030  x18 0000007cdcac6000  x19 0000007fe8191c78
    x20 0000005800eee5c4  x21 0000007fe8191c90  x22 0000000000000002  x23 0000000000000000
    x24 0000000000000000  x25 0000000000000000  x26 0000000000000000  x27 0000000000000000
    x28 0000000000000000  x29 0000007fe8191b70
    lr  0000005800eee0bc  sp  0000007fe8191b60  pc  0000005800eee0c0  pst 0000000060001000

"Thẻ bộ nhớ" đặc biệt cũng xuất hiện trong báo cáo sự cố hiển thị các thẻ bộ nhớ xung quanh địa chỉ lỗi. Trong ví dụ bên dưới, thẻ con trỏ "4" không khớp với thẻ bộ nhớ "a".

Memory tags around the fault address (0x0400007b43063db5), one tag per 16 bytes:
  0x7b43063500: 0  f  0  2  0  f  0  a  0  7  0  8  0  7  0  e
  0x7b43063600: 0  9  0  8  0  5  0  e  0  f  0  c  0  f  0  4
  0x7b43063700: 0  b  0  c  0  b  0  2  0  1  0  4  0  7  0  8
  0x7b43063800: 0  b  0  c  0  3  0  a  0  3  0  6  0  b  0  a
  0x7b43063900: 0  3  0  4  0  f  0  c  0  3  0  e  0  0  0  c
  0x7b43063a00: 0  3  0  2  0  1  0  8  0  9  0  4  0  3  0  4
  0x7b43063b00: 0  5  0  2  0  5  0  a  0  d  0  6  0  d  0  2
  0x7b43063c00: 0  3  0  e  0  f  0  a  0  0  0  0  0  0  0  4
=>0x7b43063d00: 0  0  0  a  0  0  0  e  0  d  0 [a] 0  f  0  e
  0x7b43063e00: 0  7  0  c  0  9  0  a  0  d  0  2  0  0  0  c
  0x7b43063f00: 0  0  0  6  0  b  0  8  0  3  0  0  0  5  0  e
  0x7b43064000: 0  d  0  2  0  7  0  a  0  7  0  a  0  d  0  8
  0x7b43064100: 0  b  0  2  0  b  0  4  0  1  0  6  0  d  0  4
  0x7b43064200: 0  1  0  6  0  f  0  2  0  f  0  6  0  5  0  c
  0x7b43064300: 0  1  0  4  0  d  0  6  0  f  0  e  0  1  0  8
  0x7b43064400: 0  f  0  4  0  3  0  2  0  1  0  2  0  5  0  6

Các phần của tombstone cho thấy nội dung bộ nhớ xung quanh tất cả giá trị của thanh ghi cũng cho thấy giá trị thẻ của chúng.

memory near x10 ([anon:scudo:primary]):
0000007b4304a000 7e82000000008101 000003e9ce8b53a0  .......~.S......
0700007b4304a010 0000200000006001 0000000000000000  .`... ..........
0000007b4304a020 7c03000000010101 000003e97c61071e  .......|..a|....
0200007b4304a030 0c00007b4304a270 0000007ddc4fedf8  p..C{.....O.}...
0000007b4304a040 84e6000000008101 000003e906f7a9da  ................
0300007b4304a050 ffffffff00000042 0000000000000000  B...............
0000007b4304a060 8667000000010101 000003e9ea858f9e  ......g.........
0400007b4304a070 0000000100000001 0000000200000002  ................
0000007b4304a080 f5f8000000010101 000003e98a13108b  ................
0300007b4304a090 0000007dd327c420 0600007b4304a2b0   .'.}......C{...
0000007b4304a0a0 88ca000000010101 000003e93e5e5ac5  .........Z^>....
0a00007b4304a0b0 0000007dcc4bc500 0300007b7304cb10  ..K.}......s{...
0000007b4304a0c0 0f9c000000010101 000003e9e1602280  ........."`.....
0900007b4304a0d0 0000007dd327c780 0700007b7304e2d0  ..'.}......s{...
0000007b4304a0e0 0d1d000000008101 000003e906083603  .........6......
0a00007b4304a0f0 0000007dd327c3b8 0000000000000000  ..'.}...........