Error SIGSEGV dengan kode 9 (SEGV_MTESERR) atau kode 8 (SEGV_MTEAERR) adalah error Pemberian Tag Memori. Memory Tagging Extension (MTE) adalah fitur Armv9 yang didukung di Android 12 dan yang lebih baru. MTE adalah implementasi hardware dari memori bertag. Scudo memberikan perlindungan memori terperinci untuk mendeteksi dan mengurangi bug keamanan memori.
Di C/C++, pointer yang ditampilkan dari panggilan ke malloc() atau operator new() atau fungsi serupa hanya dapat digunakan untuk mengakses memori dalam batas alokasi tersebut, dan hanya saat alokasi masih aktif (tidak dibebaskan atau dihapus). MTE digunakan di Android untuk mendeteksi pelanggaran aturan ini, yang disebut dalam laporan error sebagai masalah "Buffer Overflow"/"Buffer Underflow" dan "Use After Free".
MTE memiliki dua mode: sinkron (atau "sinkron") dan asinkron (atau "asinkron"). Yang pertama berjalan lebih lambat, tetapi memberikan diagnostik yang lebih akurat. Yang terakhir berjalan lebih cepat, tetapi hanya dapat memberikan perkiraan detail. Kita akan membahas keduanya secara terpisah, karena diagnostiknya sedikit berbeda.
MTE mode sinkron
Dalam mode sinkron ("sinkron") MTE, SIGSEGV mengalami error dengan kode 9 (SEGV_MTESERR).
pid: 13935, tid: 13935, name: sanitizer-statu >>> sanitizer-status <<< uid: 0 tagged_addr_ctrl: 000000000007fff3 signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x800007ae92853a0 Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0 x0 0000007cd94227cc x1 0000007cd94227cc x2 ffffffffffffffd0 x3 0000007fe81919c0 x4 0000007fe8191a10 x5 0000000000000004 x6 0000005400000051 x7 0000008700000021 x8 0800007ae92853a0 x9 0000000000000000 x10 0000007ae9285000 x11 0000000000000030 x12 000000000000000d x13 0000007cd941c858 x14 0000000000000054 x15 0000000000000000 x16 0000007cd940c0c8 x17 0000007cd93a1030 x18 0000007cdcac6000 x19 0000007fe8191c78 x20 0000005800eee5c4 x21 0000007fe8191c90 x22 0000000000000002 x23 0000000000000000 x24 0000000000000000 x25 0000000000000000 x26 0000000000000000 x27 0000000000000000 x28 0000000000000000 x29 0000007fe8191b70 lr 0000005800eee0bc sp 0000007fe8191b60 pc 0000005800eee0c0 pst 0000000060001000 backtrace: #00 pc 00000000000010c0 /system/bin/sanitizer-status (test_crash_malloc_uaf()+40) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #01 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #02 pc 00000000000019cc /system/bin/sanitizer-status (main+1032) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #03 pc 00000000000487d8 /apex/com.android.runtime/lib64/bionic/libc.so (__libc_init+96) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) deallocated by thread 13935: #00 pc 000000000004643c /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::quarantineOrDeallocateChunk(scudo::Options, void*, scudo::Chunk::UnpackedHeader*, unsigned long)+688) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #01 pc 00000000000421e4 /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::deallocate(void*, scudo::Chunk::Origin, unsigned long, unsigned long)+212) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #02 pc 00000000000010b8 /system/bin/sanitizer-status (test_crash_malloc_uaf()+32) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #03 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) allocated by thread 13935: #00 pc 0000000000042020 /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::allocate(unsigned long, scudo::Chunk::Origin, unsigned long, bool)+1300) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #01 pc 0000000000042394 /apex/com.android.runtime/lib64/bionic/libc.so (scudo_malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #02 pc 000000000003cc9c /apex/com.android.runtime/lib64/bionic/libc.so (malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #03 pc 00000000000010ac /system/bin/sanitizer-status (test_crash_malloc_uaf()+20) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #04 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
Semua laporan error MTE berisi dump register dan backtrace biasa untuk titik tempat masalah terdeteksi. Baris "Cause:" untuk error yang terdeteksi oleh MTE akan berisi "[MTE]" seperti pada contoh di atas, beserta detail selengkapnya. Dalam hal ini, jenis error spesifik yang terdeteksi adalah "Use after free", dan "0 byte into a 32-byte allocation at 0x7ae92853a0" memberi tahu kita ukuran dan alamat alokasi, serta offset ke alokasi yang kita coba akses.
Laporan error MTE juga menyertakan backtrace tambahan, bukan hanya dari titik deteksi.
Error "Use After Free" menambahkan bagian "deallocated by" dan "allocated by" ke dump error, yang menampilkan pelacakan tumpukan pada saat memori ini dide-alokasikan (sebelum digunakan), dan waktu memori tersebut dialokasikan sebelumnya. Hal ini juga memberi tahu Anda thread mana yang melakukan alokasi/deallocasi. Ketiga thread pendeteksi, thread alokasi, dan thread pengalokasian ulang sama dalam contoh sederhana ini, tetapi dalam kasus dunia nyata yang lebih kompleks, hal ini tidak selalu benar, dan mengetahui bahwa ketiganya berbeda dapat menjadi petunjuk penting dalam menemukan bug terkait konkurensi.
Error "Buffer Overflow" dan "Buffer Underflow" hanya memberikan jalur stack "allocated by" tambahan, karena menurut definisinya, error tersebut belum dide-alokasikan (atau akan muncul sebagai "Use After Free"):
Cause: [MTE]: Buffer Overflow, 0 bytes right of a 32-byte allocation at 0x7ae92853a0 [...] backtrace: [...] allocated by thread 13949:
Perhatikan penggunaan kata "right" di sini: ini berarti kami memberi tahu Anda jumlah byte setelah akhir alokasi yang merupakan akses yang salah; underflow akan menampilkan "left", dan merupakan jumlah byte sebelum awal alokasi.
Beberapa kemungkinan penyebab
Terkadang laporan SEGV_MTESERR berisi baris berikut:
Note: multiple potential causes for this crash were detected, listing them in decreasing order of likelihood.
Hal ini terjadi jika ada beberapa kandidat yang baik untuk asal error, dan kita tidak dapat mengetahui penyebab sebenarnya. Kami mencetak hingga 3 kandidat tersebut dalam urutan perkiraan kemungkinan, dan menyerahkan analisis kepada pengguna.
signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x400007b43063db5 backtrace: [stack...] Note: multiple potential causes for this crash were detected, listing them in decreasing order of probability. Cause: [MTE]: Use After Free, 5 bytes into a 10-byte allocation at 0x7b43063db0 deallocated by thread 6663: [stack...] allocated by thread 6663: [stack...] Cause: [MTE]: Use After Free, 5 bytes into a 6-byte allocation at 0x7b43063db0 deallocated by thread 6663: [stack...] allocated by thread 6663: [stack...]
Dalam contoh di atas, kami telah mendeteksi dua alokasi terbaru di alamat memori yang sama yang mungkin merupakan target yang diinginkan dari akses memori yang tidak valid. Hal ini dapat terjadi saat alokasi menggunakan kembali memori bebas - misalnya, jika Anda memiliki urutan seperti akses baru, bebas, baru, bebas, baru, bebas. Alokasi yang lebih baru akan dicetak terlebih dahulu.
Heuristik penentuan penyebab mendetail
"Penyebab" error akan menampilkan alokasi memori yang awalnya berasal dari pointer yang diakses. Sayangnya, hardware MTE tidak memiliki cara untuk menerjemahkan dari pointer dengan tag yang tidak cocok ke alokasi. Untuk menjelaskan error SEGV_MTESERR, Android menganalisis data berikut:
- Alamat error (termasuk tag pointer).
- Daftar alokasi heap terbaru dengan pelacakan tumpukan dan tag memori.
- Alokasi saat ini (live) di sekitar dan tag memorinya.
Setiap memori yang baru saja dide-alokasikan di alamat error dengan tag memori yang cocok dengan tag alamat error adalah potensi penyebab "Use After Free".
Setiap memori aktif di sekitar yang tag memorinya cocok dengan tag alamat error adalah potensi penyebab "Buffer Overflow" (atau "Buffer Underflow").
Alokasi yang lebih dekat dengan error - baik dalam waktu maupun ruang - dianggap lebih mungkin terjadi daripada yang jauh.
Karena memori yang dide-alokasikan sering digunakan kembali, dan jumlah nilai tag yang berbeda kecil (kurang dari 16), tidak jarang menemukan beberapa kandidat yang mungkin, dan tidak ada cara untuk menemukan penyebab sebenarnya secara otomatis. Inilah alasan mengapa terkadang laporan MTE mencantumkan beberapa kemungkinan penyebab.
Sebaiknya developer aplikasi melihat potensi penyebabnya, dimulai dengan penyebab yang paling mungkin. Sering kali mudah untuk memfilter penyebab yang tidak terkait berdasarkan pelacakan tumpukan.
MTE mode asinkron
Dalam mode asinkron ("async") MTE, SIGSEGV mengalami error dengan kode 8 (SEGV_MTEAERR).
Error SEGV_MTEAERR tidak langsung terjadi saat program melakukan akses memori yang tidak valid. Masalah terdeteksi segera setelah peristiwa, dan program akan dihentikan pada saat itu. Titik ini biasanya merupakan panggilan sistem berikutnya, tetapi juga dapat berupa interupsi timer - singkatnya, transisi ruang pengguna ke kernel.
Error SEGV_MTEAERR tidak mempertahankan alamat memori (selalu ditampilkan sebagai "-------"). Backtrace sesuai dengan saat kondisi terdeteksi (yaitu pada panggilan sistem berikutnya atau pengalihan konteks lainnya), dan bukan saat akses yang tidak valid dilakukan.
Artinya, backtrace "utama" dalam error MTE asinkron biasanya tidak relevan. Oleh karena itu, kegagalan mode asinkron jauh lebih sulit di-debug daripada kegagalan mode sinkron. Hal ini paling baik dipahami sebagai menunjukkan adanya bug memori dalam kode di sekitar dalam thread tertentu. Log di bagian bawah file tombstone dapat memberikan petunjuk tentang apa yang sebenarnya terjadi. Jika tidak, tindakan yang direkomendasikan adalah mereproduksi error dalam mode sinkronisasi dan menggunakan diagnostik yang lebih baik yang disediakan mode sinkronisasi.
Topik lanjutan
Di balik layar, pemberian tag memori berfungsi dengan menetapkan nilai tag 4-bit acak (0..15) ke setiap alokasi heap. Nilai ini disimpan di region metadata khusus yang sesuai dengan memori heap yang dialokasikan. Nilai yang sama ditetapkan ke byte yang paling signifikan dari pointer heap yang ditampilkan dari fungsi seperti malloc() atau operator new().
Jika pemeriksaan tag diaktifkan dalam proses, CPU akan otomatis membandingkan byte teratas pointer dengan tag memori untuk setiap akses memori. Jika tag tidak cocok, CPU akan menandakan error yang menyebabkan error.
Karena jumlah kemungkinan nilai tag yang terbatas, pendekatan ini bersifat probabilistik. Setiap lokasi memori yang tidak boleh diakses dengan pointer tertentu - seperti di luar batas, atau setelah dealokasi ("pointer menggantung") - kemungkinan memiliki nilai tag yang berbeda, dan menyebabkan error. Ada kemungkinan ~7% untuk tidak mendeteksi satu kemunculan bug. Karena nilai tag ditetapkan secara acak, ada peluang independen ~93% untuk mendeteksi bug saat terjadi lagi.
Nilai tag dapat dilihat di kolom alamat error serta di dump register, seperti yang ditandai di bawah. Bagian ini dapat digunakan untuk memeriksa apakah tag ditetapkan dengan cara yang wajar, serta untuk melihat alokasi memori terdekat lainnya dengan nilai tag yang sama karena dapat menjadi potensi penyebab error selain yang tercantum dalam laporan. Kami berharap ini akan berguna terutama bagi orang-orang yang mengerjakan implementasi MTE itu sendiri atau komponen sistem tingkat rendah lainnya, bukan untuk developer.
signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x0800007ae92853a0 Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0 x0 0000007cd94227cc x1 0000007cd94227cc x2 ffffffffffffffd0 x3 0000007fe81919c0 x4 0000007fe8191a10 x5 0000000000000004 x6 0000005400000051 x7 0000008700000021 x8 0800007ae92853a0 x9 0000000000000000 x10 0000007ae9285000 x11 0000000000000030 x12 000000000000000d x13 0000007cd941c858 x14 0000000000000054 x15 0000000000000000 x16 0000007cd940c0c8 x17 0000007cd93a1030 x18 0000007cdcac6000 x19 0000007fe8191c78 x20 0000005800eee5c4 x21 0000007fe8191c90 x22 0000000000000002 x23 0000000000000000 x24 0000000000000000 x25 0000000000000000 x26 0000000000000000 x27 0000000000000000 x28 0000000000000000 x29 0000007fe8191b70 lr 0000005800eee0bc sp 0000007fe8191b60 pc 0000005800eee0c0 pst 0000000060001000
Bagian "Tag memori" khusus juga muncul dalam laporan error yang menampilkan tag memori di sekitar alamat error. Pada contoh di bawah, tag pointer "4" tidak cocok dengan tag memori "a".
Memory tags around the fault address (0x0400007b43063db5), one tag per 16 bytes: 0x7b43063500: 0 f 0 2 0 f 0 a 0 7 0 8 0 7 0 e 0x7b43063600: 0 9 0 8 0 5 0 e 0 f 0 c 0 f 0 4 0x7b43063700: 0 b 0 c 0 b 0 2 0 1 0 4 0 7 0 8 0x7b43063800: 0 b 0 c 0 3 0 a 0 3 0 6 0 b 0 a 0x7b43063900: 0 3 0 4 0 f 0 c 0 3 0 e 0 0 0 c 0x7b43063a00: 0 3 0 2 0 1 0 8 0 9 0 4 0 3 0 4 0x7b43063b00: 0 5 0 2 0 5 0 a 0 d 0 6 0 d 0 2 0x7b43063c00: 0 3 0 e 0 f 0 a 0 0 0 0 0 0 0 4 =>0x7b43063d00: 0 0 0 a 0 0 0 e 0 d 0 [a] 0 f 0 e 0x7b43063e00: 0 7 0 c 0 9 0 a 0 d 0 2 0 0 0 c 0x7b43063f00: 0 0 0 6 0 b 0 8 0 3 0 0 0 5 0 e 0x7b43064000: 0 d 0 2 0 7 0 a 0 7 0 a 0 d 0 8 0x7b43064100: 0 b 0 2 0 b 0 4 0 1 0 6 0 d 0 4 0x7b43064200: 0 1 0 6 0 f 0 2 0 f 0 6 0 5 0 c 0x7b43064300: 0 1 0 4 0 d 0 6 0 f 0 e 0 1 0 8 0x7b43064400: 0 f 0 4 0 3 0 2 0 1 0 2 0 5 0 6
Bagian tombstone yang menampilkan konten memori di sekitar semua nilai register juga menampilkan nilai tagnya.
memory near x10 ([anon:scudo:primary]): 0000007b4304a000 7e82000000008101 000003e9ce8b53a0 .......~.S...... 0700007b4304a010 0000200000006001 0000000000000000 .`... .......... 0000007b4304a020 7c03000000010101 000003e97c61071e .......|..a|.... 0200007b4304a030 0c00007b4304a270 0000007ddc4fedf8 p..C{.....O.}... 0000007b4304a040 84e6000000008101 000003e906f7a9da ................ 0300007b4304a050 ffffffff00000042 0000000000000000 B............... 0000007b4304a060 8667000000010101 000003e9ea858f9e ......g......... 0400007b4304a070 0000000100000001 0000000200000002 ................ 0000007b4304a080 f5f8000000010101 000003e98a13108b ................ 0300007b4304a090 0000007dd327c420 0600007b4304a2b0 .'.}......C{... 0000007b4304a0a0 88ca000000010101 000003e93e5e5ac5 .........Z^>.... 0a00007b4304a0b0 0000007dcc4bc500 0300007b7304cb10 ..K.}......s{... 0000007b4304a0c0 0f9c000000010101 000003e9e1602280 ........."`..... 0900007b4304a0d0 0000007dd327c780 0700007b7304e2d0 ..'.}......s{... 0000007b4304a0e0 0d1d000000008101 000003e906083603 .........6...... 0a00007b4304a0f0 0000007dd327c3b8 0000000000000000 ..'.}...........