As falhas SIGSEGV com o código 9 (SEGV_MTESERR) ou 8 (SEGV_MTEAERR) são falhas de marcação de memória. A Memory Tagging Extension (MTE) é um recurso da Armv9 com suporte no Android 12 e versões mais recentes. A MTE é uma implementação de hardware de memória com tags. Ele oferece proteção de memória detalhada para detecção e mitigação de bugs de segurança de memória.
Em C/C++, um ponteiro retornado de uma chamada para malloc() ou operador new() ou funções semelhantes só pode ser usado para acessar a memória dentro dos limites dessa alocação e apenas enquanto a alocação estiver ativa (não liberada ou excluída). A MTE é usada no Android para detectar violações dessa regra, mencionadas nos relatórios de erros como "estouro de buffer"/"underflow de buffer" e problemas de "uso após a liberação".
A MTE tem dois modos: síncrono (ou "sync") e assíncrono (ou "async"). O primeiro é mais lento, mas fornece diagnósticos mais precisos. A segunda opção é mais rápida, mas só pode fornecer detalhes aproximados. Vamos abordar os dois separadamente, já que os diagnósticos são um pouco diferentes.
MTE no modo síncrono
No modo síncrono ("sync") do MTE, o SIGSEGV falha com o código 9 (SEGV_MTESERR).
pid: 13935, tid: 13935, name: sanitizer-statu >>> sanitizer-status <<< uid: 0 tagged_addr_ctrl: 000000000007fff3 signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x800007ae92853a0 Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0 x0 0000007cd94227cc x1 0000007cd94227cc x2 ffffffffffffffd0 x3 0000007fe81919c0 x4 0000007fe8191a10 x5 0000000000000004 x6 0000005400000051 x7 0000008700000021 x8 0800007ae92853a0 x9 0000000000000000 x10 0000007ae9285000 x11 0000000000000030 x12 000000000000000d x13 0000007cd941c858 x14 0000000000000054 x15 0000000000000000 x16 0000007cd940c0c8 x17 0000007cd93a1030 x18 0000007cdcac6000 x19 0000007fe8191c78 x20 0000005800eee5c4 x21 0000007fe8191c90 x22 0000000000000002 x23 0000000000000000 x24 0000000000000000 x25 0000000000000000 x26 0000000000000000 x27 0000000000000000 x28 0000000000000000 x29 0000007fe8191b70 lr 0000005800eee0bc sp 0000007fe8191b60 pc 0000005800eee0c0 pst 0000000060001000 backtrace: #00 pc 00000000000010c0 /system/bin/sanitizer-status (test_crash_malloc_uaf()+40) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #01 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #02 pc 00000000000019cc /system/bin/sanitizer-status (main+1032) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #03 pc 00000000000487d8 /apex/com.android.runtime/lib64/bionic/libc.so (__libc_init+96) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) deallocated by thread 13935: #00 pc 000000000004643c /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::quarantineOrDeallocateChunk(scudo::Options, void*, scudo::Chunk::UnpackedHeader*, unsigned long)+688) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #01 pc 00000000000421e4 /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::deallocate(void*, scudo::Chunk::Origin, unsigned long, unsigned long)+212) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #02 pc 00000000000010b8 /system/bin/sanitizer-status (test_crash_malloc_uaf()+32) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #03 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) allocated by thread 13935: #00 pc 0000000000042020 /apex/com.android.runtime/lib64/bionic/libc.so (scudo::Allocator<scudo::AndroidConfig, &(scudo_malloc_postinit)>::allocate(unsigned long, scudo::Chunk::Origin, unsigned long, bool)+1300) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #01 pc 0000000000042394 /apex/com.android.runtime/lib64/bionic/libc.so (scudo_malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #02 pc 000000000003cc9c /apex/com.android.runtime/lib64/bionic/libc.so (malloc+36) (BuildId: 6ab39e35a2fae7efbe9a04e9bbb14331) #03 pc 00000000000010ac /system/bin/sanitizer-status (test_crash_malloc_uaf()+20) (BuildId: 953fc93301472d0b72709b2b9a9f6f30) #04 pc 00000000000014a4 /system/bin/sanitizer-status (test(void (*)())+132) (BuildId: 953fc93301472d0b72709b2b9a9f6f30)
Todos os relatórios de falhas de MTE contêm o despejo de registro e o backtrace usuais para o ponto em que o problema foi detectado. A linha "Cause:" de um erro detectado pelo MTE vai conter "[MTE]", como no exemplo acima, com mais detalhes. Nesse caso, o tipo específico de erro detectado foi um "Uso após a liberação", e o "0 bytes em uma alocação de 32 bytes em 0x7ae92853a0" informa o tamanho e o endereço da alocação e o deslocamento na alocação que tentamos acessar.
Os relatórios de erros da MTE também incluem backtraces extras, não apenas o do ponto de detecção.
Os erros "Use After Free" adicionam as seções "deallocated by" e "allocated by" ao dump de falha, mostrando os stack traces no momento em que essa memória foi desalocada (antes de ser usada!) e o momento em que ela foi alocada anteriormente. Eles também informam qual linha de execução fez a alocação/liberação. As três linhas de execução de detecção, atribuição e desativação são iguais neste exemplo simples, mas em casos reais mais complexos, isso não é necessariamente verdade. Saber que elas são diferentes pode ser uma pista importante para encontrar um bug relacionado à simultaneidade.
Os erros "Buffer Overflow" e "Buffer Underflow" fornecem apenas uma faixa de pilha "allocated by" adicional, já que, por definição, eles ainda não foram desalocados (ou seriam exibidos como "Use After Free"):
Cause: [MTE]: Buffer Overflow, 0 bytes right of a 32-byte allocation at 0x7ae92853a0 [...] backtrace: [...] allocated by thread 13949:
Observe o uso da palavra "right" aqui: isso significa que estamos informando quantos bytes após o final da alocação o acesso incorreto foi feito. Um underflow diria "left" e seria um número de bytes antes do início da alocação.
Várias causas possíveis
Às vezes, os relatórios SEGV_MTESERR contêm a seguinte linha:
Note: multiple potential causes for this crash were detected, listing them in decreasing order of likelihood.
Isso acontece quando há vários candidatos bons para a origem do erro, e não podemos dizer qual é a causa real. Imprimimos até três candidatos nessa ordem aproximada de probabilidade e deixamos a análise a cargo do usuário.
signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x400007b43063db5 backtrace: [stack...] Note: multiple potential causes for this crash were detected, listing them in decreasing order of probability. Cause: [MTE]: Use After Free, 5 bytes into a 10-byte allocation at 0x7b43063db0 deallocated by thread 6663: [stack...] allocated by thread 6663: [stack...] Cause: [MTE]: Use After Free, 5 bytes into a 6-byte allocation at 0x7b43063db0 deallocated by thread 6663: [stack...] allocated by thread 6663: [stack...]
No exemplo acima, detectamos duas alocações recentes no mesmo endereço de memória que poderiam ter sido o destino pretendido do acesso de memória inválido. Isso pode acontecer quando as alocações reutilizam memória livre, por exemplo, se você tiver a sequência nova, livre, nova, livre, nova, livre, acesso. A alocação mais recente é impressa primeiro.
Heurísticas detalhadas de determinação da causa
A "Causa" de uma falha precisa mostrar a alocação de memória da qual o ponteiro acessado foi derivado originalmente. Infelizmente, o hardware MTE não tem como converter um ponteiro com uma tag incompatível em uma alocação. Para explicar uma falha SEGV_MTESERR, o Android analisa os seguintes dados:
- O endereço da falha (incluindo a tag do ponteiro).
- Uma lista de alocações de heap recentes com traces de pilha e tags de memória.
- Alocações atuais (ativas) próximas e as tags de memória delas.
Qualquer memória recentemente desalocada no endereço de falha em que a tag de memória corresponde à tag de endereço de falha é uma possível causa de "uso após a liberação".
Qualquer memória ativa próxima em que a tag de memória corresponda à tag de endereço de falha é uma possível causa de "estouro de buffer" (ou "underflow de buffer").
As alocações mais próximas da falha, seja no tempo ou no espaço, são consideradas mais prováveis do que as mais distantes.
Como a memória desalocada é reutilizada com frequência e o número de valores de tags diferentes é pequeno (menos de 16), não é incomum encontrar vários candidatos prováveis, e não há como encontrar automaticamente a causa real. É por isso que, às vezes, os relatórios de MTE listam várias causas possíveis.
É recomendável que o desenvolvedor do app analise as possíveis causas, começando pela mais provável. Muitas vezes, é fácil filtrar causas não relacionadas com base no stack trace.
MTE no modo assíncrono
No modo assíncrono ("async") do MTE, o SIGSEGV falha com o código 8 (SEGV_MTEAERR).
As falhas SEGV_MTEAERR não acontecem imediatamente quando um programa executa um acesso à memória inválido. O problema é detectado logo após o evento, e o programa é encerrado nesse ponto. Esse ponto normalmente é a próxima chamada de sistema, mas também pode ser uma interrupção de timer, ou seja, qualquer transição do espaço do usuário para o kernel.
As falhas SEGV_MTEAERR não preservam o endereço de memória (ele é sempre mostrado como "-------"). O backtrace corresponde ao momento em que a condição foi detectada (ou seja, na próxima chamada de sistema ou outra mudança de contexto), e não quando o acesso inválido foi realizado.
Isso significa que o backtrace "principal" em uma falha de MTE assíncrona geralmente não é relevante. Portanto, as falhas no modo assíncrono são muito mais difíceis de depurar do que as do modo síncrono. Elas mostram a existência de um bug de memória no código próximo na respectiva linha de execução. Os registros na parte de baixo do arquivo de exclusão podem dar uma dica do que realmente aconteceu. Caso contrário, a ação recomendada é reproduzir o erro no modo de sincronização e usar os diagnósticos melhores que o modo de sincronização oferece.
Temas avançados
Por baixo dos panos, a inclusão de tags na memória funciona atribuindo um valor de tag aleatório de 4 bits (0..15) a cada alocação de heap. Esse valor é armazenado em uma região de metadados especial que corresponde à memória heap alocada. O mesmo valor é atribuído ao byte mais significativo do ponteiro de heap retornado de funções como malloc() ou operador new().
Quando a verificação de tag está ativada no processo, a CPU compara automaticamente o byte superior do ponteiro com a tag de memória para cada acesso à memória. Se as tags não corresponderem, a CPU vai sinalizar um erro que leva a uma falha.
Devido ao número limitado de valores de tag possíveis, essa abordagem é probabilística. Qualquer local de memória que não possa ser acessado com um determinado ponteiro, como fora dos limites ou após a dealocação ("ponteiro solto"), provavelmente terá um valor de tag diferente e causará uma falha. Há uma chance de cerca de 7% de não detectar nenhuma ocorrência única de um bug. Como os valores das tags são atribuídos aleatoriamente, há uma chance independente de ~93% de detectar o bug na próxima vez que ele acontecer.
Os valores da tag podem ser vistos no campo de endereço de falha e no despejo de registro, conforme destacado abaixo. Essa seção pode ser usada para verificar se as tags estão definidas de maneira adequada e para ver outras alocações de memória próximas com o mesmo valor de tag, já que elas podem ser possíveis causas do erro além das listadas no relatório. Esperamos que isso seja útil principalmente para as pessoas que trabalham na implementação da MTE ou de outros componentes de sistema de baixo nível, e não para os desenvolvedores.
signal 11 (SIGSEGV), code 9 (SEGV_MTESERR), fault addr 0x0800007ae92853a0 Cause: [MTE]: Use After Free, 0 bytes into a 32-byte allocation at 0x7ae92853a0 x0 0000007cd94227cc x1 0000007cd94227cc x2 ffffffffffffffd0 x3 0000007fe81919c0 x4 0000007fe8191a10 x5 0000000000000004 x6 0000005400000051 x7 0000008700000021 x8 0800007ae92853a0 x9 0000000000000000 x10 0000007ae9285000 x11 0000000000000030 x12 000000000000000d x13 0000007cd941c858 x14 0000000000000054 x15 0000000000000000 x16 0000007cd940c0c8 x17 0000007cd93a1030 x18 0000007cdcac6000 x19 0000007fe8191c78 x20 0000005800eee5c4 x21 0000007fe8191c90 x22 0000000000000002 x23 0000000000000000 x24 0000000000000000 x25 0000000000000000 x26 0000000000000000 x27 0000000000000000 x28 0000000000000000 x29 0000007fe8191b70 lr 0000005800eee0bc sp 0000007fe8191b60 pc 0000005800eee0c0 pst 0000000060001000
Uma seção especial "Tags de memória" também aparece no relatório de falha, mostrando tags de memória em torno do endereço de falha. No exemplo abaixo, a tag do ponteiro "4" não corresponde à tag de memória "a".
Memory tags around the fault address (0x0400007b43063db5), one tag per 16 bytes: 0x7b43063500: 0 f 0 2 0 f 0 a 0 7 0 8 0 7 0 e 0x7b43063600: 0 9 0 8 0 5 0 e 0 f 0 c 0 f 0 4 0x7b43063700: 0 b 0 c 0 b 0 2 0 1 0 4 0 7 0 8 0x7b43063800: 0 b 0 c 0 3 0 a 0 3 0 6 0 b 0 a 0x7b43063900: 0 3 0 4 0 f 0 c 0 3 0 e 0 0 0 c 0x7b43063a00: 0 3 0 2 0 1 0 8 0 9 0 4 0 3 0 4 0x7b43063b00: 0 5 0 2 0 5 0 a 0 d 0 6 0 d 0 2 0x7b43063c00: 0 3 0 e 0 f 0 a 0 0 0 0 0 0 0 4 =>0x7b43063d00: 0 0 0 a 0 0 0 e 0 d 0 [a] 0 f 0 e 0x7b43063e00: 0 7 0 c 0 9 0 a 0 d 0 2 0 0 0 c 0x7b43063f00: 0 0 0 6 0 b 0 8 0 3 0 0 0 5 0 e 0x7b43064000: 0 d 0 2 0 7 0 a 0 7 0 a 0 d 0 8 0x7b43064100: 0 b 0 2 0 b 0 4 0 1 0 6 0 d 0 4 0x7b43064200: 0 1 0 6 0 f 0 2 0 f 0 6 0 5 0 c 0x7b43064300: 0 1 0 4 0 d 0 6 0 f 0 e 0 1 0 8 0x7b43064400: 0 f 0 4 0 3 0 2 0 1 0 2 0 5 0 6
Seções de uma lápide funerária que mostram o conteúdo da memória em torno de todos os valores de registro também mostram os valores das tags.
memory near x10 ([anon:scudo:primary]): 0000007b4304a000 7e82000000008101 000003e9ce8b53a0 .......~.S...... 0700007b4304a010 0000200000006001 0000000000000000 .`... .......... 0000007b4304a020 7c03000000010101 000003e97c61071e .......|..a|.... 0200007b4304a030 0c00007b4304a270 0000007ddc4fedf8 p..C{.....O.}... 0000007b4304a040 84e6000000008101 000003e906f7a9da ................ 0300007b4304a050 ffffffff00000042 0000000000000000 B............... 0000007b4304a060 8667000000010101 000003e9ea858f9e ......g......... 0400007b4304a070 0000000100000001 0000000200000002 ................ 0000007b4304a080 f5f8000000010101 000003e98a13108b ................ 0300007b4304a090 0000007dd327c420 0600007b4304a2b0 .'.}......C{... 0000007b4304a0a0 88ca000000010101 000003e93e5e5ac5 .........Z^>.... 0a00007b4304a0b0 0000007dcc4bc500 0300007b7304cb10 ..K.}......s{... 0000007b4304a0c0 0f9c000000010101 000003e9e1602280 ........."`..... 0900007b4304a0d0 0000007dd327c780 0700007b7304e2d0 ..'.}......s{... 0000007b4304a0e0 0d1d000000008101 000003e906083603 .........6...... 0a00007b4304a0f0 0000007dd327c3b8 0000000000000000 ..'.}...........