ניפוי באגים בקוד מקורי של פלטפורמת Android

בקטע הזה נסכם כלים שימושיים ופקודות קשורות לניפוי באגים, למעקב וליצירת פרופיל של קוד מקורי בפלטפורמת Android, במהלך פיתוח תכונות ברמת הפלטפורמה.

הערה: בדפים שבקטע הזה ובמקומות אחרים באתר מומלץ להשתמש ב-adb בשילוב עם הארגומנט setprop כדי לנפות באגים בהיבטים מסוימים של Android. בגרסאות Android 7.x וגרסאות ישנות יותר, אורך השמות של המאפיינים היה מוגבל ל-32 תווים. כלומר, כדי ליצור נכס חבילה עם שם האפליקציה, היה צריך לקצר את השם כך שיתאים. ב-Android מגרסה 8.0 ואילך, המגבלה הזו גדולה בהרבה ולא אמורה לחייב קיצור.

בדף הזה נסביר על העקרונות הבסיסיים של קובצי גרסת 'קריסה' שנמצאים בפלט של logcat. בדפים אחרים יש פרטים רבים יותר על אבחון קריסות מקוריות, חקירה של שירותי המערכת באמצעות dumpsys, הצגת השימוש בזיכרון מקורי, ברשת ובזיכרון RAM, שימוש ב-AddressSanitizer כדי לזהות באגים בזיכרון בקוד מקורי, הערכה של בעיות בביצועים (כולל systrace) ושימוש בכלי ניפוי באגים.

קובצי dump של קריסות וקובצי tombstone

כשקובץ הפעלה שמקושר באופן דינמי מתחיל לפעול, נרשמים כמה מנהלים של אותות, שבמקרה של קריסה גורמים לכתיבה של גרסת דמפ בסיסית של קריסה ב-logcat ולכתיבה של קובץ tombstone מפורט יותר ב-/data/tombstones/. סטטוס tombstone הוא קובץ עם נתונים נוספים על התהליך שהופל. באופן ספציפי, הוא מכיל מעקב סטאק לכל השרשראות בתהליך שבו קרה הקריסה (לא רק לשרשור שזיהה את האות), מפת זיכרון מלאה ורשימת כל מתארי הקבצים הפתוחים.

לפני Android 8.0, התנגשויות טופלו על ידי הדימונים debuggerd ו-debuggerd64. ב-Android מגרסה 8.0 ואילך, ה-crash_dump32 וה-crash_dump64 נוצרים לפי הצורך.

הכלי ליצירת דיווחים על קריסות יכול לצרף עצמו רק אם לא מצורף כבר כלי אחר. כלומר, שימוש בכלים כמו strace או lldb מונע יצירת דיווחים על קריסות.

פלט לדוגמה (עם הסרת חותמות זמן ומידע מיותר):

*** *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***
Build fingerprint: 'Android/aosp_angler/angler:7.1.1/NYC/enh12211018:eng/test-keys'
Revision: '0'
ABI: 'arm'
pid: 17946, tid: 17949, name: crasher  >>> crasher <<<
signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 0xc
    r0 0000000c  r1 00000000  r2 00000000  r3 00000000
    r4 00000000  r5 0000000c  r6 eccdd920  r7 00000078
    r8 0000461a  r9 ffc78c19  sl ab209441  fp fffff924
    ip ed01b834  sp eccdd800  lr ecfa9a1f  pc ecfd693e  cpsr 600e0030

backtrace:
    #00 pc 0004793e  /system/lib/libc.so (pthread_mutex_lock+1)
    #01 pc 0001aa1b  /system/lib/libc.so (readdir+10)
    #02 pc 00001b91  /system/xbin/crasher (readdir_null+20)
    #03 pc 0000184b  /system/xbin/crasher (do_action+978)
    #04 pc 00001459  /system/xbin/crasher (thread_callback+24)
    #05 pc 00047317  /system/lib/libc.so (_ZL15__pthread_startPv+22)
    #06 pc 0001a7e5  /system/lib/libc.so (__start_thread+34)
Tombstone written to: /data/tombstones/tombstone_06

השורה האחרונה בפלט מציגה את המיקום של סטטוס tombstone המלא בדיסק.

אם יש לכם קובצי בינארי לא מדוללים, תוכלו לקבל פירוט נוסף של ה-unwind עם מספרי שורות על ידי הדבקת ה-stack ב-development/scripts/stack:

development/scripts/stack

טיפ: אם כבר הפעלתם את lunch, stack כבר נמצא ב-$PATH, כך שאין צורך לציין את הנתיב המלא.

פלט לדוגמה (על סמך הפלט של logcat שלמעלה):

Reading native crash info from stdin
03-02 23:53:49.477 17951 17951 F DEBUG   : *** *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***
03-02 23:53:49.477 17951 17951 F DEBUG   : Build fingerprint: 'Android/aosp_angler/angler:7.1.1/NYC/enh12211018:eng/test-keys'
03-02 23:53:49.477 17951 17951 F DEBUG   : Revision: '0'
03-02 23:53:49.477 17951 17951 F DEBUG   : ABI: 'arm'
03-02 23:53:49.478 17951 17951 F DEBUG   : pid: 17946, tid: 17949, name: crasher  >>> crasher <<<
03-02 23:53:49.478 17951 17951 F DEBUG   : signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 0xc
03-02 23:53:49.478 17951 17951 F DEBUG   :     r0 0000000c  r1 00000000  r2 00000000  r3 00000000
03-02 23:53:49.478 17951 17951 F DEBUG   :     r4 00000000  r5 0000000c  r6 eccdd920  r7 00000078
03-02 23:53:49.478 17951 17951 F DEBUG   :     r8 0000461a  r9 ffc78c19  sl ab209441  fp fffff924
03-02 23:53:49.478 17951 17951 F DEBUG   :     ip ed01b834  sp eccdd800  lr ecfa9a1f  pc ecfd693e  cpsr 600e0030
03-02 23:53:49.491 17951 17951 F DEBUG   :
03-02 23:53:49.491 17951 17951 F DEBUG   : backtrace:
03-02 23:53:49.492 17951 17951 F DEBUG   :     #00 pc 0004793e  /system/lib/libc.so (pthread_mutex_lock+1)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #01 pc 0001aa1b  /system/lib/libc.so (readdir+10)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #02 pc 00001b91  /system/xbin/crasher (readdir_null+20)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #03 pc 0000184b  /system/xbin/crasher (do_action+978)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #04 pc 00001459  /system/xbin/crasher (thread_callback+24)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #05 pc 00047317  /system/lib/libc.so (_ZL15__pthread_startPv+22)
03-02 23:53:49.492 17951 17951 F DEBUG   :     #06 pc 0001a7e5  /system/lib/libc.so (__start_thread+34)
03-02 23:53:49.492 17951 17951 F DEBUG   :     Tombstone written to: /data/tombstones/tombstone_06
Reading symbols from /huge-ssd/aosp-arm64/out/target/product/angler/symbols
Revision: '0'
pid: 17946, tid: 17949, name: crasher  >>> crasher <<<
signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 0xc
     r0 0000000c  r1 00000000  r2 00000000  r3 00000000
     r4 00000000  r5 0000000c  r6 eccdd920  r7 00000078
     r8 0000461a  r9 ffc78c19  sl ab209441  fp fffff924
     ip ed01b834  sp eccdd800  lr ecfa9a1f  pc ecfd693e  cpsr 600e0030
Using arm toolchain from: /huge-ssd/aosp-arm64/prebuilts/gcc/linux-x86/arm/arm-linux-androideabi-4.9/bin/

Stack Trace:
  RELADDR   FUNCTION                   FILE:LINE
  0004793e  pthread_mutex_lock+2       bionic/libc/bionic/pthread_mutex.cpp:515
  v------>  ScopedPthreadMutexLocker   bionic/libc/private/ScopedPthreadMutexLocker.h:27
  0001aa1b  readdir+10                 bionic/libc/bionic/dirent.cpp:120
  00001b91  readdir_null+20            system/core/debuggerd/crasher.cpp:131
  0000184b  do_action+978              system/core/debuggerd/crasher.cpp:228
  00001459  thread_callback+24         system/core/debuggerd/crasher.cpp:90
  00047317  __pthread_start(void*)+22  bionic/libc/bionic/pthread_create.cpp:202 (discriminator 1)
  0001a7e5  __start_thread+34          bionic/libc/bionic/clone.cpp:46 (discriminator 1)

אפשר להשתמש ב-stack על סטטוס 'אבן קבורה' שלם. דוגמה:

stack < FS/data/tombstones/tombstone_05

האפשרות הזו שימושית אם רק פתחתם את הקובץ המנופח של דוח הבאג בספרייה הנוכחית. מידע נוסף על אבחון קריסות וטומסטונים מקומיים זמין במאמר אבחון קריסות מקומיות.

אחזור של נתיב סטאק או סטטוס 'קבור' מתהליך פעיל

אפשר להשתמש בכלי debuggerd כדי לקבל dump של סטאק מתהליך שפועל. משורת הפקודה, מפעילים את debuggerd באמצעות מזהה תהליך (PID) כדי לדגום את stdout של תיעוד 'קבורה' מלא. כדי לקבל רק את הסטאק של כל שרשור בתהליך, צריך לכלול את הדגל -b או --backtrace.

הסבר על ביטול מורכב

כשאפליקציה קורסת, הסטאק בדרך כלל מורכב למדי. הדוגמה המפורטת הבאה מדגישה הרבה מהמורכבויות:

    #00 pc 00000000007e6918  /system/priv-app/Velvet/Velvet.apk (offset 0x346b000)
    #01 pc 00000000001845cc  /system/priv-app/Velvet/Velvet.apk (offset 0x346b000)
    #02 pc 00000000001847e4  /system/priv-app/Velvet/Velvet.apk (offset 0x346b000)
    #03 pc 00000000001805c0  /system/priv-app/Velvet/Velvet.apk (offset 0x346b000) (Java_com_google_speech_recognizer_AbstractRecognizer_nativeRun+176)

הפריימים 00 עד 03 הם מקובץ קוד JNI מקומי שנשמר ב-APK ללא דחיסה כדי לחסוך במקום בדיסק, במקום שחולץ לקובץ .so נפרד. הכלי לביטול הסטאק ב-Android מגרסה 9 ואילך לא צריך את קובץ .so שחולץ כדי לטפל במקרה הנפוץ הזה שספציפי ל-Android.

לפריימים 00 עד 02 אין שמות סמלים כי המפתח הסיר אותם.

בפריים מס' 03 מוצג שבמקומות שבהם סמלים זמינים, ה-unwinder משתמש בהם.

    #04 pc 0000000000117550  /data/dalvik-cache/arm64/system@priv-app@Velvet@Velvet.apk@classes.dex (offset 0x108000) (com.google.speech.recognizer.AbstractRecognizer.nativeRun+160)

מסגרת מס' 04 היא קוד Java שעבר הידור מראש. ה-unwinder הישן היה נעצר כאן, כי הוא לא יכול היה לבצע את ה-unwind דרך Java.

    #05 pc 0000000000559f88  /system/lib64/libart.so (art_quick_invoke_stub+584)
    #06 pc 00000000000ced40  /system/lib64/libart.so (art::ArtMethod::Invoke(art::Thread*, unsigned int*, unsigned int, art::JValue*, char const*)+200)
    #07 pc 0000000000280cf0  /system/lib64/libart.so (art::interpreter::ArtInterpreterToCompiledCodeBridge(art::Thread*, art::ArtMethod*, art::ShadowFrame*, unsigned short, art::JValue*)+344)
    #08 pc 000000000027acac  /system/lib64/libart.so (bool art::interpreter::DoCall<false, false>(art::ArtMethod*, art::Thread*, art::ShadowFrame&, art::Instruction const*, unsigned short, art::JValue*)+948)
    #09 pc 000000000052abc0  /system/lib64/libart.so (MterpInvokeDirect+296)
    #10 pc 000000000054c614  /system/lib64/libart.so (ExecuteMterpImpl+14484)

המסגרות 5 עד 10 הן מהטמעת המתורגמן של ART. הכלי לביטול סטאק במהדורות ישנות יותר מ-Android 9 היה מציג את הפריימים האלה בלי ההקשר של פריים מס' 11, שמסביר איזה קוד המפרש היה מפרש. התמונות האלה שימושיות אם אתם מנפים באגים ב-ART עצמו. אם אתם מנסים לנפות באגים באפליקציה, אתם יכולים להתעלם מהן. כלים מסוימים, כמו simpleperf, משמיטים את המסגרות האלה באופן אוטומטי.

    #11 pc 00000000001992d6  /system/priv-app/Velvet/Velvet.apk (offset 0x26cf000) (com.google.speech.recognizer.AbstractRecognizer.run+18)

מסגרת מס' 11 היא קוד Java שמתורגם.

    #12 pc 00000000002547a8  /system/lib64/libart.so (_ZN3art11interpreterL7ExecuteEPNS_6ThreadERKNS_20CodeItemDataAccessorERNS_11ShadowFrameENS_6JValueEb.llvm.780698333+496)
    #13 pc 000000000025a328  /system/lib64/libart.so (art::interpreter::ArtInterpreterToInterpreterBridge(art::Thread*, art::CodeItemDataAccessor const&, art::ShadowFrame*, art::JValue*)+216)
    #14 pc 000000000027ac90  /system/lib64/libart.so (bool art::interpreter::DoCall<false, false>(art::ArtMethod*, art::Thread*, art::ShadowFrame&, art::Instruction const*, unsigned short, art::JValue*)+920)
    #15 pc 0000000000529880  /system/lib64/libart.so (MterpInvokeVirtual+584)
    #16 pc 000000000054c514  /system/lib64/libart.so (ExecuteMterpImpl+14228)

המסגרות 12 עד 16 הן ההטמעה של המתורגמן עצמו.

    #17 pc 00000000002454a0  /system/priv-app/Velvet/Velvet.apk (offset 0x1322000) (com.google.android.apps.gsa.speech.e.c.c.call+28)

מסגרת מס' 17 היא קוד Java שמתורגם. שיטת Java הזו תואמת למסגרות המתורגם מס' 12 עד 16.

    #18 pc 00000000002547a8  /system/lib64/libart.so (_ZN3art11interpreterL7ExecuteEPNS_6ThreadERKNS_20CodeItemDataAccessorERNS_11ShadowFrameENS_6JValueEb.llvm.780698333+496)
    #19 pc 0000000000519fd8  /system/lib64/libart.so (artQuickToInterpreterBridge+1032)
    #20 pc 00000000005630fc  /system/lib64/libart.so (art_quick_to_interpreter_bridge+92)

המסגרות 18 עד 20 הן המכונה הווירטואלית עצמה, קוד למעבר מקוד Java שנאסף לקוד Java שפורש.

    #21 pc 00000000002ce44c  /system/framework/arm64/boot.oat (offset 0xdc000) (java.util.concurrent.FutureTask.run+204)

מסגרת 21 היא שיטת Java שעבר הידור ומפעילה את שיטת Java במסגרת 17.

    #22 pc 0000000000559f88  /system/lib64/libart.so (art_quick_invoke_stub+584)
    #23 pc 00000000000ced40  /system/lib64/libart.so (art::ArtMethod::Invoke(art::Thread*, unsigned int*, unsigned int, art::JValue*, char const*)+200)
    #24 pc 0000000000280cf0  /system/lib64/libart.so (art::interpreter::ArtInterpreterToCompiledCodeBridge(art::Thread*, art::ArtMethod*, art::ShadowFrame*, unsigned short, art::JValue*)+344)
    #25 pc 000000000027acac  /system/lib64/libart.so (bool art::interpreter::DoCall<false, false>(art::ArtMethod*, art::Thread*, art::ShadowFrame&, art::Instruction const*, unsigned short, art::JValue*)+948)
    #26 pc 0000000000529880  /system/lib64/libart.so (MterpInvokeVirtual+584)
    #27 pc 000000000054c514  /system/lib64/libart.so (ExecuteMterpImpl+14228)

המסגרות 22 עד 27 הן ההטמעה של המתורגמן, שמבצעת קריאה ל-method מקוד מתורגם ל-method מקודד.

    #28 pc 00000000003ed69e  /system/priv-app/Velvet/Velvet.apk (com.google.android.apps.gsa.shared.util.concurrent.b.e.run+22)

מסגרת מס' 28 היא קוד ה-Java שמתורגם.

    #29 pc 00000000002547a8  /system/lib64/libart.so (_ZN3art11interpreterL7ExecuteEPNS_6ThreadERKNS_20CodeItemDataAccessorERNS_11ShadowFrameENS_6JValueEb.llvm.780698333+496)
    #30 pc 0000000000519fd8  /system/lib64/libart.so (artQuickToInterpreterBridge+1032)
    #31 pc 00000000005630fc  /system/lib64/libart.so (art_quick_to_interpreter_bridge+92)

התמונות מס' 29 עד 31 הן מעבר נוסף בין קוד שעבר הידור לקוד שעבר פרשנות.

    #32 pc 0000000000329284  /system/framework/arm64/boot.oat (offset 0xdc000) (java.util.concurrent.ThreadPoolExecutor.runWorker+996)
    #33 pc 00000000003262a0  /system/framework/arm64/boot.oat (offset 0xdc000) (java.util.concurrent.ThreadPoolExecutor$Worker.run+64)
    #34 pc 00000000002037e8  /system/framework/arm64/boot.oat (offset 0xdc000) (java.lang.Thread.run+72)

המסגרות 32 עד 34 הן מסגרות Java שעברן הידור, שמבצעות קריאה ישירה אחת לשנייה. במקרה כזה, סטאק הקריאות המקורי זהה לסטאק הקריאות של Java.

    #35 pc 0000000000559f88  /system/lib64/libart.so (art_quick_invoke_stub+584)
    #36 pc 00000000000ced40  /system/lib64/libart.so (art::ArtMethod::Invoke(art::Thread*, unsigned int*, unsigned int, art::JValue*, char const*)+200)
    #37 pc 0000000000280cf0  /system/lib64/libart.so (art::interpreter::ArtInterpreterToCompiledCodeBridge(art::Thread*, art::ArtMethod*, art::ShadowFrame*, unsigned short, art::JValue*)+344)
    #38 pc 000000000027acac  /system/lib64/libart.so (bool art::interpreter::DoCall<false, false>(art::ArtMethod*, art::Thread*, art::ShadowFrame&, art::Instruction const*, unsigned short, art::JValue*)+948)
    #39 pc 0000000000529f10  /system/lib64/libart.so (MterpInvokeSuper+1408)
    #40 pc 000000000054c594  /system/lib64/libart.so (ExecuteMterpImpl+14356)

המסגרות 35 עד 40 הן המתורגמן עצמו.

    #41 pc 00000000003ed8e0  /system/priv-app/Velvet/Velvet.apk (com.google.android.apps.gsa.shared.util.concurrent.b.i.run+20)

מסגרת מס' 41 היא קוד Java שמתורגם.

    #42 pc 00000000002547a8  /system/lib64/libart.so (_ZN3art11interpreterL7ExecuteEPNS_6ThreadERKNS_20CodeItemDataAccessorERNS_11ShadowFrameENS_6JValueEb.llvm.780698333+496)
    #43 pc 0000000000519fd8  /system/lib64/libart.so (artQuickToInterpreterBridge+1032)
    #44 pc 00000000005630fc  /system/lib64/libart.so (art_quick_to_interpreter_bridge+92)
    #45 pc 0000000000559f88  /system/lib64/libart.so (art_quick_invoke_stub+584)
    #46 pc 00000000000ced40  /system/lib64/libart.so (art::ArtMethod::Invoke(art::Thread*, unsigned int*, unsigned int, art::JValue*, char const*)+200)
    #47 pc 0000000000460d18  /system/lib64/libart.so (art::(anonymous namespace)::InvokeWithArgArray(art::ScopedObjectAccessAlreadyRunnable const&, art::ArtMethod*, art::(anonymous namespace)::ArgArray*, art::JValue*, char const*)+104)
    #48 pc 0000000000461de0  /system/lib64/libart.so (art::InvokeVirtualOrInterfaceWithJValues(art::ScopedObjectAccessAlreadyRunnable const&, _jobject*, _jmethodID*, jvalue*)+424)
    #49 pc 000000000048ccb0  /system/lib64/libart.so (art::Thread::CreateCallback(void*)+1120)

המסגרות 42 עד 49 הן המכונה הווירטואלית עצמה. הפעם הקוד מתחיל להריץ את Java בשרשור חדש.

    #50 pc 0000000000082e24  /system/lib64/libc.so (__pthread_start(void*)+36)
    #51 pc 00000000000233bc  /system/lib64/libc.so (__start_thread+68)

הפריימים 50 עד 51 הם הפריימים שבהם כל השרשור צריך להתחיל. זהו libc קוד ההתחלה של שרשור חדש.