基本概念
OpenHarmony LiteOS-M提供異常接管調測手段,幫助開發者定位分析問題。異常接管是操作系統對運行期間發生的異常情況進行處理的一系列動作,例如打印異常發生時異常類型、發生異常時的系統狀態、當前函數的調用棧信息、CPU現場信息、任務調用堆棧等信息。
運行機制
棧幀用于保存函數調用過程中的函數參數、變量、返回值等信息。調用函數時,會創建子函數的棧幀,同時將函數入參、局部變量、寄存器入棧。棧幀從高地址向低地址生長。以ARM32 CPU架構為例,每個棧幀中都會保存PC、LR、SP和FP寄存器的歷史值。LR鏈接寄存器(Link Register)指向函數的返回地址,FP幀指針寄存器(Frame Point)指向當前函數的父函數的棧幀起始地址。利用FP寄存器可以得到父函數的棧幀,從棧幀中獲取父函數的FP,就可以得到祖父函數的棧幀,以此類推,可以追溯程序調用棧,得到函數間的調用關系。
當系統發生異常時,系統打印異常函數的棧幀中保存的寄存器內容,以及父函數、祖父函數的棧幀中的LR鏈接寄存器、FP幀指針寄存器內容,用戶就可以據此追溯函數間的調用關系,定位異常原因。
堆棧分析原理如下圖所示,實際堆棧信息根據不同CPU架構有所差異,此處僅做示意。
圖1 堆棧分析原理示意圖
圖中不同顏色的寄存器表示不同的函數。可以看到函數調用過程中,寄存器的保存。通過FP寄存器,棧回溯到異常函數的父函數,繼續按照規律對棧進行解析,推出函數調用關系,方便用戶定位問題。
接口說明
OpenHarmony LiteOS-M內核的回溯棧模塊提供以下接口,接口詳細信息可以查看API參考。
表1 回溯棧模塊接口
接口名 | 功能 |
---|---|
LOS_BackTrace | 打印調用處的函數調用棧關系。 |
LOS_RecordLR | 在無法打印的場景,用該接口獲取調用處的函數調用棧關系。 |
使用指導
開發流程
開啟異常調測的典型流程如下:
- 配置異常接管相關宏。
需要在target_config.h頭文件中修改配置:
配置項 | 含義 | 設置值 |
---|---|---|
LOSCFG_BACKTRACE_DEPTH | 函數調用棧深度,默認15層 | 15 |
LOSCFG_BACKTRACE_TYPE | 回溯棧類型: 0:表示關閉該功能; 1:表示支持Cortex-m系列硬件的函數調用棧解析; 2:表示用于Risc-v系列硬件的函數調用棧解析; | 根據工具鏈類型設置1或2 |
2. 使用示例中有問題的代碼,編譯、運行工程,在串口終端中查看異常信息輸出。示例代碼模擬異常代碼,實際產品開發時使用異常調測機制定位異常問題。
本示例演示異常輸出,包含1個任務,該任務入口函數模擬若干函數調用,最終調用一個模擬異常的函數。代碼實現如下:
本演示代碼在./kernel/liteos_m/testsuites/src/osTest.c中編譯驗證,在TestTaskEntry中調用驗證入口函數ExampleExcEntry。
#include <stdio.h>#include "los_config.h"#include "los_interrupt.h"#include "los_task.h"UINT32 g_taskExcId;#define TSK_PRIOR 4/* 模擬異常函數 */UINT32 GetResultException0(UINT16 dividend){UINT32 result = *(UINT32 *)(0xffffffff);printf("Enter GetResultException0\. %u\r\n", result);return result;}UINT32 GetResultException1(UINT16 dividend){printf("Enter GetResultException1.\r\n");return GetResultException0(dividend);}UINT32 GetResultException2(UINT16 dividend){printf("Enter GetResultException2.\r\n");return GetResultException1(dividend);}UINT32 ExampleExc(VOID){UINT32 ret;printf("Enter Example_Exc Handler.\r\n");/* 模擬函數調用 */ret = GetResultException2(TSK_PRIOR);printf("Divided result =%u.\r\n", ret);printf("Exit Example_Exc Handler.\r\n");return ret;}/* 任務測試入口函數,創建一個會發生異常的任務 */UINT32 ExampleExcEntry(VOID){UINT32 ret;TSK_INIT_PARAM_S initParam = { 0 };/* 鎖任務調度,防止新創建的任務比本任務高而發生調度 */LOS_TaskLock();printf("LOS_TaskLock() Success!\r\n");initParam.pfnTaskEntry = (TSK_ENTRY_FUNC)ExampleExc;initParam.usTaskPrio = TSK_PRIOR;initParam.pcName = "Example_Exc";initParam.uwStackSize = LOSCFG_BASE_CORE_TSK_DEFAULT_STACK_SIZE;/* 創建高優先級任務,由于鎖任務調度,任務創建成功后不會馬上執行 */ret = LOS_TaskCreate(&g_taskExcId, &initParam);if (ret != LOS_OK) {LOS_TaskUnlock();printf("Example_Exc create Failed!\r\n");return LOS_NOK;}printf("Example_Exc create Success!\r\n");/* 解鎖任務調度,此時會發生任務調度,執行就緒隊列中最高優先級任務 */LOS_TaskUnlock();return LOS_OK;}
述代碼串口終端輸出異常信息如下:
LOS_TaskLock() Success!Example_Exc create Success!Enter Example_Exc Handler.Enter GetResultException2.Enter GetResultException1.*************Exception Information**************Type = 4ThrdPid = 5Phase = exc in taskFaultAddr = 0xfffffffcCurrent task info:Task name = Example_ExcTask ID = 5Task SP = 0x210549bcTask ST = 0x21053a00Task SS = 0x1000Exception reg dump:PC = 0x2101c61aLR = 0x2101c64dSP = 0x210549a8R0 = 0x4R1 = 0xaR2 = 0x0R3 = 0xffffffffR4 = 0x2103fb20R5 = 0x5050505R6 = 0x6060606R7 = 0x210549a8R8 = 0x8080808R9 = 0x9090909R10 = 0x10101010R11 = 0x11111111R12 = 0x0PriMask = 0x0xPSR = 0x41000000----- backtrace start -----backtrace 0 -- lr = 0x2101c64cbacktrace 1 -- lr = 0x2101c674backtrace 2 -- lr = 0x2101c696backtrace 3 -- lr = 0x2101b1ec----- backtrace end -----TID Priority Status StackSize WaterLine StackPoint TopOfStack EventMask SemID CPUUSE CPUUSE10s CPUUSE1s TaskEntry name--- -------- -------- --------- --------- ---------- ---------- --------- ------ ------- --------- -------- ---------- ----0 0 Pend 0x1000 0xdc 0x2104730c 0x210463e8 0 0xffff 0.0 0.0 0.0 0x2101a199 Swt_Task1 31 Ready 0x500 0x44 0x210478e4 0x21047428 0 0xffff 0.0 0.0 0.0 0x2101a9c9 IdleCore0002 5 PendTime 0x6000 0xd4 0x2104e8f4 0x210489c8 0 0xffff 5.7 5.7 0.0 0x21016149 tcpip_thread3 3 Pend 0x1000 0x488 0x2104f90c 0x2104e9e8 0x1 0xffff 8.6 8.6 0.0 0x21016db5 ShellTaskEntry4 25 Ready 0x4000 0x460 0x21053964 0x2104f9f0 0 0xffff 9.0 8.9 0.0 0x2101c765 IT_TST_INI5 4 Running 0x1000 0x458 0x210549bc 0x21053a00 0 0xffff 76.5 76.6 0.0 0x2101c685 Example_ExcOS exception NVIC dump:interrupt enable register, base address: 0xe000e100, size: 0x200x2001 0x0 0x0 0x0 0x0 0x0 0x0 0x0interrupt pending register, base address: 0xe000e200, size: 0x200x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0interrupt active register, base address: 0xe000e300, size: 0x200x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0interrupt priority register, base address: 0xe000e400, size: 0xf00x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x00x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x00x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x00x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0 0x0interrupt exception register, base address: 0xe000ed18, size: 0xc0x0 0x0 0xf0f00000interrupt shcsr register, base address: 0xe000ed24, size: 0x40x70002interrupt control register, base address: 0xe000ed04, size: 0x40x1000e805memory pools check:system heap memcheck over, all passed!memory pool check end!根據實際運行環境,上文中的數據會有差異,非固定結果
定位流程
異常接管一般的定位步驟如下:
- 確認編譯時關掉優化選項,否則下述的描述內容可能被優化掉。
- 打開編譯后生成的鏡像反匯編(asm)文件。如果默認沒有生成,可以使用objdump工具生成,命令為:
arm-none-eabi-objdump -S -l XXX.elf
3. 搜索PC指針(指向當前正在執行的指令)在asm中的位置,找到發生異常的函數。
PC地址指向發生異常時程序正在執行的指令。在當前執行的二進制文件對應的asm文件中,查找PC值0x2101c61a,找到當前CPU正在執行的指令行,反匯編如下所示:
2101c60c <GetResultException0>:2101c60c: b580 push {r7, lr}2101c60e: b084 sub sp, #162101c610: af00 add r7, sp, #02101c612: 4603 mov r3, r02101c614: 80fb strh r3, [r7, #6]2101c616: f04f 33ff mov.w r3, #4294967295 ; 0xffffffff2101c61a: 681b ldr r3, [r3, #0]2101c61c: 60fb str r3, [r7, #12]2101c61e: 68f9 ldr r1, [r7, #12]2101c620: 4803 ldr r0, [pc, #12] ; (2101c630 <GetResultException0+0x24>)2101c622: f001 f92b bl 2101d87c <printf>2101c626: 68fb ldr r3, [r7, #12]2101c628: 4618 mov r0, r32101c62a: 3710 adds r7, #162101c62c: 46bd mov sp, r72101c62e: bd80 pop {r7, pc}2101c630: 21025f90 .word 0x21025f90
4. 可以看到:
- 異常時CPU正在執行的指令是ldr r3, [r3, #0],其中r3取值為0xffffffff,導致發生非法地址異常。
- 異常發生在函數GetResultException0中。
5. 根據LR值查找異常函數的父函數。
包含LR值0x2101c64d的反匯編如下所示:
2101c634 <GetResultException1>:2101c634: b580 push {r7, lr}2101c636: b082 sub sp, #82101c638: af00 add r7, sp, #02101c63a: 4603 mov r3, r02101c63c: 80fb strh r3, [r7, #6]2101c63e: 4806 ldr r0, [pc, #24] ; (2101c658 <GetResultException1+0x24>)2101c640: f001 f91c bl 2101d87c <printf>2101c644: 88fb ldrh r3, [r7, #6]2101c646: 4618 mov r0, r32101c648: f7ff ffe0 bl 2101c60c <GetResultException0>2101c64c: 4603 mov r3, r02101c64e: 4618 mov r0, r32101c650: 3708 adds r7, #82101c652: 46bd mov sp, r72101c654: bd80 pop {r7, pc}2101c656: bf00 nop2101c658: 21025fb0 .word 0x21025fb0
6. LR值2101c648上一行是bl 2101c60c ,此處調用了異常函數,調用異常函數的父函數為GetResultException1。
7. 重復步驟3,解析異常信息中backtrace start至backtrace end之間的LR值,得到調用產生異常的函數調用棧關系,找到異常原因。