基于Perfetto 解讀一幀的生產消費流程 Android ＞= S Qualcomm

首先幫我朋友打個廣告我們一起在運營一個視頻號感興趣的可以幫忙點擊右邊這個小鈴鐺鈴鐺

序

1.這個流程里面的東西如果展開其實是有很多的內容其實還是比較淺顯的 sf處就不貼源碼了關一個Vsync就有的解釋當然筆者在流程上先形成一個思維閉環
2.如有小伙伴需要筆者可提供所有原材料供二次編輯

先吐槽
其實我覺得大部分Android開發者都是聚集在上層 java層或者說的具體點就是業務層 app層始終沒有脫離業務場景
我對應用開發范圍的定義是不限于hal層 c++代碼實現層只要涉及到業務場景的都是應用開發
隨著工作中遇到的一些00后水平是真的不錯在這里也提醒那些80后90后快了奧小心被擠下來逆水行舟不進則退出來混是要還的

本文闡述的預期
1.view的繪制流程以及送顯到屏幕一整個過程
2.trace的分析方法
3.因為很多看似一點思路都沒有的問題其實是基礎不夠牢靠希望筆者接下來的闡述前期可以讓大家節省多的熟悉成本

一.從一個view的setText開始

1.1view開始setText

Button btnTraceClick = findViewById(R.id.btn_trace_click);btnTraceClick.setOnClickListener(new View.OnClickListener() {@Overridepublic void onClick(View v) {Trace.beginSection("super.yu click#btn test");btnTraceClick.setText("帥是內在 但騷不是");Trace.endSection();}
});

可以看到2處是加上去的trace setText就從這里開始是會走下去請求vsync-app 即app主線程有更新ui的請求但此時沒有往下走因為1處已經有一個requestNextVsync vsync-app的請求等待sf進程回調上來 Choreographer#onVsync 告訴app可以doFrame 此時才會繪制 4處是線程運行狀態

如果長時間的runnable或runnable preempted或running狀態 60幀超過16.6ms 那就可以看做是一個卡頓或掉幀優化的思路可以是此處cpu有哪個進程運行時間較長 app線程得不到調度負載較高找對應模塊的人分析或修改優先級等如果是system_server例如binder 鎖競爭耗時則要通過閱讀源碼去定位或 app自身是否存在主線程耗時出現諸如下述log 考慮是否mainthread有耗時操作 ui結構過于復雜等等思路不僅限于此在Perfetto可以很直觀的看出來

I/Choreographer: Skipped 196 frames! The application may be doing too much work on its main thread.

在這里插入圖片描述
分別對應2和3處

此時由于已經在1處requestNextVsync vsync-app請求在2更新ui就不會往下走所以只會有句scheduleTraversals 所以3處的onVsync回調其實是上一次ui更新請求的所以ui的請求一直到屏幕顯示至少得在第二個vsync信號到來

在這里插入圖片描述

我們從這里的vsync請求往下贅述也是對應1處

/frameworks/base/core/java/android/view/ViewRootImpl.java#scheduleTraversals
void scheduleTraversals() {if (!mTraversalScheduled) {mTraversalScheduled = true;// 發送一個屏障信號 下次loop來 doFramemTraversalBarrier = mHandler.getLooper().getQueue().postSyncBarrier();// 編舞者 post發送請求mChoreographer.postCallback(Choreographer.CALLBACK_TRAVERSAL, mTraversalRunnable, null);...

/frameworks/base/core/java/android/view/Choreographer.java#postCallbackDelayedInternal
private void postCallbackDelayedInternal(int callbackType,Object action, Object token, long delayMillis) {...synchronized (mLock) {final long now = SystemClock.uptimeMillis();final long dueTime = now + delayMillis;mCallbackQueues[callbackType].addCallbackLocked(dueTime, action, token);// dueTime 肯定是大于或等于now 所以除了首次一個loop會直接走這里 其他情況會走下述的msgif (dueTime <= now) {scheduleFrameLocked(now);} else {Message msg = mHandler.obtainMessage(MSG_DO_SCHEDULE_CALLBACK, action);msg.arg1 = callbackType;msg.setAsynchronous(true);mHandler.sendMessageAtTime(msg, dueTime);}...
|
void doScheduleCallback(int callbackType) {synchronized (mLock) {if (!mFrameScheduled) {final long now = SystemClock.uptimeMillis();// 此處 肯定是在Choreographer注冊了一個回調 我們先不關注他 這個回調就是后面3Choreographer#onVsync 也就是 vsync-appif (mCallbackQueues[callbackType].hasDueCallbacksLocked(now)) {scheduleFrameLocked(now);...
|
private void scheduleVsyncLocked() {try {// 這里的trace會和圖上一一對上Trace.traceBegin(Trace.TRACE_TAG_VIEW, "Choreographer#scheduleVsyncLocked");mDisplayEventReceiver.scheduleVsync();} ...

中間省略一步hal也就是DisplayEventDispatcher.java
/frameworks/native/libs/gui/DisplayEventDispatcher.cpp#scheduleVsync
status_t DisplayEventDispatcher::scheduleVsync() {if (!mWaitingForVsync) {ALOGV("dispatcher %p ~ Scheduling vsync.", this);...if (processPendingEvents(&vsyncTimestamp, &vsyncDisplayId, &vsyncCount, &vsyncEventData)) {ALOGE("dispatcher %p ~ last event processed while scheduling was for %" PRId64 "", this,ns2ms(static_cast<nsecs_t>(vsyncTimestamp)));}// app層開始請求vsync 此處開啟binder請求status_t status = mReceiver.requestNextVsync();...

一步一步從java層到c++ vsync-app 整個流程還是比較長的大家可以看出其實Java就是個殼子他可以是kotlin可以是js也可以是Flutter 因為硬件屏幕刷新是固定不需要每次都去校對硬件vsync當前是會否可以繪制所以模擬一個軟件的信號源在這里把代碼貼出來可以看一下其實就是代碼流程當然怎么去注冊的怎么回調的我們在此就不去深究了

此時3處回調vsync-app 也就是Choreographer#onVsync app就開始繪制了其實繪制本質就是在組織結構體組織繪制的命令在這里我們留一個后續探究的點也就是一個canvas gui的本質是什么我們都知道java層的bitmap的draw api的調用方式但java就是個殼子真正繪制不是在這里相當于aidl綁定兩個connection就可以通信但實質是native指向server/client端一側的地址從而實現進程通信的場景所以到底是gpu合成還是hwc合成是有一個判斷依據的對于高刷的場景例如游戲都是hwc合成簡單的場景走的是gpu合成否則 gpu負載太高功耗就會有增加也是終端項目中需要check的地方

frameworks/native/libs/gui/DisplayEventReceiver.cpp
status_t DisplayEventReceiver::requestNextVsync() {if (mEventConnection != nullptr) {mEventConnection->requestNextVsync();return NO_ERROR;}return mInitError.has_value() ? mInitError.value() : NO_INIT;
}// EventThread這是軟件模擬硬件vsync 后續會講到
frameworks/native/services/surfaceflinger/Scheduler/EventThread.cpp
binder::Status EventThreadConnection::requestNextVsync() {ATRACE_CALL();mEventThread->requestNextVsync(this);return binder::Status::ok();
}

接下來再來個圖
在這里插入圖片描述
大家要注意的是我們目前為止setText的渲染其實是1處右邊那代碼塊此處還是之前的ui更新操作

1處ui線程ui就開始繪制了值得注意的是 1處如果draw時長超過16.6ms那么大概率就是應用本身阻塞主線程我們把trace堆棧放大
在這里插入圖片描述
這一步我理解是遍歷比如animation input啊有哪些 measure layout丈量等是把ui結構進行數據化比如這個view的坐標 color等

這里是引用一篇博客里面的解釋 但我的理解就是 為了后續的遍歷而去組織數據結構 分門別類
Choreographer.doFrame 計算掉幀邏輯
Choreographer.doFrame 處理 Choreographer 的第一個 callback ： input
Choreographer.doFrame 處理 Choreographer 的第二個 callback ： animation
Choreographer.doFrame 處理 Choreographer 的第三個 callback ： insets animation
Choreographer.doFrame 處理 Choreographer 的第四個 callback ： traversal

setRefreshRateIfNeed這個應該是手機廠家提供出的接口不管 traversal 他就是遍歷 draw 就是 draw 著重介紹一下postAndWait 這里就會到RenderThread 應用的渲染線程 postAndWait喚醒線程的run 此時我們進入到應用的RenderThread 拓展一下如果是游戲進程的話一般是unitymain gfx線程 flutter為什么會比rn要快因為他直接和sf打交道不需要再轉換一層想了解的可以看看官方的架構圖流程繼續這里要注意的是這里的執行順序是從左往右單獨模塊從上到下執行然后再回到起始點往右執行

// 代碼太多 不一一解釋 這里就是把一個frame組織成一個結構體 cpu/gpu可讀懂的結構體
frameworks/base/libs/hwui/renderthread/DrawFrameTask.cpp
void DrawFrameTask::postAndWait() {ATRACE_CALL();AutoMutex _lock(mLock);mRenderThread->queue().post([this]() { run(); });mSignal.wait(mLock);
}
// 從這里我們就可以看到我們熟悉的canvas 當然真正的渲染不是在java進行的
// dequeueBufferDuration 這里有個queue buffer的輪轉 我們后續分析
void DrawFrameTask::run() {const int64_t vsyncId = mFrameInfo[static_cast<int>(FrameInfoIndex::FrameTimelineVsyncId)];ATRACE_FORMAT("DrawFrames %" PRId64, vsyncId);...// Grab a copy of everything we needCanvasContext* context = mContext;nsecs_t dequeueBufferDuration = 0;if (CC_LIKELY(canDrawThisFrame)) {dequeueBufferDuration = context->draw();} else {...
...
}

這里postAndWait后會到2處也就是自身的渲染線程了但是2處就是渲染個寂寞真正渲染的地方是在3處我們把2處放大一下
在這里插入圖片描述
我們現在到應用出幀的地方也就是renderthread 可以看出 DrawFrames 66363537 和上述1處 Choreographer#doFrame 66363537 id是一樣的但是沒有進行渲染是cpu在執行其他線程沒有得到調度是因為該進程中的一個線程在初始化有一定的負載
在這里插入圖片描述
dequeueBuffer - VRI[MainActivity]#0(BLAST Consumer)0 此處MainActivity應該是Producter才對不應該是Consumer 在這里我們需要引入兩個知識點BufferQueue和GPU Fence

// ********** @引用_start 努比亞技術團隊**********

BufferQueue要解決的是生產者和消費者的同步問題應用程序生產畫面 SurfaceFlinger消費畫面 SurfaceFlinger生產畫面而HWC Service消費畫面用來存儲這些畫面的存儲區我們稱其為幀緩沖區buffer

在BufferQueue的設計中一個buffer的狀態有以下幾種：

FREE:表示該buffer可以給到應用程序由應用程序來繪畫

DEQUEUED:表示該buffer的控制權已經給到應用程序側，這個狀態下應用程序可以在上面繪畫

QUEUED: 表示該buffer已經由應用程序繪畫完成 buffer的控制權已經回到SurfaceFlinger手上

ACQUIRED:表示該buffer已經交由HWC Service去合成了這時控制權已給到HWC Service

FREE->DEQUEUED->QUEUED->ACQUIRED->FREE

CPU和GPU的工作完全是異步的 Fence提供了一種方式來處理不同硬件對共享資源的訪問控制

// ********** @引用_end 努比亞技術團隊**********
在這里插入圖片描述
其實真正渲染的地方是在3處我們放大一下渲染線程中我們只需要重點了解dequeuebuffer和queuebuffer

此時應用的renderThread從自身的bufferqueue申請一塊buffer用來繪制 需要注意的是從R之后為了分擔sf的壓力 bufferqueue都在各自應用進程里進行所以dequeuebuffer此處沒有binder調用dequeueBuffer 拿一塊buffer的地址下標也就是往結構體填充指令的數組下圖放大

在這里插入圖片描述

/frameworks/native/libs/gui/BufferQueueProducer.cpp
status_t BufferQueueProducer::dequeueBuffer(int* outSlot, sp<android::Fence>* outFence,uint32_t width, uint32_t height, PixelFormat format,uint64_t usage, uint64_t* outBufferAge,FrameEventHistoryDelta* outTimestamps) {ATRACE_CALL();{ // Autolock scopestd::lock_guard<std::mutex> lock(mCore->mMutex);// trace中 dequeueBuffer - VRI[MainActivity]#0(BLAST Consumer)0 也是此處的拼接mConsumerName = mCore->mConsumerName;
...

VRI[MainActivity]#0(BLAST Consumer)0: 0 這里的solt是0

在dequeuebuffer 右邊還有一句 HWC release fence 19 has signaled 這里dequeuebuffer后這個solt地址并不是立即就往上填充數據是要等待 GPU釋放對應的Fence 只是告訴你我要釋放了相當于bt模組和modem 你請求查詢數據然后模組告訴你有數據了然后你還得調用個get請求去獲取這些數據

接下來就是queuebuffer部分圖片部分放大

在這里插入圖片描述

// 表示hwc release fence 19 buffer 還給了bufferqueue 但gpu還沒有繪制完
Trace GPU completion fence 19// 將繪制好的buffer返回Surfacefinger
eglSwapBuffersWithDamageKHRstatus_t BufferQueueProducer::queueBuffer(int slot,const QueueBufferInput &input, QueueBufferOutput *output) {ATRACE_CALL();ATRACE_BUFFER_INDEX(slot);int64_t requestedPresentTimestamp;bool isAutoTimestamp;android_dataspace dataSpace;Rect crop(Rect::EMPTY_RECT);int scalingMode;...if (frameAvailableListener != nullptr) {// 按照需要回調至app層frameAvailableListener->onFrameAvailable(item);......

此時就會到SurfaceFlinger進程值得注意的是 BufferQueue 可以看BLASTBufferQueue

在這里插入圖片描述

waiting for presentFence 699 可以看出kernel消費情況

所以 setText 開始到顯示最終是這樣的

其實整體內容還是比較淺顯的 sf這塊還是比較復雜的設計的場景有點多后續也只能找一個閉環去用貼源碼解釋