概述

以下分享的都跳過了很多坑,包括redis、tomcat環境配置、機器硬件配置等等問題(與線上保持一致,或者硬件性能減配系數,例如線上:8C16G,壓測:4C8G,系數簡單相差2倍),直接把挖掘瓶頸的主要思路搬出臺面。

壓測數據分析

全局圖預覽

1675ebca0b8bfcb2?w=1919&h=880&f=png&s=125839


1675ed3dfa4aaba6?w=2126&h=815&f=png&s=123243 ? ? ?


通過對某直播觀看頁面進行高并發壓測,在APM(Pinpoint)監控中發現一個有趣的地方:

1675ebca4e374685?w=403&h=274&f=png&s=44096 ? ? ?

上圖中兩個紅框中的數據(接近10s),相隔大概30分鐘就發生,16:20左右,系統撐不住服務出現異常不可用,懷著好奇的心態,追查方法調用的棧,如下圖所示:

1675ebca04351b7f?w=1376&h=366&f=png&s=29649 ? ? ?

該方法耗時多久呢?首先搞清楚Call Tree里面的一些概念:

1675ebca1fbe233c?w=525&h=344&f=png&s=15207 ? ? ?

可見這個sql查詢方法耗時14秒多,為什么呢?APM里面已經顯示了sql語句,在mysql中執行查詢發現執行時間很快,那么問題出在哪里呢?只能繼續深挖!

通過對比同樣的url,請求響應毫秒級的情況下,發現數據如下圖所示:

1675ebc9efe7f6ec?w=1639&h=214&f=png&s=21571 ? ? ?

從redis獲取到數據后,并沒有再執行sql查詢了,通過這個分析,我們決定追蹤代碼還原真相(不懂代碼的測試不是好開發):

1675ebca3017b7e3?w=431&h=134&f=png&s=5642 ? ? ?

1675ebcb20c01d4c?w=953&h=441&f=png&s=65028 ? ? ?

可以看到緩存失效之后,直接查詢數據庫了

解決方案

SQL優化:優先級低

從數據分析來看,sql優化的用處不大,并不是返回了大量數據缺少索引,此次可以跳過。

緩存并發:優先級高

  出現場景:當網站并發訪問高,一個緩存如果失效,可能出現多個進程同時查詢DB,同時設置緩存的情況,如果并發確實很大,這也可能造成DB壓力過大,還有緩存頻繁更新的問題。
  處理方法:對緩存查詢加鎖,如果KEY不存在,就加鎖,然后查DB入緩存,然后解鎖;其他進程如果發現有鎖就等待,然后等解鎖后返回數據或者進入DB查詢。



經驗總結

1、善用監控工具,例如APM,進行鏈路監控、服務器性能、方法調用順序觀察

2、追蹤方法棧和相關日志

3、深入排查代碼挖本質


微信公眾號:樂少黑板報