第十屆Nvidia Sky Hackathon參賽作品
1. 項目說明
變電站是用于變電的設施,主要的作用是將電壓轉化,使電能在輸電線路中能夠長距離傳輸。在電力系統中,變電站起到了極為重要的作用,它可以完成電能的負荷分配、電壓的穩定、容錯保護等重要功能,是電力系統的重要組成部分。
變電運維操作站是根據無人值班變電站的運行維護 倒閘操作、事故處理、 設備巡視和文明生產管理的需要,在地理位置、供電區域和交通方面適宜對無人值班變電站進行高效、合理的管理而設立的變電運行班組。智慧變電站運維項目基于RAG技術創新構建智能對話機器人,通過 NVIDIA NIM的強大功能,將大模型技術賦能變電運維操作,充分結合遠程無人化高清視頻和機器人聯合巡檢等技術,打造變電站智慧運維新范式 。
2. 功能模塊
團隊將功能分解為3個功能模塊和1個輔助模塊,其中變電運維知識庫,固定巡檢點位校驗,場景變化判別是3個功能模塊。缺陷識別檢測輔助判斷為輔助模塊。整體界面如下圖所示:
2.1 變電運維知識庫
基于RAG技術搭建變電運維知識庫,按照運行維護、事故處理、設備巡視和文明生產管理四部分組織處理文檔,全方位監測和解決變電運維領域中可能出現的問題及其成因。采用ai-embed-qa-4對模型進行向量化,使用ai-nemotron-4-340b-instruct"大模型對對話進行生成。
變電運維知識庫示例:
2.2固定巡檢點位校驗
當前,變電站巡檢機器人所采用的方式為固定點與預置位相結合的巡檢方式,具體而言,是借助自主導航系統抵達指定的巡檢點位置,讀取云臺預置位的相關參數,設定云臺的固定角度,進而完成圖像信息的采集工作。然而,整個流程處于開環狀態,難以控制,并且缺少對采集信息的反饋以及糾正機制。倘若在采集過程中,出現導航位置的偏差、攝像頭的贓污、所采集設備位置的偏移,以及相機曝光參數設置不當等情況,均會致使巡檢失效。
為此,團隊運用 ai-phi-3-vision-128k-instruct大模型對采集的圖像進行文本信息描述,實時判別采集設備是否正常采集信息。通過諸如圖像是否模糊、曝光是否正常、所拍攝表計是否處于視野中心等一系列 image-to-text 問題,獲取有效的信息,達成系統自動對固定巡檢點位準確度的校驗,主動察覺問題,并及時予以干預。
固定點為校驗示例:
2.3場景變化判別
針對監控遠程無人化高清視頻,因為其相對固定特性,故設計場景變化判別模塊,采用對不同時刻相同同角度拍攝的兩張或多張圖片進行對比,當出現不同表明場景發生變化,進行事故警報。當前傳統模型采用以changenet為主導的場景變化語義檢測模型,模型需要依靠大量的人工采集標注,泛化能力差。
本項目采用image-to-text大模型方法進行場景變化判別,具體的,通過ai-microsoft-kosmos-2對輸入的兩張圖片進行文本描述,然后根據文本描述信息比較文本的異同,通過文本異同程度判斷場景是否發生變化。
2.4 大模型+小模型融合的缺陷檢測新范式
變電站的缺陷檢測工作極其復雜,在檢測過程中,需要面對諸多技術難題和復雜的設備運行狀況。當前檢測模型主要以yolov8與cascade-rcnn系列模型為主。通常情況下,檢測工作會特別注重召回率,然而這卻導致了誤檢率偏高的問題。比如說,在對某些細微的潛在缺陷進行檢測時(滲漏油缺陷),為了盡可能多地發現可能存在的缺陷,檢測系統會放寬判定標準,從而將一些并非真正缺陷的情況(水漬,陰影)也納入檢測結果之中,使得誤檢情況屢屢發生。這不僅增加了后續的排查工作量,還可能會對正常的運維工作造成一定的干擾和誤導。
因此,為了改善這一狀況,我們打算引入大模型語義特性,充分利用大模型的強大邏輯特性,來完成對缺陷檢測結果的過濾。通過對檢測數據進行深入的語義分析和邏輯推理,大模型能夠更加準確地判斷哪些是真正的缺陷,哪些是誤檢。具體流程,輸入一張圖片,ai-phi-3-vision-128k-instruc大語言模型進行文本生成,本地yolov8小模型進行缺陷檢測,將兩個結果結合輸入ai-nemotron-4-340b-instruct語言大模型進行最后的結果輸出。
2.5 可視化文本切分
RAG(Retrieval-Augmented Generation,檢索增強生成)體系中,可視化文本切分策略占據著至關重要的地位,其重要性主要體現在以下幾個方面:
首先,從效率層面來看,將文本進行合理的分割成較小的部分,能夠顯著降低模型所需處理的文本規模,進而大幅提升處理效率。例如,對于篇幅較長的文本,若不進行切分,模型在處理過程中可能會耗費大量的時間和計算資源。
其次,在語義理解方面,恰當的切分策略能夠有效地保留文本的語義完整性和連貫性,從而助力模型更精準、深入地理解文本的內在含義。以復雜的科技文獻為例,若切分不當,可能導致關鍵語義的丟失或曲解。
再者,就檢索效果而言,這一策略有助于更精確地檢索到與特定問題高度相關的文本片段,顯著增強檢索的精準度和有效性。例如,在大規模的文本數據庫中,準確的切分能提高檢索的命中率。
最后,在優化生成結果方面,能夠為模型提供更具針對性和有效性的上下文信息,進而從根本上優化生成的結果質量。比如,在進行文本生成任務時,合適的切分所提供的精準上下文能引導模型生成更準確、合理的內容。
項目采用可視化文本切分策略,選取合適的text splitter方法,調優chunk size與overlap的設置,使其更適合變電領域的文本數據切分。工具鏈接:https://chunvisualization.streamlit.app/,感謝作者:果粒奶優有果粒(嗶哩嗶哩)
3.結語
感謝NVIDIA官方和活動組織者,謝謝!