前言
近年來,多模態大型語言模型(MLLM)的快速發展,為人工智能在圖像、文本等多模態信息理解和處理方面帶來了前所未有的突破。然而,現有的主流多模態模型多以英文為訓練語言,在中文理解和處理方面存在著明顯的短板,難以滿足日益增長的中文多模態應用需求。為了彌補這一缺陷,OpenGVLab 團隊開源了首個中文原生多模態模型 InternVL-Chat-V1-5,旨在為中文多模態領域的發展貢獻力量。
-
Huggingface模型下載:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
-
AI快站模型免費加速下載:https://aifasthub.com/models/OpenGVLab
技術特點
InternVL-Chat-V1-5 在技術上具有以下突出特點,使其在中文多模態領域展現出了領先優勢:
-
中文原生訓練,深度理解中文語境
InternVL-Chat-V1-5 采用海量中文數據進行訓練,使其對中文語境和文化元素有著更深層的理解,能夠生成更符合中文審美和文化意蘊的圖像,并更精準地理解中文文本。訓練數據涵蓋了超過十萬個中文類別,包括人物、風景、植物、動物、物品、交通工具、游戲等等,并覆蓋了數百種藝術風格,例如動漫、3D、繪畫、寫實、傳統風格等等。
為了確保訓練數據的質量,OpenGVLab 團隊構建了從數據獲取、數據清洗、數據標注到數據應用的完整數據處理流程,并設計了 “數據護航” 機制,不斷優化數據質量,提升模型的生成能力。訓練數據中包含了大量的圖像-文本對,以及專門為中文 OCR 任務構建的大規模數據集,例如 Wukong-OCR 和 LaionCOCO-OCR 等,這些數據幫助模型學習了豐富的中文視覺信息和文字識別能力。
-
支持 4K 分辨率,打破圖像分辨率限制
InternVL-Chat-V1-5 采用了一種動態高分辨率訓練策略,能夠處理高達 4K 分辨率的圖像。相比其他模型只能處理固定分辨率的圖像,InternVL-Chat-V1-5 可以根據圖像的尺寸和長寬比,將圖像分割成多個 448x448 像素的圖像塊,并在推理階段將這些圖像塊進行拼接,最終生成完整的圖像。 這種策略不僅能夠提高模型對高分辨率圖像的理解能力,還能有效保留圖像的細節信息,避免圖像失真。
InternVL-Chat-V1-5 的這種動態分辨率策略類似于 GPT-4V 的 “低分辨率” 和 “高分辨率” 模式,用戶可以根據圖像內容選擇合適的分辨率。例如,對于簡單的場景描述,可以使用低分辨率,而對于需要精確理解細節的文檔圖像,則可以使用高達 4K 的高分辨率。
-
中英雙語支持,打破語言壁壘
除了中文,InternVL-Chat-V1-5 還支持英文提示詞,實現中英雙語的圖像生成和文本理解,為用戶提供更便捷的操作體驗。模型采用了一種結合雙語 CLIP 和多語言 T5 編碼器的策略,提升語言理解能力,同時能夠處理更長的文本提示詞。
InternVL-Chat-V1-5 采用 InternViT-6B 作為視覺基礎模型,并對其進行了持續學習,使其具備了更強大的視覺理解能力,能夠適應不同的語言模型。同時,模型還使用了 InternLM2-20B 作為語言基礎模型,使其擁有了強大的語言處理能力。
性能表現
InternVL-Chat-V1-5 在多個方面展現出了優異的性能,在中文多模態領域取得了領先優勢:
-
中文理解能力顯著提升
與其他開源模型相比,InternVL-Chat-V1-5 在中文理解能力方面有著顯著提升,能夠準確理解中文提示詞,生成更符合語境的圖像。例如,對于“繁華的夜市”這一提示詞,InternVL-Chat-V1-5 生成的圖像展現了喧鬧、熱鬧的夜市景象,而其他開源模型則可能生成較為抽象或不夠貼近生活的圖像。
-
圖像質量超越開源模型
根據內部測試,InternVL-Chat-V1-5 在圖像一致性、剔除 AI 偽影、主題清晰度和美學評分等方面均取得了領先優勢。 在專業評估團隊的評價中,InternVL-Chat-V1-5 在文本圖像一致性、剔除 AI 偽影、主題清晰度和美學評分等方面均超過其他開源模型。例如,在生成“古代中國詩詞”相關的圖像時,InternVL-Chat-V1-5 能夠生成具有更高圖像質量和語義準確度的圖像,展現出對中國文化的理解能力。
-
8項指標超越商業模型,性能媲美 GPT-4V
InternVL-Chat-V1-5 在 18 項多模態任務基準測試中,取得了 8 項的領先成績,與 GPT-4V 的性能相當,在部分測試中甚至超過了 GPT-4V。例如,在 DocVQA、ChartQA、InfographicVQA 和 OCRBench 等 OCR 相關任務中,InternVL-Chat-V1-5 表現突出,證明了其在處理中文文本識別和理解方面具有強大的實力。
InternVL-Chat-V1-5 在 ConvBench 多輪對話評估基準測試中也展現出了不俗的成績,其在感知、推理和創造力方面都取得了領先優勢,顯示出其在多輪對話場景中的應用潛力。
應用潛力
InternVL-Chat-V1-5 在多個領域具有廣泛的應用潛力,可以為用戶提供更便捷、更具創意的創作體驗:
-
創意設計:用戶可以利用 InternVL-Chat-V1-5 生成各種創意圖像,例如海報、插畫、產品設計圖等,幫助設計師快速完成創作,提升工作效率。
-
內容創作:InternVL-Chat-V1-5 可以幫助用戶快速生成各種內容素材,例如游戲場景、電影場景、廣告圖片等,為內容創作者提供更豐富的創作工具。
-
教育娛樂:InternVL-Chat-V1-5 可以用于制作教材、游戲、動畫等,為教育娛樂領域提供更具創意和吸引力的內容。
總結
InternVL-Chat-V1-5 的開源標志著中文多模態領域邁上了新的臺階,為中文多模態模型的發展提供了重要參考。隨著技術的不斷進步,相信未來 InternVL-Chat-V1-5 會在更多領域發揮重要的作用,為人們的生活帶來更多的便利和樂趣。
模型下載
Huggingface模型下載
https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
AI快站模型免費加速下載
https://aifasthub.com/models/OpenGVLab