蘇州喵自在區塊鏈科技有限公司打造的基于FISCO BCOS 的粵語大數據語料庫, 旨在利用區塊鏈技術保護和發展粵語文化遺產。該項目利用區塊鏈的不可篡改性、分布式存儲、智能合約和激勵機制等特性, 為保護非物質文化遺產, 加強粵語研究與教育和開發特色文化產品和服務等方面積累了有益探索。
在技術層面,方言大數據語料庫項目包含數據采集層、區塊鏈層和應用服務層三個核心組件。
●數據采集層: 通過錄音設備和移動應用收集高質量粵語音頻, 從互聯網抓取公開數據并邀請志愿者貢獻多樣化粵語表達形式。所有收集到的音頻材料經過專業聽寫服務, 轉換為書面形式, 并為每條數據添加詳細的上下文信息和使用場景標注。每次錄制的具體地點也被記錄,以分析區域間的語言變異規律。
●區塊鏈層: 采用分布式文件存儲,確保系統正常運行,并結合加密技術保護用戶隱私。平臺設計了基于智能合約的貢獻和版權系統, 鼓勵更多人參與語料庫建設, 同時明確各方權利義務關系, 防止未經授權的復制傳播行為。
●應用服務層: 提供強大的搜索引擎功能, 支持關鍵詞和時間范圍等多種條件快速定位信息。平臺搭建一站式大數據分析環境, 內置多種統計圖表模板, 幫助研究人員輕松完成復雜數據處理任務, 為開發者提供標準化API 接口,獲得即時更新的數據支持,并設立專門賬戶體系管理所有注冊成員的個人信息及其操作記錄。
在應用價值上, 項目通過系統收集和保存粵語原聲資料與文本記錄, 不僅保護了非物質文化遺產, 助力方言文化傳承, 還為學術界提供了豐富的研究數據, 支撐語言學研究的深入發展。同時, 利用高質量的粵語樣本進行人工智能系統的語音識別與合成訓練,開拓了新的市場空間,并促進了文化產業的發展。
未來,平臺可進一步將收集到的故事、歌曲等內容轉化為影視作品或其他形式的藝術作品,吸引游客消費,創造經濟效益。