近日,螞蟻數科AI數據產業基地在太倉智匯谷·科技創新園正式投產。該基地作為蘇州市首個AI數據產業基地,旨在通過跨行業人才與前沿技術,為長三角制造業、金融、醫療等領域的大模型落地提供場景化、高質量的訓練數據支撐。
數據被視為AI學習的核心教材。然而,AI在工業等復雜場景落地時,常面臨行業知識匱乏、高質量數據稀缺等瓶頸,急需專業人才參與建設。專業的AI數據標注師,被譽為“AI教官”,他們通過精確標注和修正,確保訓練數據準確、無偏見,以此提升模型輸出的安全性與可靠性,并持續“教導”AI理解語義、更通人情。
趙秋燕是某財經大學金融學本科畢業,曾從事會計工作,擅長糾正AI回答的金融問題。學法律的嚴馮娜,主要工作是標注大模型輸出文字中涉及的“紅線”問題,教AI“什么能說,什么不能說”。標注師李寧曾經是個美術老師,他需要面對大量圖片數據,標注其中的“內容風險”。醫學、外語、旅游等領域的專業人才也正加入各垂類模型的數據標注工作。
“螞蟻數科AI標注師隊伍的平均學歷在本科以上,太倉政府在園區建設、人才招募、生態企業入駐等方面提供了強力支持。”螞蟻數科AI科技事業部總經理張凱介紹,螞蟻數科已與江蘇多所高校開展產教融合、孵化AI實戰人才。按計劃,基地未來將擴展至300人規模。
技術層面,螞蟻數科自研的AI數據標注平臺可智能推薦標注內容、自動補全標簽,結合自動化質檢與人工抽檢雙重保障數據質量。當前其標注服務已覆蓋金融風控、內容審核、自動駕駛、智能客服等數十個場景,為多領域大模型產業化提供可靠的數據基石。