白話大模型系列共六篇文章,將通俗易懂的解讀大模型相關的專業術語。本文為第一篇:AI分析能做什么?在實際落地中會碰到什么問題?
作者:星環科技 人工智能產品部
我們使用一個簡單的應用實例來解析人工智能分析都在做什么。
以單一AI應用為例
人臉檢索
我們以人臉檢索為例,來看看利用“人工智能”能力的流程。注意到,實際上有幾個視角。?問題是什么:假設已經有很多不同人的正面照(比如證件照)以及對應的 ID,現在拍攝到了一張某人的新照片,我們需要判斷這張照片中是的人是誰??步驟是什么: 基本流程大部分人腦中都有基本印象了,是一套固定的模式
圖 1 基礎流程比如人臉的例子“采集數據”就替換成“采集人臉數據”
完整的流程
圖 2 分析典型的人臉識別要做什么一般而言,完整的數據分析流程的步驟是相對冗長的,上面的內容展示了一個典型的“人臉識別”的 AI 應用形態在“需求分析”角度看,在做什么。使用一個在數字化、智能化之前就存在的例子來說,這就類似在圖書館查書名、作者,可以方便的找到想要的編號(ID)和其所在的書架并借閱這本書。實際工作比較復雜復雜很多,我們下面會稍微詳細的敘述。首先從“數量化”開始。
數量化
首先,我們需要將人臉照片轉化為計算機能夠理解的數據。這個過程叫做“量化”。比如早期的圖書館檢索,是通過人工編制索引卡片,然后通過卡片找到書籍的位置。這個過程就是“量化”。我們將書籍的信息轉化為了卡片的信息。
圖 3 我國澳門公共圖書館的卡片目錄(柜)可以看到,為了檢索為目的,圖書卡片目錄至少要1.保存書籍的信息(書名、作者、出版社、出版日期等)2.保存書籍的位置(柜號、層號、架號、排號等)3.保存書籍的編號(索書號、ISBN 等)對應到人臉識別,我們需要保存的信息也是類似的。我們需要保存的“人臉卡片目錄”信息包括(姑且認為):1.人臉的特征(比如眼睛、鼻子、嘴巴等):可以是相對大小、顏色等2.人臉的位置:可以是相對位置、絕對位置等3.人臉的編號:可以是身份證號、學號等實際操作中,人臉卡片目錄一般都“編碼”成了一串固定長度,比如說 1024,的數字(也就是“向量”),其有個特定且形象的名字“嵌入向量”:將人臉的特征(比如瞳距、鼻寬等)、位置(眼相對鼻距離等)、編號等信息,”嵌入“到這 1024 維的“向量”中。
但是,我們需要注意到,這些信息都是“人工”提取的。這個過程是非常耗時的。而且,這些信息的提取是非常“主觀”的。不同的人可能會提取出不同的信息。而且,更重要的是,這樣提取,很難保證“準確性”和“泛化性”。不考慮嚴格的學術定義,這兩個帶引號的詞的含義是:
準確性
按照提取的信息,能夠準確的找到對應的書籍/人臉的概率。這里,由于信息不準確等問題,通常可能檢索出多個待選結果,這里的準確性一般是指排名前幾的結果中,是否包含正確結果的概率。這比較好理解,一位作家可能寫了多本書,書名、年代可能相似,查詢者記憶比較模糊,問的不準確,都可能只能找到一個“范圍”。這個范圍內,可能有多本書,但是只有一本是正確的。這個時候,我們就需要“挑選”了。到了“人臉檢測”,這個問題可能更嚴重些。根據口、耳、鼻形態的的手工構建的數量化特征,排列組合可能性來找到“相似”的人臉。這樣操作下來,排序后找到最相似前五名,使用十五年前最厲害的算法,真正想找的人在其中的概率連一半都不到。事實上,盡管“人臉識別”這個需求自有視頻監控和照相技術后就一直是剛需,但這么低的準確率一直持續到 2010 年前后。新的”方法“的出現,才使得準確率有了質的提升。
泛化性
泛化是個阻礙人工智能在應用中大規模鋪開的問題。泛化性是指,對同一個問題,對于“新的數據”,人工智能模型還能保證原有的性能(比如查找精度等)。但事實上,問題很多,比如:1.檢索書籍中,原本書籍題目限制在 20 字以內,但是現在有了超過 20 字的書籍,比如白居易《望月有感》的詩,題目是《自河南經亂,關內阻饑,兄弟離散,各在一處。因望月有感,聊書所懷,寄上浮梁大兄,于潛七兄,烏江十五兄,兼示符離及下邽弟妹》,共 50 個字,這個時候,原有的卡片目錄抄錄不下。2.檢索人臉中,原本的人臉照片都是正面照,但是現在有了側面照,這個時候,原有的卡片目錄就無法使用了。或者,在最近兩年中,原本好用的手機人臉識別解鎖,在人帶了口罩后(甚至遮擋并不算多),就無法使用了。以上的例子比比皆是,這些問題都是“泛化性”問題。同一個問題, 新的數據,這些日常使用的單詞,并沒有數量化的定義,甚至不同人、不同領域的認知都完全不同,也客觀上導致了現實中 AI 落地的諸多問題。