前言
? ? ? ? 向量化是一種思想,不僅體現在可以將任意實體用向量來表示,更為突出的表現了人工智能的發展脈絡。向量的演進過程其實都是人工智能向前發展的時代縮影。
1.為什么人工智能需要向量化
????????電腦如何理解一門語言?電腦的底層是二進制也就是0和1,所有的文字,音頻和視頻都是一串數字, 這結構很簡單,但是有一個問題,沒有規律。比如我們使用一個32位的數字代表“蘋”,使用另一個32位的數字代表“果”,那么“蘋果”在電腦中就是一串0和1組成的數。
????????電腦并不知道這串數字代表的是一個水果。科學家在對字母或者漢字編碼的時候,只考慮到了存儲和顯示的需要,并不會顧及他的實際意義。舉例說明:美的編號是39,丑是40,愛是41,宇宙的答案是42,數字和文字生拉硬套的表示,之間不存在任何聯系,也就無法承載文字本身的意義。所以,電腦既不記錄意義,也不理解意義。
?????????非人工智能時代,電腦只是我們存儲和處理信息的一種工具,就如同存儲和處理食物的冰箱和鍋一樣,他們并不需要認識冰激凌和魚香肉絲,使用它們的人認識冰激凌,知道怎么做魚香肉絲就可以了,但是人工智能時代,我們需要電腦自己處理現實世界的信息,人工智能需要自己解決問題,以機器翻譯為例,本質上是兩種不同的語言對應同一個實際意義,AI需要自己找到這種對應關系,才能進行翻譯。
????????也就是說,電腦需要了解語言的實際意義。如何理解呢?答案是向量化。
2.如何向量化
????????那什么是向量化呢?簡單來說,就是將你想要表示的東西變成一組數字的組合。舉一個簡單的例子,如何用數字來定義一個人?可以嘗試給他設置各種衡量維度。
????????比如我們用[0,180,75,20]?來表示一個人,并給予每個維度以對應的解釋。第一維代表性別、第二維表示身高、第三維代表體重、第四維代表年齡,這樣通過一組4維數組就表示出一位身高為180,體重位75KG,年齡為20歲的男性。另外還可以擴展維度表示,將【性別,身高,體重,年齡,胸圍,腰圍,臀圍,體脂率,膚色,發色,愛好,學歷,收入...】,維度越多,那對一個人的定義就越準確。
?3.向量化后的優勢
????????那向量化后的表示有什么好處呢? 1.方便電腦處理。2.向量化后的空間,展現了一定的規律。
????????我們以身高和體重為維度,通過這些維度篩選出來的人([180,76]),跟我們定義的人([180,75])的相似度就越高。在坐標中與你距離最近的人,也就是和你最相似的人。而我們增加更多的維度,那衡量標準就越多,在更高維度的坐標系中,我們就能夠通過空間關系,理解每個人的特征。
????????同樣對于詞語的表示,我們也通過向量化,只不過是詞語的向量化更加的抽象,表示它的維度也更不容易被總結出來,但如果我們同樣把他們放在一個很高維度的坐標里,那意義相近的詞語,他們的空間就會越接近。
????????向量是可以計算的,當我們把詞語放進向量空間后,國王的向量減去男人的向量再加上女人的向量,得出的向量值和女王或者王后的位置非常接近,這說明了在一個合適的維度坐標中,詞語之間的空間關系反映了他們在現實世界中的實際關系。
4.總結
? ? ? ? 向量化于人工智能時代而言,有著里程碑式的意義。人工智能與向量化,就如同西方與耶路撒冷。