我們正處在一個新時代的入口。人有70%的能量是被大腦消耗,大腦90%的能量用來處理視覺信息,人臉則承載了絕大部分的視覺信息。我們要討論的是一個比Google Glass更酷的世界。
文/程苓峰-云科技
網易郵箱的用戶已經可以用人臉而不是密碼來驗證登陸。安卓4.0實現了人臉識別。谷歌接連收購兩家做人臉識別的公司。Intel剛剛發布以機器視覺為核心的感知計算軟件開發工具包。巨頭的動作表明人臉的應用開始主流起來。你一不小心可能就out了。
通過計算機的處理來把一張臉跟一個名字、一個身份對應起來。說起來就這么簡單。但這是一項重大的仿生學上的技術突破。這背后的市場價值現在還難以估量。
先掃盲。相信你也會問一個我已經問過的初級問題:指紋不也能識別身份嗎,何必要用人臉。干這一行的王道江已經面對合作伙伴和投資者們回答過無數次:人臉要比指紋識別更優越。
第一,指紋需要接觸。而人臉不需要。很多小姑娘嫌臟而不愿把手指按到那個無數人按過的指紋采集器上,確實,細菌會因此傳染,所以在醫院里會被禁止。何況在極端的情況下是無法采集指紋的,比如有汗,煤礦工人的黑手,農民因為長年勞作指紋消失。
第二,指紋收集是個枯燥的事。但人臉收集是個有趣味的互動,就像照鏡子。當你在公司門口對著一個人臉識別屏幕對著自己微笑,卡擦,門開了,同時揚聲器里傳出來一個清新的嗓音:看到你的微笑了,程苓峰。
第三,人臉的識別精確度已經發展到跟指紋類似:十萬分之一的重復概率。但被復制和竊取的風險卻小很多。在中關村花20塊錢就可以做一個指紋膜,拿著它就可以幫同事代打卡或者開保險柜。而人臉膜現在還不存在。
這些優越性直接衍生出實際應用。比如在駕校,學員報名但不上課,后來就成了馬路殺手。現在有了解決方案,在駕駛位前方的攝像頭實時采集人臉,確保這個學員在這一段時間內一直呆在這個位置,而老師要在副駕的位置上。一旦換人就后臺鳴笛。用指紋可解決不了這個問題。
如果你僅認為人臉是新一種的身份驗證好方法。那就大大低估了它的價值。我們正處于一個新時代的入口。
人有70%的能量是被大腦消耗的,大腦90%的能量是用來處理視覺信息,而大部分的視覺信息來自人臉。這個世界上最變化多端、最陰晴不定、最讓人魂牽夢繞、最難以捉摸的就是一張張人臉。它耗費了我們最主要的能量。你說搞定它會有多大價值?
《碟中諜4》有一個場景。我朝著一個人走去,他的眼鏡里立刻識別出我的身份并且顯示“這個人可能殺你”,但他從口袋里拿出手機之前我已經掏槍把他斃了。每次看見Google Glass就會想起這個場景。我堅信谷歌收購兩家人臉識別公司可不僅是為了圖片搜索,更為Google Glass。
再換個角度理解這個新時代。人臉識別只是一個表象,背后是基于視頻的圖像處理技術。這是下一代人機交互的制高點。
iPhone和iPad帶來了什么?就是在與計算機交互的方式上,用觸摸淘汰掉鍵盤敲字。第一次轉換。
那接下來會發生什么?SIRI帶來的提示是語音。鍵盤敲字需要十根指頭,但觸摸只需要一根,但語音連一根都不需要。第二次轉換。語音的識別已經相當成熟。這里介紹一個有趣應用Shazam。它靠一個簡單功能就有了2.5億用戶。當你聽到一首歌卻不知道它的名字,讓Shazam“聽一會兒”,幾秒后它就會返回這首歌的名字以及類似的歌曲。
但語音還是單調,活生生的人需要動作。于是有了Kinect,對人體動作的精確識別。但Kinect只能識別肢體動作,這確實沒什么含金量,于是人臉出來了。能識別你笑、你哭、你郁悶、你釋懷。你轉一下眼球就知道你想翻到下一頁,你一閉眼一側臉就知道你是想關掉電視。第三次轉換。
人臉識別是目前能想到的最傻瓜化、最能釋放自由的人機交互方式。進一步了解它需要從三個角度入手:更多的實際應用案例,商業模式,以及為什么人臉識別在今天而不是其它時間成熟。
有幸請到這個領域的領頭羊公司深圳飛瑞斯的CEO王道江來作答。作為回報,他借助這篇文章擴大知名度。據說2012年飛瑞斯的收入會增長500%,預期未來兩年會年均300%以上。但愿讀完本文后你對這個數字會有信心。
海闊天空,光怪陸離
人臉是身份的標志,一切與此相關的場合都可以派上用場。
從前一段震動全國的深圳跑車撞人案說起。當時深圳警方為查清楚嫌疑人,調出了事發當天相關街道和酒吧的總長度幾百個小時的錄像,再由很多民警挨個瀏覽這些視頻,以找出作案的嫌疑人到底是誰。但若采用人臉識別,計算機幾分鐘之內就能找到答案。
中國二三線城市的醫保卡濫用相當普遍。老丈人得病,拿好女婿的醫保卡去就醫開藥。在中國這樣一個人情社會里靠人把關是不靠譜的。如果把人臉信息寫入醫保卡,只有跟當時的人臉匹配成功醫保卡才能使用,能加大作弊的成本。
在工地和礦井這些危險施工現場。在出入口和電梯等位置做人臉識別就能清楚知道誰在什么位置,如果下班時間某人還沒有從工地或者某個危險地段出來或那就能自動報警,某人可能在某個位置出事了。這就是IBM“智慧的地球”的一個子項目,智慧工地。飛瑞斯為IBM提供識別數據。
最極致的情況是,登機辦票再也不用身份證了。昂首挺胸對著攝像頭笑一笑就行。甚至還能用來防止兩人在辦票后互換登機牌,警察在追蹤有組織犯罪時常遇到這種情況。解法是在機艙口放一個攝像頭,而不必再派一個人站在那里檢票了。
說到犯罪,如果在ATM取款機內置一個人臉識別攝像頭,只有當取錢的人跟該銀行卡匹配成功才吐錢,那就算把銀行卡和密碼都偷到手也沒招。
在海關,檢查走私的方法目前還是靠警察肉眼觀察出關的人,選擇可疑的加以抽查。如果裝一個攝像頭,就會立刻把有走私案底的人截獲出來。據說深圳福田海關用這個方法抓出的走私占總截獲量的70%。
上面都屬于安保防護的成本支出,要說服機構或者政府部門采納并不容易。下面來幾個有直接商業收益的例子。
人臉識別和其背后的智能視頻分析對于零售業的整個鏈條都有助益。
從開店開始,得選址,要客流量大的地段。以前是找個人守在一個地方數人頭,現在放個攝像頭就行,一個都少不了。開店之后得分析進店率,路過的人多但進店的不一定多。店門口裝個攝像頭,精準計算進店率。進店人多但買東西的人不一定多,還要轉換率。在收銀臺裝個攝像頭,一切搞定。屈臣氏在部分連鎖店已經用起這一套。
再來點有含金量的活兒。
轉換率為什么不高?能幫你找原因。一個人從進門開始是如何行走的,在哪里逗留時間長哪里短,行走路徑如何,這個關系到店面的布局,品類和陳列是否合理。
飛瑞斯給歐洲一家書店做過案例。書店陳設的本意是要顧客在店里轉一個圈然后回到出發點附近的交銀臺,把所有類型的書在這條軌跡上都曝光出來。但飛瑞斯依據人臉對每一個跟蹤后的軌跡圖顯示,大部分人都在交銀臺附近的區域打轉并沒有進入到書店深處。接下來書店做了調整包括把門口跟深處的書籍類型調換,之后,進店客流大部分都會按照書店本意把一大圈走完,逗留時間和業績隨之提升。
服務還可由面到點。一家門店的大部分利潤是從小部分重要客戶那里賺到的。但這些重要客戶卻未必是持有VIP卡的人。持卡的人未必常來,常來的人未必持卡。
人臉識別又派上用場。一個人一進門,攝像頭傳回圖像瞬間匹配此人之前的消費記錄,服務員會在他落座之前就迎上前去說:程先生您又來了,還是做靠窗的位置吧,像上次那樣要一壺水果茶?買單時再說:您一個月光顧本店四次,我們給你八折優惠。
這并非臆想。有家大銀行已經開始使用此類服務。
做Kinect還是PrimeSense?
也許你已經看到了問題,人臉識別和智能視覺的應用遍布多領域,但作為一家掌握核心技術的公司是否要同時進入這些領域?以零售業為例,店鋪需要的信息是如何改進我的店鋪陳設的具體建議,單純的用戶行走軌跡是不能直接拿來用的。
簡言之,一家技術公司如何對眾多行業給出具體方案。VC們拋給飛瑞斯的問題就是:你有價值,但你的邊界在哪里。你所在的是一個全新世界。
不過單純從初衷出發,也許所有掌握人臉識別核心技術的公司都想成為這個領域的PrimeSense。
微軟游戲機Kinect利用對人體姿勢的識別創造了有趣的運動體驗。但為Kinect注入識別能力的是以色列公司PrimeSense,Kinect這是為這個能力找到了用武之地并且制造出了消費者能玩起來的設備。
PrimeSense提供高精準度但同時低成本的3D動作識別技術,這些技術都體現在一塊芯片上。微軟、華碩這些產品制造商直接采購芯片。PrimeSense的網站上這樣介紹自己:我們是一家B2B公司,但我們專注于為客廳里的人們提供互動體驗。
但飛瑞斯想成為PrimeSense的夢想在中國的現實里被擊得粉碎。
王道江這幫人創業的第一想法是把集成了人臉識別的核心技術做成嵌入式軟件賣給各個行業的企業,再由企業去開發特定的產品賣給最終用戶,比如人臉打卡機。這里卻有三道門檻。
第一道是配套能力。王道江接觸了中國80%的安防企業,想把芯片,也就是嵌入式解決方案賣給他們幫助識別通緝犯、識別破門而入的竊賊等等。所有安防企業都說這個東西好,但就是不肯掏錢買。因為他們沒有能力消耗這個方案。要用上這個方案需要硬件和軟件的一整套配合,相關的常規基礎極少企業具備。
第二道是需求激發。對于可以用到人臉識別的各個領域的市場機會,大部分的人都還沒有看到,因為陌生。在喬布斯把觸摸交互用到手機上做出iPhone之前,沒人做這件事。難怪老爺子說過,如果去做用戶調研就永遠不會有iPhone。Wii和Kinect等體感游戲的推出也依賴于任天堂、微軟等既有實力又能創新的公司。可惜中國的大部分行業還沒有這樣的公司。前面提到的人臉識別在駕校和商鋪的種種應用,都是王道江這幫人自己找出來的。
第三道是老觀念作祟。老外都清楚這一點,中國人認為軟件不值錢,內容不值錢,工程和硬件才值錢。所以互聯網上鋪天蓋地的盜版,搜索引擎暗中幫忙,微軟在中國賺不到錢還要挨罵。那些對人臉識別有需求的企業都想自己通吃,老板不懂,一問技術都說不難搞,可又一直搞不出來,于是擱在一邊。
結果是:飛瑞斯做不成PrimeSense,卻必須去做Kinect+PrimeSense的合體,于是在各個行業里鋪開。鋪開的前提是和每個行業的專業公司合作。
以零售業為例。飛瑞斯采集的數據需要結合專業技能才能得出連鎖店主看得懂、能立馬用上的建議。于是飛瑞斯聯合了零售業調研公司益普索Ipsos出高端分析報告。我看到一份給某日本著名連鎖超市的PPT,里面給出了一家店鋪在周末銷售低迷的數字,指出原因來自店鋪里某個特定區域的轉化率不高。如果這一區域的轉化率與日常水平持平,那么這家店鋪可以在一年內新增380萬的銷售額。
這份報告的背后又顯示了飛瑞斯在商業模式上的另一個轉變。最開始打算賣芯片+方案,到后來妥協成賣產品比如人臉識別器,但在面對連鎖超市這個真正的客戶時,飛瑞斯再次調整,賣服務,也就是分析報告。
賣產品的阻力顯而易見。一套人臉識別再加上數據處理設備市面上價格是幾千,幾百個連鎖店一次性采購的成本不低,況且獲取的數據不能直接為店長所用。
但賣服務的好處顯而易見,飛瑞斯賣的是一周一次的分析報告,一個門店一個月500塊。對于動輒可能幾萬幾十萬提升銷售額的建議,500塊是毛毛雨。而攝像頭等硬件的部署是飛瑞斯免費提供,這一套的成本千元以下,幾個月就收回成本,往后都是利潤。
再以客車監控為例。每輛客車上裝三個攝像頭就能監控是否超載、駕駛員是否為本人、駕駛員是否疲勞駕駛(通過眼睛和眼球的信息抓可以實現)、是否中途有人上車等等。一輛車每月收費500,就能節約人力。成都市一家客運公司已經給飛瑞斯下了單。
再算總體規模。
廣東省的連鎖店鋪有8萬家,按每個店鋪500塊的月服務費,廣東省一年有4個億的市場規模,全國估計有80個億。
全國的兩客一危車輛,也就是大客車、危險物品運送車有90萬,按照每個月500收費一個月是4.5億,一年60億,平均一個省2億。7月24號國務院發文,要在源頭上減少馬路殺手,其中的重點就是瞄準兩客一危。
這兩個是已經被證明能激發出上規模的市場需求的例子。而基于視頻識別的實際應用還相當之多,有些需求真是光怪陸離。
例1。通過監控大量蛇的行動軌跡來預測地震。是的,連人臉都能識別,蛇是小菜一碟。還通過監控田里老鼠的數量來適度的投放農藥。
例2。把攝像頭駕到副駕駛上,讓富太太通過手機隨時知道富老公轎車的副駕上坐的是誰。
例3。在一個熊貓玩具的眼睛里植入攝像頭,看見小孩子笑,熊貓就跟著笑。當小孩子拿一個蘋果給它,熊貓就說:Apple。
例4。在機場沿線的大廣告欄上駕個攝像頭,數出路過的車輛的確切數目,按實際效果計算廣告費。
例5。在歌廳、廣場等公共場合裝攝像頭,一旦現場數量超過一定密度就立刻后臺預警,防止爆發公眾事件。這對維穩價值重大。
當然,王道江要對95%的需求說NO。他沒精力去每個領域找到合適的專業合作方,他最終要做的還是PrimeSense,專注于核心識別技術,做標準、賣芯片就行。再依靠芯片的大規模制造搶得成本的優勢并抬高研發和制造的門檻。這樣才有可能在5-10年技術領先被后來者追平后還屹立不倒。
萬事俱備,守望爆發
王道江2005年在一個叫科佳的圖像識別公司認識了工程師戴衛東。戴衛東對人臉識別著迷,覺得這玩意能搞大。但那時人臉識別要一套東西,還要拖一臺電腦做視頻處理和運算,貴而笨重。當時王道江跟戴衛東說,什么時候人臉識別能做到嵌入式,也就是不需要電腦拖著,我們就干。
2007年戴衛東對王道江說:能做到嵌入式了。1個月后飛瑞斯創立,天使投資同時到賬。但人臉識別要產業化需要具備的條件太多了。嵌入式只是其中之一。不過好在這兩個家伙不僅有膽量而且非常幸運。那么多必要條件忽然在2010年前后全部具備。
看一看如下這五個方面,你就會明白為什么這個產業算是平地起風云。
第一,識別技術。
以2000年為界人臉識別有了質的突破。之前20年里識別人臉都依賴于人的五官之間的相互距離這一類參數。但在2000年之后開始對臉上紋理做識別,這一下子把精確度從60%拉上90%,到2010年左右一直提到95%。FBI正在研究下一代人臉識別,在馬路上對遠距離的識別精準度也會到90%,將直接用于反恐。
第二,攝像技術。
你也許會問,如何能做到對臉上紋理做識別呢?原因之一是民用數碼相機的像素從2000年左右的10萬拉高到2005年的幾百萬,到現在是上千萬。一個30萬像素的相機能識別1米內的人臉,500萬像素能識別10米。這樣十字路口的攝像頭對路過的人基本都搞定。
第三,計算能力。
像素越高、數據越多,要求的CPU處理能力要強。摩爾定律至今有效。2010年多核處理器開始普及到智能手機中,為快速運算海量數據準備了物質條件。還有人說,人臉識別的需求將引發芯片公司下一次大爆發。
第四,嵌入式芯片。
只有嵌入式芯片才能幫助識別技術迅速普及到各種終端上。以2001年為分界線,之前嵌入式芯片只能做簡單的控制命令,之后可以處理邏輯。但2001年時相當昂貴。到今天成本一路下降到5美金左右,才可大規模民用。
上面四點加到一起,讓一套人臉識別設備從10年前的幾萬塊下降到現在的幾百塊。
第五,攝像頭普及。
工具有了,剩下還需要原料。也就是有足夠多的攝像頭隨時隨地把人臉拍下來。中國一線城市在2004年啟動了平安城市工程,要在主要街道抓拍車牌等視頻信息,后來北京等城市逐漸增加了抓拍人臉的需求,以及相應的增加了錄像、存儲和監控設置。現在深圳市有25萬個攝像頭,核心地段每平米就有1個。
到此為止,萬事俱備。
對于未來的世界。戴衛東這樣描述:
我們可以不再依據臉來識別人的身份,而可以依據步態。你走路的樣子就能暴露你是誰,攝像頭就算離你有100米遠也能精確判斷。你微小的一點表情,也許你對面的人都沒覺察,但計算機已經知道你不高興了。說不定用不了幾年,Google Glass上就會這樣的提示。
酷吧。