文章目錄
- 主要疑點包括但不限于:
- 35年從業者逐幀驗證
AI程序員還是代替不了程序員,震撼硅谷的Devin-ai程序員,再度震撼硅谷——但這次是被打假
一位油管程序員博主Internet of Bugs對Devin發布的視頻進行了逐幀分析,逐一舉證說明了Devin并不如演示中那般擁有程序員開發能力。
甚至有“自己現寫bug然后當場修復”的騷操作。
主要疑點包括但不限于:
-
號稱能解決任何Upwork任務,但演示中解決的問題并不是prompt要解決的那一個,做無用功;
-
看起來在修復bug,實際上修復的bug人類程序員根本就不會犯;
-
沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞復雜了;
-
修改代碼的水平一言難盡。
-
Devin所處理的任務并非隨機,而是精心挑選;與客戶實際需求有很大的出入
Internet of Bugs花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。
要知道,其背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。
推特和YC上已經吵翻天了,讓這件事的討論度高居不下。
演示造假讓demo看起來輕松達到意料之外的技術進步。
35年從業者逐幀驗證
此次出來聲張正義的Internet of Bugs,從事軟件行業已經35年。他首先聲明自己的立場:“我并不反對高科技,但我確實反對過度炒作”。
他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
此次則主要針對的是一些更為具體的說法。
比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin并沒有做到這一點。
不信?沒關系,Internet of Bugs帶著逐幀的證據來了。
總結如下:
Devin所處理的任務并非隨機,而是精心挑選;
與客戶實際需求有很大的出入;
實際操作過程,數次自己創造bug然后再修復;
很多毫無意義的操作,相當于幾十年前在C語言中才用的方法;
首先,來到了演示視頻的2.936秒處
,在屏幕左上角有顯示他們搜索過這個內容。因此,這不是所謂“隨機”選擇的任務。
再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”
但給到Devin的需求卻是:我希望利用這個模型在這個庫中進行推理。請自己弄明白。
最后視頻末尾出現的Devin生成報告中,也沒有提及客戶實際需要的內容。
那么,這份工作的最終交付成果應該包括什么呢?
但Devin實際做了什么?
Devin第一次真正的嘗試,是它修改了一個名為requirements.txt文件
,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼,但實際上更像是修改配置文件。
然后根據需求,需要Devin能建立自己的推理能力,并僅需使用樣例數據即可。但實際項目要比這個復雜得多。
結果很快,Devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時并沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。
這相當于Devin自己創建了個bug
,然后再修復bug
。在接下來的操作中,Devin經歷了很多次這樣的“自建自修”。
不能說十分有用,只能說完全沒有必要。
接下來,再來看看代碼庫中這樣一個readme文件
。正如視頻所展示的那樣,readme文件
清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以復制整條命令,然后粘貼到命令行窗口中,按下回車即可運行。
但Devin完全沒能理解,而又是自創了個項目。而寫的那段從緩沖區讀取數據的代碼十分糟糕。
于是Internet of Bugs發出了靈魂拷問:
“這不就是幾十年前在C語言等中才用的方法嗎???”
這種做法顯然已經過時,正常人用Python
誰還會再寫這個代碼。這種代碼很難調試,它邏輯復雜,難以理解,很容易出現細微的錯誤。
此外,代碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。
然后Internet of Bugs用谷歌搜索,按照GitHub
上一條相關評論修改了代碼,只花了1分07秒
,問題就解決了。
最終Internet of Bugs總共花了35分55秒
復現了Devin的工作,而Devin實際花了多長時間呢?
如果細看視頻Demo,就會發現Devin處理工作前后有6個小時20分鐘
的間隔。
視頻的前部分顯示的是3月9日下午3:25
的時間戳,但后半部分卻顯示的是當天晚上9:41
。
而逐幀細看就有會發現一些奇怪且毫無意義的操作。
比如head -N 5 results.json | tail -N 5
這個命令,它表示取這個JSON
文件的前五行,然后再取這些行的最后五行。
正確的做法應該是”head-5 results.json”
。那個-N
是多余的。只要說-5
就可以,不需要那些多余的東西。
最后Internet of Bugs銳評,AI現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更為復雜。
當看到它的任務列表時,會覺得:哇,Devin做了很多事情。但實際上可能并非如此。
網友:至少掌握了看起來很忙的技巧
對于此次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。
你對此這么看?
參考鏈接:
https://www.thepaper.cn/newsDetail_forward_27026926
您好,我是肥晨。
歡迎關注我獲取前端學習資源,日常分享技術變革,生存法則;行業內幕,洞察先機。