AI程序員還是代替不了程序員,震撼硅谷的Devin-ai程序員,再度震撼硅谷——但這次是被打假

在這里插入圖片描述

文章目錄

    • 主要疑點包括但不限于:
    • 35年從業者逐幀驗證


AI程序員還是代替不了程序員,震撼硅谷的Devin-ai程序員,再度震撼硅谷——但這次是被打假

一位油管程序員博主Internet of Bugs對Devin發布的視頻進行了逐幀分析,逐一舉證說明了Devin并不如演示中那般擁有程序員開發能力。

甚至有“自己現寫bug然后當場修復”的騷操作。

主要疑點包括但不限于:

  1. 號稱能解決任何Upwork任務,但演示中解決的問題并不是prompt要解決的那一個,做無用功;

  2. 看起來在修復bug,實際上修復的bug人類程序員根本就不會犯;

  3. 沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞復雜了;

  4. 修改代碼的水平一言難盡。

  5. Devin所處理的任務并非隨機,而是精心挑選;與客戶實際需求有很大的出入

Internet of Bugs花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。

要知道,其背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。

推特和YC上已經吵翻天了,讓這件事的討論度高居不下。

演示造假讓demo看起來輕松達到意料之外的技術進步。

35年從業者逐幀驗證

此次出來聲張正義的Internet of Bugs,從事軟件行業已經35年。他首先聲明自己的立場:“我并不反對高科技,但我確實反對過度炒作”。

他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

此次則主要針對的是一些更為具體的說法。

比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin并沒有做到這一點。

不信?沒關系,Internet of Bugs帶著逐幀的證據來了。

總結如下:

Devin所處理的任務并非隨機,而是精心挑選;

與客戶實際需求有很大的出入;

實際操作過程,數次自己創造bug然后再修復;

很多毫無意義的操作,相當于幾十年前在C語言中才用的方法;

首先,來到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過這個內容。因此,這不是所謂“隨機”選擇的任務。


再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”


但給到Devin的需求卻是:我希望利用這個模型在這個庫中進行推理。請自己弄明白。


最后視頻末尾出現的Devin生成報告中,也沒有提及客戶實際需要的內容。


那么,這份工作的最終交付成果應該包括什么呢?


但Devin實際做了什么?

Devin第一次真正的嘗試,是它修改了一個名為requirements.txt文件,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼,但實際上更像是修改配置文件。


然后根據需求,需要Devin能建立自己的推理能力,并僅需使用樣例數據即可。但實際項目要比這個復雜得多。

結果很快,Devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時并沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。

這相當于Devin自己創建了個bug,然后再修復bug。在接下來的操作中,Devin經歷了很多次這樣的“自建自修”。

不能說十分有用,只能說完全沒有必要。

接下來,再來看看代碼庫中這樣一個readme文件。正如視頻所展示的那樣,readme文件清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以復制整條命令,然后粘貼到命令行窗口中,按下回車即可運行。

但Devin完全沒能理解,而又是自創了個項目。而寫的那段從緩沖區讀取數據的代碼十分糟糕。


于是Internet of Bugs發出了靈魂拷問:

“這不就是幾十年前在C語言等中才用的方法嗎???”

這種做法顯然已經過時,正常人用Python誰還會再寫這個代碼。這種代碼很難調試,它邏輯復雜,難以理解,很容易出現細微的錯誤。

此外,代碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。

然后Internet of Bugs用谷歌搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題就解決了。

最終Internet of Bugs總共花了35分55秒復現了Devin的工作,而Devin實際花了多長時間呢?

如果細看視頻Demo,就會發現Devin處理工作前后有6個小時20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3:25 的時間戳,但后半部分卻顯示的是當天晚上9:41


而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如head -N 5 results.json | tail -N 5這個命令,它表示取這個JSON 文件的前五行,然后再取這些行的最后五行。

正確的做法應該是”head-5 results.json”。那個-N 是多余的。只要說-5就可以,不需要那些多余的東西。

最后Internet of Bugs銳評,AI現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更為復雜。

當看到它的任務列表時,會覺得:哇,Devin做了很多事情。但實際上可能并非如此。

網友:至少掌握了看起來很忙的技巧

對于此次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。


你對此這么看?

參考鏈接:
https://www.thepaper.cn/newsDetail_forward_27026926

您好,我是肥晨。
歡迎關注我獲取前端學習資源,日常分享技術變革,生存法則;行業內幕,洞察先機。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38695.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38695.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38695.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C語言】register 關鍵字

在C語言中,register關鍵字用于提示編譯器將變量盡量存儲在CPU的寄存器中,而不是在內存中。這是為了提高訪問速度,因為寄存器的訪問速度比內存快得多。使用register關鍵字的變量通常是頻繁使用的局部變量。 基本用法 void example() {regist…

貓頭虎分享[可靈AI」官方推薦的馴服指南-V1.0

貓頭虎分享[可靈AI」官方推薦的馴服指南-V1.0 貓頭虎是誰? 大家好,我是 貓頭虎,別名貓頭虎博主,擅長的技術領域包括云原生、前端、后端、運維和AI。我的博客主要分享技術教程、bug解決思路、開發工具教程、前沿科技資訊、產品評…

Git 基礎-創建版本庫 git init、添加到暫存區git add、查看狀態git status、查看改動git diff

目錄 1.創建版本庫 git init 1.創建版本庫 git init 在目錄中創建新的 Git 倉庫。 你可以在任何時候、任何目錄中這么做,完全是本地化的。 在目錄中執行 git init,就可以創建一個 Git 倉庫了。 注意: 沒事不要手動修改 .git 目錄里面的文件,不…

Nginx Http緩存的必要性!啟發式緩存有什么弊端?

👀 Nginx Http緩存的必要性!啟發式緩存有什么弊端? 簡介啟發式緩存引發的問題nginx緩存配置 簡介 我們在使用React或者Vue開發項目中會使用hash、chunkhash、contenthash來給靜態資源文件進行命名。這帶來的好處便是當我們部署完項目后&…

安卓微商大師V3.4.0/高級版一鍵群發僵尸粉檢測

一款高效獲取客源,備受好評的微商工具,資源豐富,秒速獲得客源,大量群客源,都是散客,攜手創業,是做微商生意的首選工具。打開即是黑鉆高級會員 趕快體驗吧 很強大 鏈接:https://pan.…

2023ICPC亞洲區域賽(合肥)VP補題題解(48th)

2023ICPC亞洲區域賽(合肥)VP補題題解記錄 文章目錄 2023ICPC亞洲區域賽(合肥)VP補題題解記錄寫在前面已更新 E F G J,待更新 B I C F and E(簽到題和簡單題)G. Streak Manipulation題目大意題目分析ac代碼參考 J. Takeout Delivering題目大意題目分析ac代碼參考 寫在…

CSS-position/transform

1 需求 2 語法 在CSS中,positioning 和 transform 是兩個非常重要的概念,它們分別用于控制元素在頁面上的布局和變換。 Positioning CSS中的position屬性用于設置元素的定位類型。它有幾個值,包括: static:這是默認…

51單片機第12步_使用stdio.h庫函數仿真串口通訊

本章介紹如何使用stdio.h庫函數仿真串口通訊,學會使用view下面的“serial window #1”,實現模擬串口通訊。 Keil C51中有一些關鍵字,需要牢記: interrupt0:指定當前函數為外部中斷0; interrupt1:指定當前函數為定時器0中斷&…

MAC下的PDM工具

還在為MAC電腦下數據庫設計發愁嗎?從Windows切換到MAC,除了因為做蘋果開發以外,更大的一個理由是不想被工具束縛,使用習慣不一樣,不要緊。就像錢一樣,當我們成為錢的習慣就成為錢的奴隸了。但是用MAC一年多…

Java程序設計課后習題(答案版) 期末復習

第一章 Java語言概述 一、選擇題 下面哪種類型的文件可以在Java虛擬機中運行?( A ) A. class B. Java C. jre D. exe 如果JDK 的安裝路徑為“d:\jdk”,若想在命令窗口中任何當前路徑下,都可以直接使用javac和java命令,需要將環境變量path設…

攜手共筑愛的橋梁:引導接納自閉癥同學

在孩子的班級中,當自閉癥兒童成為我們共同的一員時,作為老師和家長,我們肩負著特別的責任——引導孩子們以開放的心態接納、善待并關愛他們。 首先,我們要以身作則,展現接納與尊重。無論是老師還是家長,都…

筆記:Git學習之應用場景和使用經驗

目標:整理Git工具的應用場景和使用經驗 一、開發環境 Git是代碼版本控制工具;Github是代碼托管平臺。 工具組合:VSCode Git 需要安裝的軟件:vscode、Git 其中vscode需要安裝的插件:GitLens、Git History 二、應用…

沒有析構函數的子類

在C中,如果一個類沒有定義析構函數,編譯器會為其生成一個默認的析構函數。這個默認析構函數會按照以下方式工作: 析構基類:如果類是從一個基類繼承而來的,默認析構函數會調用基類的析構函數。 析構成員:默…

倉庫貨物管理系統

摘 要 隨著信息技術的迅猛發展,大數據已經成為推動各行各業變革的重要力量。特別是在物流倉儲領域,大數據技術的應用不僅能夠顯著提升倉庫貨物管理的效率,還能夠優化庫存管理、減少成本、提高客戶滿意度。因此,基于大數據的倉庫貨…

webstorm 高效查看不同分支差異 摒棄你的git diff手動操作

背景 每次代碼沖突或者版本發生異常時,排查不同版本時就是一個頭大的問題,頭大的點在于用 vscode 的 git diff 一點點地排查和比較,耗時耗力,版面展不開,commit 差異看不出來,每個頁面的代碼不同也不能快速…

2007-2023年36家商業銀行綠色信貸、期末貸款總額、銀行總資產等相關指標數據(2023年無缺失)

2007-2023年36家商業銀行綠色信貸數據(2023年無缺失) 1.時間:2007-2023年,2023年無缺失 2.來源:銀行年報和社會責任報告 3.指標:綠色信貸余額、期末貸款總額、綠色信貸比率、總資產收益率、流動性比率、撥備覆蓋率、…

使用Linux的openssl生成https的ssl密鑰,然后自己簽名

新建一個文件夾 mkdir all_https_ssl cd all_https_ssl第一步: 生成一個密鑰,長度自定,比如2048(防止有些應用要求密鑰長度不能太短) openssl genrsa -out key.pem 2048第二步: 使用私鑰來生成證書請求…

最優化方法Python計算:標準型線性規劃的輔助問題

對標準型線性規劃 { minimize c ? x s.t. A x b x ≥ o ( 1 ) \begin{cases} \text{minimize}\quad\quad\boldsymbol{c}^\top\boldsymbol{x}\\ \text{s.t.\ \ \ \ }\quad\quad\quad\boldsymbol{Ax}\boldsymbol{b}\\ \quad\quad\quad\quad\quad\quad\boldsymbol{x}\geq\b…

軟件資產管理系統:提升企業透明度與合規性的終極解決方案!

在當今數字化時代,企業軟件資產的管理變得愈發復雜和重要。為了幫助企業更好地管理軟件資產、提升透明度和確保合規性,smartlic軟件資產管理系統應運而生。本文將深入探討smartlic系統的核心功能、實施案例及未來展望,為您揭示這一系統如何成…

Linux Ubuntu 20.04.06 安裝Onboard虛擬鍵盤教程

目錄 一、在線安裝 二、源碼安裝 三、包安裝 四、設置 五、禁用系統鍵盤 一、在線安裝 sudo apt-get update #更新軟件源 sudo apt-get install onboard #安裝Onboard sudo apt-get purge onboard # 卸載 安裝后,如果在終端使用命令:onboard 啟…