首位“AI軟件工程師”亮相引爆科技圈
【科技創新世界潮】(317)
◎記者 張夢然
一家成立不到兩(liang) 個(ge) 月但擁有十名天才工程師的初創公司Cognition,搞了一個(ge) 引爆科技圈的大動作。
他們(men) 推出了一款名為(wei) Devin的人工智能(AI)助手,可以協助人類軟件工程師完成諸多開發任務。Devin不同於(yu) 現有其他AI編碼者,它可以從(cong) 零構建網站、自行部署應用、修複漏洞、學習(xi) 新技術等,人類隻需扮演一個(ge) 下指令和監督的角色。
這是第一個(ge) 真正意義(yi) 上完全自主的AI軟件工程師,一亮相即掀起軒然大波,因為(wei) 人們(men) 擔心:人類程序員是不是真要失業(ye) 了?
測試表現超越“同輩”
據Cognition官網報道,Devin隻需一句指令,即可端到端地處理整個(ge) 開發項目。
按照用戶需求,Devin可以同時執行多步驟工作流程,人類工程師則可以實時觀察其進度,發現錯誤時,跳出指令進行修正。這便於(yu) 工程師們(men) 將大部分工作“外包”給AI,自己則可以潛心於(yu) 創意性工作。
在SWE-bench基準測試中,Devin的表現遠超Claude 2、Llama、GPT-4等選手,能夠完整正確地處理13.86%的問題。相較之下,GPT-4隻能處理1.74%的問題。更重要的是,Devin在測試中沒有得到任何幫助,而其他所有模型都需要幫助,即人們(men) 要準確告知模型需要編輯哪些文件。
這一進展,標誌著AI在自主理解和解決(jue) 軟件開發問題方麵取得了顯著進步。目前,Devin已經成功通過一家AI公司麵試,並且在Upwork上完成了實際工作。
運作幾乎完全自主
Devin的厲害之處,還在於(yu) 可以規劃和執行異常複雜的工程任務,這類任務通常需要數千個(ge) 決(jue) 策才能完成。在這之中,無論進行到任何一步,它都可以回調所有相關(guan) 的上下文信息,保證任務的邏輯性,也便於(yu) 隨時校正。
更讓人震撼的是,Devin不僅(jin) 能幫人們(men) 解決(jue) 代碼,還囊括了與(yu) 之相關(guan) 的整個(ge) 工作流。
譬如,當工程師需要設計一個(ge) 網頁遊戲時,Devin首先能生成網頁,接著還能完成服務端的部署,最後直接發布上線,省去了中間大量人工操作。甚至在發現漏洞之後,Devin還會(hui) 回溯報錯出現的位置及對應的數據,然後分析原因並給出解決(jue) 方案。
此外,作為(wei) 一個(ge) AI全能助手,Devin還可以幫助人類訓練和微調其他AI。對於(yu) 一些常見的模型,你隻需要提及模型的名稱,Devin自己就知道要怎樣去訓練。
那人們(men) 需要做什麽(me) 呢?按設想,最終的Devin會(hui) 讓人類隻需要發號施令,其他什麽(me) 也不用做。
對軟件開發業(ye) 影響深遠
初創公司Cognition雖然隻有十名員工,但他們(men) 手中卻握著十塊IOI(國際信息學奧林匹克競賽)金牌,核心創始團隊為(wei) 3名華人。
Devin現處於(yu) 內(nei) 測階段,有意用戶可申請提前試用。目前,團隊尚未透露更多核心技術細節,但他們(men) 表示,Devin源於(yu) 其長期推理及規劃研究的進展。編碼隻是第一步,這一AI助手其實可推廣到更寬領域。
Devin的出現,可能對軟件開發行業(ye) 產(chan) 生深遠影響,甚至可能減少對人類開發者的需求。但須注意到,該技術仍處於(yu) 早期階段,其成熟度和效果需要業(ye) 界作進一步評估。
就目前而言,Devin的成功可以說為(wei) 當今軟件開發人員帶來更新更好的AI協作體(ti) 驗。人們(men) 從(cong) 繁瑣工作中“解放”,隻需監督AI係統去處理,而自己將精力投入到創新性任務上,實現生產(chan) 力的真正提高。
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。