3 月 13 日,由華人團隊創(chuàng)立的 Cognition Labs 推出了第一個 AI 軟件工程師 Devin,從目前公布的信息來看,說它是目前最強的 AI 軟件工程師似乎一點也不過分,今天直接在 X 上刷屏。
在 SWE-Bench 基礎測試中,無需人類協(xié)助,Devin 就可以解決 13.86% 的問題。而目前的 SOTA 模型,在沒有人類幫忙的情況下,只能完成 1.96% 的任務。

僅從評測結(jié)果看,Devin 解決真實世界軟件問題的能力要遠好于當前的 GPT-4 和 Claude 等模型。
官方發(fā)的推特說,Devin 不僅通過了一家業(yè)內(nèi)領先的人工智能公司的面試,在自由職業(yè)平臺 Upwork 上也能成功接單,完成單主要求的工作。也就是說,Devin 不僅是橫掃基礎測試的「做題家」,在就業(yè)市場里也有人為它的工作能力買賬。
難道繼 Sora 讓「現(xiàn)實世界」不存在了之后,Devin 也要讓「軟件工程」不存在了嗎?
Devin 現(xiàn)在還未對外開放,但已經(jīng)有開發(fā)人員和產(chǎn)品人員用上了。測試過的網(wǎng)友表示,以前一直用人工智能輔助編碼,但一直失敗。直到昨天,他給 Devin 了一個簡單的 HTML 頁面,讓它提取選擇器,這個 GPT-4-turbo 、Claude、Groq 、LLama2 都沒完成的任務,Devin 只用了大約 10 秒就搞定了。
源自 https://news.ycombinator.com/item?id=39679787
當然,對這種說法,也有網(wǎng)友并不買賬,認為這是夸大宣傳。

所以,這位來搶程序員「飯碗」的 AI 軟件工程師的本事到底有多大呢? 參考鏈接 1 :https://zct.ink/news_ai 01
掌握全棧技能,可獨自開發(fā)完整項目
要知道,雖然現(xiàn)在市面上的一系列大模型都有編程能力,但大多數(shù)都采用了單行代碼補全或者單個函數(shù)生成的方式。想生成完整的程序,還需要設計 prompt 逐步「調(diào)教」。
而對 Devin 來說,你只需要向它提要求,坐等其成就可以了。
Devin 配備了包括 shell、代碼編輯器和瀏覽器在內(nèi)的常見開發(fā)工具,這些都在一個沙盒化的計算環(huán)境中 —— 這些都是人類軟件工程師完成工作所需的一切。
根據(jù)自然語言提示自動寫代碼、生成完整的程序并上線只是 Devin 的基操,它可以自動規(guī)劃并執(zhí)行需要數(shù)千個決策的復雜任務。
例如請它在幾個不同的 API 上對 Llama 的表現(xiàn)進行基礎測試,它首先制定了一個逐步解決問題的計劃:

在完成項目的過程中,它使用了瀏覽器為 API 留檔,以便它可以閱讀并學習如何插入這些 API:

遇到意外的錯誤時,Devin 決定先「print」出來,再根據(jù)日志中的錯誤決定如何修復 bug:

最后,它為你構(gòu)建了一個完整的可視化網(wǎng)站:
Devin 能自動完成如此復雜的規(guī)劃,得益于其背后的 Cognition AI 在長期推理和規(guī)劃方面的進展,這使它能夠在每一步回憶相關的上下文,隨時間學習,并修復錯誤。
Devin 擁有積極的協(xié)作的能力,它能實時報告進度,接受反饋,并根據(jù)需要調(diào)整,還能適應成熟的代碼庫,修改前輩留下的 bug:
,時長01:26
自主學習,從完全陌生的知識學習使用不熟悉的技術,也是 Devin 所擅長的。
你給它一篇新博客,講的是如何運行 ControlNet on Modal,生成帶文字的圖像:

它不僅能迅速從中學會所需的代碼,沒過兩秒,工作就自動幫你完成了:
在 Upwork 接的單里,Devin 被要求編寫并調(diào)試運行計算機視覺模型的代碼。它采樣了結(jié)果數(shù)據(jù),最后呈現(xiàn)了一份報告:
,時長02:01
Devin 甚至能夠訓練和微調(diào)自己的 AI 模型,看來 AI 的生命快要在此刻完成閉環(huán)了。僅通過一個 GitHub 倉庫的鏈接,Devin 就微調(diào)了一個大型語言模型:
,時長01:53
OpenSea 前 CTO Alex Atallah 說,這是他使用過的第一個讓他感覺像是在與真實、有用的人交流的 AI 代理。比方說像"查閱文檔以了解如何設置 Docker 容器"和"修復連接數(shù)據(jù)庫的問題"這樣的狀態(tài)更新,再加上能看到 Devin 正在看到的內(nèi)容,使這成為一個真正獨特的體驗。
總體來看,與其他具有編程能力的大模型,Devin 不僅輔助編程或提供代碼片段,它能夠獨立支持一整個項目,而不僅僅是輔助或提供代碼片段的建議。相比于「副駕駛」的角色,Devin 更接近于一個獨立工作者。
而 Cognition AI 聲稱 Devin 實現(xiàn)了在 AI 領域被稱為「理解」的突破,這意味著它能夠不僅是在預測下一個單詞或代碼行應該輸出什么,而是更像在思考如何解決問題的總體方法。
02
技術細節(jié)暫未公開,技術路徑類似自動駕駛
在軟件開發(fā)中應用 AI 并不是什么新鮮事。這個領域已經(jīng)有一些工具了,從流行的 GitHub Copilot 、 StarCoder 到 Replit(它在 Hugging Face 上提供一些小型 AI 編碼模型),再到 Codeium(最近獲得了 6500 萬美元的 B 輪融資,目前估值 5 億美元)。
然而,這些產(chǎn)品的大多數(shù)主要集中在使用 AI 來協(xié)助編程上。它們可以根據(jù)文本提示生成基礎代碼,結(jié)合 IDE 的相關上下文進行總結(jié),或檢索代碼片段,以加快團隊的工作進度。相比之下,Cognition AI 提供的 Devin 似乎邁進了一大步,已經(jīng)算是一個熟練的 AI 工作者,能夠獨立處理整個項目。
而 Devin 的技術路徑,CognitionAI 并還未公開,只是簡要地提到,Cognition AI 的團隊發(fā)現(xiàn)了將大型語言模型(LLM)如 OpenAI 的 GPT-4 與強化學習技術結(jié)合的獨特方法。這種方法可能是他們技術突破的關鍵點。
看到 Devin 的 Demo 后,剛從 OpenAI 離職的 AI 大牛 Andrej Karpathy 發(fā)表了一些獨到的見解。在他看來,自動化軟件工程的發(fā)展將類似于自動化駕駛,是一個人工智能做的越來越多,而人類的工作越來越少,但仍提供監(jiān)督的過程。 如果你還沒有升級4.0或者還沒有賬號 推薦這篇文章[如何快速升級GPT4.0]
我認為,軟件工程的自動化過程將會與駕駛自動化類似。舉個例子,在自動駕駛技術的進步中,逐步增加的自動化水平和更高層次的抽象處理看起來是這樣的:
首先人類手動執(zhí)行所有駕駛動作 然后 AI 幫助保持車道 然后它為前方的車輛減速 然后它也開始執(zhí)行變道和轉(zhuǎn)彎 然后它也會在路牌/紅綠燈處停車并轉(zhuǎn)彎 最終你拿出一個功能完整的解決方案,然后不斷打磨質(zhì)量,直到實現(xiàn)完全自動駕駛。 AI 做的越來越多,人類做的越來越少,但仍然提供監(jiān)督。在軟件工程中,這一進程也在形成:
首先人類手動編寫代碼 然后 GitHub Copilot 自動補全幾行代碼 然后 ChatGPT 編寫代碼塊 然后你開始處理越來越大的代碼差異(例如 Cursor Copilot++ 風格) Devin 是接下來可能出現(xiàn)的令人印象深刻的演示:它能夠協(xié)調(diào)開發(fā)人員需要集成的各種工具來編寫代碼,比如終端、瀏覽器、代碼編輯器等,并在抽象層次逐漸提升的同時提供人類監(jiān)督。 不僅僅是 AI 部分,UI/UX 部分也有很多工作要做。人類如何提供有效監(jiān)督?他們應該關注什么?如何引導 AI 走向不同的解決方案?出現(xiàn)問題時如何調(diào)試?我們可能需要對代碼編輯器進行重大改進。
不管怎樣,軟件工程正朝著深刻的變革邁進。它的工作方式將越來越類似于監(jiān)督自動化過程,同時提供高級指令、創(chuàng)意或策略,并用英語進行溝通。

03
10 人團隊,2100 萬美元 A 輪融資
Devin 背后公司名為 Cognition AI,總部設在紐約和舊金山,定位是一家專注于推理的應用 AI 實驗室。此前這家公司一直秘密工作,于兩個月前正式注冊成立。
隨著 Devin 的推出,Cognition Labs 也宣布完成了 2100 萬美金的 A 輪融資,由 Funders Fund 領投,跟投的投資人里包括了 Stripe 的兩位兄弟創(chuàng)始人 Patrick Collison 和 John Collison 等。
目前該團隊規(guī)模僅有 10 人,但共攬獲了 10 枚 IOI 金牌,創(chuàng)始成員均曾在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro 等從事 AI 前沿工作。
其中三位創(chuàng)始人信息如下:

從左到右分別為 Steven Hao、Scott Wu、Walden Yan 插個題外話 如果你還沒有升級4.0或者還沒有賬號 推薦這篇文章如何快速升級GPT4.0
**Scott Wu - 首席執(zhí)行官 (CEO)**:Scott 是團隊的領導者,和他的兄弟 Neal Wu 一起,自青少年時期就開始參加并經(jīng)常獲勝于國際編程比賽,曾連續(xù)三年攬獲 IOI 金牌,這些比賽提升了他們的編程能力。Scott 的背景和對算法問題的深入理解為 Cognition AI 的開發(fā)提供了獨特的視角。

Scott Wu 曾連續(xù)三年獲得 IOI 金牌
**Steven Hao - 首席技術官 (CTO)**:Steven之前是Scale AI的頂尖工程師,Scale AI是一家估值很高的初創(chuàng)公司,專注于幫助訓練AI系統(tǒng)。

**Walden Yan - 首席產(chǎn)品官 (CPO)**:Walden 直到最近還在哈佛大學上學,他請求將他在學校的狀態(tài)留作模糊,大概率是想「輟學創(chuàng)業(yè)」。

Walden Yan 在哈佛就讀期間,曾在一年級時獲得第 32 屆 IOI 金牌
除了這三位核心成員,還有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其編程才華在全球范圍內(nèi)享有盛譽,他們自青少年時期起就在國際編碼比賽中競爭并常獲勝利,這些比賽經(jīng)驗幫助他們在編程和解決問題方面擁有獨特的方法。
參考鏈接: https://zct.ink/news_ai https://twitter.com/cognition_labs/status/1767548763134964000
https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant
https://venturebeat.com/ai/cognition-emerges-from-stealth-to-launch-ai-software-engineer-devin/
https://www.cognition-labs.com/blog文章來源:http://www.zghlxwxcb.cn/news/detail-847769.html
本文由 mdnice 多平臺發(fā)布文章來源地址http://www.zghlxwxcb.cn/news/detail-847769.html
到了這里,關于首個AI程序員誕生!已通過公司面試,掌握全棧技能,可獨自開發(fā)完整項目的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!