熟女俱乐部五十路二区av,又爽又黄禁片视频1000免费,国产卡一卡二卡三无线乱码新区,中文无码一区二区不卡αv,中文在线中文a

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 快速瀏覽軟件工程中的代理/生成式AI

快速瀏覽軟件工程中的代理/生成式AI

作者: 時(shí)間:2025-07-24 來(lái)源: 收藏

代理方法現(xiàn)在很熱門(mén),因?yàn)閱蝹€(gè) LLM 模型似乎僅限于點(diǎn)工具應(yīng)用。每個(gè)這樣的應(yīng)用程序都令人印象深刻,但仍然是我們想要自動(dòng)化的更復(fù)雜的推理任務(wù)鏈中的一個(gè)步驟,代理方法應(yīng)該在其中大放異彩。我一直聽(tīng)說(shuō) (SWE) 團(tuán)隊(duì)在 AI 采用方面比硬件團(tuán)隊(duì)進(jìn)步得更快,因此認(rèn)為對(duì)狀態(tài)進(jìn)行快速現(xiàn)實(shí)檢查會(huì)很有用。本著這個(gè)想法的精神,我使用 Gemini Deep Research 來(lái)尋找本文的來(lái)源,有選擇地抽樣它提供的一些調(diào)查,同時(shí)添加一些我自己的發(fā)現(xiàn)。我的快速總結(jié)是,首先,什么算作進(jìn)步取決于應(yīng)用:基于便利性的使用模型在今天更容易實(shí)現(xiàn),精確的使用模型也是可能的,但更有限。其次,在自動(dòng)化子任務(wù)方面,進(jìn)步更為明顯,這些子任務(wù)受制于交叉檢查和人工監(jiān)控的自然框架,而不是免提的全面 SWE 目標(biāo)。

自動(dòng)化帶來(lái)便利

一篇有趣的論文建議,我們應(yīng)該從出于方便需求的應(yīng)用程序轉(zhuǎn)向基于提示的查詢,以服務(wù)于相同的目標(biāo)。原則上,這種方法比應(yīng)用程序做得更好,因?yàn)榛谔崾镜南到y(tǒng)消除了應(yīng)用程序開(kāi)發(fā)的需要,可以通過(guò)我們都使用的語(yǔ)言進(jìn)行控制,而不需要神秘的人機(jī)界面,并且可以更容易地適應(yīng)需求的變化。

有效的提示工程可能仍然比我們希望的更像一門(mén)藝術(shù),但作者建議我們可以學(xué)習(xí)如何變得更有效,并且(我的解釋)也許我們只需要學(xué)習(xí)一次這項(xiàng)技能,而不是為每個(gè)獨(dú)特的應(yīng)用程序?qū)W習(xí)。

即使是技術(shù)工程師也需要這種支持,不是在深度開(kāi)發(fā)或分析中,而是在常規(guī)但重要的問(wèn)題上:“還有誰(shuí)在使用這個(gè)功能,最近使用它是什么時(shí)候,其他人看到了什么問(wèn)題?傳統(tǒng)上,這些問(wèn)題可能可以通過(guò)幫助庫(kù)或內(nèi)部數(shù)據(jù)管理應(yīng)用程序來(lái)回答,但是如果您想將問(wèn)題與該應(yīng)用程序范圍之外的其他來(lái)源或約束交叉怎么辦?在硬件開(kāi)發(fā)中,想象一下,如果您可以對(duì)所有設(shè)計(jì)數(shù)據(jù)(規(guī)范、用例、源代碼、日志、波形、修訂等)進(jìn)行基于提示的搜索,那么發(fā)現(xiàn)能力會(huì)有多大。

自動(dòng)化精密開(kāi)發(fā)

本文描述了一個(gè)代理系統(tǒng),用于開(kāi)發(fā)相當(dāng)復(fù)雜的功能,包括人臉識(shí)別系統(tǒng)、聊天機(jī)器人系統(tǒng)、口罩檢測(cè)工具、蛇游戲、計(jì)算器和井字游戲,使用基于LLM的代理系統(tǒng)進(jìn)行管理、代碼生成、優(yōu)化、QA、迭代細(xì)化和最終驗(yàn)證。它聲稱與標(biāo)準(zhǔn)基準(zhǔn)相比代碼準(zhǔn)確率為 85% 或更高,可在幾分鐘內(nèi)構(gòu)建和測(cè)試這些系統(tǒng)。在 85% 的準(zhǔn)確率下,我們?nèi)匀槐仨氉裱跏即a,開(kāi)發(fā)人員努力驗(yàn)證和糾正生產(chǎn)質(zhì)量。但假設(shè)這種準(zhǔn)確性水平是可重復(fù)的,那么不難相信,即使經(jīng)過(guò)幾周或幾個(gè)月的開(kāi)發(fā)人員測(cè)試和改進(jìn),在不損失質(zhì)量的情況下生產(chǎn)力的凈收益也可以是相當(dāng)可觀的。

另一篇論文指出,在 SWE 中,自動(dòng)開(kāi)發(fā)的代碼仍然存在信任問(wèn)題。然而,他們補(bǔ)充說(shuō),大多數(shù)大規(guī)模軟件開(kāi)發(fā)更多的是從多個(gè)來(lái)源組裝代碼,而不是從頭開(kāi)始開(kāi)發(fā)代碼。這將信任問(wèn)題變成了您可以信任多少組件和組件。我猜他們認(rèn)為 DevOps 中的組裝相對(duì)微不足道,但在硬件設(shè)計(jì)中,SoC 級(jí)組裝(甚至多芯片系統(tǒng)組裝)更復(fù)雜,盡管仍然主要是機(jī)械的而不是創(chuàng)造性的。出錯(cuò)的范圍肯定比從頭開(kāi)始創(chuàng)建一個(gè)全新的函數(shù)要有限。我知道十多年前有一個(gè)基于人工智能的系統(tǒng),它可以為 SoC 創(chuàng)建大部分集成基礎(chǔ)設(shè)施——時(shí)鐘、復(fù)位、中斷、總線結(jié)構(gòu)等。這早在我們聽(tīng)說(shuō)法學(xué)碩士和代理之前。

同時(shí),代理/生成式人工智能不僅對(duì)代碼開(kāi)發(fā)有用。工具似乎可以自動(dòng)化測(cè)試設(shè)計(jì)、生成和執(zhí)行、調(diào)試以及更普遍的 DevOps。其中許多系統(tǒng)實(shí)際上相互交叉檢查,并輔以人工監(jiān)督。錯(cuò)誤可能會(huì)發(fā)生,但可能不會(huì)比在無(wú)人工智能系統(tǒng)中更嚴(yán)重。

方便、精確還是兩者兼而有之?

工程師癡迷于精度,尤其是在人工智能方面。但我們一天中所做的大部分事情都不需要精確。如果我們能快速得到“足夠好”的答案,它們就可以了。搜索、總結(jié)電子郵件或論文中的要點(diǎn)、生成文檔初稿,這些都是我們依賴(或希望)快速且“足夠好”的首次通過(guò)的便利性的領(lǐng)域。另一方面,在某些情況下,精度至關(guān)重要。對(duì)于金融交易、噴氣發(fā)動(dòng)機(jī)建模、邏輯仿真,我們希望得到最準(zhǔn)確的答案,而“足夠好”是不夠好的。

即便如此,精密應(yīng)用仍然具有優(yōu)勢(shì)。如果人工智能能夠非??欤◣追昼姡┨峁┮粋€(gè)足夠好的起點(diǎn),并且如果我們能夠通過(guò)接受超越該起點(diǎn)的改進(jìn)和驗(yàn)證的需求來(lái)管理我們的期望,那么縮短時(shí)間表和減少工作量的凈收益可能是值得投資的。只要您能對(duì)人工智能系統(tǒng)可以提供的質(zhì)量建立信任。

順便說(shuō)一句,我自己的經(jīng)驗(yàn)(我在 Gemini、Perplexity 和 Chat GPT 中嘗試了深度研究 (DR) 選項(xiàng))支持了我的結(jié)論。每個(gè) DR 分析在 ~10 分鐘內(nèi)出現(xiàn),對(duì)我來(lái)說(shuō)主要是他們提供的參考資料而不是 DR 摘要。其中一些參考資料對(duì)我來(lái)說(shuō)是新的,有些我已經(jīng)知道了。如果我的研究純粹是為了我自己的興趣,這可能就足夠了。但我想更準(zhǔn)確,因?yàn)槲业哪繕?biāo)是提供可靠的見(jiàn)解,所以我也通過(guò)更傳統(tǒng)的在線圖書(shū)館尋找其他參考資料。事實(shí)證明,結(jié)合這兩種方法是富有成效的!



關(guān)鍵詞: 軟件工程 AI 代理 生成式AI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉