猫咪av成人永久网站,最近中文av字幕在线中文,精品国产自在久久成人,最近免费中文字幕中文高清6 ,99热这里只有精品免费播放

為了防止有害輸出,AI研究團(tuán)隊開發(fā)了監(jiān)控大型語言模型的工具

摘要:據(jù)Cointelegraph報道,來自人工智能公司AutoGPT、東北大學(xué)和微軟研究院的研究團(tuán)隊開發(fā)了一種監(jiān)控大型語言模型(LLMs)的工具,以防止?jié)撛诘挠泻敵霾⒆柚蛊鋱?zhí)行。研究表明,該代理足夠靈活,可以監(jiān)控現(xiàn)有的LLMs,并在有害輸出(如代碼攻擊)發(fā)生之前將其阻止。...

據(jù) Cointelegraph 報告來自人工智能AutoGPT、東北大學(xué)和微軟研究所的研究團(tuán)隊開發(fā)了一種監(jiān)控大型語言模型的研究團(tuán)隊(LLMs)工具,以避免潛在的有害導(dǎo)出,并防止其執(zhí)行。本代理在一篇題為《野外安全測試語言模型代理》的預(yù)印研究論文中進(jìn)行了描述。研究發(fā)現(xiàn),該代理充分靈活,可以監(jiān)控現(xiàn)有的LLMS,并在有害導(dǎo)出(如代碼攻擊)之前阻止它。研究小組表示,目前監(jiān)控LLM導(dǎo)出以避免有害互動的工具在實驗室環(huán)境中表現(xiàn)良好,但在開放互聯(lián)網(wǎng)上投入生產(chǎn)的測試模型中,它們“往往無法捕捉到現(xiàn)實世界的動態(tài)復(fù)雜性”。為了培訓(xùn)監(jiān)控代理,研究人員建立了近2000個安全人工智能交互數(shù)據(jù)集,涵蓋了從簡單的文本檢索目標(biāo)和編碼調(diào)整到從零開始開發(fā)整個網(wǎng)頁的29個不同任務(wù)。他們還創(chuàng)建了一個競爭性測試數(shù)據(jù)集,包括手動對抗導(dǎo)出,其中數(shù)十個被故意設(shè)計為不安全的。隨后,這些數(shù)據(jù)被用來訓(xùn)練基于OpenAI的GPT 3.5 turbo代理,這是最先進(jìn)的系統(tǒng),能夠準(zhǔn)確區(qū)分無害和潛在有害的導(dǎo)出。

相關(guān)推薦