猫咪av成人永久网站,最近中文av字幕在线中文,精品国产自在久久成人,最近免费中文字幕中文高清6 ,99热这里只有精品免费播放

為了防止有害輸出,AI研究團(tuán)隊(duì)開(kāi)發(fā)了監(jiān)控大型語(yǔ)言模型的工具

摘要:據(jù)Cointelegraph報(bào)道,來(lái)自人工智能公司AutoGPT、東北大學(xué)和微軟研究院的研究團(tuán)隊(duì)開(kāi)發(fā)了一種監(jiān)控大型語(yǔ)言模型(LLMs)的工具,以防止?jié)撛诘挠泻敵霾⒆柚蛊鋱?zhí)行。研究表明,該代理足夠靈活,可以監(jiān)控現(xiàn)有的LLMs,并在有害輸出(如代碼攻擊)發(fā)生之前將其阻止。...

據(jù) Cointelegraph 報(bào)告來(lái)自人工智能AutoGPT、東北大學(xué)和微軟研究所的研究團(tuán)隊(duì)開(kāi)發(fā)了一種監(jiān)控大型語(yǔ)言模型的研究團(tuán)隊(duì)(LLMs)工具,以避免潛在的有害導(dǎo)出,并防止其執(zhí)行。本代理在一篇題為《野外安全測(cè)試語(yǔ)言模型代理》的預(yù)印研究論文中進(jìn)行了描述。研究發(fā)現(xiàn),該代理充分靈活,可以監(jiān)控現(xiàn)有的LLMS,并在有害導(dǎo)出(如代碼攻擊)之前阻止它。研究小組表示,目前監(jiān)控LLM導(dǎo)出以避免有害互動(dòng)的工具在實(shí)驗(yàn)室環(huán)境中表現(xiàn)良好,但在開(kāi)放互聯(lián)網(wǎng)上投入生產(chǎn)的測(cè)試模型中,它們“往往無(wú)法捕捉到現(xiàn)實(shí)世界的動(dòng)態(tài)復(fù)雜性”。為了培訓(xùn)監(jiān)控代理,研究人員建立了近2000個(gè)安全人工智能交互數(shù)據(jù)集,涵蓋了從簡(jiǎn)單的文本檢索目標(biāo)和編碼調(diào)整到從零開(kāi)始開(kāi)發(fā)整個(gè)網(wǎng)頁(yè)的29個(gè)不同任務(wù)。他們還創(chuàng)建了一個(gè)競(jìng)爭(zhēng)性測(cè)試數(shù)據(jù)集,包括手動(dòng)對(duì)抗導(dǎo)出,其中數(shù)十個(gè)被故意設(shè)計(jì)為不安全的。隨后,這些數(shù)據(jù)被用來(lái)訓(xùn)練基于OpenAI的GPT 3.5 turbo代理,這是最先進(jìn)的系統(tǒng),能夠準(zhǔn)確區(qū)分無(wú)害和潛在有害的導(dǎo)出。

相關(guān)推薦