新京報貝殼財經(jīng)訊(記者羅亦丹)6月5日,2025全球數(shù)字經(jīng)濟大會(GDEC 2025)數(shù)字安全主論壇暨2025北京網(wǎng)絡安全大會(BCS 2025)召開, 前瞻研究院院長、北京市重點實驗室主任曾毅受邀發(fā)表主旨演講,介紹了靈御平臺及從人工智能安全到安全人工智能的發(fā)展戰(zhàn)略。
據(jù)了解,當前在針對大模型領域的安全攻防中,成功的越獄攻擊能夠觸發(fā)有毒語言、錯誤信息甚至非法指令,從根本上破壞最先進的人工智能系統(tǒng)中內置的安全防護措施。
針對這一問題,北京前瞻人工智能安全與治理研究院、人工智能安全與超級對齊北京市重點實驗室、中國科學院自動化研究所人工智能倫理與治理中心聯(lián)合團隊正式發(fā)布靈御(PandaGuard)大模型安全攻防評估平臺,該平臺創(chuàng)新性地采用多智能體系統(tǒng)建模方法對越獄攻擊進行系統(tǒng)性評估。該框架在現(xiàn)有研究基礎上實現(xiàn)了重要突破,為構建安全可控的人工智能生態(tài)提供了重要保障。
曾毅表示,沒有安全治理框架的人工智能不僅沒有“剎車”,更是沒有“方向盤”。安全與治理是人工智能的核心能力,將加速人工智能穩(wěn)健發(fā)展與應用。
校對 王心