大模型紅隊(duì)測(cè)試研究綜述
摘要: 大模型紅隊(duì)測(cè)試(Large Model Red Teaming)旨在讓大語言模型(Large Language Model, LLM)接收對(duì)抗測(cè)試,從而誘使模型輸出有害的測(cè)試用例,進(jìn)而發(fā)現(xiàn)模型中的漏洞并提高其魯棒性。大模型紅隊(duì)測(cè)試是大模型領(lǐng)域的前沿課題,近年來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。研究者們針對(duì)大模型紅隊(duì)測(cè)試提出了眾多解決方案,并在模型對(duì)齊上取得了一定進(jìn)展。然而,受限于大... (共8頁)
開通會(huì)員,享受整站包年服務(wù)