IT 之家 2 月 2 日消息,微軟軟件工程部門經理 Shane Jones 日前發現 OpenAI 旗下 DALL-E 3 模型存在漏洞,據稱能夠生成一系列 NSFW 不當内容,在上報相關漏洞後,Shane Jones 卻被下達 " 封口令 ",不過該員工最終還是選擇向外界披露相關漏洞。
▲ 圖源 Shane Jones 對外披露的報告
IT 之家注意到,Shane Jones 在去年 12 月通過獨立研究發現 OpenAI 文字生成圖片的 DALL-E 3 模型存在一項漏洞,能繞過 AI 護欄(AI Guardrail)生成一系列 NSFW 不當内容。
之後 Shane Jones 将漏洞曝光上報微軟及 OpenAI,并在領英上發布公開信,聲稱相關漏洞會對大衆造成安全風險,呼籲 OpenAI 在解決漏洞前應暫時下架 DALL-E 3 模型。
随後 Shane Jones 被微軟法務部及高管找上門,并警告他立即删除領英公開信并停止對外披露任何内容,但卻并未給予任何解釋說明,此後 Shane Jones 屢次尋求公司内部溝通,但均未得到公司回應,而漏洞也未修複,之後 Shane Jones 便向媒體及有關部門披露了相關漏洞。
Shane Jones 提到,近日網絡上出現 AI 生成的知名歌手 Taylor Swift(泰勒・斯威夫特)不雅照便與該漏洞有一定關聯,這些不雅照據稱是使用微軟 Designer AI 功能生成,而 Designer 底層模型正是 DALL-E 3,因此微軟在本次事件中下達 " 封口令 " 存在重大過失。
此後微軟官方回應 Engadget 等媒體,聲稱将解決相關員工的疑慮,并修複相關漏洞,不過微軟同時聲稱 Shane Jones 披露的漏洞實際上成功率較低," 無法繞過微軟爲模型設置的所有安全機制 "、" 目前還不清楚該漏洞與 Taylor Swift 不雅照事件是否有關聯性 "。