臉書稱新AI系統(tǒng)可以快速識別更多內(nèi)容安全問題, “小樣本學(xué)習(xí)”(Few-Shot Le
時間:2023-04-29 07:21:01 | 來源:網(wǎng)站運營
時間:2023-04-29 07:21:01 來源:網(wǎng)站運營
臉書稱新AI系統(tǒng)可以快速識別更多內(nèi)容安全問題, “小樣本學(xué)習(xí)”(Few-Shot Learner)系統(tǒng)只需極少量的樣本即可識別出問題帖子,而且支持100多種語言。:最近從臉書泄露的一批文件表明,這家社交網(wǎng)絡(luò)公司正致力于在硅谷以外的地區(qū)遏制有害內(nèi)容散播。臉書擔(dān)心針對巴基斯坦和埃塞俄比亞使用語言的內(nèi)容審核算法不夠完善,而且該公司也缺乏足夠的訓(xùn)練數(shù)據(jù)來優(yōu)化系統(tǒng)以適應(yīng)阿拉伯語的不同方言。
臉書的母公司Meta Platforms Inc表示,已針對部分任務(wù)上線了一個新的人工智能審核系統(tǒng),該系統(tǒng)相比早期系統(tǒng)只需要極少量的樣本數(shù)據(jù),因而能更快地適應(yīng)新的審核規(guī)則。臉書表示“小樣本學(xué)習(xí)”系統(tǒng)支持100多種語言,不僅可以處理文本,還可以處理圖像。
“小樣本學(xué)習(xí)”系統(tǒng)將新審核規(guī)則實現(xiàn)自動執(zhí)行所需的時間從六個月左右縮短為六個星期左右。該系統(tǒng)有助于執(zhí)行9月出臺的一條規(guī)則,即封禁所有煽動人們拒絕接種新冠疫苗的帖子。臉書還表示,“小樣本學(xué)習(xí)”系統(tǒng)在今年年初上線后到今年10月,全球范圍內(nèi)仇恨言論的傳播率較2020年年中呈下降趨勢,但臉書并未透露新系統(tǒng)的性能數(shù)據(jù)。
新系統(tǒng)并不能解決臉書在內(nèi)容審核上面臨的所有挑戰(zhàn),但這開啟了臉書借助人工智能技術(shù)來應(yīng)對這些挑戰(zhàn)的先河。一方面臉書的全球用戶不斷增長,另一方面它也滋生了仇恨、騷擾和種族歧視言論。據(jù)聯(lián)合國稱,針對緬甸羅興亞穆斯林的種族滅絕言論在臉書上非常盛行。臉書一直強(qiáng)調(diào)人工智能是監(jiān)控臉書龐大網(wǎng)絡(luò)的唯一可行的方法。雖然最近取得了一些進(jìn)步,但要理解人類語言交流的微妙之處,這項技術(shù)還有很長的路要走。臉書已支持100多種語言,但其已有的自動化系統(tǒng)僅能識別50多種語言的仇恨言論和恐怖主義內(nèi)容,難以滿足需求。
“小樣本學(xué)習(xí)”是更強(qiáng)大、更復(fù)雜的新一代人工智能系統(tǒng)的典范。此類系統(tǒng)問世后迅速受到科技公司和人工智能研究人員的青睞,但也引起了公眾對偏見等負(fù)面影響的擔(dān)憂。
像“小樣本學(xué)習(xí)”這樣的模型可以先通過大量原始未標(biāo)注的樣本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后只需極少量經(jīng)過仔細(xì)標(biāo)記的樣本數(shù)據(jù),便可提煉出一些基本規(guī)律,進(jìn)而調(diào)整系統(tǒng)以適應(yīng)特定類型的任務(wù)。
谷歌利用BERT系統(tǒng)改進(jìn)了搜索引擎,因為它發(fā)現(xiàn)通過對來自網(wǎng)絡(luò)和書籍的數(shù)十億個單詞進(jìn)行預(yù)訓(xùn)練后,該系統(tǒng)具備更強(qiáng)大的文本處理能力。該公司的兩位人工智能專家后來因一篇敦促人們謹(jǐn)慎對待此類系統(tǒng)的論文引發(fā)爭議而被公司開除。微軟投資的人工智能公司OpenAI表示,其自研的大型語言模型GPT-3可以生成流暢的文本和程序代碼。
“小樣本學(xué)習(xí)”基于100多種語言數(shù)十億計的帖子和圖片進(jìn)行了預(yù)訓(xùn)練。該系統(tǒng)利用這些數(shù)據(jù)來建立臉書內(nèi)容統(tǒng)計模式的內(nèi)部感知。用先前審核內(nèi)容時標(biāo)記的帖子和圖像數(shù)據(jù)進(jìn)行附加訓(xùn)練,并簡化對這些帖子所違反規(guī)則的描述,從而調(diào)整系統(tǒng)以匹配內(nèi)容審核場景。
臉書負(fù)責(zé)人工智能輔助內(nèi)容審核的產(chǎn)品經(jīng)理Cornelia Carapcea表示,在準(zhǔn)備工作完成后,該系統(tǒng)可以識別新類型的內(nèi)容,比如執(zhí)行新的審核規(guī)則或擴(kuò)展識別一種新語言,而這比以前的審核模式要輕松得多。
她說,傳統(tǒng)的審核系統(tǒng)在上線之前可能需要數(shù)十萬乃至數(shù)百萬個樣本帖子。而“小樣本學(xué)習(xí)”系統(tǒng)顧名思義,只需要幾十個樣本,結(jié)合簡單的描述或有關(guān)新規(guī)則的提示,就可以投入工作。
Cornelia Carapcea說:“‘小樣本學(xué)習(xí)’系統(tǒng)已經(jīng)識別了足夠的數(shù)據(jù),因此能更快地識別新問題、學(xué)習(xí)新規(guī)則。在暴力、仇恨和煽動性言論等有害內(nèi)容問題上,我們一直難以獲得足夠多的標(biāo)記數(shù)據(jù),而新系統(tǒng)讓我們能快速做出反應(yīng)。”
“小樣本學(xué)習(xí)”系統(tǒng)不需要任何樣本數(shù)據(jù),只需要給系統(tǒng)提供對于新規(guī)則的文字描述,就可以直接識別內(nèi)容類型,這種與AI系統(tǒng)交互的方式異常簡單。Cornelia Carapcea說,雖然這種方法的結(jié)果不算可靠,但是可以快速識別出新規(guī)則下要清理掉的內(nèi)容,或者識別能夠被用來進(jìn)一步訓(xùn)練系統(tǒng)的帖子。
像“小樣本學(xué)習(xí)”這樣的大型人工智能系統(tǒng)具有如此令人矚目的能力(其中許多尚不為世人所知),這促使斯坦福大學(xué)的研究人員新成立了一個專門研究此類系統(tǒng)的中心。研究人員將這類系統(tǒng)稱為“基礎(chǔ)模型”,因為它們將成為許多科技項目的基礎(chǔ)。大型機(jī)器學(xué)習(xí)模型正在研發(fā)之中,這些模型不僅可用于社交網(wǎng)絡(luò)和搜索引擎,還可用于金融和醫(yī)療等行業(yè)。
斯坦福大學(xué)研究中心主任Percy Liang表示,通過臉書的系統(tǒng)可以看到這類新模型強(qiáng)大的能力,但新模型也有弱點。Percy Liang認(rèn)為,臉書稱只需要一些書面文本就可以通過新的內(nèi)容規(guī)則來指導(dǎo)人工智能系統(tǒng)去識別想要識別的內(nèi)容,如此強(qiáng)大的能力自然令人興奮,但人們對這種能力還不甚了解?!斑@更像是一門藝術(shù),而不是一門科學(xué)。”
此外,Percy Liang表示“小樣本學(xué)習(xí)”在速度方面也可能有缺憾。在工程師不必管理那么多的訓(xùn)練數(shù)據(jù)之后,某種程度上會減弱他們對系統(tǒng)功能的控制與了解。Percy Liang說:“這樣風(fēng)險很大,因為工具的自動化程度越高,人的控制力就越弱?!?br>
Cornelia Carapcea表示,臉書在開發(fā)新審核系統(tǒng)的同時,還創(chuàng)建了一些方法來檢查系統(tǒng)在內(nèi)容審核上是否準(zhǔn)確或帶有偏見。
稿件來源:Facebook Says Its New AI Can Identify More Problems Faster
關(guān)鍵詞:安全,內(nèi)容,學(xué)習(xí),識別,系統(tǒng)