如何更好地公開質(zhì)疑AI論文?
時(shí)間:2023-11-16 00:36:01 | 來(lái)源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-11-16 00:36:01 來(lái)源:網(wǎng)站運(yùn)營(yíng)
如何更好地公開質(zhì)疑AI論文?:我個(gè)人非常欣賞并支持 @信息門下跑狗 和其專欄 AI 論文在線質(zhì)疑 的建立和傳播。尤其現(xiàn)在 CV,ML 會(huì)議文章和參會(huì)人數(shù)在指數(shù)級(jí)增長(zhǎng)的情況下,有這樣的類似的平臺(tái)可以討論文章,糾錯(cuò)和質(zhì)疑,這對(duì)社區(qū)和研究者本身都有很大的幫助。
我這里提出自己的一些拙見,希望對(duì)于這個(gè)社區(qū)正規(guī)化,標(biāo)準(zhǔn)化起到一定的幫助。
一。什么文章可以被質(zhì)疑
在些許個(gè)月前,專欄有討論過(guò)一篇 arxiv 文章對(duì)于實(shí)驗(yàn)上的錯(cuò)誤,我覺(jué)得這是并不合適的。對(duì)于質(zhì)疑文章的條件,我建議必須要求是已錄取的會(huì)議或者雜志文章。這樣的條件與大部分頂會(huì)對(duì)于 arxiv 文章的看法也是一致的,通常大家認(rèn)為 arxiv 文章并未通過(guò)同行評(píng)審,所以在投稿的時(shí)候無(wú)需引用,或者比較他們的實(shí)驗(yàn)結(jié)果。如果有任何 reviewer 硬要求作者去比較,則作者可以直接引用會(huì)議里對(duì) arxiv 文章的建議作為反駁。而同樣的,我認(rèn)為論文在線質(zhì)疑也應(yīng)該針對(duì)已錄取文章,來(lái)幫助社區(qū)挖掘已經(jīng)被同行評(píng)審?fù)ㄟ^(guò),但被忽略的錯(cuò)誤文章和作弊文章。
二。什么情況下可以發(fā)表公開質(zhì)疑
無(wú)論文章結(jié)果多么荒謬或者文章中的錯(cuò)誤多么明顯,質(zhì)疑者本身應(yīng)該先私下里先聯(lián)系作者提出自己的質(zhì)疑,并等待作者的回復(fù)。如果問(wèn)題較為嚴(yán)重,可以同時(shí) cc 多個(gè)文章作者,特別是通訊作者即學(xué)術(shù)導(dǎo)師,來(lái)強(qiáng)調(diào)問(wèn)題的嚴(yán)重性。如果最后發(fā)現(xiàn)是作者自己疏忽,主動(dòng)認(rèn)錯(cuò)或者撤稿,則無(wú)需再發(fā)表在公共質(zhì)疑平臺(tái),如果最后作者無(wú)視,或者故意忽視任何對(duì)于其質(zhì)疑文章的討論,則可認(rèn)為需要在在公共平臺(tái)里質(zhì)疑來(lái)引起其他研究者的注意來(lái)避免踩坑。
三。文章錯(cuò)誤和作弊標(biāo)準(zhǔn)
AI 作為一門實(shí)驗(yàn)科學(xué),無(wú)法精準(zhǔn)復(fù)現(xiàn)是非常常見和普遍的。我簡(jiǎn)單的把文章錯(cuò)誤歸類為以下三類,方便參考一篇文章錯(cuò)誤的嚴(yán)重度。在此之前,我想說(shuō)明且強(qiáng)調(diào)無(wú)論文章結(jié)果多么離譜或者錯(cuò)誤多么明顯,最好質(zhì)疑者以
無(wú)罪推斷作為核心,即認(rèn)為被質(zhì)疑文章的作者本身不是主觀造假。由于任何負(fù)面的消息,尤其是學(xué)術(shù)作弊對(duì)于一個(gè)科研工作者來(lái)說(shuō)是絕對(duì)致命的,所以質(zhì)疑者本身一定一定要小心謹(jǐn)慎。
- 極其嚴(yán)重:極其嚴(yán)重的學(xué)術(shù)錯(cuò)誤通常是有絕對(duì)實(shí)錘的主觀造假。在 AI 領(lǐng)域比較常見主觀造假是:實(shí)驗(yàn)結(jié)果是 p 圖,惡意編造虛擬數(shù)據(jù),惡意擬合收斂或者損失函數(shù)曲線,等非常明顯的主觀造假。對(duì)于這種類型文章,只有撤稿一個(gè)選項(xiàng)可以參考。有極其嚴(yán)重學(xué)術(shù)錯(cuò)誤的文章通常相當(dāng)罕見。
- 嚴(yán)重:嚴(yán)重的學(xué)術(shù)錯(cuò)誤包含實(shí)驗(yàn)設(shè)計(jì)(通常代碼層面上)的錯(cuò)誤,公式推倒錯(cuò)誤。這些錯(cuò)誤即使嚴(yán)重但可能包含大量非主觀的因素。尤其是 AI 新手在跑實(shí)驗(yàn)可能出現(xiàn)的幾個(gè)問(wèn)題:在測(cè)試數(shù)據(jù)集上訓(xùn)練并進(jìn)行梯度更新,訓(xùn)練與測(cè)試數(shù)據(jù)集的比例錯(cuò)誤,訓(xùn)練數(shù)據(jù)集 pre-processing 的顯著不同等。還有一個(gè)方向可能出現(xiàn)于文章里的公式推導(dǎo)錯(cuò)誤,比如數(shù)學(xué)公式,收斂性,優(yōu)化問(wèn)題推導(dǎo)的數(shù)學(xué)錯(cuò)誤。對(duì)于這些嚴(yán)重錯(cuò)誤的文章,通常實(shí)驗(yàn)結(jié)果則完全不可比較。如果錯(cuò)誤比較致命,則作者需要主動(dòng)撤稿。如果錯(cuò)誤不是很致命,作者最好重新跑實(shí)驗(yàn)在公開平臺(tái)上發(fā)表更新結(jié)果。
- 普通:普通的學(xué)術(shù)錯(cuò)誤包含不公平的實(shí)驗(yàn)比較,錯(cuò)誤的因果結(jié)論,或者特定代碼框架下的 feature。比較常見的是,cherry pick 好看的圖片,magic number 漫天飛,grid search random seed 等。這樣的學(xué)術(shù)錯(cuò)誤在 AI 方向里相當(dāng)常見,可能至少占有總文章量的四分之一。對(duì)于這些文章,雖然可能對(duì)研究社區(qū)還是會(huì)有一定的幫助,但是同時(shí)對(duì)于其他小實(shí)驗(yàn)室里的同行來(lái)說(shuō)非常不公平,尤其在刷 benchmark 上。這樣錯(cuò)誤的因果結(jié)論也會(huì)帶偏對(duì)一些領(lǐng)域的理解:比如明明 trick A 提升的結(jié)果最后歸咎于是 idea B 的功勞。
四。如何正確的質(zhì)疑論文
在 section 2 里,我們已經(jīng)強(qiáng)調(diào)了先聯(lián)系作者絕對(duì)是第一選擇的重要性。如果最后無(wú)法避免的進(jìn)入公開質(zhì)疑論文的情況,希望質(zhì)疑者能盡可能的做到以下幾個(gè)條件。
1. 態(tài)度客觀,語(yǔ)氣平緩,不要使用諷刺,刻薄的言語(yǔ)來(lái)把質(zhì)疑作者踩在腳下。
2. 所有質(zhì)疑針對(duì)且僅針對(duì)實(shí)驗(yàn)的第一負(fù)責(zé)人即作者本身,跟通訊作者,二作等等無(wú)關(guān)。
3. 質(zhì)疑問(wèn)題討論文章和實(shí)驗(yàn)本身,不要牽扯到無(wú)關(guān)的同學(xué),同作者之前發(fā)表的文章,實(shí)驗(yàn)室風(fēng)氣,導(dǎo)師人品,學(xué)校等其他背景。
4. 最后再次提醒,質(zhì)疑任何嚴(yán)重或者極其嚴(yán)重的問(wèn)題前請(qǐng)確保自己有絕對(duì)的實(shí)錘。且一定以無(wú)罪推定作為核心目標(biāo)。
希望 AI 在線質(zhì)疑的目標(biāo)是有效的提供一個(gè)文章討論的環(huán)境,鼓勵(lì)扶持新手,修正學(xué)術(shù)錯(cuò)誤,而不是把一個(gè)作者推入深淵和網(wǎng)暴。
五。如果做更有重復(fù)性的科研
自我碩士開始認(rèn)真研究 AI 以來(lái),我就堅(jiān)定了任何以自己為第一作者出手的文章都盡可能具備可重復(fù)性。這里我簡(jiǎn)單得從我自己的角度,討論一下什么是優(yōu)秀的可重復(fù)性科研。
- 如果條件允許的情況下,我建議大家在 Appendix 里加入一個(gè)稱之為 Negative results 的 section。在我看到 BigGAN 的 Appendix H 后,我在后續(xù)發(fā)表的文章里都加入這個(gè) section 來(lái)幫助其他同行或者對(duì)文章感興趣的讀者避免踩坑。一個(gè)詳盡的 negative results 可以有效且顯著幫助很多人省下大量的調(diào)參實(shí)驗(yàn)。類似的文章比如 YoLoV3 也提供了大量的調(diào)參經(jīng)驗(yàn)。
- Everything should be made as simple as possible, but no simpler. 對(duì)于自己在著手研究的 idea,盡可能采用與之前文章一致的通用參數(shù)。比如 classification task 通常采用 0.1 learning rate 0.9 momentum 的 SGD optimiser。而實(shí)驗(yàn)本身也盡可能搭建在大家最常用的網(wǎng)絡(luò)上,比如 VGG-16, ResNet-50 等任何研究者都有一些經(jīng)驗(yàn)的網(wǎng)絡(luò)。如果結(jié)果是 cherry-picked,則在文章里寫明。如果結(jié)果需要需要一些 tricks,也請(qǐng)?jiān)谖恼吕锾峒?。在文章?shí)驗(yàn)的表述里盡可能保持客觀和真實(shí),而不要刻意隱瞞一些隱藏技巧。
- Log everything。為了避免最后開源的整理后的代碼和文章里的提供的結(jié)果對(duì)不上 [我之前也犯過(guò)類似的問(wèn)題],盡可能記錄所有實(shí)驗(yàn)代碼和參數(shù)。在條件允許的情況下,開啟任何一個(gè)新項(xiàng)目的代碼就以高可讀性,可公開的前提來(lái)改進(jìn)。好的代碼習(xí)慣可以顯著減少不必要的重復(fù)實(shí)驗(yàn),也方便其他合作者或者之后的 follow-up 來(lái)提供更有效的幫助。
以上。