全文分為三個(gè)部分:


圖像摳圖的過(guò)去與現(xiàn)在疑點(diǎn)重重的全自動(dòng)摳圖鼻祖:CVPR 2019 - A Late Fusion CNN for Digital Matting(LFM)—— 疑似將test set也" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

15158846557 在線咨詢 在線咨詢
15158846557 在線咨詢
所在位置: 首頁(yè) > 營(yíng)銷資訊 > 網(wǎng)站運(yùn)營(yíng) > [質(zhì)疑][CVPR2019][A Late Fusion... Matting]

[質(zhì)疑][CVPR2019][A Late Fusion... Matting]

時(shí)間:2023-05-11 22:54:01 | 來(lái)源:網(wǎng)站運(yùn)營(yíng)

時(shí)間:2023-05-11 22:54:01 來(lái)源:網(wǎng)站運(yùn)營(yíng)

[質(zhì)疑][CVPR2019][A Late Fusion... Matting]:本文作者:信息門下跑狗
全文分為三個(gè)部分:


  1. 圖像摳圖的過(guò)去與現(xiàn)在
  2. 疑點(diǎn)重重的全自動(dòng)摳圖鼻祖:CVPR 2019 - A Late Fusion CNN for Digital Matting(LFM)—— 疑似將test set也放進(jìn)train set
  3. 質(zhì)疑總結(jié)與彩蛋

(1) 圖像摳圖的過(guò)去與現(xiàn)在

圖像摳圖(Image Matting)是一個(gè)無(wú)論在工業(yè)界抑或視覺(jué)研究領(lǐng)域都有非常重要價(jià)值的研究課題。從2000年開(kāi)始,在進(jìn)行圖像摳圖及相近研究問(wèn)題的研究過(guò)程中,誕生了類似GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting等等對(duì)各計(jì)算機(jī)視覺(jué)以及計(jì)算機(jī)圖形學(xué)研究都有深遠(yuǎn)影響的工作。在好萊塢的動(dòng)作大片、迪士尼的動(dòng)畫巨作、Office以及Adobe PhotoShop的一些功能中都能夠看到摳圖算法的身影。

求解摳圖問(wèn)題需要我們對(duì)一張圖像,分別求解出它的前景、背景以及alpha matte。alpha matte是我們常說(shuō)的alpha通道,基于alpha 通道我們可以將前景和任意背景進(jìn)行重新組合得到新的圖像。因此alpha matte是和原圖同大小的一個(gè)單通道圖像,每個(gè)像素都對(duì)應(yīng)于原RGB圖像相同位置像素的alpha值。根據(jù)基本假設(shè),對(duì)于一張RGB 圖像,每個(gè)像素在R、G、B這三個(gè)通道上的強(qiáng)度(intensity)是由前景以及背景的凸組合構(gòu)成的,即

I_{i}^{j} = /alpha_{i} /cdot F_{i}^{j} + (1 - /alpha_{i}) /cdot B_{i}^{j} ,

這里 I 代指Image, F_{i}^{j} 代表第 i 個(gè)像素下第 j 個(gè)通道的前景像素強(qiáng)度(pixel intensity), B_{i}^{j} 代表第 i 個(gè)像素下第 j 個(gè)通道的背景像素強(qiáng)度(pixel intensity)。對(duì)于一張圖片而言,由于我們只知道它的R、G、B三個(gè)通道的像素強(qiáng)度,因此對(duì)于每一個(gè)像素而言,我們有三個(gè)方程分別對(duì)應(yīng)RGB三個(gè)通道,同時(shí)我們需要求解 /alpha_{i}F_{i}^{j} 以及 B_{i}^{j} 一共7個(gè)未知數(shù)。三個(gè)方程七個(gè)未知數(shù),這是妥妥的未知數(shù)個(gè)數(shù)大于方程個(gè)數(shù),解可以有無(wú)窮多個(gè),屬于經(jīng)典的視覺(jué)研究中的反問(wèn)題,難度非常的大。

為了能夠降低求解的難度,過(guò)去到現(xiàn)在絕大部分的方法都是基于人工手動(dòng)標(biāo)注的三元圖(trimap)來(lái)提供更多的約束。三元圖顧名思義就是將一副圖像分成三個(gè)部分,分別是絕對(duì)前景(absolute foreground),絕對(duì)背景(absolute background)以及未知區(qū)域(unknown area)?;谌獔D,我們只需要將未知區(qū)域的像素對(duì)應(yīng)的alpha值進(jìn)行求解就可以了。從2017年 CVPR Oral Deep Image Matting 以來(lái),含有trimap作為網(wǎng)絡(luò)輸入的深度學(xué)習(xí)方法在http://alphamatting.com (image matting的一個(gè)benchmark網(wǎng)站)瘋狂打破記錄,可以說(shuō)深度學(xué)習(xí)對(duì)含有trimap進(jìn)行matting問(wèn)題求解是有非常大的幫助的。同時(shí)Deep Image Matting文章還提出了一個(gè)dataset,叫做Adobe Deep Image Matting Dataset,這個(gè)dataset它含有431張前景及前景對(duì)應(yīng)的ground-truth alpha matte作為train set,以及40張前景及前景對(duì)應(yīng)的ground-truth alpha matte作為test set。論文里首次提出可以考慮在訓(xùn)練的時(shí)候?qū)ν粡埱熬芭c不同的背景進(jìn)行合并得到composition image,然后扔進(jìn)去網(wǎng)絡(luò)進(jìn)行訓(xùn)練。而背景池就是從MSCOCO里面進(jìn)行采樣。這樣就可以構(gòu)造一個(gè)非常大的train set進(jìn)行訓(xùn)練。這樣的操作也從2017年延續(xù)至今。下圖的第二列就是trimap的示意圖,我們可以看到灰色的部分就是所謂的unknown區(qū)域,也就是我們實(shí)際上要求解出alpha matte的區(qū)域。這個(gè)截圖來(lái)自最近比較火的CVPR 2020 Background Matting:The World is Your Green Screen的 Figure 6,這篇文章下面我也會(huì)提及:)

(2)疑點(diǎn)重重的全自動(dòng)摳圖鼻祖:CVPR 2019 - A Late Fusion CNN for Digital Matting(LFM)

然而如果不考慮trimap而直接對(duì)一張圖片進(jìn)行摳圖,那么就是以hard 模式去求解摳圖問(wèn)題了。而最近一兩年在視覺(jué)頂會(huì)CVPR中就有一些這樣的論文在進(jìn)行探索。

A Late Fusion CNN for Digital Matting(LFM)這篇文章是我看到的首篇在頂會(huì)(CVPR2019)上發(fā)表的號(hào)稱給定任意輸入的RGB自然圖像都能完成自動(dòng)摳圖。這樣的claim(聲稱)一旦是真的,那么將是matting領(lǐng)域近年來(lái)最好的工作,沒(méi)有之一。之前所有的將trimap作為網(wǎng)絡(luò)輸入之一的方法將全部GG(因?yàn)椴辉傩枰耍_@篇文章的作者來(lái)自于浙江大學(xué) CAD & CG國(guó)家重點(diǎn)實(shí)驗(yàn)室,同時(shí)也有阿里巴巴的研究員以及來(lái)自University of Texas at Austin的研究員參與了這項(xiàng)研究。并且我也在方法對(duì)比中看到了與阿里巴巴在2018 ACM MM發(fā)表的Semantic Human Matting(SHM)方法的對(duì)比,意味著作者應(yīng)該是拿到了SHM的pretrain model,畢竟作為企業(yè)內(nèi)部的研究一般是不會(huì)放出pretrain model以及數(shù)據(jù)集的。高校+知名企業(yè)的研究團(tuán)隊(duì),對(duì)于matting這個(gè)既有科學(xué)研究?jī)r(jià)值又具備商業(yè)落地可能的研究課題,在我看來(lái)應(yīng)該是最佳的設(shè)定。

帶著好奇,我開(kāi)始研究了一下這篇文章。

面對(duì)號(hào)稱能對(duì)自然圖像自動(dòng)化摳圖這樣的claim,通過(guò)簡(jiǎn)單的推理,首先就有一個(gè)簡(jiǎn)單的疑問(wèn),如果圖A里面有個(gè)女人,LFM能成功摳出來(lái);現(xiàn)在有個(gè)圖B有個(gè)馬,LFM又能成功摳出來(lái)。那么我用圖B作為背景圖和圖A做合成圖,那么扣的是女人還是馬?或者直接拿一個(gè)有一個(gè)女人和馬的圖片,那么會(huì)輸出什么?沒(méi)有任何的指定,怎么知道要摳什么?這是在做顯著性檢測(cè)嗎?由于官方github中并沒(méi)有放出任何代碼(截止至2020.04.08),所以不得而知了。

帶著很多小問(wèn)號(hào),我嘗試發(fā)了郵件給作者,然而并沒(méi)有回。那么只能自己復(fù)現(xiàn),講真,網(wǎng)絡(luò)結(jié)構(gòu)并不是很復(fù)雜,甚至有些平平無(wú)奇。Ok,那就實(shí)現(xiàn)吧,然后結(jié)果就出來(lái)了。

首先要提到的是在LFM的實(shí)驗(yàn)中,作者采用了上文中提到的2017 CVPR Oral Deep Image Matting提供的Adobe Deep Image Matting Dataset數(shù)據(jù)集 進(jìn)行訓(xùn)練并且基于這個(gè)數(shù)據(jù)集的測(cè)試集進(jìn)行測(cè)試,來(lái)佐證LFM能夠在任意RGB圖像上都能夠進(jìn)行摳圖

(原文表述: (2) Composition-1k testing dataset in [39], which is to evaluate how our network performs on natural images.)
此外LFM作者還建立一個(gè)前景全是人的train set進(jìn)行學(xué)習(xí),然后在全是人作為前景的一個(gè)test set進(jìn)行測(cè)試 ,

(原文表述:(1) Human image matting testing dataset, which is to measure the performance of our method on a specific task.)
作者在4. Experimental Results 的 Evaluation on human image matting testing dataset中聲稱(claim):

Note that our network works well for various poses and scales of the human in the foreground. For instance, the woman viewed from the back (second row in Fig. 5) is difficult for the deep automatic portrait matting.

也就是說(shuō)LFM能夠很好地應(yīng)對(duì)具有不同姿態(tài)以及比例大小的人作為前景時(shí)候的摳圖。綜上所述,通過(guò)文章的實(shí)驗(yàn)結(jié)果是可以對(duì)LFM能夠具備對(duì)任意RGB圖像都能進(jìn)行摳圖的claim進(jìn)行有力佐證的。目前來(lái)看文章的實(shí)驗(yàn)設(shè)計(jì)邏輯還是很嚴(yán)謹(jǐn)?shù)摹D敲催@里也是為了嚴(yán)謹(jǐn),我選擇了LFM作者在論文的Figure 9中提供的Internet image matting results作為我的測(cè)試對(duì)象,因?yàn)閕nternet images都是不包含alpha matte ground-truth的。通過(guò)以圖搜圖功能我順利找到了三張Internet image的其中一張,鏈接在這里。

上圖就是我復(fù)現(xiàn)得到的結(jié)果。只能說(shuō)我真的盡力了,通過(guò)瘋狂的調(diào)參上圖是能cherry-pick的最好結(jié)果了。為什么LFM論文report的結(jié)果絲般順滑,就像segmentation一樣(哭了)。當(dāng)然或許是因?yàn)槲业膹?fù)現(xiàn)存在一些tricky的問(wèn)題(沒(méi)辦法,作者沒(méi)開(kāi)源,都一年過(guò)去了,你專利還沒(méi)申請(qǐng)好嗎?),那么既然我自己的復(fù)現(xiàn)不行,那么有沒(méi)有第三方的依據(jù)來(lái)說(shuō)明LFM可能是存在瑕疵的呢?

鑒于最近 CVPR 2020 放榜以及ECCV 2020 投稿結(jié)束,在arxiv上我發(fā)現(xiàn)幾篇有提到LFM作為對(duì)比的matting文章,看來(lái)別人還是可以要到代碼和pretrain的,估計(jì)是我運(yùn)氣太差了:)然而再深入一看這幾篇投稿以及被CVPR 2020 accepted的新的paper,讓我產(chǎn)生了進(jìn)一步懷疑。首先我們來(lái)看最近被各大AI公眾號(hào)在瘋狂安利的CVPR 2020 論文Background-Matting。

CVPR 2020 的Background Matting:The World is Your Green Screen是另一篇“自動(dòng)化”摳圖的文章,這篇文章考慮讓用戶對(duì)需要摳圖的圖片多拍攝一幅背景圖片的方式作為“綠幕”,而后基于背景圖片提供的各種類型的信息構(gòu)造全“自動(dòng)化”的神經(jīng)網(wǎng)絡(luò)模型。通過(guò)這樣的方式,就能夠擺脫trimap,就能夠?qū)崿F(xiàn)全“自動(dòng)化”摳圖了。對(duì)于視頻,可以通過(guò)分割視頻后每一幀的前后幾幀重構(gòu)得到背景。

文章中Figure 6給出了含trimap作為輸入的SOTA方法以及不含trimap的全“自動(dòng)化”摳圖的SOTA,即LFM以及該論文自身的結(jié)果對(duì)比:

以防大家看不清,我進(jìn)一步截圖了一下:

從(a)(c)的結(jié)果來(lái)看,有很大一部分的背景也被涵蓋到了最后的alpha matte 預(yù)測(cè)結(jié)果中,譬如LFM的(a)圖右下角出現(xiàn)了椅子,(c)圖的右下角也出現(xiàn)了椅子,右上角出現(xiàn)了部分墻壁。這看起來(lái)與我復(fù)現(xiàn)的效果來(lái)看非常一致。

然而進(jìn)一步閱讀論文,我發(fā)現(xiàn)一個(gè)非常驚人的地方,作者們?cè)谡撐恼牡?.1. Results on Synthetic-Composite Adobe Dataset (這里Adobe Dataset 就是 CVPR 2017 Oral Deep Image Matting所提供的dataset,也是我上文復(fù)現(xiàn)用到的數(shù)據(jù)集) 相當(dāng)明確地寫道:

We omitted LFM from this comparison, as the released model was trained on all of the Adobe data, including the test data used here (confirmed by the authors).

意思是LFM放出的pretrain是將Adobe Deep Image Matting的train/test都放進(jìn)去進(jìn)行訓(xùn)練以后得到的pretrain model!這讓人相當(dāng)匪夷所思,即使是機(jī)器學(xué)習(xí)小白都應(yīng)該明白一個(gè)道理,train set 和 test set應(yīng)該分開(kāi),并且在報(bào)告結(jié)果的時(shí)候應(yīng)該只報(bào)告train set上訓(xùn)練得到的model在test set上的表現(xiàn)。因此我們都會(huì)默認(rèn)說(shuō)如果作者放出結(jié)果,那么就應(yīng)該放出只在train set上訓(xùn)練的結(jié)果。然而沒(méi)想到LFM給那些能夠要到pretrain model+代碼+數(shù)據(jù)集的幸運(yùn)兒們的居然是train+test一起訓(xùn)練的pretrain model,不知道這些幸運(yùn)兒是否知道這些信息并且在基于這個(gè)pretrain model報(bào)告對(duì)比結(jié)果的時(shí)候是否有聲明清楚。

我接著閱讀CVPR 2020 Background Matting直到附錄,在C.3 Results on Real Data中發(fā)現(xiàn)了作者們對(duì)于LFM涵蓋很多背景的問(wèn)題作出了更加詳盡的敘述:

LFM was more problematic. We found that LFM would at times pull in pieces of
the background that were larger than the foreground person; the result of retaining the largest connected component would then mean losing the foreground subject altogether, an extremely objectionable artifact. Rather than continuing to refine the post-process for LFM, we simply did not apply a post-process for its results. As seen in the videos, LFM, in any case, had quite a few other artifacts that made it not competitive with the others.

能夠在一篇文章中對(duì)于LFM進(jìn)行如此多的敘述,看來(lái)LFM作為全自動(dòng)化的SOTA在作者們的心目中也是有非常高的地位的,畢竟如果說(shuō)不清的話很可能就會(huì)被reviewers 質(zhì)疑吧:)

看完了CVPR 2020 Background Matting對(duì)于LFM的結(jié)果匯報(bào),我開(kāi)始尋找其他同樣也要到LFM放出的pretrain model并且進(jìn)行了結(jié)果匯報(bào)的論文,在arxiv上一搜,還真讓我找到了兩篇最近的文章。一篇是IEEE Transaction on Image Processing (TIP) 的投稿的preprint,這篇文章已經(jīng)在http://alphamatting.com(一個(gè)大概在2009年提出的alpha matting benchmark 網(wǎng)站)提交過(guò)結(jié)果,巧合的是這篇文章也是叫做Background Matting:)難道說(shuō)要make background matting great again?另一篇?jiǎng)t是來(lái)自印度一家電商公司Fynd的論文AlphaNet: An Attention Guided Deep Network for Automatic Image Matting,看到題目提到了Automatic我猜這肯定要提LFM了,果然不出所料在論文中就用LFM進(jìn)行了對(duì)比分析。下面我們就來(lái)進(jìn)一步看看這兩篇也拿到pretrain model報(bào)告的LFM的結(jié)果。

首先來(lái)看看同樣也叫做Background Matting的這篇2020 TIP的投稿。這篇也叫做Background Matting的文章是一篇依賴trimap進(jìn)行設(shè)計(jì)的文章,通過(guò)把background image也考慮進(jìn)去作為input的一部分,這樣構(gòu)成了一個(gè)新型的網(wǎng)絡(luò)input格式,即input image + trimap + background image?;谶@樣的方式這篇文章展開(kāi)了一些探究。

在論文的Figure 2 以及Figure 3中分別都有基于LFM pretrain model的在Adobe Deep Image Matting Dataset的test set上的測(cè)試。要注意到這里的前景實(shí)際上帶有一定透明度的,而在CVPR 2020 Background Matting:The World is Your Green Screen里面用到的測(cè)試圖片的前景是非透明的(如人作為前景):

而恰好在LFM論文的Figure 6里面,也用到了與上面Figure 2一樣的前景進(jìn)行摳圖。下圖Figure 6 紅色框框住的部分就是用相同前景合并了不同背景后LFM報(bào)告的結(jié)果。

當(dāng)然了LFM和這篇TIP投稿的Background Matting論文用到進(jìn)行合成的背景是不同的,但是進(jìn)一步考慮到這篇TIP投稿的作者拿到的這個(gè)LFM pretrain model應(yīng)該也是將test set包含進(jìn)去的(不可能每個(gè)人都給不同的pretrain吧,如果是的話那就更詭異了:)),這樣的話對(duì)于這個(gè)在test set中出現(xiàn)過(guò)前景,LFM的pretrain model也應(yīng)該是已經(jīng)訓(xùn)練過(guò)了,然而效果上依然不行呀:)

進(jìn)一步地在這篇TIP 投稿的Table 1中我們可以看到,

LFM的pretrain model在Adobe Deep Image Matting Dataset 上的表現(xiàn)遠(yuǎn)差于Deep Image Matting 的方法(SAD上差了55個(gè)點(diǎn)),甚至還比其他的不基于神經(jīng)網(wǎng)絡(luò)的closed-form matting以及Information-flow Matting的結(jié)果要差。但當(dāng)我回看LFM在論文里報(bào)告的在Adobe Deep Image Matting Dataset的test set上的表現(xiàn)的時(shí)候:

這里Ours-raw-full的意思是指LFM方法在沒(méi)有經(jīng)過(guò)guided filter進(jìn)行后處理時(shí)對(duì)整張圖算4個(gè)指標(biāo)(SAD、MSE、Gradient、Connectivity)得到的結(jié)果。而Ours-raw-25是指僅僅在alpha matte的transition region進(jìn)行dilation 25 pixels得到一個(gè)區(qū)域,計(jì)算這個(gè)區(qū)域下LFM對(duì)于alpha matte的預(yù)測(cè)與ground-truth alpha matte的差異得到四個(gè)指標(biāo)的值??梢钥吹?,從在LFM 報(bào)告的結(jié)果來(lái)看,無(wú)論是哪種計(jì)算方式都不會(huì)與DIM相差甚遠(yuǎn),并且遠(yuǎn)遠(yuǎn)優(yōu)于除DIM外的所有方法。這就非常尷尬了:)

單單看TIP這篇Background Matting報(bào)告的結(jié)果可能還是會(huì)懷疑會(huì)不會(huì)是TIP的這篇投稿在測(cè)試的時(shí)候出了問(wèn)題,那么我們就來(lái)看看另一篇文章,來(lái)自印度友人的AlphaNet,同樣是聲稱要進(jìn)行自動(dòng)化摳圖。在該論文的Fig 4. 中也放出了LFM pretrain model在他們構(gòu)建的dataset 上的結(jié)果。這里注意到論文提到了LFM的pretrain model是pre-trained on DIM (DIM就是Deep Image Matting的縮寫,意味著在Deep Image Matting Dataset上進(jìn)行pretrain),這下看來(lái)印度友人應(yīng)該也是有詢問(wèn)過(guò)他們幸運(yùn)地拿到的pretrain model是在什么數(shù)據(jù)集上面訓(xùn)練的,但很遺憾他們沒(méi)有進(jìn)一步問(wèn)下去究竟是用train set還是test set還是一起用進(jìn)行訓(xùn)練的: )

我們?cè)俅慰吹?,三張放出?lái)的圖片在估計(jì)前景的時(shí)候都出現(xiàn)了大量的背景artifacts,與CVPR 2020 Background Matting在正文以及附錄里面對(duì)于LFM的評(píng)價(jià)完全一致,也跟我的復(fù)現(xiàn)結(jié)果非常吻合:)

這三篇文章,CVPR 2020 Background Matting:The World is Your Green Screen, TIP投稿 Background Matting以及印度友人的AlphaNet分別通過(guò)Adobe Deep Image Matting Dataset的test set里面的透明物體作為前景以及非透明物體如人作為前景來(lái)測(cè)試了他們幸運(yùn)拿到的LFM pretrain model,并且CVPR 2020 Background Matting拿到的pretrain model是在Adobe Deep Image Matting Dataset的train+test set一起訓(xùn)練后的model。應(yīng)該說(shuō)對(duì)于最開(kāi)始LFM在摘要提到的對(duì)于RGB image可以自動(dòng)化求解出alpha matte,我們可以從這兩個(gè)不同類型的前景上LFM pretrain model的糟糕表現(xiàn)窺探到LFM的這個(gè)claim是否成立之一二:)

更多的測(cè)試只能留待大家向LFM的作者要到代碼+pretrain model+dataset以后才能進(jìn)一步好好玩耍了:)

(3) 質(zhì)疑總結(jié)與彩蛋




下面就來(lái)到了總結(jié)歸納的時(shí)間了,基于這三篇不同的文章利用LFM作者提供的pretrain model我們可以得到以下的一些信息:

  1. LFM作者提供的pretrain model是在Adobe Deep Image Matting Dataset上進(jìn)行訓(xùn)練的,并且基于CVPR 2020 Background Matting與作者確認(rèn)的結(jié)果,是把train+test set一起放進(jìn)去訓(xùn)練的。當(dāng)然了為了保持嚴(yán)謹(jǐn),我依然要說(shuō)的是在非常小的概率情況下,有可能會(huì)發(fā)生LFM作者給不同的論文作者分別提供不同的pretrain model讓他們進(jìn)行復(fù)現(xiàn)。畢竟給不同作者提供不同的pretrain model這件事應(yīng)該是小概率事件吧:)
  2. LFM作者提供的pretrain model的效果都與原論文上性能表現(xiàn)相去甚遠(yuǎn),并且對(duì)于同一個(gè)前景圖片在不同背景下的表現(xiàn)也是差別非常大。若除了CVPR 2020 Background Matting作者外其他作者拿到的pretrain model也是train+test進(jìn)行訓(xùn)練的,那么只能說(shuō)LFM即使將test set放進(jìn)去訓(xùn)練,也無(wú)法做好自動(dòng)化matting這個(gè)任務(wù)。對(duì)于LFM摘要提到可以直接輸入一張RGB圖像便能進(jìn)行全自動(dòng)化地進(jìn)行matting,獲得高質(zhì)量的alpha matte,目前來(lái)看道阻且長(zhǎng):)
  3. LFM的論文中并沒(méi)有留足夠的位置去討論可能存在的failure cases(在Figure 9的馬那張圖還是有提了一嘴),作為一個(gè)學(xué)術(shù)研究,尤其是計(jì)算機(jī)視覺(jué)以及圖形學(xué)的研究,well-studied的問(wèn)題往往都是很少的,因此對(duì)于能想得到的以及常見(jiàn)的failure cases都應(yīng)該做更加詳細(xì)的討論,就算在正文沒(méi)有了位置了也應(yīng)該在附錄予以討論。然而我除了在Figure 9 Internet image的馬的那張圖看到了作者似有若無(wú)的討論了一嘴關(guān)于這個(gè)“失敗”的例子,在馬嘴上出現(xiàn)了一些artifacts,除此以外我就沒(méi)有看到過(guò)其他的討論以及工作limitation的討論。退一萬(wàn)步來(lái)說(shuō),如果放大去看馬嘴的部分,其實(shí)也不是說(shuō)完全是錯(cuò)誤的:)
在這里,我保持著對(duì)LFM作者最大的敬意,因?yàn)闊o(wú)論如何,他也是(應(yīng)該是)第一個(gè)考慮用CNN進(jìn)行全自動(dòng)化前景無(wú)差別摳圖的第一人,并且能夠發(fā)表在CVPR 2019。我非常希望如果作者本人看到了這篇本站文章能夠予以回應(yīng),向我們稍微闡述一下這些不解與困惑。我深知作為一名研究員,沒(méi)有義務(wù)需要回答所有的質(zhì)疑或者疑問(wèn)。但當(dāng)多篇文章分別都得到較為一致的結(jié)果的時(shí)候,作為這篇文章的作者,我覺(jué)得非常有責(zé)任要向整個(gè)community進(jìn)行交代。

其次,我深知當(dāng)前泡沫化下的AI研究領(lǐng)域讓各大頂會(huì)充斥了大量無(wú)含金量的投稿。Reviewer都是義務(wù)勞動(dòng),在短時(shí)間內(nèi)處理大量的投稿自然是非常困難的。然而現(xiàn)在讓我們整個(gè)community看到的,是類似LFM這樣的文章可以發(fā)在CVPR上。作為第一篇全自動(dòng)化摳圖的文章,并且能夠發(fā)表在CVPR上,這注定了LFM會(huì)繼續(xù)成為全自動(dòng)化摳圖這個(gè)領(lǐng)域未來(lái)好幾年的benchmark以及比較對(duì)象。然而,對(duì)于那些在全自動(dòng)化摳圖這個(gè)領(lǐng)域耕耘的研究者來(lái)說(shuō),他們難道要每次投稿的時(shí)候,都要像我一樣,像CVPR 2020 Background Matting一樣,在正文以及附錄都寫了一次對(duì)于LFM的種種質(zhì)疑和該如何將自己的方法和LFM進(jìn)行合理的對(duì)比嗎?這是一個(gè)領(lǐng)域頂會(huì)對(duì)整個(gè)領(lǐng)域該起到的作用嗎?

Matting是一個(gè)無(wú)論在工業(yè)界抑或?qū)W術(shù)界都有非常高價(jià)值的研究課題,從2000年開(kāi)始,大量的視覺(jué)研究員都曾經(jīng)投身到Matting的研究中,像沈向陽(yáng)、孫劍、何凱明、湯曉鷗、Jue Wang等等,更不乏在研究matting以及相近研究課題時(shí)候誕生出的類似GrabCut、Guided Filter、Closed-Form Matting等對(duì)其他視覺(jué)領(lǐng)域都有重要意義的工作。我真的不希望這個(gè)研究課題,從此可能會(huì)被亂搞下去。

對(duì)了,

在CVPR2020中有一篇同樣claim了可以全自動(dòng)摳圖的文章
Attention-Guided Hierarchical Structure Aggregation for Image Matting
[https://github.com/wukaoliu/CVPR2020-HAttMatting],作者在本站: @大工彭于晏

非常期待這篇文章/代碼放出來(lái)。講真,CVPR2020的camera ready過(guò)去很久了,應(yīng)該可以先把論文放出來(lái)的吧?也誠(chéng)邀各位大佬和大姥能一起來(lái)監(jiān)督一下進(jìn)展,要是有什么進(jìn)展也可以艾特一下我,謝謝大家!


—————————倡議——————————
各位大佬和大姥:
如果在閱讀論文或者代碼的時(shí)候發(fā)現(xiàn)一些可能存在問(wèn)題,且掌握一些證據(jù),石錘,
歡迎將您的質(zhì)疑投稿本專欄。
【如果不方便自己的號(hào)發(fā)出來(lái),歡迎私信我,可以讓我來(lái)代發(fā),或者用小號(hào)來(lái)投稿,郵箱也可以聯(lián)系runningdog_ai@126.com

我一個(gè)人的實(shí)力實(shí)在是太弱了,質(zhì)疑一篇文章所需要的時(shí)間和精力遠(yuǎn)不及有害論文的accept速度。隨著全國(guó)人工智能學(xué)院的遍地開(kāi)花和各種國(guó)家層面人工智能政策的頒布,亟需健康穩(wěn)健干凈的AI社區(qū)。

2020年2月-4月疫情階段,我體會(huì)了從未有過(guò)的內(nèi)憂外患,有沒(méi)有想過(guò)自己能為祖國(guó)做點(diǎn)什么?中華民族偉大復(fù)興不是,也絕不能是一句空話。在這個(gè)semi-和平時(shí)代,AI領(lǐng)域需要有突進(jìn)者,也要有清道夫。我想我暫時(shí)應(yīng)該有能力成為后者,希望我能繼續(xù)堅(jiān)持下去,作為即將可能要退役的我想做的一點(diǎn)微小的工作。也希望本專欄在大家的幫助下很快就再也再也發(fā)不出一篇質(zhì)疑文章!


太陽(yáng)快落下去了,你們的孩子居然不害怕?
“當(dāng)然不害怕,她知道明天太陽(yáng)還會(huì)升起來(lái)的?!薄w·黑暗森林

關(guān)鍵詞:質(zhì)疑

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點(diǎn)擊下載Chrome瀏覽器
關(guān)閉