* 題目: Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers
* 鏈接: https://arxiv.org/abs/2111.13587
*" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 網(wǎng)站運營 > arXiv每日更新-2021.11.29(今日關(guān)鍵詞:segmentation、3D、detection)

arXiv每日更新-2021.11.29(今日關(guān)鍵詞:segmentation、3D、detection)

時間:2023-04-21 11:18:02 | 來源:網(wǎng)站運營

時間:2023-04-21 11:18:02 來源:網(wǎng)站運營

arXiv每日更新-2021.11.29(今日關(guān)鍵詞:segmentation、3D、detection):

Transformer

* 題目: Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers
* 鏈接: https://arxiv.org/abs/2111.13587
* 作者: John Guibas,Morteza Mardani,Zongyi Li,Andrew Tao,Anima Anandkumar,Bryan Catanzaro
* 摘要: 視覺變換器在表征學(xué)習(xí)方面取得了巨大的成功。這主要是由于通過自我注意進(jìn)行有效的令牌混合。然而,這與像素數(shù)量成二次方比例,這對于高分辨率輸入變得不可行。為了應(yīng)對這一挑戰(zhàn),我們提出了自適應(yīng)傅立葉神經(jīng)算子 (AFNO) 作為一種高效的令牌混合器,可以學(xué)習(xí)在傅立葉域中進(jìn)行混合。 AFNO 基于算子學(xué)習(xí)的原則基礎(chǔ),它允許我們將令牌混合構(gòu)建為連續(xù)的全局卷積,而不依賴于輸入分辨率。這個原理以前被用于設(shè)計 FNO,它在傅立葉域中有效地解決了全局卷積,并在學(xué)習(xí)具有挑戰(zhàn)性的 PDE 方面顯示出了希望。為了應(yīng)對視覺表示學(xué)習(xí)中的挑戰(zhàn),例如圖像中的不連續(xù)性和高分辨率輸入,我們對 FNO 提出了原則性的架構(gòu)修改,從而提高了內(nèi)存和計算效率。這包括在通道混合權(quán)重上施加塊對角線結(jié)構(gòu),在令牌之間自適應(yīng)地共享權(quán)重,以及通過軟閾值和收縮來稀疏化頻率模式。生成的模型與準(zhǔn)線性復(fù)雜度高度并行,并且在序列大小上具有線性記憶。 AFNO 在效率和準(zhǔn)確性方面都優(yōu)于用于少鏡頭分割的自注意力機(jī)制。對于使用 Segformer-B3 主干的 Cityscapes 分割,AFNO 可以處理 65k 的序列大小,并且優(yōu)于其他有效的自注意力機(jī)制。

* 題目: SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning
* 鏈接: https://arxiv.org/abs/2111.13196
* 作者: Kevin Lin,Linjie Li,Chung-Ching Lin,Faisal Ahmed,Zhe Gan,Zicheng Liu,Yumao Lu,Lijuan Wang
* 摘要: 視頻字幕的規(guī)范方法要求字幕生成模型從離線提取的密集視頻特征中學(xué)習(xí)。這些特征提取器通常對以固定幀速率采樣的視頻幀進(jìn)行操作,并且通常在圖像/視頻理解任務(wù)上進(jìn)行訓(xùn)練,而不適應(yīng)視頻字幕數(shù)據(jù)。在這項工作中,我們提出了 SwinBERT,這是一種基于端到端轉(zhuǎn)換器的視頻字幕模型,它直接將視頻幀補(bǔ)丁作為輸入,并輸出自然語言描述。我們的方法不是利用多個 2D/3D 特征提取器,而是采用視頻轉(zhuǎn)換器來編碼時空表示,該表示可以適應(yīng)不同長度的視頻輸入,而無需針對不同的幀速率進(jìn)行專門的設(shè)計?;诖四P图軜?gòu),我們表明視頻字幕可以從更密集的采樣視頻幀中受益,而不是以前在視頻和語言理解任務(wù)(例如,視頻問答)中使用稀疏采樣的視頻幀取得的成功。此外,為了避免連續(xù)視頻幀中的固有冗余,我們建議自適應(yīng)地學(xué)習(xí)稀疏注意力掩碼并通過更好的遠(yuǎn)程視頻序列建模來優(yōu)化它以提高特定于任務(wù)的性能。通過對 5 個視頻字幕數(shù)據(jù)集的大量實驗,我們表明 SwinBERT 與以前的方法相比實現(xiàn)了全面的性能改進(jìn),通常是大幅度提高。此外,學(xué)習(xí)到的稀疏注意力掩碼將極限推向了新的藝術(shù)狀態(tài),并且可以在不同的視頻長度和不同的數(shù)據(jù)集之間轉(zhuǎn)移。

* 題目: Global Interaction Modelling in Vision Transformer via Super Tokens
* 鏈接: https://arxiv.org/abs/2111.13156
* 作者: Ammarah Farooq,Muhammad Awais,Sara Ahmed,Josef Kittler
* 摘要: 隨著 Transformer 架構(gòu)在計算機(jī)視覺中的普及,研究重點已轉(zhuǎn)向開發(fā)計算效率高的設(shè)計?;诖翱诘木植孔⒁饬κ亲罱ぷ髦胁捎玫闹饕夹g(shù)之一。這些方法從非常小的補(bǔ)丁大小和小的嵌入維度開始,然后執(zhí)行跨步卷積(補(bǔ)丁合并)以減小特征圖大小并增加嵌入維度,從而形成類似金字塔形卷積神經(jīng)網(wǎng)絡(luò)(CNN)的設(shè)計。在這項工作中,我們通過提出一種新穎的各向同性架構(gòu)來研究 Transformer 中的局部和全局信息建模,該架構(gòu)采用局部窗口和特殊標(biāo)記(稱為超級標(biāo)記)來進(jìn)行自我注意。具體來說,單個超級令牌被分配給每個圖像窗口,用于捕獲該窗口的豐富局部細(xì)節(jié)。然后將這些令牌用于跨窗口通信和全局表示學(xué)習(xí)。因此,大部分學(xué)習(xí)獨立于較高層中的圖像塊 $(N)$,并且類嵌入僅基于超級標(biāo)記 $(N/M^2)$ 學(xué)習(xí),其中 $M^2$ 是窗口大小。在 Imagenet-1K 上的標(biāo)準(zhǔn)圖像分類中,所提出的基于超級令牌的變換器 (STT-S25) 達(dá)到了 83.5% 的準(zhǔn)確率,相當(dāng)于 Swin 變換器 (Swin-B) 的參數(shù)數(shù)量的一半 (49M) 和兩倍的推理時間吞吐量。提議的超級令牌轉(zhuǎn)換器為視覺識別任務(wù)提供了一個輕量級且有前途的主干。

* 題目: Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations
* 鏈接: https://arxiv.org/abs/2111.13152
* 作者: Mehdi S. M. Sajjadi,Henning Meyer,Etienne Pot,Urs Bergmann,Klaus Greff,Noha Radwan,Suhani Vora,Mario Lucic,Daniel Duckworth,Alexey Dosovitskiy,Jakob Uszkoreit,Tom Funkhouser,Andrea Tagliasacchi
* 其他: Project website: this https URL
* 摘要: 計算機(jī)視覺中的一個經(jīng)典問題是從可用于以交互速率渲染新視圖的少數(shù)圖像中推斷出 3D 場景表示。以前的工作側(cè)重于重建預(yù)定義的 3D 表示,例如紋理網(wǎng)格或隱式表示,例如輻射場,并且通常需要輸入圖像具有精確的相機(jī)姿勢和每個新場景的長處理時間。在這項工作中,我們提出了場景表示變換器 (SRT),這是一種處理新區(qū)域的有姿勢或未姿勢的 RGB 圖像的方法,推斷“集合潛在場景表示”,并合成新視圖,所有這些都在單個前饋中經(jīng)過。為了計算場景表示,我們建議將 Vision Transformer 推廣到圖像集,從而實現(xiàn)全局信息集成,從而實現(xiàn) 3D 推理。高效的解碼器轉(zhuǎn)換器通過參與場景表示來渲染新視圖來參數(shù)化光場。通過最小化新視圖重建錯誤來端到端監(jiān)督學(xué)習(xí)。我們表明,該方法在合成數(shù)據(jù)集的 PSNR 和速度方面優(yōu)于最近的基線,包括為論文創(chuàng)建的新數(shù)據(jù)集。此外,我們證明了 SRT 可以擴(kuò)展以支持使用街景圖像的真實戶外環(huán)境的交互式可視化和語義分割。

* 題目: BoxeR: Box-Attention for 2D and 3D Transformers
* 鏈接: https://arxiv.org/abs/2111.13087
* 作者: Duy-Kien Nguyen,Jihong Ju,Olaf Booji,Martin R. Oswald,Cees G. M. Snoek
* 摘要: 在本文中,我們提出了一種簡單的注意力機(jī)制,我們稱之為 Box-Attention。它實現(xiàn)了網(wǎng)格特征之間的空間交互,如從感興趣的框中采樣,并提高了轉(zhuǎn)換器對多個視覺任務(wù)的學(xué)習(xí)能力。具體來說,我們提出 BoxeR,Box Transformer 的縮寫,它通過從輸入特征圖上的參考窗口預(yù)測它們的變換來處理一組框。 BoxeR 通過考慮其網(wǎng)格結(jié)構(gòu)來計算這些框的注意力權(quán)重。值得注意的是,BoxeR-2D 自然會在其注意力模塊中對框信息進(jìn)行推理,使其適用于端到端的實例檢測和分割任務(wù)。通過在 box-attention 模塊中學(xué)習(xí)旋轉(zhuǎn)不變性,BoxeR-3D 能夠從鳥瞰平面生成判別信息,用于 3D 端到端對象檢測。我們的實驗表明,所提出的 BoxeR-2D 在 COCO 檢測上取得了更好的結(jié)果,并且在 COCO 實例分割上達(dá)到了與成熟且高度優(yōu)化的 Mask R-CNN 相當(dāng)?shù)男阅堋?BoxeR-3D 已經(jīng)在 Waymo Open 的車輛類別中獲得了引人注目的性能,無需任何特定于類別的優(yōu)化。代碼將被發(fā)布。

* 題目: NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition
* 鏈接: https://arxiv.org/abs/2111.12994
* 作者: Hao Liu,Xinghua Jiang,Xin Li,Zhimin Bao,Deqiang Jiang,Bo Ren
* 其他: Tech report
* 摘要: 最近,以自注意力(SA)為事實上的成分的視覺變換器(ViT)在計算機(jī)視覺社區(qū)中展示了巨大的潛力。為了在效率和性能之間進(jìn)行權(quán)衡,一組作品僅在局部補(bǔ)丁內(nèi)執(zhí)行 SA 操作,而放棄了全局上下文信息,這對于視覺識別任務(wù)是必不可少的。為了解決這個問題,隨后的全局-局部 ViT 嘗試在模型中以并行或替代方式將局部 SA 與全局 SA 結(jié)合。然而,詳盡結(jié)合的局部和全局上下文對于各種視覺數(shù)據(jù)可能存在冗余,并且每一層內(nèi)的感受野是固定的。或者,一種更優(yōu)雅的方式是全局和局部上下文本身可以自適應(yīng)地貢獻(xiàn)以適應(yīng)不同的視覺數(shù)據(jù)。為了實現(xiàn)這一目標(biāo),我們在本文中提出了一種新的 ViT 架構(gòu),稱為 NomMer,它可以動態(tài)提名視覺變換器中的協(xié)同全局-局部上下文。通過研究我們提議的 NomMer 的工作模式,我們進(jìn)一步探索了關(guān)注的上下文信息。受益于這種“動態(tài)提名”機(jī)制,沒有花里胡哨,NomMer 不僅可以在僅 7300 萬個參數(shù)的情況下在 ImageNet 上達(dá)到 84.5% 的 Top-1 分類準(zhǔn)確率,而且在密集預(yù)測任務(wù)(即對象檢測和語義)上也表現(xiàn)出良好的性能分割。代碼和模型將在~/url{this https URL.

* 題目: PolyViT: Co-training Vision Transformers on Images, Videos and Audio
* 鏈接: https://arxiv.org/abs/2111.12993
* 作者: Valerii Likhosherstov,Anurag Arnab,Krzysztof Choromanski,Mario Lucic,Yi Tay,Adrian Weller,Mostafa Dehghani
* 摘要: 我們能否訓(xùn)練一個能夠處理多種模態(tài)和數(shù)據(jù)集的 Transformer 模型,同時共享幾乎所有的可學(xué)習(xí)參數(shù)?我們展示了 PolyViT,這是一個經(jīng)過圖像、音頻和視頻訓(xùn)練的模型,可以回答這個問題。通過在單一模態(tài)上聯(lián)合訓(xùn)練不同的任務(wù),我們能夠提高每個單獨任務(wù)的準(zhǔn)確性,并在 5 個標(biāo)準(zhǔn)視頻和音頻分類數(shù)據(jù)集上取得最先進(jìn)的結(jié)果。在多種模態(tài)和任務(wù)上共同訓(xùn)練 PolyViT 會產(chǎn)生一個參數(shù)效率更高的模型,并學(xué)習(xí)跨多個域泛化的表示。此外,我們表明協(xié)同訓(xùn)練實施起來既簡單又實用,因為我們不需要為每個數(shù)據(jù)集組合調(diào)整超參數(shù),而可以簡單地適應(yīng)標(biāo)準(zhǔn)單任務(wù)訓(xùn)練中的超參數(shù)。

* 題目: Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation
* 鏈接: https://arxiv.org/abs/2111.12941
* 作者: Wenxuan Ma,Jinming Zhang,Shuang Li,Chi Harold Liu,Yulin Wang,Wei Li
* 摘要: 無監(jiān)督域適應(yīng) (UDA) 旨在將知識從標(biāo)記的源域轉(zhuǎn)移到未標(biāo)記的目標(biāo)域。大多數(shù)現(xiàn)有的 UDA 方法通過學(xué)習(xí)域不變表示和跨兩個域共享一個分類器來實現(xiàn)知識轉(zhuǎn)移。然而,忽略與任務(wù)相關(guān)的領(lǐng)域特定信息,并強(qiáng)制統(tǒng)一分類器適應(yīng)兩個領(lǐng)域?qū)⑾拗泼總€領(lǐng)域的特征表達(dá)能力。在本文中,通過觀察具有可比參數(shù)的 Transformer 架構(gòu)可以生成比 CNN 對應(yīng)物更多的可轉(zhuǎn)移表示,我們提出了一個 Win-Win TRansformer 框架(WinTR),它分別探索每個域的特定領(lǐng)域知識,同時跨域交換知識。具體來說,我們在 Transformer 中使用兩個單獨的分類標(biāo)記來學(xué)習(xí)兩種不同的映射,并為每個標(biāo)記設(shè)計一個特定于域的分類器。跨域知識通過源引導(dǎo)標(biāo)簽細(xì)化和相對于源或目標(biāo)的單邊特征對齊進(jìn)行傳輸,從而保持特定領(lǐng)域信息的完整性。在三個基準(zhǔn)數(shù)據(jù)集上的大量實驗表明,我們的方法優(yōu)于最先進(jìn)的 UDA 方法,驗證了利用特定領(lǐng)域和不變性的有效性

* 題目: A Volumetric Transformer for Accurate 3D Tumor Segmentation
* 鏈接: https://arxiv.org/abs/2111.13300
* 作者: Himashi Peiris,Munawar Hayat,Zhaolin Chen,Gary Egan,Mehrtash Harandi
* 摘要: 本文提出了一種用于體積醫(yī)學(xué)圖像分割的 Transformer 架構(gòu)。為體積分割設(shè)計計算效率高的 Transformer 架構(gòu)是一項具有挑戰(zhàn)性的任務(wù)。它需要在編碼局部和全局空間線索時保持復(fù)雜的平衡,并沿體積數(shù)據(jù)的所有軸保留信息。擬議的體積變換器具有 U 形編碼器-解碼器設(shè)計,可整體處理輸入體素。我們的編碼器有兩個連續(xù)的自注意力層來同時編碼局部和全局線索,我們的解碼器具有新穎的基于平行移動窗口的自注意力和交叉注意力塊,通過包含傅里葉位置編碼來捕獲精細(xì)的細(xì)節(jié)以進(jìn)行邊界細(xì)化。我們提出的設(shè)計選擇產(chǎn)生了計算效率高的架構(gòu),該架構(gòu)在腦腫瘤分割 (BraTS) 2021 和用于腫瘤分割的醫(yī)學(xué)分割十項全能(胰腺和肝臟)數(shù)據(jù)集上展示了有希望的結(jié)果。我們進(jìn)一步表明,我們的模型學(xué)習(xí)的表示可以更好地跨數(shù)據(jù)集遷移,并且對數(shù)據(jù)損壞具有魯棒性。 /href{this https URL}{我們的代碼實現(xiàn)是公開的}。



三維視覺

* 題目: Neural Fields as Learnable Kernels for 3D Reconstruction
* 鏈接: https://arxiv.org/abs/2111.13674
* 作者: Francis Williams,Zan Gojcic,Sameh Khamis,Denis Zorin,Joan Bruna,Sanja Fidler,Or Litany
* 摘要: 我們提出了神經(jīng)核場:一種基于學(xué)習(xí)的核脊回歸重建隱式 3D 形狀的新方法。我們的技術(shù)在從稀疏定向點重建 3D 對象和大場景時取得了最先進(jìn)的結(jié)果,并且可以在幾乎不降低精度的情況下重建訓(xùn)練集之外的形狀類別。我們方法的核心見解是,當(dāng)所選內(nèi)核具有適當(dāng)?shù)臍w納偏置時,內(nèi)核方法對于重建形狀非常有效。因此,我們將形狀重建問題分解為兩部分:(1)從數(shù)據(jù)中學(xué)習(xí)內(nèi)核參數(shù)的骨干神經(jīng)網(wǎng)絡(luò),以及(2)通過求解一個簡單的正定問題來即時擬合輸入點的內(nèi)核嶺回歸使用學(xué)習(xí)到的內(nèi)核的線性系統(tǒng)。由于這種分解,我們的重建在稀疏點密度下獲得了數(shù)據(jù)驅(qū)動方法的好處,同時保持了插值行為,隨著輸入采樣密度的增加,它會收斂到地面實況形狀。我們的實驗證明了對訓(xùn)練集類別和掃描場景之外的對象的強(qiáng)大泛化能力。此 https URL 提供源代碼和預(yù)訓(xùn)練模型。

* 題目: 3D shape sensing and deep learning-based segmentation of strawberries
* 鏈接: https://arxiv.org/abs/2111.13663
* 作者: Justin Le Lou?dec,Grzegorz Cielniak
* 其他: 14 pages, 13 figures, accepted to Computers and Electronics in Agriculture
* 摘要: 農(nóng)業(yè)部門的自動化和機(jī)器人化被視為應(yīng)對該行業(yè)面臨的社會經(jīng)濟(jì)挑戰(zhàn)的可行解決方案。該技術(shù)通常依賴于提供有關(guān)作物、植物和整個環(huán)境的信息的智能感知系統(tǒng)?,F(xiàn)代 3D 視覺系統(tǒng)可以解決傳統(tǒng) 2D 視覺系統(tǒng)面臨的挑戰(zhàn),現(xiàn)代 3D 視覺系統(tǒng)可以直接定位對象、估計大小和形狀或處理遮擋。到目前為止,3D 傳感的使用主要限于室內(nèi)或結(jié)構(gòu)化環(huán)境。在本文中,我們評估了現(xiàn)代傳感技術(shù),包括用于農(nóng)業(yè) 3D 形狀感知的立體和飛行時間相機(jī),并研究它們根據(jù)形狀從背景中分離出軟水果的可用性。為此,我們提出了一種新穎的 3D 深度神經(jīng)網(wǎng)絡(luò),它利用了源自基于相機(jī)的 3D 傳感器的信息的有組織的性質(zhì)。與最先進(jìn)的 3D 網(wǎng)絡(luò)相比,我們展示了所提出架構(gòu)的卓越性能和效率。通過模擬研究,我們還展示了 3D 傳感范式在農(nóng)業(yè)對象分割方面的潛力,并提供了對作物進(jìn)一步分析所需和預(yù)期的形狀質(zhì)量的見解和分析。這項工作的結(jié)果應(yīng)該鼓勵研究人員和公司開發(fā)更準(zhǔn)確和強(qiáng)大的 3D 傳感技術(shù),以確保它們在實際農(nóng)業(yè)應(yīng)用中得到更廣泛的采用。

* 題目: Gradient-SDF: A Semi-Implicit Surface Representation for 3D Reconstruction
* 鏈接: https://arxiv.org/abs/2111.13652
* 作者: Christiane Sommer,Lu Sang,David Schubert,Daniel Cremers
* 其他: First two authors contributed equally
* 摘要: 我們提出了 Gradient-SDF,這是一種新穎的 3D 幾何表示,結(jié)合了隱式和顯式表示的優(yōu)點。通過在每個體素上存儲有符號距離場及其梯度矢量場,我們使用最初為顯式表面制定的方法增強(qiáng)了隱式表示的能力。作為具體的例子,我們表明 (1) Gradient-SDF 允許我們從深度圖像執(zhí)行直接 SDF 跟蹤,使用有效的存儲方案,如哈希圖,以及 (2) Gradient-SDF 表示使我們能夠執(zhí)行光度束調(diào)整直接在體素表示中(不轉(zhuǎn)換為點云或網(wǎng)格),自然是幾何和相機(jī)姿勢的完全隱式優(yōu)化以及簡單的幾何上采樣。實驗結(jié)果證實,這導(dǎo)致顯著更清晰的重建。由于仍然遵循整體 SDF 體素結(jié)構(gòu),因此所提出的 Gradient-SDF 與相關(guān)方法同樣適用于 (GPU) 并行化。

* 題目: Morphology Decoder: A Machine Learning Guided 3D Vision Quantifying Heterogenous Rock Permeability for Planetary Surveillance and Robotic Functions
* 鏈接: https://arxiv.org/abs/2111.13460
* 作者: Omar Alfarisi,Aikifa Raza,Djamel Ouzzane,Hongxia Li,Mohamed Sassi,Tiejun Zhang
* 摘要: 滲透率對天然流體的流動特性有主要影響。格子玻爾茲曼模擬器從納米和微孔網(wǎng)絡(luò)確定滲透率。該模擬器擁有數(shù)百萬次流動動力學(xué)計算,其累積誤差和計算能力消耗很大。為了有效和一致地預(yù)測滲透率,我們提出了一種形態(tài)解碼器,一種從 3D 微型計算機(jī)斷層掃描和核磁共振圖像中機(jī)器學(xué)習(xí)分段異質(zhì)白堊紀(jì)紋理的并行和串行流重建。對于 3D 視覺,我們引入了可控測量體積作為新的監(jiān)督分割,其中一組獨特的體素強(qiáng)度對應(yīng)于顆粒和孔喉尺寸。形態(tài)解碼器以一種新穎的方式劃分和聚合形態(tài)邊界以產(chǎn)生滲透性。形態(tài)解碼器方法由五個新過程組成,在本文中進(jìn)行了描述,這些新過程是:(1)幾何 3D 滲透率,(2)機(jī)器學(xué)習(xí)引導(dǎo)的巖石形態(tài) 3D 屬性識別,(3)滲透率的 3D 圖像屬性集成模型, (4) MRI Permeability Imager, 和 (5) Morphology Decoder(整合其他四個新流程的流程)。

* 題目: POEM: 1-bit Point-wise Operations based on Expectation-Maximization for Efficient Point Cloud Processing
* 鏈接: https://arxiv.org/abs/2111.13386
* 作者: Sheng Xu,Yanjing Li,Junhe Zhao,Baochang Zhang,Guodong Guo
* 其他: Accepted by BMVC 2021. arXiv admin note: text overlap with arXiv:2010.05501 by other authors
* 摘要: 實時點云處理是許多計算機(jī)視覺任務(wù)的基礎(chǔ),但仍然受到資源有限邊緣設(shè)備上計算問題的挑戰(zhàn)。為了解決這個問題,我們實現(xiàn)了基于 XNOR-Net 的二元神經(jīng)網(wǎng)絡(luò) (BNN) 以進(jìn)行高效的點云處理,但由于兩個主要缺點,高斯分布權(quán)重和不可學(xué)習(xí)的比例因子,其性能受到嚴(yán)重影響。在本文中,我們將基于期望最大化(POEM)的逐點操作引入到 BNN 中,以實現(xiàn)高效的點云處理。 EM 算法可以有效地約束穩(wěn)健雙峰分布的權(quán)重。我們采用精心設(shè)計的重建損失來計算可學(xué)習(xí)的比例因子,以增強(qiáng) 1 位全連接 (Bi-FC) 層的表示能力。大量實驗表明,我們的 POEM 以高達(dá) 6.7% 的顯著優(yōu)勢超越了現(xiàn)有的最先進(jìn)的二進(jìn)制點云網(wǎng)絡(luò)。

* 題目: Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors
* 鏈接: https://arxiv.org/abs/2111.13309
* 作者: Aloisio Dourado,Frederico Guth,Teofilo de Campos
* 其他: 10 pages, 5 figures
* 摘要: 語義場景完成 (SSC) 是一項具有挑戰(zhàn)性的計算機(jī)視覺任務(wù),具有許多實際應(yīng)用,從機(jī)器人技術(shù)到輔助計算。它的目標(biāo)是推斷場景視野中的 3D 幾何形狀和體素的語義標(biāo)簽,包括遮擋區(qū)域。在這項工作中,我們提出了 SPAwN,這是一種新型的輕量級多模態(tài) 3D 深度 CNN,可將來自 RGB-D 圖像深度分量的結(jié)構(gòu)數(shù)據(jù)與來自雙模態(tài) 2D 分割網(wǎng)絡(luò)的語義先驗無縫融合。該領(lǐng)域的一個關(guān)鍵困難是缺乏完全標(biāo)記的真實世界 3D 數(shù)據(jù)集,這些數(shù)據(jù)集大到足以訓(xùn)練當(dāng)前需要大量數(shù)據(jù)的深度 3D CNN。在二維計算機(jī)視覺任務(wù)中,已經(jīng)提出了許多數(shù)據(jù)增強(qiáng)策略來提高 CNN 的泛化能力。然而,這些方法不能直接應(yīng)用于 SSC 解決方案的 RGB-D 輸入和輸出量。在本文中,我們介紹了可應(yīng)用于多模態(tài) SSC 網(wǎng)絡(luò)的 3D 數(shù)據(jù)增強(qiáng)策略的使用。我們通過全面且可重復(fù)的消融研究來驗證我們的貢獻(xiàn)。我們的解決方案始終以類似的復(fù)雜程度超越以前的作品。

* 題目: Medial Spectral Coordinates for 3D Shape Analysis
* 鏈接: https://arxiv.org/abs/2111.13295
* 作者: Morteza Rezanejad,Mohammad Khodadad,Hamidreza Mahyar,Herve Lombaert,Michael Gruninger,Dirk B. Walther,Kaleem Siddiqi
* 摘要: 近年來,我們社區(qū)對由表面網(wǎng)格、其體素化內(nèi)部或表面點云表示的 3D 對象的形狀分析重新產(chǎn)生了興趣。在某種程度上,RGBD 相機(jī)的可用性增加以及計算機(jī)視覺在自動駕駛、醫(yī)學(xué)成像和機(jī)器人技術(shù)中的應(yīng)用激發(fā)了這種興趣。在這些設(shè)置中,光譜坐標(biāo)已顯示出形狀表示的前景,因為它們能夠以對等距變換定性不變的方式結(jié)合局部和全局形狀屬性。然而,令人驚訝的是,迄今為止,此類坐標(biāo)通常只考慮局部表面位置或派生信息。在本文中,我們建議為光譜坐標(biāo)配備中間(物體寬度)信息,以豐富它們。關(guān)鍵思想是通過鄰接矩陣的權(quán)重耦合共享一個內(nèi)側(cè)球的表面點。我們使用這個想法開發(fā)了一個光譜特征,以及計算它的算法。對象寬度和中間耦合的結(jié)合具有直接的好處,正如我們在對象分類、對象部分分割和表面點對應(yīng)方面的實驗所示。

* 題目: 3D Pose Estimation and Future Motion Prediction from 2D Images
* 鏈接: https://arxiv.org/abs/2111.13285
* 作者: Ji Yang,Youdong Ma,Xinxin Zuo,Sen Wang,Minglun Gong,Li Cheng
* 其他: Accepted by Pattern Recognition
* 摘要: 本文考慮聯(lián)合解決估計 3D 人體姿勢和從 RGB 圖像序列預(yù)測未來 3D 運動的高度相關(guān)任務(wù)?;诶畲鷶?shù)姿勢表示,提出了一種新穎的自投影機(jī)制,可以自然地保留人體運動學(xué)。基于編碼器-解碼器拓?fù)涞男蛄械叫蛄卸嗳蝿?wù)架構(gòu)進(jìn)一步促進(jìn)了這一點,這使我們能夠利用兩個任務(wù)共享的共同點。最后,提出了一個全局優(yōu)化模塊來提高我們框架的性能。我們稱為 PoseMoNet 的方法的有效性通過對 Human3.6M 和 HumanEva-I 基準(zhǔn)的消融測試和實證評估證明,與最先進(jìn)的技術(shù)相比,獲得了有競爭力的性能。

* 題目: NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes
* 鏈接: https://arxiv.org/abs/2111.13260
* 作者: Suhani Vora,Noha Radwan,Klaus Greff,Henning Meyer,Kyle Genova,Mehdi S. M. Sajjadi,Etienne Pot,Andrea Tagliasacchi,Daniel Duckworth
* 其他: Project website: this https URL
* 摘要: 我們提出了 NeSF,這是一種僅從構(gòu)成的 RGB 圖像生成 3D 語義場的方法。代替經(jīng)典的 3D 表示,我們的方法建立在隱式神經(jīng)場景表示的最新工作之上,其中 3D 結(jié)構(gòu)由逐點函數(shù)捕獲。我們利用這種方法來恢復(fù) 3D 密度場,然后在此基礎(chǔ)上訓(xùn)練由構(gòu)成的 2D 語義圖監(jiān)督的 3D 語義分割模型。盡管僅在 2D 信號上進(jìn)行訓(xùn)練,我們的方法能夠從新的相機(jī)姿勢生成 3D 一致的語義圖,并且可以在任意 3D 點進(jìn)行查詢。值得注意的是,NeSF 與任何產(chǎn)生密度場的方法兼容,其精度隨著密度場質(zhì)量的提高而提高。我們的實證分析表明,在復(fù)雜的、真實渲染的合成場景上,其質(zhì)量可與競爭性 2D 和 3D 語義分割基線相媲美。我們的方法是第一個提供真正密集的 3D 場景分割,只需要 2D 監(jiān)督進(jìn)行訓(xùn)練,并且不需要任何語義輸入來推理新場景。我們鼓勵讀者訪問項目網(wǎng)站。

* 題目: GeomNet: A Neural Network Based on Riemannian Geometries of SPD Matrix Space and Cholesky Space for 3D Skeleton-Based Interaction Recognition
* 鏈接: https://arxiv.org/abs/2111.13089
* 作者: Xuan Son Nguyen
* 其他: Accepted in ICCV 2021
* 摘要: 在本文中,我們提出了一種從 3D 骨架序列表示和分類兩人交互的新方法。我們方法的關(guān)鍵思想是使用高斯分布來捕獲 R n 和對稱正定 (SPD) 矩陣空間上的統(tǒng)計數(shù)據(jù)。主要的挑戰(zhàn)是如何參數(shù)化這些分布。為此,我們開發(fā)了基于李群和黎曼對稱空間理論在矩陣群中嵌入高斯分布的方法。我們的方法依賴于底層流形的黎曼幾何,并且具有從 3D 關(guān)節(jié)位置編碼高階統(tǒng)計數(shù)據(jù)的優(yōu)勢。我們表明,所提出的方法在 3D 人類活動理解的三個基準(zhǔn)上的兩人交互識別中取得了有競爭力的結(jié)果。

* 題目: Rotation Equivariant 3D Hand Mesh Generation from a Single RGB Image
* 鏈接: https://arxiv.org/abs/2111.13023
* 作者: Joshua Mitton,Chaitanya Kaul,Roderick Murray-Smith
* 摘要: 我們開發(fā)了一個旋轉(zhuǎn)等變模型,用于從 2D RGB 圖像生成 3D 手部網(wǎng)格。這保證了當(dāng)手的輸入圖像旋轉(zhuǎn)時,生成的網(wǎng)格會經(jīng)歷相應(yīng)的旋轉(zhuǎn)。此外,這消除了通常由沒有旋轉(zhuǎn)等方差的方法生成的網(wǎng)格中的不良變形。通過構(gòu)建旋轉(zhuǎn)等變模型,通過考慮問題中的對稱性,我們減少了對非常大的數(shù)據(jù)集進(jìn)行訓(xùn)練以實現(xiàn)良好網(wǎng)格重建的需要。編碼器獲取定義在 $/mathbb{Z}^{2}$ 上的圖像,并將這些圖像映射到定義在 $C_{8}$ 組上的潛在函數(shù)。我們引入了一個新的向量映射函數(shù)來將 $C_{8}$ 上定義的函數(shù)映射到 $/mathrm{SO}(2)$ 組上定義的潛在點云空間。此外,我們引入了一個 3D 投影函數(shù),該函數(shù)從 $/mathrm{SO}(2)$ 潛在空間中學(xué)習(xí) 3D 函數(shù)。最后,我們使用 $/mathrm{SO}(3)$ 等變解碼器來確保旋轉(zhuǎn)等變。我們的旋轉(zhuǎn)等變模型在現(xiàn)實世界的數(shù)據(jù)集上優(yōu)于最先進(jìn)的方法,并且我們證明它在輸入手的旋轉(zhuǎn)下準(zhǔn)確地捕獲了生成的網(wǎng)格中的形狀和姿勢。

* 題目: Joint stereo 3D object detection and implicit surface reconstruction
* 鏈接: https://arxiv.org/abs/2111.12924
* 作者: Shichao Li,Kwang-Ting Cheng
* 摘要: 我們提出了第一個基于學(xué)習(xí)的框架,用于基于野外的一對立體 RGB 圖像進(jìn)行類別級 3D 對象檢測和隱式形狀估計。傳統(tǒng)的立體 3D 對象檢測方法僅使用 3D 邊界框描述檢測到的對象,無法推斷其完整的表面幾何形狀,這使得創(chuàng)建逼真的戶外沉浸式體驗變得困難。相比之下,我們提出了一種新模型 S-3D-RCNN,它可以執(zhí)行精確定位,并為檢測到的對象提供完整且與分辨率無關(guān)的形狀描述。我們首先使用全局-局部框架將對象坐標(biāo)系的估計與形狀重建解耦。然后,我們提出了一個新的實例級網(wǎng)絡(luò),該網(wǎng)絡(luò)通過從立體感興趣區(qū)域中提取基于點的表示來解決看不見的表面幻覺問題,并用預(yù)測的完整表面幾何形狀推斷隱式形狀代碼。大量實驗使用 KITTI 基準(zhǔn)上的現(xiàn)有和新指標(biāo)驗證了我們的方法的卓越性能。此 https URL 將提供代碼和預(yù)訓(xùn)練模型。

* 題目: Multiway Non-rigid Point Cloud Registration via Learned Functional Map Synchronization
* 鏈接: https://arxiv.org/abs/2111.12878
* 作者: Jiahui Huang,Tolga Birdal,Zan Gojcic,Leonidas J. Guibas,Shi-Min Hu
* 摘要: 我們提出了 SyNoRiM,這是一種通過同步與點云上定義的學(xué)習(xí)函數(shù)相關(guān)的地圖來聯(lián)合注冊多個非剛性形狀的新方法。盡管處理非剛性形狀的能力在從計算機(jī)動畫到 3D 數(shù)字化的各種應(yīng)用中至關(guān)重要,但文獻(xiàn)仍然缺乏一個強(qiáng)大而靈活的框架來匹配和對齊在遮擋下觀察到的真實、嘈雜的掃描集合。給定一組這樣的點云,我們的方法首先計算通過功能映射參數(shù)化的成對對應(yīng)關(guān)系。我們同時學(xué)習(xí)潛在的非正交基函數(shù)以有效地規(guī)范變形,同時以優(yōu)雅的方式處理遮擋。為了最大限度地受益于推斷的成對變形場提供的多路信息,我們將成對功能圖同步為循環(huán)一致的整體,這要歸功于我們新穎且有原則的優(yōu)化公式。我們通過大量實驗證明,我們的方法在配準(zhǔn)精度方面達(dá)到了最先進(jìn)的性能,同時靈活高效,因為我們在統(tǒng)一框架中處理非剛性和多體情況,并避免了代價高昂的點優(yōu)化通過使用基函數(shù)映射的明智排列。

* 題目: Exploiting full Resolution Feature Context for Liver Tumor and Vessel Segmentation via Fusion Encoder: Application to Liver Tumor and Vessel 3D reconstruction
* 鏈接: https://arxiv.org/abs/2111.13299
* 作者: Xiangyu Meng,Xudong Zhang,Gan Wang,Ying Zhang,Xin Shi,Huanhuan Dai,Zixuan Wang,Xun Wang
* 其他: 15 pages, 6 Figures
* 摘要: 肝癌是世界上最常見的惡性腫瘤之一。 CT圖像中肝臟腫瘤和血管的分割和標(biāo)記可以為醫(yī)生進(jìn)行肝臟腫瘤的診斷和手術(shù)干預(yù)提供便利。在過去的幾十年里,基于深度學(xué)習(xí)的自動 CT 分割方法在醫(yī)學(xué)領(lǐng)域受到了廣泛的關(guān)注。在此期間出現(xiàn)了許多最先進(jìn)的分割算法。然而,現(xiàn)有的分割方法大多只關(guān)心局部特征上下文,對醫(yī)學(xué)圖像的全局相關(guān)性存在感知缺陷,嚴(yán)重影響肝臟腫瘤和血管的分割效果。我們介紹了一種基于 Transformer 和 SEBottleNet 的稱為 TransFusionNet 的多尺度特征上下文融合網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以準(zhǔn)確檢測和識別肝血管感興趣區(qū)域的細(xì)節(jié),同時利用CT圖像的全局信息可以提高對肝臟腫瘤形態(tài)學(xué)邊緣的識別。實驗表明 TransFusionNet 在公共數(shù)據(jù)集 LITS 和 3Dircadb 以及我們的臨床數(shù)據(jù)集上都優(yōu)于最先進(jìn)的方法。最后,我們提出了一種基于訓(xùn)練模型的自動 3D 重建算法。該算法可以在1秒內(nèi)快速準(zhǔn)確地完成重建。



視頻處理

* 題目: Detecting and Tracking Small and Dense Moving Objects in Satellite Videos: A Benchmark
* 鏈接: https://arxiv.org/abs/2111.12960
* 作者: Qian Yin,Qingyong Hu,Hao Liu,Feng Zhang,Yingqian Wang,Zaiping Lin,Wei An,Yulan Guo
* 其他: This paper has been accepted by IEEE Transactions on Geoscience and Remote Sensing. Qian Yin and Qingyong Hu have equal contributions to this work and are co-first authors. The dataset is available at this https URL
* 摘要: 衛(wèi)星攝像機(jī)可以提供大范圍區(qū)域的連續(xù)觀測,這對許多遙感應(yīng)用很重要。然而,由于物體的外觀信息不足和缺乏高質(zhì)量的數(shù)據(jù)集,在衛(wèi)星視頻中實現(xiàn)運動物體檢測和跟蹤仍然具有挑戰(zhàn)性。在本文中,我們首先為運動目標(biāo)檢測和跟蹤任務(wù)構(gòu)建了一個具有豐富注釋的大規(guī)模衛(wèi)星視頻數(shù)據(jù)集。該數(shù)據(jù)集由吉林一號衛(wèi)星星座收集,由 47 個高質(zhì)量視頻組成,其中包含 1,646,038 個用于對象檢測的感興趣實例和 3,711 條用于對象跟蹤的軌跡。然后,我們引入了一個運動建模基線,以基于累積多幀差分和穩(wěn)健矩陣完成來提高檢測率并減少誤報。最后,我們?yōu)樾l(wèi)星視頻中的運動物體檢測和跟蹤建立了第一個公共基準(zhǔn),并廣泛評估了幾種代表性方法在我們的數(shù)據(jù)集上的性能。還提供了全面的實驗分析和深刻的結(jié)論。該數(shù)據(jù)集可在此 https URL 處獲得。

* 題目: Layered Controllable Video Generation
* 鏈接: https://arxiv.org/abs/2111.12747
* 作者: Jiahui Huang,Yuhe Jin,Kwang Moo Yi,Leonid Sigal
* 摘要: 我們引入了分層可控的視頻生成,在沒有任何監(jiān)督的情況下,我們將視頻的初始幀分解為前景和背景層,用戶可以通過簡單地操縱前景蒙版來控制視頻生成過程。主要挑戰(zhàn)是無監(jiān)督的前景 - 背景分離,這是模棱兩可的,以及僅訪問原始視頻序列來預(yù)測用戶操作的能力。我們通過提出一個兩階段的學(xué)習(xí)程序來應(yīng)對這些挑戰(zhàn)。在第一階段,利用豐富的損失集和動態(tài)前景大小,我們學(xué)習(xí)如何將幀分成前景和背景層,并以這些層為條件,如何使用 VQ-VAE 生成器生成下一幀。在第二階段,我們通過將(參數(shù)化)控制擬合到來自未來幀的掩碼來微調(diào)該網(wǎng)絡(luò)以預(yù)測對掩碼的編輯。我們展示了這種學(xué)習(xí)和更細(xì)粒度的控制機(jī)制的有效性,同時在兩個基準(zhǔn)數(shù)據(jù)集上展示了最先進(jìn)的性能。我們在此 https URL 上提供視頻摘要和一些視頻結(jié)果



分割

* 題目: Mask Transfiner for High-Quality Instance Segmentation
* 鏈接: https://arxiv.org/abs/2111.13673
* 作者: Lei Ke,Martin Danelljan,Xia Li,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu
* 其他: Project page: http://vis.xyz/pub/transfiner
* 摘要: 兩階段和基于查詢的實例分割方法取得了顯著的效果。然而,它們的分割掩碼仍然非常粗糙。在本文中,我們提出了用于高質(zhì)量和高效實例分割的 Mask Transfiner。我們的 Mask Transfiner 不是對常規(guī)密集張量進(jìn)行操作,而是將圖像區(qū)域分解并表示為四叉樹。我們基于轉(zhuǎn)換器的方法僅處理檢測到的容易出錯的樹節(jié)點并并行地自我糾正它們的錯誤。雖然這些稀疏像素僅占總數(shù)的一小部分,但它們對最終掩模質(zhì)量至關(guān)重要。這允許 Mask Transfiner 以較低的計算成本預(yù)測高度準(zhǔn)確的實例掩碼。大量實驗表明,Mask Transfiner 在三個流行的基準(zhǔn)測試中優(yōu)于當(dāng)前的實例分割方法,在 COCO 和 BDD100K 上以 +3.0 的掩碼 AP 和在 Cityscapes 上 +6.6 的邊界 AP 顯著改善了兩階段和基于查詢的框架。我們的代碼和訓(xùn)練有素的模型將在 http://vis.xyz/pub/transfiner 上提供。

* 題目: Modeling Human Preference and Stochastic Error for Medical Image Segmentation with Multiple Annotators
* 鏈接: https://arxiv.org/abs/2111.13410
* 作者: Liao Zehui,Hu Shishuai,Xie Yutong,Xia Yong
* 摘要: 醫(yī)學(xué)圖像的人工標(biāo)注是高度主觀的,導(dǎo)致不可避免的巨大標(biāo)注偏差。深度學(xué)習(xí)模型可能會在各種任務(wù)上超越人類的表現(xiàn),但它們也可能模仿或放大這些偏見。雖然我們可以有多個注釋者并融合他們的注釋以減少隨機(jī)錯誤,但我們不能使用這種策略來處理由注釋者的偏好引起的偏差。在本文中,我們強(qiáng)調(diào)了醫(yī)學(xué)圖像分割任務(wù)中與注釋器相關(guān)的偏差問題,并提出了一個涉及偏好的注釋分布學(xué)習(xí) (PADL) 框架,從使用分布學(xué)習(xí)將注釋器的偏好與隨機(jī)誤差解開的角度來解決這個問題,因此不僅生成元分割,還生成每個注釋者可能進(jìn)行的分割。在這個框架下,一個隨機(jī)誤差建模(SEM)模塊估計元分割圖和平均隨機(jī)誤差圖,一系列人類偏好建模(HPM)模塊估計每個注釋者的分割和相應(yīng)的隨機(jī)誤差。我們在具有不同成像模式的兩個醫(yī)學(xué)圖像基準(zhǔn)上評估了我們的 PADL 框架,這些基準(zhǔn)已由多個醫(yī)學(xué)專業(yè)人員進(jìn)行注釋,并在所有五個醫(yī)學(xué)圖像分割任務(wù)上取得了可喜的性能。

* 題目: Efficient Self-Ensemble Framework for Semantic Segmentation
* 鏈接: https://arxiv.org/abs/2111.13280
* 作者: Walid Bousselham,Guillaume Thibault,Lucas Pagano,Archana Machireddy,Joe Gray,Young Hwan Chang,Xubo Song
* 其他: Code available at this https URL
* 摘要: 眾所周知,整體預(yù)測比單獨進(jìn)行的單個預(yù)測表現(xiàn)更好。然而,對于需要大量計算資源的任務(wù),/textit{e.g.} 語義分割,創(chuàng)建需要單獨訓(xùn)練的學(xué)習(xí)器集合很難處理。在這項工作中,我們建議利用集成方法提供的性能提升來增強(qiáng)語義分割,同時避免集成的傳統(tǒng)繁重訓(xùn)練成本。我們的自集成框架利用特征金字塔網(wǎng)絡(luò)方法產(chǎn)生的多尺度特征集來饋送獨立的解碼器,從而在單個模型中創(chuàng)建一個集成。與集成類似,最終預(yù)測是每個學(xué)習(xí)器所做預(yù)測的聚合。與之前的工作相比,我們的模型可以進(jìn)行端到端的訓(xùn)練,減輕了傳統(tǒng)繁瑣的多階段集成訓(xùn)練。我們的自集成框架在用于語義分割的基準(zhǔn)數(shù)據(jù)集 ADE20K、Pascal Context 和 COCO-Stuff-10K 上優(yōu)于當(dāng)前的最新技術(shù),并且在 Cityscapes 上具有競爭力。代碼將在此 http URL 上可用。

* 題目: Surface Segmentation Using Implicit Divergence Constraint Between Adjacent Minimal Paths
* 鏈接: https://arxiv.org/abs/2111.13111
* 作者: Jozsef Molnar,Peter Horvath
* 摘要: 我們介紹了一種使用修改后的最小路徑 Eikonal 方程從 3D 圖像進(jìn)行對象分割的新方法。所提出的方法利用隱式約束 - 對非均勻最小路徑 Eikonal 的二階校正 - 防止相鄰的最小路徑軌跡無法控制地發(fā)散。提議的修改大大減少了最小路徑未覆蓋的表面積,允許使用計算的最小路徑集作為近似表面的參數(shù)線。它還與同樣推導(dǎo)出的真實最小表面 Eikonal 方程有松散的聯(lián)系。

* 題目: Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation
* 鏈接: https://arxiv.org/abs/2111.12940
* 作者: Binhui Xie,Longhui Yuan,Shuang Li,Chi Harold Liu,Xinjing Cheng
* 其他: 18 pages
* 摘要: 自訓(xùn)練極大地促進(jìn)了域自適應(yīng)語義分割,它在目標(biāo)域上迭代生成偽標(biāo)簽并重新訓(xùn)練網(wǎng)絡(luò)。然而,由于現(xiàn)實的分割數(shù)據(jù)集高度不平衡,目標(biāo)偽標(biāo)簽通常偏向于大多數(shù)類別并且基本上是嘈雜的,導(dǎo)致容易出錯和次優(yōu)的模型。為了解決這個問題,我們提出了一種基于區(qū)域的主動學(xué)習(xí)方法,用于域轉(zhuǎn)移下的語義分割,旨在自動查詢要標(biāo)記的一小部分圖像區(qū)域,同時最大限度地提高分割性能。我們的算法,通過區(qū)域雜質(zhì)和預(yù)測不確定性進(jìn)行主動學(xué)習(xí) (AL-RIPU),引入了一種新穎的采集策略,該策略表征圖像區(qū)域的空間相鄰性以及預(yù)測置信度。我們表明,所提出的基于區(qū)域的選擇策略比基于圖像或基于點的選擇策略更有效地利用有限的預(yù)算。同時,我們在源圖像上強(qiáng)制像素與其最近鄰居之間的局部預(yù)測一致性。此外,我們開發(fā)了一個負(fù)學(xué)習(xí)損失來增強(qiáng)目標(biāo)域上的判別式表示學(xué)習(xí)。大量實驗表明,我們的方法只需要很少的注釋即可幾乎達(dá)到監(jiān)督性能,并且大大優(yōu)于最先進(jìn)的方法。

* 題目: Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation
* 鏈接: https://arxiv.org/abs/2111.12903
* 作者: Yuyuan Liu,Yu Tian,Yuanhong Chen,Fengbei Liu,Vasileios Belagiannis,Gustavo Carneiro
* 摘要: 使用輸入圖像、特征或網(wǎng)絡(luò)擾動的一致性學(xué)習(xí)在半監(jiān)督語義分割中顯示出顯著的結(jié)果,但這種方法可能會受到未標(biāo)記訓(xùn)練圖像的不準(zhǔn)確預(yù)測的嚴(yán)重影響。這些不準(zhǔn)確的預(yù)測有兩個后果:1)基于“嚴(yán)格”交叉熵(CE)損失的訓(xùn)練很容易過擬合預(yù)測錯誤,導(dǎo)致確認(rèn)偏差; 2)應(yīng)用于這些不準(zhǔn)確預(yù)測的擾動將使用潛在的錯誤預(yù)測作為訓(xùn)練信號,降低一致性學(xué)習(xí)。在本文中,我們通過均值教師 (MT) 模型的新擴(kuò)展來解決一致性學(xué)習(xí)方法的預(yù)測精度問題,其中包括一個新的輔助教師,以及用更嚴(yán)格的置信度替換 MT 的均方誤差 (MSE) -加權(quán)交叉熵(Conf-CE)損失。該模型的準(zhǔn)確預(yù)測使我們能夠使用網(wǎng)絡(luò)、輸入數(shù)據(jù)和特征擾動的具有挑戰(zhàn)性的組合來改進(jìn)一致性學(xué)習(xí)泛化,其中特征擾動由新的對抗性擾動組成。公共基準(zhǔn)測試的結(jié)果表明,我們的方法比該領(lǐng)域以前的 SOTA 方法取得了顯著的改進(jìn)。

* 題目: Uncertainty Aware Proposal Segmentation for Unknown Object Detection
* 鏈接: https://arxiv.org/abs/2111.12866
* 作者: Yimeng Li,Jana Kosecka
* 其他: Accepted to WACV 2022 DNOW Workshop
* 摘要: 最近在現(xiàn)實世界應(yīng)用程序(例如自動駕駛)中部署深度神經(jīng)網(wǎng)絡(luò)進(jìn)行對象檢測的努力假設(shè)在訓(xùn)練期間已觀察到所有相關(guān)的對象類別。當(dāng)測試數(shù)據(jù)未在訓(xùn)練集中表示時,量化這些模型在設(shè)置中的性能主要集中在為語義分割訓(xùn)練的模型的像素級不確定性估計技術(shù)上。本文提出利用語義分割模型的額外預(yù)測并量化其置信度,然后將對象假設(shè)分類為已知與未知、分布對象之外的對象。我們使用區(qū)域提議網(wǎng)絡(luò) (RPN) 生成的對象提議,并使用徑向基函數(shù)網(wǎng)絡(luò) (RBFN) 調(diào)整語義分割的距離感知不確定性估計,以進(jìn)行類別不可知的對象掩碼預(yù)測。然后使用增強(qiáng)的對象提議來訓(xùn)練已知與未知對象類別的分類器。實驗結(jié)果表明,所提出的方法與用于未知物體檢測的最先進(jìn)方法實現(xiàn)了并行性能,并且還可以有效地用于降低物體檢測器的誤報率。我們的方法非常適合通過語義分割獲得的非對象背景類別的預(yù)測可靠的應(yīng)用。

* 題目: Towards an Efficient Semantic Segmentation Method of ID Cards for Verification Systems
* 鏈接: https://arxiv.org/abs/2111.12764
* 作者: Rodrigo Lara,Andres Valenzuela,Daniel Schulz,Juan Tapia,Christoph Busch
* 摘要: 去除 ID 卡圖像中的背景對于遠(yuǎn)程驗證系統(tǒng)來說是一個真正的挑戰(zhàn),因為許多重新數(shù)字化的圖像呈現(xiàn)出雜亂的背景、較差的照明條件、失真和遮擋。 ID 卡圖像中的背景混淆了分類器和文本提取。由于缺乏可用于研究的圖像,該領(lǐng)域代表了當(dāng)今計算機(jī)視覺中的一個懸而未決的問題。這項工作提出了一種使用身份證語義分割去除背景的方法。最后,使用由 45,007 張圖像組成的手動標(biāo)記數(shù)據(jù)集,使用來自三個國家(智利、阿根廷和墨西哥)的五種類型的身份證,包括典型的演示攻擊場景,在實際操作中野外捕獲的圖像。這種方法可以幫助改進(jìn)常規(guī)身份驗證或文檔篡改檢測系統(tǒng)中的以下階段。探索了兩種基于 MobileUNet 和 DenseNet10 的深度學(xué)習(xí)方法。最好的結(jié)果是使用 MobileUNet 獲得的,有 650 萬個參數(shù)。在包含 4,988 張圖像的私人測試數(shù)據(jù)集上,智利身份證的平均交集比 (IoU) 為 0.9926。來自智利、阿根廷和墨西哥的身份證圖像融合多國數(shù)據(jù)集的最佳結(jié)果達(dá)到了 0.9911 的 IoU。所提出的方法足夠輕量級,可用于移動設(shè)備上的實時操作。

* 題目: Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with Low GPU Memory Requirements
* 鏈接: https://arxiv.org/abs/2111.13630
* 作者: Franz Thaler,Christian Payer,Horst Bischof,Darko Stern
* 摘要: 盡管存在許多能夠在許多醫(yī)學(xué)數(shù)據(jù)集上表現(xiàn)良好的語義分割方法,但它們通常并不是為直接用于臨床實踐而設(shè)計的。兩個主要問題是泛化具有不同視覺外觀的不可見數(shù)據(jù),例如使用不同掃描儀獲取的圖像,以及計算時間和所需圖形處理單元 (GPU) 內(nèi)存方面的效率。在這項工作中,我們采用基于空間配置網(wǎng)絡(luò) (SCN) 的多器官分割模型,該模型集成了標(biāo)記器官之間空間配置的先驗知識,以解決網(wǎng)絡(luò)輸出中的虛假響應(yīng)。此外,我們修改了分割模型的架構(gòu),以在不顯著影響預(yù)測質(zhì)量的情況下盡可能減少其內(nèi)存占用。最后,我們實現(xiàn)了一個最小的推理腳本,我們優(yōu)化了執(zhí)行時間和所需的 GPU 內(nèi)存。

* 題目: Non Parametric Data Augmentations Improve Deep-Learning based Brain Tumor Segmentation
* 鏈接: https://arxiv.org/abs/2111.12991
* 作者: Hadas Ben-Atya,Ori Rajchert,Liran Goshen,Moti Freiman
* 摘要: 來自磁共振成像 (MRI) 數(shù)據(jù)的自動腦腫瘤分割在評估腫瘤對治療的反應(yīng)和個性化治療分層方面起著重要作用。手動分割既乏味又主觀?;谏疃葘W(xué)習(xí)的腦腫瘤分割算法有可能提供客觀和快速腫瘤分割。然而,此類算法的訓(xùn)練需要大量數(shù)據(jù)集,而這些數(shù)據(jù)集并不總是可用的。數(shù)據(jù)增強(qiáng)技術(shù)可能會減少對大型數(shù)據(jù)集的需求。然而,目前的方法大多是參數(shù)化的,可能會導(dǎo)致性能欠佳。我們介紹了兩種用于腦腫瘤分割的非參數(shù)化數(shù)據(jù)增強(qiáng)方法:混合結(jié)構(gòu)正則化 (MSR) 和隨機(jī)像素噪聲(SPN)。我們評估了 MSR 和 SPN 增強(qiáng)在腦腫瘤分割 (BraTS) 2018 挑戰(zhàn)數(shù)據(jù)集上的附加值,使用編碼器-解碼器 nnU-Net 架構(gòu)作為分割算法。MSR 和 SPN 都改進(jìn)了 nnU-Net 分割與參數(shù)高斯噪聲增強(qiáng)相比的準(zhǔn)確性。分別將 MSR 與腫瘤核心和整個腫瘤實驗的非參數(shù)增強(qiáng)進(jìn)行比較時,平均骰子得分從 80% 增加到 82%,p 值 = 0.0022、0.0028。建議的 MSR 和 SPN 增強(qiáng)也有可能提高神經(jīng)網(wǎng)絡(luò)在其他任務(wù)中的性能。



非強(qiáng)監(jiān)督

* 題目: Self-supervised Pretraining with Classification Labels for Temporal Activity Detection
* 鏈接: https://arxiv.org/abs/2111.13675
* 作者: Kumara Kahatapitiya,Zhou Ren,Haoxiang Li,Zhenyu Wu,Michael S. Ryoo
* 摘要: 與活動分類(即活動識別)中所做的視頻級預(yù)測相比,時間活動檢測旨在預(yù)測每幀的活動類別。由于檢測需要昂貴的幀級注釋,檢測數(shù)據(jù)集的規(guī)模是有限的。因此,以前關(guān)于時間活動檢測的工作通常采用微調(diào)在大規(guī)模分類數(shù)據(jù)集(例如 Kinetics-400)上預(yù)訓(xùn)練的分類模型。然而,由于預(yù)訓(xùn)練和下游微調(diào)任務(wù)之間的差異,這種預(yù)訓(xùn)練模型對于下游檢測性能并不理想。這項工作提出了一種新穎的自監(jiān)督預(yù)訓(xùn)練方法,用于利用分類標(biāo)簽進(jìn)行檢測,通過引入幀級偽標(biāo)簽、多動作幀和動作段來減輕這種差異。我們表明,使用提議的自監(jiān)督檢測任務(wù)預(yù)訓(xùn)練的模型在多個具有挑戰(zhàn)性的活動檢測基準(zhǔn)(包括 Charades 和 MultiTHUMOS)上的表現(xiàn)優(yōu)于先前的工作。我們廣泛的消融進(jìn)一步提供了有關(guān)何時以及如何使用所提出的模型進(jìn)行活動檢測的見解。代碼和模型將在線發(fā)布。

* 題目: In-painting Radiography Images for Unsupervised Anomaly Detection
* 鏈接: https://arxiv.org/abs/2111.13495
* 作者: Tiange Xiang,Yongyi Liu,Alan L. Yuille,Chaoyi Zhang,Weidong Cai,Zongwei Zhou
* 摘要: 我們提出了空間感知內(nèi)存隊列,用于修復(fù)和檢測射線照相圖像(縮寫為 SQUID)中的異常。放射成像協(xié)議專注于特定的身體區(qū)域,因此產(chǎn)生非常相似的圖像并在患者中產(chǎn)生反復(fù)出現(xiàn)的解剖結(jié)構(gòu)。為了利用這種結(jié)構(gòu)化信息,我們的 SQUID 由一個新的內(nèi)存隊列和特征空間中的一個新的修復(fù)塊組成。我們表明 SQUID 可以將根深蒂固的解剖結(jié)構(gòu)分類為反復(fù)出現(xiàn)的模式;并且在推理中,SQUID 可以識別圖像中的異常(未看到/修改的模式)。在兩個胸部 X 射線基準(zhǔn)數(shù)據(jù)集上,SQUID 在無監(jiān)督異常檢測方面超越了最先進(jìn)的技術(shù)水平超過 5 個點。此外,我們創(chuàng)建了一個新的數(shù)據(jù)集 (DigitAnatomy),它綜合了胸部解剖結(jié)構(gòu)的空間相關(guān)性和一致的形狀。我們希望 DigitAnatomy 能夠促進(jìn)異常檢測方法的開發(fā)、評估和可解釋性,特別是對于放射成像。

* 題目: ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics
* 鏈接: https://arxiv.org/abs/2111.13424
* 作者: Aiham Taleb,Matthias Kirchler,Remo Monti,Christoph Lippert
* 摘要: 高注釋成本是將現(xiàn)代深度學(xué)習(xí)架構(gòu)應(yīng)用于臨床相關(guān)醫(yī)學(xué)用例的一個重大瓶頸,這證實了對從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)的新算法的需求。在這項工作中,我們提出了 ContIG,這是一種自我監(jiān)督的方法,可以從未標(biāo)記的醫(yī)學(xué)圖像和遺傳數(shù)據(jù)的大型數(shù)據(jù)集中學(xué)習(xí)。我們的方法使用對比損失在特征空間中對齊圖像和幾種遺傳模式。我們設(shè)計的方法是將每個人的多種模態(tài)端到端地集成到同一模型中,即使可用的模態(tài)因人而異。我們的程序在所有評估的下游基準(zhǔn)任務(wù)上都優(yōu)于最先進(jìn)的自監(jiān)督方法。我們還采用了基于梯度的可解釋性算法,以更好地理解圖像和遺傳模態(tài)之間學(xué)習(xí)到的跨模態(tài)關(guān)聯(lián)。最后,我們對模型學(xué)習(xí)的特征進(jìn)行全基因組關(guān)聯(lián)研究,揭示圖像和遺傳數(shù)據(jù)之間的有趣關(guān)系。

* 題目: Data Invariants to Understand Unsupervised Out-of-Distribution Detection
* 鏈接: https://arxiv.org/abs/2111.13362
* 作者: Lars Doorenbos,Raphael Sznitman,Pablo Márquez-Neila
* 摘要: 無監(jiān)督分布外 (U-OOD) 檢測由于其在關(guān)鍵任務(wù)系統(tǒng)中的重要性以及對其監(jiān)督對應(yīng)物的更廣泛適用性,最近引起了很多關(guān)注。盡管關(guān)注度有所增加,但 U-OOD 方法仍存在重大缺陷。通過對不同基準(zhǔn)和圖像模態(tài)進(jìn)行大規(guī)模評估,我們在這項工作中表明,最流行的最先進(jìn)方法無法始終勝過基于馬哈拉諾比斯距離 (MahaAD) 的簡單且相對未知的異常檢測器.這些方法不一致的一個關(guān)鍵原因是缺乏對 U-OOD 的正式描述。受一個簡單的思想實驗的啟發(fā),我們提出了基于訓(xùn)練數(shù)據(jù)集不變量的 U-OOD 表征。我們展示了這種表征如何在不知不覺中體現(xiàn)在得分最高的 MahaAD 方法中,從而解釋其質(zhì)量。此外,我們的方法可用于解釋 U-OOD 檢測器的預(yù)測,并提供對評估未來 U-OOD 方法的良好實踐的見解。

* 題目: Contrastive Vicinal Space for Unsupervised Domain Adaptation
* 鏈接: https://arxiv.org/abs/2111.13353
* 作者: Jaemin Na,Dongyoon Han,Hyung Jin Chang,Wonjun Hwang
* 其他: 10 pages, 7 figures, 5 tables
* 摘要: 利用源域和目標(biāo)域之間的相鄰空間是最近的無監(jiān)督域適應(yīng)方法之一。然而,標(biāo)簽的平衡崩潰問題從未得到解決,其中源標(biāo)簽在鄰近實例的預(yù)測中優(yōu)于目標(biāo)標(biāo)簽。在本文中,我們提出了一種基于實例的極小極大策略,以最小化鄰近空間中高不確定性實例的熵來解決它。我們通過極大極小問題的求解將鄰域空間劃分為兩個子空間:對比空間和共識空間。在對比空間中,通過約束實例具有對比視圖和標(biāo)簽來減輕域間差異,共識空間減少了域內(nèi)類別之間的混淆。我們方法的有效性在公共基準(zhǔn)測試中得到了證明,包括 Office-31、Office-Home 和 VisDA-C,它們實現(xiàn)了最先進(jìn)的性能。我們進(jìn)一步表明,我們的方法在 PACS 上優(yōu)于當(dāng)前最先進(jìn)的方法,這表明我們的實例方法也適用于多源域適應(yīng)。

* 題目: Self-supervised Correlation Mining Network for Person Image Generation
* 鏈接: https://arxiv.org/abs/2111.13307
* 作者: Zijian Wang,Xingqun Qi,Kun Yua,Muyi Sun
* 摘要: 人物圖像生成旨在對源圖像執(zhí)行非剛性變形,這通常需要未對齊的數(shù)據(jù)對進(jìn)行訓(xùn)練。最近,自監(jiān)督方法通過合并解開的表示進(jìn)行自我重建,在這項任務(wù)中表現(xiàn)出巨大的前景。然而,這些方法未能利用解開特征之間的空間相關(guān)性。在本文中,我們提出了一種自監(jiān)督相關(guān)挖掘網(wǎng)絡(luò)(SCM-Net)來重新排列特征空間中的源圖像,其中集成了兩個協(xié)作模塊,分解樣式編碼器(DSE)和相關(guān)挖掘模塊(CMM)。具體來說,DSE 首先在特征級別創(chuàng)建未對齊的對。然后,CMM 建立空間相關(guān)字段以進(jìn)行特征重排。最終,翻譯模塊將重新排列的特征轉(zhuǎn)換為真實的結(jié)果。同時,為了提高跨尺度姿勢變換的保真度,我們提出了一種基于圖的身體結(jié)構(gòu)保留損失(BSR Loss)來保留半身到全身生成的合理身體結(jié)構(gòu)。在 DeepFashion 數(shù)據(jù)集上進(jìn)行的大量實驗證明了我們的方法與其他有監(jiān)督和無監(jiān)督方法相比的優(yōu)越性。此外,面部生成的令人滿意的結(jié)果表明我們的方法在其他變形任務(wù)中的多功能性。

* 題目: Disentangled Unsupervised Image Translation via Restricted Information Flow
* 鏈接: https://arxiv.org/abs/2111.13279
* 作者: Ben Usman,Dina Bashkirova,Kate Saenko
* 摘要: 無監(jiān)督的圖像到圖像轉(zhuǎn)換方法旨在將圖像從一個域映射到另一個域的似是而非的示例,同時保留跨兩個域共享的結(jié)構(gòu)。在多對多設(shè)置中,來自目標(biāo)域的附加指導(dǎo)示例用于確定生成圖像的特定于域的屬性。在沒有屬性注釋的情況下,方法必須在訓(xùn)練期間從數(shù)據(jù)中推斷出哪些因素特定于每個域。許多最先進(jìn)的方法將所需的共享與特定拆分硬編碼到其架構(gòu)中,從而嚴(yán)重限制了問題的范圍。在本文中,我們提出了一種不依賴于這種歸納架構(gòu)偏差的新方法,并通過使用翻譯誠實損失和對特定領(lǐng)域能力的懲罰來約束通過網(wǎng)絡(luò)的信息流,從而從數(shù)據(jù)中推斷出哪些屬性是特定領(lǐng)域的。嵌入。我們表明,所提出的方法在跨越各種特定領(lǐng)域和共享屬性的兩個合成數(shù)據(jù)集和一個自然數(shù)據(jù)集上實現(xiàn)了始終如一的高操作準(zhǔn)確性。

* 題目: Learning from Temporal Gradient for Semi-supervised Action Recognition
* 鏈接: https://arxiv.org/abs/2111.13241
* 作者: Junfei Xiao,Longlong Jing,Lin Zhang,Ju He,Qi She,Zongwei Zhou,Alan Yuille,Yingwei Li
* 摘要: 半監(jiān)督視頻動作識別往往使深度神經(jīng)網(wǎng)絡(luò)即使在標(biāo)記數(shù)據(jù)非常有限的情況下也能實現(xiàn)卓越的性能。然而,現(xiàn)有的方法主要是從當(dāng)前基于圖像的方法(例如,F(xiàn)ixMatch)轉(zhuǎn)移而來的。如果沒有專門利用時間動態(tài)和固有的多模態(tài)屬性,他們的結(jié)果可能是次優(yōu)的。為了更好地利用視頻中編碼的時間信息,我們在本文中引入了時間梯度作為一種額外的模式,用于更細(xì)心的特征提取。具體來說,我們的方法明確地從時間梯度(TG)中提取細(xì)粒度的運動表示,并在不同的模態(tài)(即 RGB 和 TG)之間施加一致性。在推理過程中無需額外計算或參數(shù),半監(jiān)督動作識別的性能得到顯著提高。我們的方法在幾種典型的半監(jiān)督設(shè)置(即不同比例的標(biāo)記數(shù)據(jù))下,在三個視頻動作識別基準(zhǔn)(即 Kinetics-400、UCF-101 和 HMDB-51)上實現(xiàn)了最先進(jìn)的性能.

* 題目: Semantic-Aware Generation for Self-Supervised Visual Representation Learning
* 鏈接: https://arxiv.org/abs/2111.13163
* 作者: Yunjie Tian,Lingxi Xie,Xiaopeng Zhang,Jiemin Fang,Haohang Xu,Wei Huang,Jianbin Jiao,Qi Tian,Qixiang Ye
* 其他: 13 pages, 5 figures, 11 tables
* 摘要: 在本文中,我們提出了一種自監(jiān)督的視覺表示學(xué)習(xí)方法,它涉及生成代理和判別代理,我們通過要求目標(biāo)網(wǎng)絡(luò)根據(jù)中級特征恢復(fù)原始圖像來關(guān)注前一部分。與先前主要關(guān)注原始圖像和生成圖像之間像素級相似性的工作不同,我們提倡語義感知生成(SaGe)以促進(jìn)更豐富的語義,而不是在生成的圖像中保留細(xì)節(jié)。實現(xiàn) SaGe 的核心思想是使用一個評估器,一個沒有標(biāo)簽的預(yù)訓(xùn)練的深度網(wǎng)絡(luò),用于提取語義感知特征。 SaGe 用特定于視圖的特征補(bǔ)充目標(biāo)網(wǎng)絡(luò),從而減輕了密集數(shù)據(jù)增強(qiáng)帶來的語義退化。我們在 ImageNet-1K 上執(zhí)行 SaGe 并評估五個下游任務(wù)的預(yù)訓(xùn)練模型,包括最近鄰測試、線性分類和精細(xì)縮放的圖像識別,展示其學(xué)習(xí)更強(qiáng)視覺表示的能力。

* 題目: Self-Distilled Self-Supervised Representation Learning
* 鏈接: https://arxiv.org/abs/2111.12958
* 作者: Jiho Jang,Seonhoon Kim,Kiyoon Yoo,Jangho Kim,Nojun Kwak
* 其他: 15 pages
* 摘要: 自監(jiān)督學(xué)習(xí)中最先進(jìn)的框架最近表明,與傳統(tǒng)的 CNN 模型相比,充分利用基于變壓器的模型可以提高性能。為了最大化圖像的兩個視圖的互信息,現(xiàn)有作品將對比損失應(yīng)用于最終表示。在我們的工作中,我們通過允許中間表示通過對比損失從最終層學(xué)習(xí)來進(jìn)一步利用這一點,這是最大化原始目標(biāo)的上限和兩層之間的互信息。我們的方法,Self-Distilled Self-Supervised Learning (SDSSL),在各種任務(wù)和數(shù)據(jù)集上使用 ViT 優(yōu)于競爭基線(SimCLR、BYOL 和 MoCo v3)。在線性評估和 k-NN 協(xié)議中,SDSSL 不僅在最終層中具有出色的性能,而且在大多數(shù)較低層中也具有出色的性能。此外,正和負(fù)對齊用于解釋如何更有效地形成表示。代碼將可用。

* 題目: ACPL: Anti-curriculum Pseudo-labelling forSemi-supervised Medical Image Classification
* 鏈接: https://arxiv.org/abs/2111.12918
* 作者: Fengbei Liu,Yu Tian,Yuanhong Chen,Yuyuan Liu,Vasileios Belagiannis,Gustavo Carneiro
* 摘要: 醫(yī)學(xué)影像分析 (MIA) 中有效的半監(jiān)督學(xué)習(xí) (SSL) 必須解決兩個挑戰(zhàn):1) 在多類(例如,病變分類)和多標(biāo)簽(例如,多種疾病診斷)問題上都有效,和 2)處理不平衡的學(xué)習(xí)(因為疾病流行的高方差)。 SSL MIA 中探索的一種策略是基于偽標(biāo)簽策略,但它有一些缺點。偽標(biāo)簽的準(zhǔn)確率普遍低于一致性學(xué)習(xí),它不是專門針對多類和多標(biāo)簽問題設(shè)計的,并且可能受到不平衡學(xué)習(xí)的挑戰(zhàn)。在本文中,與通過閾值選擇置信偽標(biāo)簽的傳統(tǒng)方法不同,我們提出了一種新的 SSL 算法,稱為反課程偽標(biāo)簽(ACPL),它引入了新技術(shù)來選擇信息性未標(biāo)記樣本,提高訓(xùn)練平衡并允許模型適用于多標(biāo)簽和多類問題,并通過準(zhǔn)確的分類器集成來估計偽標(biāo)簽(提高偽標(biāo)簽準(zhǔn)確性)。我們運行了大量實驗來評估兩個公共醫(yī)學(xué)圖像分類基準(zhǔn)上的 ACPL:胸部 X-Ray14 用于胸部疾病多標(biāo)簽分類和 ISIC2018 用于皮膚病變多類分類。我們的方法在兩個數(shù)據(jù)集上都優(yōu)于以前的 SOTA SSL 方法。

* 題目: Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements
* 鏈接: https://arxiv.org/abs/2111.12855
* 作者: Dongdong Chen,Julián Tachella,Mike E. Davies
* 其他: Tech report
* 摘要: 深度網(wǎng)絡(luò)在從醫(yī)學(xué)成像到計算攝影的多個成像逆問題中提供了最先進(jìn)的性能。然而,大多數(shù)現(xiàn)有網(wǎng)絡(luò)都是用干凈的信號訓(xùn)練的,這些信號通常很難或不可能獲得。等變成像 (EI) 是最近的一種自監(jiān)督學(xué)習(xí)框架,它利用信號分布中存在的組不變性來僅從部分測量數(shù)據(jù)中學(xué)習(xí)重建函數(shù)。雖然 EI 結(jié)果令人印象深刻,但其性能會隨著噪聲的增加而降低。在本文中,我們提出了一種魯棒等變成像 (REI) 框架,該框架可以單獨從嘈雜的部分測量中學(xué)習(xí)成像。所提出的方法使用 Stein 的無偏風(fēng)險估計器 (SURE) 來獲得對噪聲具有魯棒性的完全無監(jiān)督的訓(xùn)練損失。我們表明,REI 在線性和非線性逆問題上帶來了可觀的性能提升,從而為具有深度網(wǎng)絡(luò)的魯棒無監(jiān)督成像鋪平了道路。代碼將在以下位置提供:此 https URL。



未分類

* 題目: ManiFest: Manifold Deformation for Few-shot Image Translation
* 鏈接: https://arxiv.org/abs/2111.13681
* 作者: Fabio Pizzati,Jean-Fran?ois Lalonde,Raoul de Charette
* 摘要: 大多數(shù)圖像到圖像的翻譯方法需要大量的訓(xùn)練圖像,這限制了它們的適用性。相反,我們提出 ManiFest:一個用于少鏡頭圖像翻譯的框架,它僅從幾個圖像中學(xué)習(xí)目標(biāo)域的上下文感知表示。為了加強(qiáng)特征一致性,我們的框架學(xué)習(xí)了源和代理錨域(假設(shè)由大量圖像組成)之間的樣式流形。通過基于補(bǔ)丁的對抗性和特征統(tǒng)計對齊損失,學(xué)習(xí)到的流形被內(nèi)插和變形到少鏡頭目標(biāo)域。所有這些組件都在單個端到端循環(huán)中同時進(jìn)行訓(xùn)練。除了一般的少鏡頭翻譯任務(wù)之外,我們的方法還可以以單個示例圖像為條件,以重現(xiàn)其特定風(fēng)格。大量實驗證明了 ManiFest 在多項任務(wù)上的有效性,在所有指標(biāo)以及基于一般和示例的場景中均優(yōu)于最先進(jìn)的技術(shù)。我們的代碼將是開源的。

* 題目: GMFlow: Learning Optical Flow via Global Matching
* 鏈接: https://arxiv.org/abs/2111.13680
* 作者: Haofei Xu,Jing Zhang,Jianfei Cai,Hamid Rezatofighi,Dacheng Tao
* 其他: Tech report
* 摘要: 基于學(xué)習(xí)的光流估計一直以帶有卷積的成本量管道為主導(dǎo),用于流回歸,其本質(zhì)上僅限于局部相關(guān)性,因此難以解決長期存在的大位移挑戰(zhàn)。為了緩解這種情況,最先進(jìn)的方法,即 RAFT,通過大量迭代改進(jìn)產(chǎn)生一系列流更新,逐漸提高其預(yù)測的質(zhì)量,實現(xiàn)了卓越的性能,但降低了推理速度。為了實現(xiàn)高精度和高效的光流估計,我們通過將光流重新定義為全局匹配問題來徹底改造主導(dǎo)流回歸管道。具體來說,我們提出了一個 GMFlow 框架,它由三個主要組件組成:一個用于特征增強(qiáng)的定制 Transformer,一個用于全局特征匹配的相關(guān)和 softmax 層,以及一個用于流傳播的自注意力層。此外,我們進(jìn)一步引入了一個細(xì)化步驟,以更高分辨率重用 GMFlow 進(jìn)行殘余流預(yù)測。我們的新框架在具有挑戰(zhàn)性的 Sintel 基準(zhǔn)測試中優(yōu)于 32 次迭代 RAFT 的性能,同時僅使用一項改進(jìn)并且運行速度更快,為高效準(zhǔn)確的光流估計提供了新的可能性。此 https URL 將提供代碼。

* 題目: NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images
* 鏈接: https://arxiv.org/abs/2111.13679
* 作者: Ben Mildenhall,Peter Hedman,Ricardo Martin-Brualla,Pratul Srinivasan,Jonathan T. Barron
* 其他: Project page: this https URL
* 摘要: 神經(jīng)輻射場 (NeRF) 是一種從構(gòu)成的輸入圖像集合中合成高質(zhì)量新視圖的技術(shù)。與大多數(shù)視圖合成方法一樣,NeRF 使用色調(diào)映射低動態(tài)范圍 (LDR) 作為輸入;這些圖像已由有損相機(jī)管道處理,該管道可平滑細(xì)節(jié)、剪輯高光并扭曲原始傳感器數(shù)據(jù)的簡單噪聲分布。我們修改 NeRF 以直接在線性原始圖像上訓(xùn)練,從而保留場景的完整動態(tài)范圍。通過從生成的 NeRF 渲染原始輸出圖像,我們可以執(zhí)行新穎的高動態(tài)范圍 (HDR) 視圖合成任務(wù)。除了改變相機(jī)視點之外,我們還可以在事后操縱焦點、曝光和色調(diào)映射。盡管單個原始圖像看起來比后處理的圖像噪聲大得多,但我們表明 NeRF 對原始噪聲的零均值分布具有高度的魯棒性。當(dāng)對許多嘈雜的原始輸入 (25-200) 進(jìn)行優(yōu)化時,NeRF 產(chǎn)生的場景表示非常準(zhǔn)確,以至于其渲染的新穎視圖優(yōu)于在相同寬基線輸入圖像上運行的專用單圖像和多圖像深度原始降噪器。因此,我們稱為 RawNeRF 的方法可以從近乎黑暗中捕獲的極其嘈雜的圖像重建場景。

* 題目: SWAT: Spatial Structure Within and Among Tokens
* 鏈接: https://arxiv.org/abs/2111.13677
* 作者: Kumara Kahatapitiya,Michael S. Ryoo
* 摘要: 近年來,將視覺數(shù)據(jù)建模為標(biāo)記(即圖像塊),并在其上應(yīng)用注意力機(jī)制或前饋網(wǎng)絡(luò)已證明非常有效。此類方法中的常見管道包括標(biāo)記化方法,然后是一組用于在標(biāo)記內(nèi)和標(biāo)記之間進(jìn)行信息混合的層/塊。在通常的實踐中,圖像塊在轉(zhuǎn)換為標(biāo)記時會被展平,從而丟棄每個塊內(nèi)的空間結(jié)構(gòu)。接下來,諸如多頭自注意力之類的模塊捕獲令牌之間的成對關(guān)系并將它們混合。在本文中,我們認(rèn)為,在標(biāo)記化中保留空間結(jié)構(gòu)并在混合階段明確使用時,模型可以獲得顯著的收益。我們提出了兩個關(guān)鍵貢獻(xiàn):(1)結(jié)構(gòu)感知標(biāo)記化和(2)結(jié)構(gòu)感知混合,兩者都可以以最小的努力與現(xiàn)有模型相結(jié)合。我們介紹了一系列模型 (SWAT),在包括 ImageNet 分類和 ADE20K 分割在內(nèi)的多個基準(zhǔn)測試中顯示了對 DeiT、MLP-Mixer 和 Swin Transformer 等模型的改進(jìn)。我們的代碼和模型將在線發(fā)布。

* 題目: Immortal Tracker: Tracklet Never Dies
* 鏈接: https://arxiv.org/abs/2111.13672
* 作者: Qitai Wang,Yuntao Chen,Ziqi Pang,Naiyan Wang,Zhaoxiang Zhang
* 摘要: 以前的在線 3D 多對象跟蹤 (3DMOT) 方法在跟蹤與幾幀的新檢測無關(guān)時終止跟蹤。但如果一個物體變暗,比如被其他物體暫時遮擋或只是離開 FOV,過早終止軌跡將導(dǎo)致身份轉(zhuǎn)換。我們發(fā)現(xiàn)過早的 tracklet 終止是現(xiàn)代 3DMOT 系統(tǒng)中身份轉(zhuǎn)換的主要原因。為了解決這個問題,我們提出了 Immortal Tracker,這是一個簡單的跟蹤系統(tǒng),它利用軌跡預(yù)測來維護(hù)變暗物體的軌跡。我們采用簡單的卡爾曼濾波器進(jìn)行軌跡預(yù)測,并在目標(biāo)不可見時通過預(yù)測保留軌跡。使用這種方法,我們可以避免 96% 的車輛身份轉(zhuǎn)換因軌道過早終止而導(dǎo)致。在沒有任何學(xué)習(xí)參數(shù)的情況下,我們的方法在 Waymo 開放數(shù)據(jù)集測試集上實現(xiàn)了 0.0001 級別的失配率和具有競爭力的車輛類別的 MOTA。我們的失配率比以前發(fā)布的任何方法低數(shù)十倍。 nuScenes 上也報告了類似的結(jié)果。我們相信提議的 Immortal Tracker 可以提供一個簡單而強(qiáng)大的解決方案來推動 3DMOT 的極限。我們的代碼可在此 https URL 處獲得。

* 題目: Towards Low-Cost and Efficient Malaria Detection
* 鏈接: https://arxiv.org/abs/2111.13656
* 作者: Waqas Sultani1,Wajahat Nawaz,Syed Javed,Muhammad Sohail Danish,Asma Saadia,Mohsen Ali
* 摘要: 瘧疾是一種致命但可治愈的疾病,每年奪去數(shù)十萬人的生命。早期和正確的診斷對于避免健康復(fù)雜性至關(guān)重要,但是,這取決于昂貴的顯微鏡的可用性和訓(xùn)練有素的專家來分析血液涂片載玻片?;谏疃葘W(xué)習(xí)的方法不僅可以減輕專家的負(fù)擔(dān),還可以提高低成本顯微鏡的診斷準(zhǔn)確性。然而,這受到缺乏合理大小的數(shù)據(jù)集的阻礙。最具挑戰(zhàn)性的方面之一是專家不愿在低成本顯微鏡上以低倍率對數(shù)據(jù)集進(jìn)行注釋。我們提供了一個數(shù)據(jù)集,以在低倍率下通過低成本顯微鏡進(jìn)一步研究瘧疾顯微鏡。我們的大規(guī)模數(shù)據(jù)集包括來自幾名瘧疾感染患者的血液涂片載玻片圖像,這些圖像是通過顯微鏡以兩種不同的成本范圍和多種放大倍率收集的。在通過高倍率的高成本顯微鏡收集的圖像上,瘧疾細(xì)胞被注釋用于定位和生命階段分類任務(wù)。我們設(shè)計了一種機(jī)制,將這些注釋從高倍率的高成本顯微鏡轉(zhuǎn)移到低成本的多倍率顯微鏡。多目標(biāo)檢測器和域適應(yīng)方法作為基線呈現(xiàn)。此外,引入了部分監(jiān)督域適應(yīng)方法來使物體檢測器適應(yīng)從低成本顯微鏡收集的圖像。該數(shù)據(jù)集將在發(fā)布后公開提供。

* 題目: Contrastive Object-level Pre-training with Spatial Noise Curriculum Learning
* 鏈接: https://arxiv.org/abs/2111.13651
* 作者: Chenhongyi Yang,Lichao Huang,Elliot J. Crowley
* 摘要: 基于對比學(xué)習(xí)的預(yù)訓(xùn)練的目標(biāo)是利用大量未標(biāo)記的數(shù)據(jù)來生成一個可以輕松適應(yīng)下游的模型。當(dāng)前的方法圍繞解決圖像辨別任務(wù):給定一個錨圖像、該圖像的增強(qiáng)對應(yīng)物和一些其他圖像,模型必須生成表示,使得錨與其對應(yīng)物之間的距離很小,并且錨和其他圖像很大。這種方法有兩個重要的問題:(i)通過對比圖像級的表示,很難生成對下游對象級任務(wù)(例如實例分割)有益的詳細(xì)的對象敏感特征; (ii) 生成增強(qiáng)對應(yīng)物的增強(qiáng)策略是固定的,這使得在預(yù)訓(xùn)練的后期學(xué)習(xí)效率較低。在這項工作中,我們引入了課程對比對象級預(yù)訓(xùn)練(CCOP)來解決這些問題:(i)我們使用選擇性搜索來查找粗糙的對象區(qū)域,并使用它們來構(gòu)建圖像間對象級對比損失和圖像內(nèi)對象級區(qū)分損失進(jìn)入我們的預(yù)訓(xùn)練目標(biāo); (ii) 我們提出了一種課程學(xué)習(xí)機(jī)制,可以自適應(yīng)地增加生成的區(qū)域,即使在預(yù)訓(xùn)練的后期階段,這也使模型能夠始終如一地獲得有用的學(xué)習(xí)信號。我們的實驗表明,在對多對象場景圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時,我們的方法在多個對象級任務(wù)上大大改進(jìn)了 MoCo v2 基線。此 https URL 提供代碼。

* 題目: VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition
* 鏈接: https://arxiv.org/abs/2111.13579
* 作者: Changyao Tian,Wenhai Wang,Xizhou Zhu,Xiaogang Wang,Jifeng Dai,Yu Qiao
* 其他: Technical report; 14 pages, 9 figures;
* 摘要: 在現(xiàn)實世界中處理長尾數(shù)據(jù)時,基于深度學(xué)習(xí)的模型會遇到挑戰(zhàn)?,F(xiàn)有的解決方案通常采用一些平衡策略或遷移學(xué)習(xí)來處理基于圖像模態(tài)的類不平衡問題。在這項工作中,我們提出了一個視覺語言長尾識別框架,稱為 VL-LTR,并對引入文本模態(tài)進(jìn)行長尾識別 (LTR) 的好處進(jìn)行實證研究。與現(xiàn)有方法相比,所提出的 VL-LTR 具有以下優(yōu)點。 (1)我們的方法不僅可以從圖像中學(xué)習(xí)視覺表示,還可以從從互聯(lián)網(wǎng)收集的嘈雜的類級文本描述中學(xué)習(xí)相應(yīng)的語言表示; (2) 我們的方法可以有效地利用學(xué)習(xí)到的視覺語言表示來提高視覺識別性能,特別是對于圖像樣本較少的類。我們還進(jìn)行了廣泛的實驗,并在廣泛使用的 LTR 基準(zhǔn)測試中設(shè)置了新的最先進(jìn)的性能。值得注意的是,我們的方法在 ImageNet-LT 上實現(xiàn)了 77.2% 的整體準(zhǔn)確率,明顯優(yōu)于之前的最佳方法 17 個百分點以上,并且接近于完整 ImageNet 上的流行性能訓(xùn)練。代碼將被釋放。

* 題目: Using Fictitious Class Representations to Boost Discriminative Zero-Shot Learners
* 鏈接: https://arxiv.org/abs/2111.13550
* 作者: Mohammed Dabbah,Ran El-yaniv
* 摘要: 專注于判別性零樣本學(xué)習(xí),在這項工作中,我們引入了一種新穎的機(jī)制,該機(jī)制在訓(xùn)練所見類集期間動態(tài)增加以產(chǎn)生額外的虛構(gòu)類。這些虛構(gòu)的類減少了模型在訓(xùn)練期間關(guān)注出現(xiàn)在訓(xùn)練集中但不會出現(xiàn)在新暴露的類中的屬性相關(guān)性的傾向。所提出的模型在零樣本學(xué)習(xí)框架的兩個公式中進(jìn)行了測試;即廣義零樣本學(xué)習(xí)(GZSL)和經(jīng)典零樣本學(xué)習(xí)(CZSL)。我們的模型提高了 CUB 數(shù)據(jù)集上的最新性能,并在其他常見數(shù)據(jù)集 AWA2 和 SUN 上達(dá)到了可比較的結(jié)果。我們研究了我們方法的優(yōu)缺點,包括在訓(xùn)練端到端零樣本模型時災(zāi)難性遺忘的影響。

* 題目: Inside Out Visual Place Recognition
* 鏈接: https://arxiv.org/abs/2111.13546
* 作者: Sarah Ibrahimi,Nanne van Noord,Tim Alpherts,Marcel Worring
* 其他: Accepted at British Machine Vision Conference (BMVC) 2021
* 摘要: 視覺地點識別 (VPR) 通常與定位戶外圖像有關(guān)。然而,定位包含部分室外場景的室內(nèi)場景對于廣泛的應(yīng)用可能具有很大的價值。在本文中,我們介紹了由內(nèi)而外視覺位置識別 (IOVPR),這是一項旨在基于通過窗戶可見的室外場景定位圖像的任務(wù)。對于這項任務(wù),我們展示了新的大規(guī)模數(shù)據(jù)集阿姆斯特丹-XXXL,其中包含在阿姆斯特丹拍攝的圖像,其中包含 640 萬張全景街景圖像和 1000 個用戶生成的室內(nèi)查詢。此外,我們引入了一種新的訓(xùn)練協(xié)議 Inside Out 數(shù)據(jù)增強(qiáng),以適應(yīng)視覺地點識別方法來定位室內(nèi)圖像,展示了 Inside Out 視覺地點識別的潛力。我們憑經(jīng)驗展示了我們提出的數(shù)據(jù)增強(qiáng)方案在較小規(guī)模上的好處,同時證明了現(xiàn)有方法的大規(guī)模數(shù)據(jù)集的難度。通過這項新任務(wù),我們旨在鼓勵開發(fā) IOVPR 方法。數(shù)據(jù)集和代碼可在此 https URL 用于研究目的

* 題目: GeoNeRF: Generalizing NeRF with Geometry Priors
* 鏈接: https://arxiv.org/abs/2111.13539
* 作者: Mohammad Mahdi Johari,Yann Lepoittevin,Fran?ois Fleuret
* 摘要: 我們提出了 GeoNeRF,這是一種基于神經(jīng)輻射場的可推廣的真實感新視圖合成方法。我們的方法包括兩個主要階段:幾何推理器和渲染器。為了渲染新視圖,幾何推理器首先為每個附近的源視圖構(gòu)建級聯(lián)成本量。然后,使用基于 Transformer 的注意力機(jī)制和級聯(lián)成本量,渲染器推斷幾何和外觀,并通過經(jīng)典的體積渲染技術(shù)渲染詳細(xì)圖像。這種架構(gòu)尤其允許復(fù)雜的遮擋推理,從一致的源視圖中收集信息。此外,我們的方法可以輕松地在單個場景上進(jìn)行微調(diào),并使用每場景優(yōu)化的神經(jīng)渲染方法以一小部分計算成本呈現(xiàn)具有競爭力的結(jié)果。實驗表明,GeoNeRF 在各種合成和真實數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的可泛化神經(jīng)渲染模型。最后,對幾何推理器稍作修改,我們還提出了一種適用于 RGBD 圖像的替代模型。由于深度傳感器,該模型直接利用通常可用的深度信息。實現(xiàn)代碼將公開可用。

* 題目: Not All Relations are Equal: Mining Informative Labels for Scene Graph Generation
* 鏈接: https://arxiv.org/abs/2111.13517
* 作者: Arushi Goel,Basura Fernando,Frank Keller,Hakan Bilen
* 其他: 11 pages
* 摘要: 場景圖生成 (SGG) 旨在捕獲對象對之間的各種交互,這對于全場景理解至關(guān)重要。由于訓(xùn)練數(shù)據(jù)中的各種偏差,在整個關(guān)系集上訓(xùn)練的現(xiàn)有 SGG 方法無法獲得關(guān)于視覺和文本相關(guān)性的復(fù)雜推理。學(xué)習(xí)指示通用空間配置(如“開”)而不是信息關(guān)系(如“停在”)的瑣碎關(guān)系不會強(qiáng)制執(zhí)行這種復(fù)雜的推理,從而損害概括。為了解決這個問題,我們提出了一種新的 SGG 訓(xùn)練框架,該框架基于它們的信息量來利用關(guān)系標(biāo)簽。我們的模型不可知訓(xùn)練程序為訓(xùn)練數(shù)據(jù)中信息較少的樣本計算缺失的信息關(guān)系,并在已計算的標(biāo)簽和現(xiàn)有注釋上訓(xùn)練 SGG 模型。我們表明,這種方法可以成功地與最先進(jìn)的 SGG 方法結(jié)合使用,并在標(biāo)準(zhǔn) Visual Genome 基準(zhǔn)測試的多個指標(biāo)中顯著提高其性能。此外,我們在更具挑戰(zhàn)性的零樣本設(shè)置中獲得了對看不見的三胞胎的顯著改進(jìn)。

* 題目: SurfEmb: Dense and Continuous Correspondence Distributions for Object Pose Estimation with Learnt Surface Embeddings
* 鏈接: https://arxiv.org/abs/2111.13489
* 作者: Rasmus Laurvig Haugaard,Anders Glent Buch
* 摘要: 我們提出了一種方法,可以從沒有視覺模糊(如對稱性)的先驗知識的數(shù)據(jù)中學(xué)習(xí)對象表面上密集、連續(xù)的 2D-3D 對應(yīng)分布。我們還提出了一種使用學(xué)習(xí)到的分布對剛性物體進(jìn)行 6D 姿態(tài)估計的新方法,以對姿態(tài)假設(shè)進(jìn)行采樣、評分和細(xì)化。對應(yīng)分布是通過對比損失學(xué)習(xí)的,在特定于對象的潛在空間中由編碼器-解碼器查詢模型和小型全連接密鑰模型表示。我們的方法在視覺歧義方面是無監(jiān)督的,但我們表明查詢模型和關(guān)鍵模型學(xué)會了表示準(zhǔn)確的多模態(tài)表面分布。我們的姿態(tài)估計方法在綜合 BOP 挑戰(zhàn)賽上顯著提高了最新技術(shù),即使與在真實數(shù)據(jù)上訓(xùn)練的方法相比,也完全基于合成數(shù)據(jù)進(jìn)行訓(xùn)練。項目站點位于此 https URL 。

* 題目: QMagFace: Simple and Accurate Quality-Aware Face Recognition
* 鏈接: https://arxiv.org/abs/2111.13475
* 作者: Philipp Terh?rst,Malte Ihlefeld,Marco Huber,Naser Damer,Florian Kirchbuchner,Kiran Raja,Arjan Kuijper
* 其他: Code will be made publicly-available in December 2021
* 摘要: 人臉識別系統(tǒng)必須處理可能導(dǎo)致不正確匹配決策的大變化(例如不同的姿勢、光照和表情)。這些可變性可以根據(jù)面部圖像質(zhì)量來衡量,面部圖像質(zhì)量是在識別樣本的效用上定義的。以前的人臉識別工作要么沒有使用這些有價值的信息,要么使用非固有的擬合質(zhì)量估計。在這項工作中,我們提出了一種簡單有效的人臉識別解決方案 (QMagFace),它將質(zhì)量感知比較分?jǐn)?shù)與基于幅度感知角邊緣損失的識別模型相結(jié)合。所提出的方法在比較過程中包括特定于模型的人臉圖像質(zhì)量,以提高無約束情況下的識別性能。利用由使用的損失引起的質(zhì)量與其比較分?jǐn)?shù)之間的線性關(guān)系,我們的質(zhì)量感知比較函數(shù)簡單且具有高度可推廣性。在幾個人臉識別數(shù)據(jù)庫和基準(zhǔn)上進(jìn)行的實驗表明,引入的質(zhì)量意識導(dǎo)致識別性能的持續(xù)改進(jìn)。此外,所提出的 QMagFace 方法在具有挑戰(zhàn)性的情況下表現(xiàn)特別好,例如交叉姿勢、跨年齡或跨質(zhì)量。因此,它在多個人臉識別基準(zhǔn)測試中取得了最先進(jìn)的性能,例如 AgeDB 上的 98.50%、XQLFQ 上的 83.97% 和 CFP-FP 上的 98.74%。 QMagFace 的代碼是公開的。

* 題目: TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in CNNs
* 鏈接: https://arxiv.org/abs/2111.13470
* 作者: Shantanu Jaiswal,Basura Fernando,Cheston Tan
* 摘要: 卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的注意力模塊是一種提高網(wǎng)絡(luò)在多個計算機(jī)視覺任務(wù)上的性能的有效方法。雖然許多工作側(cè)重于通過適當(dāng)?shù)耐ǖ?、空間和自注意力建模來構(gòu)建更有效的模塊,但它們主要以前饋方式運行。因此,注意力機(jī)制在很大程度上取決于單個輸入特征激活的表示能力,并且可以從語義更豐富的高級激活的結(jié)合中受益,這些激活可以通過自上而下的信息流指定“看什么和看哪里”。這種反饋連接在靈長類視覺皮層中也很普遍,并且被神經(jīng)科學(xué)家認(rèn)為是靈長類視覺注意力的關(guān)鍵組成部分。因此,在這項工作中,我們提出了一個輕量級的自上而下 (TD) 注意力模塊,它迭代地生成“視覺探照燈”以對其輸入執(zhí)行自上而下的通道和空間調(diào)制,從而在每個計算步驟中輸出更多的選擇性特征激活。我們的實驗表明,在 CNN 中集成 TD 增強(qiáng)了它們在 ImageNet-1k 分類上的性能,并且在參數(shù)和內(nèi)存效率更高的同時優(yōu)于突出的注意力模塊。此外,我們的模型對推理過程中輸入分辨率的變化更加穩(wěn)健,并且在沒有任何明確監(jiān)督的情況下,通過在每個計算步驟中定位單個對象或特征來學(xué)習(xí)“轉(zhuǎn)移注意力”。除了在細(xì)粒度和多標(biāo)簽分類方面的改進(jìn)之外,此功能還使 ResNet50 在弱監(jiān)督對象定位方面提高了 5%。

* 題目: How Well Do Sparse Imagenet Models Transfer?
* 鏈接: https://arxiv.org/abs/2111.13445
* 作者: Eugenia Iofinova,Alexandra Peste,Mark Kurtz,Dan Alistarh
* 其他: 19 pages, 8 figures
* 摘要: 遷移學(xué)習(xí)是一種經(jīng)典范式,通過這種范式,在大型“上游”數(shù)據(jù)集上預(yù)訓(xùn)練的模型適用于在“下游”專用數(shù)據(jù)集上產(chǎn)生良好結(jié)果。一般來說,可以理解,“上游”數(shù)據(jù)集上的模型越準(zhǔn)確,“下游”的轉(zhuǎn)移精度就越高。在這項工作中,我們在 ImageNet 數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的背景下對這種現(xiàn)象進(jìn)行了深入調(diào)查,這些網(wǎng)絡(luò)已被修剪 - 即通過稀疏它們的連接進(jìn)行壓縮。具體來說,我們在十二個標(biāo)準(zhǔn)轉(zhuǎn)移任務(wù)的背景下,考慮使用通過應(yīng)用幾種最先進(jìn)的修剪方法獲得的非結(jié)構(gòu)化修剪模型進(jìn)行轉(zhuǎn)移,包括基于幅度的、二階的、再增長和正則化方法。簡而言之,我們的研究表明,即使在高度稀疏的情況下,稀疏模型也可以匹配甚至超過密集模型的傳輸性能,并且在這樣做的同時,可以導(dǎo)致顯著的推理甚至訓(xùn)練加速。同時,我們觀察和分析了不同修剪方法的行為的顯著差異。

* 題目: Towards Explainable End-to-End Prostate Cancer Relapse Prediction from H&E Images Combining Self-Attention Multiple Instance Learning with a Recurrent Neural Network
* 鏈接: https://arxiv.org/abs/2111.13439
* 作者: Esther Dietrich,Patrick Fuhlert,Anne Ernst,Guido Sauter,Maximilian Lennartz,H. Siegfried Stiehl,Marina Zimmermann,Stefan Bonn
* 其他: Accepted as a regular conference paper at ML4H 2021
* 摘要: 對組織病理學(xué)圖像數(shù)據(jù)的臨床決策支持主要集中在強(qiáng)監(jiān)督注釋上,它提供直觀的可解釋性,但受專家表現(xiàn)的約束。在這里,我們提出了一個可解釋的癌癥復(fù)發(fā)預(yù)測網(wǎng)絡(luò) (eCaReNet),并表明沒有強(qiáng)注釋的端到端學(xué)習(xí)提供了最先進(jìn)的性能,同時可以通過注意力機(jī)制包括可解釋性。在前列腺癌生存預(yù)測的用例中,使用 14,479 張圖像和僅作為注釋的復(fù)發(fā)時間,我們在驗證集上達(dá)到了 0.78 的累積動態(tài) AUC,與專家病理學(xué)家相當(dāng)(在單獨的測試中 AUC 為 0.77)放)。我們的模型經(jīng)過良好校準(zhǔn)并輸出生存曲線以及每個患者的風(fēng)險評分和分組。利用多實例學(xué)習(xí)層的注意力權(quán)重,我們表明惡性補(bǔ)丁比良性補(bǔ)丁對預(yù)測的影響更大,從而提供了對預(yù)測的直觀解釋。我們的代碼可在此 http URL 處獲得。

* 題目: Reinforcement Explanation Learning
* 鏈接: https://arxiv.org/abs/2111.13406
* 作者: Siddhant Agarwal,Owais Iqbal,Sree Aditya Buridi,Madda Manjusha,Abir Das
* 其他: Accepted in NeurIPS 2021 workshop on eXplainable AI approaches for debugging and diagnosis. Project Page: this https URL
* 摘要: 深度學(xué)習(xí)變得過于復(fù)雜,并且在解決圖像分類、目標(biāo)檢測等幾個經(jīng)典問題方面取得了巨大成功。已經(jīng)提出了幾種解釋這些決策的方法。生成顯著圖的黑盒方法特別有趣,因為它們不利用模型的內(nèi)部結(jié)構(gòu)來解釋決策。大多數(shù)黑盒方法會擾亂輸入并觀察輸出的變化。我們將顯著圖生成制定為一個順序搜索問題,并利用強(qiáng)化學(xué)習(xí) (RL) 從輸入圖像中積累證據(jù),這些證據(jù)最有力地支持分類器所做的決策。這種策略鼓勵智能地搜索將導(dǎo)致高質(zhì)量解釋的擾動。雖然成功的黑盒解釋方法需要依賴大量計算并受到小樣本近似的影響,但我們的方法學(xué)習(xí)的確定性策略使其在推理過程中更加高效。在三個基準(zhǔn)數(shù)據(jù)集上的實驗證明了所提出的方法在推理時間上優(yōu)于最先進(jìn)的方法而不會損害性能。項目頁面:這個https URL

* 題目: PicArrange -- Visually Sort, Search, and Explore Private Images on a Mac Computer
* 鏈接: https://arxiv.org/abs/2111.13363
* 作者: Klaus Jung,Kai Uwe Barthel,Nico Hezel,Konstantin Schall
* 其他: 5 pages, 3 figures
* 摘要: 原生 macOS 應(yīng)用程序 PicArrange 集成了最先進(jìn)的圖像排序和相似性搜索,使用戶能夠更好地了解他們的圖像。添加了許多文件和圖像管理功能,使其成為解決完整圖像管理工作流程的工具。 Self Sorting Map 算法的修改可以在不丟失視覺排序的情況下實現(xiàn)類似列表的圖像排列。視覺特征的高效計算和存儲以及許多 macOS API 的使用導(dǎo)致應(yīng)用程序使用流暢。

* 題目: Neural Collaborative Graph Machines for Table Structure Recognition
* 鏈接: https://arxiv.org/abs/2111.13359
* 作者: Hao Liu,Xin Li,Bing Liu,Deqiang Jiang,Yinsong Liu,Bo Ren
* 其他: Tech report
* 摘要: 最近,表結(jié)構(gòu)識別在深度圖模型的幫助下取得了令人矚目的進(jìn)展。他們中的大多數(shù)利用表格元素的單一視覺線索,或者通過早期融合簡單地將視覺線索與其他形式結(jié)合來推理它們的圖形關(guān)系。然而,無論是早期融合還是在多種模態(tài)方面的單獨推理都不適用于具有極大多樣性的所有種類的表格結(jié)構(gòu)。相反,對于不同的表案例,不同的模式應(yīng)該以不同的模式相互協(xié)作。在社區(qū)中,表結(jié)構(gòu)推理的內(nèi)部模態(tài)交互的重要性仍有待探索。在本文中,我們將其定義為異構(gòu)表結(jié)構(gòu)識別(Hetero-TSR)問題。為了填補(bǔ)這一空白,我們提出了一種配備堆疊協(xié)作塊的新型神經(jīng)協(xié)作圖機(jī)(NCGM),它交替地提取模態(tài)內(nèi)上下文并以分層方式對模態(tài)間交互進(jìn)行建模。它可以更穩(wěn)健地表示表格元素的內(nèi)部模態(tài)關(guān)系,從而顯著提高識別性能。我們還表明,所提出的 NCGM 可以根據(jù)模態(tài)內(nèi)線索的上下文調(diào)節(jié)不同模態(tài)的協(xié)作模式,這對于多樣化的表格案例至關(guān)重要。基準(zhǔn)測試的實驗結(jié)果表明,我們提出的 NCGM 實現(xiàn)了最先進(jìn)的性能,并在很大程度上擊敗了其他當(dāng)代方法,尤其是在具有挑戰(zhàn)性的場景下。

* 題目: Revisiting Efficient Object Detection Backbones from Zero-Shot Neural Architecture Search
* 鏈接: https://arxiv.org/abs/2111.13336
* 作者: Zhenhong Sun,Ming Lin,Xiuyu Sun,Zhiyu Tan,Rong Jin
* 摘要: 在對象檢測模型中,檢測主干消耗了總推理成本的一半以上。最近的研究試圖通過在神經(jīng)架構(gòu)搜索 (NAS) 的幫助下優(yōu)化主干架構(gòu)來降低這種成本。然而,現(xiàn)有的 NAS 對象檢測方法需要數(shù)百到數(shù)千個 GPU 小時的搜索,這使得它們在快節(jié)奏的研發(fā)中不切實際。在這項工作中,我們提出了一種新穎的零樣本 NAS 方法來解決這個問題。所提出的方法名為 ZenDet,無需訓(xùn)練網(wǎng)絡(luò)參數(shù)即可自動設(shè)計高效的檢測主干,將架構(gòu)設(shè)計成本降低到幾乎為零,同時提供最先進(jìn)的 (SOTA) 性能。在引擎蓋下,ZenDet 最大化了檢測主干的差分熵,從而在相同的計算預(yù)算下為目標(biāo)檢測提供了更好的特征提取器。經(jīng)過僅僅一天的 GPU 全自動設(shè)計,ZenDet 在幾乎沒有人工干預(yù)的情況下,在多個檢測基準(zhǔn)數(shù)據(jù)集上創(chuàng)新了 SOTA 檢測主干。與 ResNet-50 骨干網(wǎng)相比,使用相同數(shù)量的 FLOP/參數(shù)時,ZenDet 在 mAP 上的性能提高了 +2.0%,在相同 mAP 下,在 NVIDIA V100 上的性能提高了 1.54 倍。代碼和預(yù)訓(xùn)練模型將在稍后發(fā)布。

* 題目: Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model
* 鏈接: https://arxiv.org/abs/2111.13333
* 作者: Zipeng Xu,Tianwei Lin,Hao Tang,Fu Li,Dongliang He,Nicu Sebe,Radu Timofte,Luc Van Gool,Errui Ding
* 摘要: 為了實現(xiàn)解開的圖像處理,以前的工作在很大程度上依賴于手動注釋。同時,可用的操作僅限于訓(xùn)練模型的預(yù)定義集合。在本文中,我們提出了一種新穎的框架,即預(yù)測、預(yù)防和評估(PPE),用于解開文本驅(qū)動的圖像處理,它不需要手動注釋,因此不限于固定操作。我們的方法通過深入利用大規(guī)模預(yù)訓(xùn)練視覺語言模型 CLIP 的能力來接近目標(biāo)。具體來說,我們首先預(yù)測給定文本命令的可能糾纏屬性。然后,基于預(yù)測的屬性,我們引入了糾纏損失以防止訓(xùn)練過程中出現(xiàn)糾纏。最后,我們提出了一個新的評估指標(biāo)來評估解開的圖像處理。我們驗證了我們的方法在具有挑戰(zhàn)性的面部編輯任務(wù)上的有效性。大量實驗表明,與最新的 StyleCLIP 基線相比,所提出的 PPE 框架實現(xiàn)了更好的定量和定性結(jié)果。

* 題目: Traditional Chinese Synthetic Datasets Verified with Labeled Data for Scene Text Recognition
* 鏈接: https://arxiv.org/abs/2111.13327
* 作者: Yi-Chang Chen,Yu-Chuan Chang,Yen-Cheng Chang,Yi-Ren Yeh
* 摘要: 場景文本識別(STR)已在學(xué)術(shù)界和工業(yè)界得到廣泛研究。訓(xùn)練文本識別模型通常需要大量標(biāo)記數(shù)據(jù),但數(shù)據(jù)標(biāo)記可能困難、昂貴或耗時,尤其是對于繁體中文文本識別。據(jù)我們所知,缺乏用于繁體中文文本識別的公共數(shù)據(jù)集。本文提出了一個旨在提高文本識別模型性能的繁體中文合成數(shù)據(jù)引擎框架。我們生成了超過 2000 萬個合成數(shù)據(jù),并收集了 7000 多個手動標(biāo)記數(shù)據(jù) TC-STR 7k-word 作為基準(zhǔn)。實驗結(jié)果表明,通過使用我們生成的合成數(shù)據(jù)從頭開始訓(xùn)練或使用 TC-STR 7k 字進(jìn)一步微調(diào),文本識別模型可以獲得更高的準(zhǔn)確性。

* 題目: Hierarchical Motion Encoder-Decoder Network for Trajectory Forecasting
* 鏈接: https://arxiv.org/abs/2111.13324
* 作者: Qifan Xue,Shengyi Li,Xuanpeng Li,Jingwen Zhao,Weigong Zhang
* 摘要: 軌跡預(yù)測在智能汽車或社交機(jī)器人領(lǐng)域起著舉足輕重的作用。最近的工作側(cè)重于對空間社會影響或時間運動注意力進(jìn)行建模,但忽略了運動的內(nèi)在屬性,即運動趨勢和駕駛意圖。本文提出了一種用于車輛軌跡預(yù)測的上下文無關(guān)分層運動編碼器-解碼器網(wǎng)絡(luò) (HMNet)。 HMNet 首先推斷運動的層次差異,以編碼具有運動趨勢和駕駛意圖高表現(xiàn)力的物理兼容模式。然后,目標(biāo)(端點)嵌入式解碼器根據(jù)位置-速度-加速度相關(guān)模式分層構(gòu)建多模態(tài)預(yù)測。此外,我們提出了一個修改后的社交池模塊,它考慮了某些運動屬性來表示社交互動。 HMNet 能夠做出準(zhǔn)確的、單峰/多峰的和物理社會合規(guī)的預(yù)測。在三個公共軌跡預(yù)測數(shù)據(jù)集上的實驗,即 NGSIM、HighD 和 Interaction 表明,我們的模型在數(shù)量和質(zhì)量上都達(dá)到了最先進(jìn)的性能。我們將在這里發(fā)布我們的代碼:這個 https URL。

* 題目: Going Grayscale: The Road to Understanding and Improving Unlearnable Examples
* 鏈接: https://arxiv.org/abs/2111.13244
* 作者: Zhuoran Liu,Zhengyu Zhao,Alex Kolmus,Tijn Berns,Twan van Laarhoven,Tom Heskes,Martha Larson
* 摘要: 最近的工作表明,不可察覺的擾動可用于制作不可學(xué)習(xí)的示例 (ULE),即其內(nèi)容不能在訓(xùn)練期間用于改進(jìn)分類器的圖像。在本文中,我們揭示了研究人員在理解 ULE 和改進(jìn)最初制定的 ULE (ULEO) 時應(yīng)該遵循的道路。這篇論文有四點貢獻(xiàn)。首先,我們表明 ULEOs 利用顏色,因此,它們的影響可以通過簡單的灰度預(yù)過濾來減輕,而無需求助于對抗性訓(xùn)練。其次,我們提出了對 ULEO 的擴(kuò)展,稱為 ULEO-GrayAugs,通過在優(yōu)化過程中利用灰度知識和數(shù)據(jù)增強(qiáng)來強(qiáng)制生成的 ULE 遠(yuǎn)離通道顏色擾動。第三,我們表明使用多層感知器 (MLP) 生成的 ULEO 在復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 分類器的情況下是有效的,這表明 CNN 對 ULE 具有特定的脆弱性。第四,我們證明了當(dāng)分類器在 ULEO 上進(jìn)行訓(xùn)練時,對抗性訓(xùn)練將防止在干凈圖像和對抗性圖像上測量的準(zhǔn)確度下降??偠灾覀兊呢暙I(xiàn)代表了不可學(xué)習(xí)示例的藝術(shù)狀態(tài)的重大進(jìn)步,但也揭示了它們行為的重要特征,必須更好地理解這些特征才能實現(xiàn)進(jìn)一步的改進(jìn)。

* 題目: Look at here : Utilizing supervision to attend subtle key regions
* 鏈接: https://arxiv.org/abs/2111.13233
* 作者: Changhwan Lee,Yeesuk Kim,Bong Gun Lee,Doosup Kim,Jongseong Jang
* 其他: Under review
* 摘要: 盡管深度學(xué)習(xí)在計算機(jī)視覺中取得了成功,但識別細(xì)微和小物體(或區(qū)域)的算法仍然具有挑戰(zhàn)性。例如,識別地面場景中的棒球或飛盤或 X 射線圖像中的骨折很容易導(dǎo)致過度擬合,除非有大量可用的訓(xùn)練數(shù)據(jù)。為了緩解這個問題,我們需要一種方法來強(qiáng)制模型識別有限訓(xùn)練數(shù)據(jù)中的細(xì)微區(qū)域。在本文中,我們提出了一種簡單但有效的監(jiān)督增強(qiáng)方法,稱為 Cut/&Remain。與其他監(jiān)督增強(qiáng)和顯式指導(dǎo)方法相比,它在各種醫(yī)學(xué)圖像域(內(nèi)部來源和公共數(shù)據(jù)集)和自然圖像域(MS-COCO$_s$)上取得了更好的性能。此外,使用類激活圖,我們發(fā)現(xiàn) Cut/&Remain 方法驅(qū)動模型有效地關(guān)注相關(guān)的細(xì)微和小區(qū)域。我們還表明,性能沿著 Cut/&Remain 比率單調(diào)增加,表明即使只應(yīng)用了有限數(shù)量的 Cut/&Remain 模型也可以改進(jìn),因此它允許較低的監(jiān)督(注釋)成本進(jìn)行改進(jìn)。

* 題目: FedDropoutAvg: Generalizable federated learning for histopathology image classification
* 鏈接: https://arxiv.org/abs/2111.13230
* 作者: Gozde N. Gunesli,Mohsin Bilal,Shan E Ahmed Raza,Nasir M. Rajpoot
* 其他: This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible
* 摘要: 聯(lián)合學(xué)習(xí) (FL) 支持深度學(xué)習(xí)模型的協(xié)作學(xué)習(xí),而無需共享參與站點的數(shù)據(jù)。醫(yī)學(xué)圖像分析任務(wù)中的 FL 相對較新,并且對增強(qiáng)開放。在這項研究中,我們提出了 FedDropoutAvg,這是一種新的聯(lián)邦學(xué)習(xí)方法,用于訓(xùn)練可泛化模型。所提出的方法在客戶端選擇和聯(lián)合平均過程中都利用了隨機(jī)性。我們將 FedDropoutAvg 與真實世界多站點組織病理學(xué)圖像分類任務(wù)中 FL 場景中的幾種算法進(jìn)行了比較。我們表明,使用 FedDropoutAvg,最終模型可以獲得比其他 FL 方法更好的性能,并且更接近于需要共享所有數(shù)據(jù)以進(jìn)行集中訓(xùn)練的經(jīng)典深度學(xué)習(xí)模型。我們在包含來自 21 個不同中心的 120 萬個圖像塊的大型數(shù)據(jù)集上測試訓(xùn)練模型。為了評估所提出方法的泛化能力,我們使用來自數(shù)據(jù)用于 FL 的中心的保留測試集,以及來自其他獨立中心的未見數(shù)據(jù),其數(shù)據(jù)未用于聯(lián)合訓(xùn)練。我們表明,所提出的方法比其他最先進(jìn)的聯(lián)合訓(xùn)練方法更具普遍性。據(jù)我們所知,我們是第一項在聯(lián)合設(shè)置中使用隨機(jī)客戶端和本地模型參數(shù)選擇程序進(jìn)行醫(yī)學(xué)圖像分析任務(wù)的研究。

* 題目: Cross-Domain Object Detection via Adaptive Self-Training
* 鏈接: https://arxiv.org/abs/2111.13216
* 作者: Yu-Jhe Li,Xiaoliang Dai,Chih-Yao Ma,Yen-Cheng Liu,Kan Chen,Bichen Wu,Zijian He,Kris Kitani,Peter Vadja
* 其他: 15 pages. arXiv admin note: text overlap with arXiv:2003.00707, arXiv:1904.11245, arXiv:1910.11319, arXiv:2003.09152 by other authors
* 摘要: 我們解決了對象檢測中的域適應(yīng)問題,其中源域(有監(jiān)督的域)和目標(biāo)域(沒有監(jiān)督的感興趣域)之間存在顯著的域轉(zhuǎn)換。作為一種廣泛采用的領(lǐng)域適應(yīng)方法,自訓(xùn)練師生框架(學(xué)生模型從教師模型生成的偽標(biāo)簽中學(xué)習(xí))在目標(biāo)領(lǐng)域取得了顯著的準(zhǔn)確度增益。然而,由于其對源域的偏見,它仍然受到教師生成的大量低質(zhì)量偽標(biāo)簽(例如,誤報)的影響。為了解決這個問題,我們提出了一種稱為自適應(yīng)無偏教師(AUT)的自我訓(xùn)練框架,在相互學(xué)習(xí)期間利用對抗性學(xué)習(xí)和弱強(qiáng)數(shù)據(jù)增強(qiáng)來解決領(lǐng)域轉(zhuǎn)移。具體來說,我們在學(xué)生模型中采用特征級對抗訓(xùn)練,確保從源域和目標(biāo)域中提取的特征共享相似的統(tǒng)計數(shù)據(jù)。這使學(xué)生模型能夠捕獲域不變特征。此外,我們在目標(biāo)域上的教師模型和兩個域上的學(xué)生模型之間應(yīng)用了弱-強(qiáng)增強(qiáng)和相互學(xué)習(xí)。這使得教師模型能夠逐漸從學(xué)生模型中受益,而不會遭受領(lǐng)域轉(zhuǎn)移。我們表明,AUT 顯著優(yōu)于所有現(xiàn)有方法,甚至優(yōu)于 Oracle(完全監(jiān)督)模型。例如,我們在 Foggy Cityscape (Clipart1K) 上實現(xiàn)了 50.9% (49.3%) mAP,分別比之前的 state-of-the-art 和 Oracle 高 9.2% (5.2%) 和 8.2% (11.0%)

* 題目: OTB-morph: One-Time Biometrics via Morphing applied to Face Templates
* 鏈接: https://arxiv.org/abs/2111.13213
* 作者: Mahdi Ghafourian,Julian Fierrez,Ruben Vera-Rodriguez,Ignacio Serna,Aythami Morales
* 摘要: 可取消的生物識別技術(shù)是指一組技術(shù),其中在處理或存儲之前使用密鑰有意地轉(zhuǎn)換生物識別輸入。這種轉(zhuǎn)換是可重復(fù)的,可以進(jìn)行后續(xù)的生物特征比較。本文介紹了一種可取消生物識別的新方案,旨在保護(hù)模板免受潛在攻擊,適用于任何基于生物識別的識別系統(tǒng)。我們提出的方案基于從變形隨機(jī)生物特征信息中獲得的時變密鑰。針對面部生物識別技術(shù)給出了所提出方案的實驗實現(xiàn)。結(jié)果證實,所提出的方法能夠抵御泄漏攻擊,同時提高識別性能。

* 題目: Multiple target tracking with interaction using an MCMC MRF Particle Filter
* 鏈接: https://arxiv.org/abs/2111.13184
* 作者: Helder F. S. Campos,Nuno Paulino
* 摘要: 本文提出并討論了一種多目標(biāo)跟蹤方法的實現(xiàn),該方法能夠處理目標(biāo)交互并防止由于劫持導(dǎo)致的跟蹤器故障。參考方法使用馬爾可夫鏈蒙特卡羅 (MCMC) 采樣步驟來評估過濾器并構(gòu)建有效的提議密度以生成新樣本。該密度基于每個時間步長生成的馬爾可夫隨機(jī)場 (MRF) 集成了目標(biāo)交互項。 MRF 對目標(biāo)之間的相互作用進(jìn)行建模,以嘗試減少跟蹤多個目標(biāo)時典型粒子濾波器所遭受的跟蹤模糊性。使用包含 20 只在密閉空間中相互作用的螞蟻的 662 個灰度幀的測試序列來測試所提出的方法和一組基于重要性采樣的獨立粒子過濾器,以建立性能比較。結(jié)果表明,使用 MRF 對目標(biāo)交互進(jìn)行建模的實施方法成功地糾正了許多由獨立的、不知道交互的粒子濾波器造成的跟蹤錯誤。

* 題目: Computer Vision User Entity Behavior Analytics
* 鏈接: https://arxiv.org/abs/2111.13176
* 作者: Sameer Khanna
* 其他: Computer Vision and Pattern Recognition (cs.CV)
* 摘要: 內(nèi)部威脅代價高昂,難以檢測,不幸的是,它的發(fā)生率越來越高。為了改進(jìn)對此類威脅的檢測,我們開發(fā)了新技術(shù),使我們能夠提取強(qiáng)大的特征,生成高質(zhì)量的圖像編碼,并增強(qiáng)攻擊向量以提高分類能力。結(jié)合起來,它們形成了計算機(jī)視覺用戶和實體行為分析,這是一個從頭開始設(shè)計的檢測系統(tǒng),旨在改進(jìn)學(xué)術(shù)界的進(jìn)步并減輕阻止在工業(yè)中使用高級模型的問題。擬議的系統(tǒng)擊敗了學(xué)術(shù)界和工業(yè)界使用的最先進(jìn)的方法。

* 題目: Homogeneous Low-Resolution Face Recognition Method based Correlation Features
* 鏈接: https://arxiv.org/abs/2111.13175
* 作者: Xuan Zhao
* 其他: 8 pages, 9 figures
* 摘要: 人臉識別技術(shù)已被廣泛應(yīng)用于多種關(guān)鍵任務(wù)場景,如人員身份識別、受控入場、移動設(shè)備訪問等。安全監(jiān)控是人臉識別技術(shù)的典型場景。由于監(jiān)控視頻和圖像的低分辨率特征使得高分辨率人臉識別算法難以提取有效的特征信息,因此應(yīng)用于高分辨率人臉識別的算法很難直接遷移到低分辨率情況。隨著在密集城市化時代,安防監(jiān)控中的人臉識別變得越來越重要,開發(fā)能夠在處理低分辨率監(jiān)控攝像頭生成的視頻幀時提供令人滿意的性能的算法至關(guān)重要。本文研究了基于相關(guān)特征的人臉識別(CoFFaR)方法,該方法用于同質(zhì)低分辨率監(jiān)控視頻,詳細(xì)闡述了理論、實驗細(xì)節(jié)和實驗結(jié)果。實驗結(jié)果驗證了相關(guān)特征方法的有效性,該方法提高了監(jiān)控安全場景中同質(zhì)人臉識別的準(zhǔn)確性。

* 題目: DA$^{/textbf{2}}$-Net : Diverse & Adaptive Attention Convolutional Neural Network
* 鏈接: https://arxiv.org/abs/2111.13157
* 作者: Abenezer Girma,Abdollah Homaifar,M Nabil Mahmoud,Xuyang Yan,Mrinmoy Sarkar
* 摘要: 標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 設(shè)計很少關(guān)注明確捕獲不同特征以提高網(wǎng)絡(luò)性能的重要性。相反,大多數(shù)現(xiàn)有方法遵循增加或調(diào)整網(wǎng)絡(luò)深度和寬度的間接方法,這在許多情況下會顯著增加計算成本。受生物視覺系統(tǒng)的啟發(fā),我們提出了一個多樣化和自適應(yīng)注意力卷積網(wǎng)絡(luò) (DA$^{2}$-Net),它使任何前饋 CNN 能夠明確捕獲不同的特征,并自適應(yīng)地選擇和強(qiáng)調(diào)信息量最大的特征以有效提升網(wǎng)絡(luò)性能。 DA$^{2}$-Net 產(chǎn)生的計算開銷可以忽略不計,它旨在與任何 CNN 架構(gòu)輕松集成。我們在具有各種 CNN 架構(gòu)的基準(zhǔn)數(shù)據(jù)集(包括 CIFAR100、SVHN 和 ImageNet)上廣泛評估了 DA$^{2}$-Net。實驗結(jié)果表明 DA$^{2}$-Net 以非常小的計算開銷提供了顯著的性能改進(jìn)。

* 題目: Country-wide Retrieval of Forest Structure From Optical and SAR Satellite Imagery With Bayesian Deep Learning
* 鏈接: https://arxiv.org/abs/2111.13154
* 作者: Alexander Becker,Stefania Russo,Stefano Puliti,Nico Lang,Konrad Schindler,Jan Dirk Wegner
* 其他: 19 pages, 11 figures
* 摘要: 以知情的方式監(jiān)測和管理地球森林是應(yīng)對生物多樣性喪失和氣候變化等挑戰(zhàn)的重要要求。雖然傳統(tǒng)的森林評估現(xiàn)場或空中活動為區(qū)域?qū)用娴姆治鎏峁┝藴?zhǔn)確的數(shù)據(jù),但幾乎不可能以高時間分辨率將它們擴(kuò)展到整個國家和其他地區(qū)。在這項工作中,我們提出了一種貝葉斯深度學(xué)習(xí)方法,使用免費可用的衛(wèi)星圖像作為輸入,以 10 米的分辨率在國家范圍內(nèi)密集估計森林結(jié)構(gòu)變量。我們的方法將 Sentinel-2 光學(xué)圖像和 Sentinel-1 合成孔徑雷達(dá)圖像聯(lián)合轉(zhuǎn)換為五個不同森林結(jié)構(gòu)變量的地圖:第 95 個高度百分位數(shù)、平均高度、密度、基尼系數(shù)和覆蓋率。我們在挪威 41 次機(jī)載激光掃描任務(wù)的參考數(shù)據(jù)上訓(xùn)練和測試我們的模型,并證明它能夠推廣到看不見的測試區(qū)域,實現(xiàn) 11% 到 15% 之間的歸一化平均絕對誤差,具體取決于變量。我們的工作也是第一個提出貝葉斯深度學(xué)習(xí)方法的工作,以便通過校準(zhǔn)良好的不確定性估計來預(yù)測森林結(jié)構(gòu)變量。這些增加了模型的可信度及其對需要可靠置信度估計的下游任務(wù)的適用性,例如明智的決策。我們提出了一系列廣泛的實驗來驗證預(yù)測地圖的準(zhǔn)確性以及預(yù)測不確定性的質(zhì)量。為了證明可擴(kuò)展性,我們?yōu)槲鍌€森林結(jié)構(gòu)變量提供了挪威范圍的地圖。

* 題目: Scene Graph Generation with Geometric Context
* 鏈接: https://arxiv.org/abs/2111.13131
* 作者: Vishal Kumar,Albert Mundu,Satish Kumar Singh
* 其他: Paper accepted at 6th IAPR International Conference on Computer Vision & Image Processing (CVIP2021), IIT Ropar, India
* 摘要: 隨著視覺問答、圖像字幕、自動駕駛汽車、人群行為分析、活動識別等圖像理解項目的需求不斷增長,場景圖生成在計算機(jī)視覺研究中備受關(guān)注。場景圖是圖像的視覺基礎(chǔ)圖形結(jié)構(gòu),極大地有助于簡化圖像理解任務(wù)。在這項工作中,我們引入了一種稱為幾何上下文的后處理算法,以更好地幾何理解視覺場景。我們使用這種后處理算法將對象對之間的幾何關(guān)系添加和細(xì)化到先驗?zāi)P?。我們通過計算對象對之間的方向和距離來利用這個上下文。我們使用知識嵌入式路由網(wǎng)絡(luò) (KERN) 作為我們的基線模型,使用我們的算法擴(kuò)展工作,并在最近的最先進(jìn)算法上顯示可比較的結(jié)果。

* 題目: GPR1200: A Benchmark for General-Purpose Content-Based Image Retrieval
* 鏈接: https://arxiv.org/abs/2111.13122
* 作者: Konstantin Schall,Kai Uwe Barthel,Nico Hezel,Klaus Jung
* 摘要: 盡管已經(jīng)廣泛表明深度神經(jīng)網(wǎng)絡(luò)的檢索特定訓(xùn)練有利于最近鄰圖像搜索質(zhì)量,但這些模型中的大多數(shù)都是在地標(biāo)圖像領(lǐng)域進(jìn)行訓(xùn)練和測試的。然而,一些應(yīng)用程序使用來自其他各種領(lǐng)域的圖像,因此需要一個具有良好泛化特性的網(wǎng)絡(luò) - 通用 CBIR 模型。據(jù)我們所知,到目前為止,還沒有引入測試協(xié)議來針對一般圖像檢索質(zhì)量對模型進(jìn)行基準(zhǔn)測試。在分析了流行的圖像檢索測試集后,我們決定手動管理 GPR1200,這是一個易于使用且易于訪問但具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集,具有廣泛的圖像類別。該基準(zhǔn)隨后用于評估不同架構(gòu)的各種預(yù)訓(xùn)練模型的泛化質(zhì)量。我們表明大規(guī)模預(yù)訓(xùn)練顯著提高了檢索性能,并展示了如何通過適當(dāng)?shù)奈⒄{(diào)進(jìn)一步增加這些屬性的實驗。有了這些有希望的結(jié)果,我們希望增加對通用 CBIR 研究課題的興趣。

* 題目: VaxNeRF: Revisiting the Classic for Voxel-Accelerated Neural Radiance Field
* 鏈接: https://arxiv.org/abs/2111.13112
* 作者: Naruya Kondo,Yuya Ikeda,Andrea Tagliasacchi,Yutaka Matsuo,Yoichi Ochiai,Shixiang Shane Gu
* 摘要: 神經(jīng)輻射場 (NeRF) 是數(shù)據(jù)驅(qū)動的 3D 重建中的一種流行方法。鑒于其簡單性和高質(zhì)量渲染,許多 NeRF 應(yīng)用程序正在開發(fā)中。然而,NeRF 的一大限制是它的速度慢。許多嘗試加速 NeRF 訓(xùn)練和推理,包括復(fù)雜的代碼級優(yōu)化和緩存、復(fù)雜數(shù)據(jù)結(jié)構(gòu)的使用以及通過多任務(wù)和元學(xué)習(xí)進(jìn)行攤銷。在這項工作中,我們通過 NeRF 之前的經(jīng)典技術(shù)的鏡頭重新審視 NeRF 的基本構(gòu)建塊。我們提出了體素加速 NeRF (VaxNeRF),將 NeRF 與視覺外殼相結(jié)合,這是一種經(jīng)典的 3D 重建技術(shù),每幅圖像只需要二進(jìn)制前景-背景像素標(biāo)簽??梢栽诖蠹s 10 秒內(nèi)優(yōu)化的 Visual hull 可以提供粗略的進(jìn)出場分離,以省略 NeRF 中的大量網(wǎng)絡(luò)評估。我們在流行的 JaxNeRF 代碼庫上提供了一個干凈的、完全基于 Python 的、基于 JAX 的實現(xiàn),僅包含大約 30 行代碼更改和一個模塊化的可視化外殼子例程,并在高性能 JaxNeRF 之上實現(xiàn)了大約 2-8 倍的學(xué)習(xí)速度渲染質(zhì)量零退化的基線。有了足夠的計算,這有效地將完整的 NeRF 訓(xùn)練從幾小時縮短到 30 分鐘。我們希望 VaxNeRF——經(jīng)典技術(shù)與深度方法(可以說是取代它)的精心組合——能夠以其簡單性、可移植性和可靠的性能提升來增強(qiáng)和加速新的 NeRF 擴(kuò)展和應(yīng)用程序。代碼可在此 https URL 處獲得。

* 題目: Few-Shot Real Image Restoration via Distortion-Relation Guided Transfer Learning
* 鏈接: https://arxiv.org/abs/2111.13078
* 作者: Xin Li,Xin Jin,Jun Fu,Xiaoyuan Yu,Bei Tong,Zhibo Chen
* 其他: 13 pages, first paper for few-shot real image restoration
* 摘要: 在現(xiàn)實世界中收集大量干凈失真的訓(xùn)練圖像對并非易事,這嚴(yán)重限制了這些基于監(jiān)督學(xué)習(xí)的圖像恢復(fù) (IR) 方法的實際應(yīng)用。以前的工作試圖通過利用無監(jiān)督學(xué)習(xí)技術(shù)來減輕對成對訓(xùn)練樣本的依賴性來解決這個問題。然而,由于缺乏干凈的圖像監(jiān)督,這些方法通常會遇到不令人滿意的紋理合成。與純粹的無監(jiān)督解決方案相比,具有少鏡頭清潔圖像 (FS-IR) 的未充分探索的方案更適合解決這一具有挑戰(zhàn)性的真實圖像恢復(fù)任務(wù)。在本文中,我們是第一個研究少鏡頭真實圖像恢復(fù)并提出失真關(guān)系引導(dǎo)的轉(zhuǎn)移學(xué)習(xí)(稱為 DRTL)框架的人。 DRTL 分配一個知識圖來捕捉輔助任務(wù)(即合成失真)和目標(biāo)任務(wù)(即圖像很少的真實失真)之間的失真關(guān)系,然后采用梯度加權(quán)策略來指導(dǎo)從輔助任務(wù)到目標(biāo)任務(wù)的知識轉(zhuǎn)移.通過這種方式,DRTL 可以從目標(biāo)失真的先驗失真中快速學(xué)習(xí)最相關(guān)的知識。我們將與預(yù)訓(xùn)練和元學(xué)習(xí)管道集成的 DRTL 實例化,作為實現(xiàn)失真關(guān)系感知 FS-IR 的一個實施例。在多個基準(zhǔn)上的大量實驗證明了 DRTL 在少拍真實圖像恢復(fù)上的有效性。

* 題目: Exploring Versatile Prior for Human Motion via Motion Frequency Guidance
* 鏈接: https://arxiv.org/abs/2111.13074
* 作者: Jiachen Xu,Min Wang,Jingyu Gong,Wentao Liu,Chen Qian,Yuan Xie,Lizhuang Ma
* 其他: Accepted by 3DV2021
* 摘要: 先驗在提供對人體運動的合理約束方面發(fā)揮著重要作用。以前的作品在不同情況下遵循各種范式設(shè)計運動先驗,導(dǎo)致缺乏通用性。在本文中,我們首先總結(jié)了運動先驗必不可少的特性,并相應(yīng)地設(shè)計了一個框架來學(xué)習(xí)通用運動先驗,該框架對人體運動的固有概率分布進(jìn)行建模。具體來說,為了有效的先驗表示學(xué)習(xí),我們提出了全局方向歸一化以去除原始運動數(shù)據(jù)空間中的冗余環(huán)境信息。此外,在編碼階段引入了基于序列和基于片段的兩級頻率引導(dǎo)。然后,我們采用去噪訓(xùn)練方案以可學(xué)習(xí)的方式從輸入運動數(shù)據(jù)中分離環(huán)境信息,從而生成一致且可區(qū)分的表示。將我們的運動先驗嵌入到三個不同任務(wù)的主流主干中,我們進(jìn)行了廣泛的實驗,定量和定性結(jié)果都證明了我們的運動先驗的多功能性和有效性。我們的模型和代碼可在此 https URL 上找到。

* 題目: Continual Active Learning Using Pseudo-Domains for Limited Labelling Resources and Changing Acquisition Characteristics
* 鏈接: https://arxiv.org/abs/2111.13069
* 作者: Matthias Perkonigg,Johannes Hofmanninger,Christian Herold,Helmut Prosch,Georg Langs
* 摘要: 臨床常規(guī)期間醫(yī)學(xué)成像中的機(jī)器學(xué)習(xí)會因掃描儀協(xié)議、硬件或策略的變化而受損,從而導(dǎo)致一組異構(gòu)的采集設(shè)置。在初始靜態(tài)訓(xùn)練集上訓(xùn)練深度學(xué)習(xí)模型時,由于數(shù)據(jù)和目標(biāo)可能變得不一致,因此模型性能和可靠性會受到采集特征變化的影響。通過對連續(xù)數(shù)據(jù)流進(jìn)行訓(xùn)練,持續(xù)學(xué)習(xí)有助于使模型適應(yīng)不斷變化的環(huán)境。然而,醫(yī)學(xué)影像的持續(xù)手動專家標(biāo)記需要大量的努力。因此,在精心選擇的新示例子集上有效使用標(biāo)記資源的方法對于使該策略可行是必要的。在這里,我們提出了一種在多掃描儀設(shè)置中對醫(yī)學(xué)圖像流進(jìn)行持續(xù)主動學(xué)習(xí)的方法。該方法自動識別圖像采集特征(新領(lǐng)域)的變化,選擇最佳示例進(jìn)行標(biāo)記并相應(yīng)地調(diào)整訓(xùn)練。標(biāo)簽受限于有限的預(yù)算,類似于典型的現(xiàn)實世界場景。為了證明通用性,我們評估了我們的方法在三個任務(wù)上的有效性:心臟分割、肺結(jié)節(jié)檢測和腦年齡估計。結(jié)果表明,所提出的方法優(yōu)于其他主動學(xué)習(xí)方法,同時有效地抵消了災(zāi)難性遺忘。

* 題目: Robust Object Detection with Multi-input Multi-output Faster R-CNN
* 鏈接: https://arxiv.org/abs/2111.13065
* 作者: Sebastian Cygert,Andrzej Czyzewski
* 摘要: 近年來,許多基準(zhǔn)測試在視覺識別方面取得了令人矚目的進(jìn)展,但是,在非分布環(huán)境中推廣到現(xiàn)實世界仍然是一個重大挑戰(zhàn)。用于魯棒視覺識別的最先進(jìn)方法是模型集成。然而,最近表明,通過使用多輸入多輸出架構(gòu) (MIMO),可以以更小的成本獲得類似的競爭結(jié)果。在這項工作中,使用通用 Faster R-CNN 模型將 MIMO 方法的推廣應(yīng)用于目標(biāo)檢測任務(wù)。結(jié)果表明,使用 MIMO 框架可以構(gòu)建強(qiáng)大的特征表示,并在僅使用兩個輸入/輸出對時獲得非常有競爭力的準(zhǔn)確性。此外,與標(biāo)準(zhǔn) Faster R-CNN 相比,它僅增加了 0.5% 的額外模型參數(shù),并將推理時間增加了 15.9%。當(dāng)使用相同數(shù)量的預(yù)測時,它在模型精度、對分布外設(shè)置的魯棒性和不確定性校準(zhǔn)方面也與深度集成方法相當(dāng)或優(yōu)于深度集成方法。這項工作為將 MIMO 方法應(yīng)用于其他高級任務(wù)(如語義分割和深度估計)開辟了道路。

* 題目: MegLoc: A Robust and Accurate Visual Localization Pipeline
* 鏈接: https://arxiv.org/abs/2111.13063
* 作者: Shuxue Peng,Zihang He,Haotian Zhang,Ran Yan,Chuting Wang,Qingtian Zhu,Xiao Liu
* 摘要: 在本文中,我們提出了一種視覺定位管道,即 MegLoc,用于在不同場景下穩(wěn)健而準(zhǔn)確的 6-DoF 姿態(tài)估計,包括室內(nèi)和室外場景、一天中的不同時間、一年中的不同季節(jié),甚至跨年。 MegLoc 在一系列具有挑戰(zhàn)性的數(shù)據(jù)集上取得了最先進(jìn)的成果,包括贏得 ICCV 2021 年不斷變化條件下長期視覺定位研討會的室外和室內(nèi)視覺定位挑戰(zhàn)賽,以及自主重新定位挑戰(zhàn)賽ICCV 2021 基于地圖的自動駕駛定位研討會的駕駛。

* 題目: Transferability Metrics for Selecting Source Model Ensembles
* 鏈接: https://arxiv.org/abs/2111.13011
* 作者: Andrea Agostinelli,Jasper Uijlings,Thomas Mensink,Vittorio Ferrari
* 摘要: 我們解決了遷移學(xué)習(xí)中的集成選擇問題:給定大量源模型,我們希望選擇一個模型集成,在對目標(biāo)訓(xùn)練集進(jìn)行微調(diào)后,在目標(biāo)測試集上產(chǎn)生最佳性能。由于微調(diào)所有可能的集成在計算上是令人望而卻步的,我們的目標(biāo)是使用計算效率高的可遷移性度量來預(yù)測目標(biāo)數(shù)據(jù)集的性能。我們?yōu)榇巳蝿?wù)提出了幾個新的可遷移性指標(biāo),并在語義分割的具有挑戰(zhàn)性和現(xiàn)實性的遷移學(xué)習(xí)設(shè)置中對其進(jìn)行評估:我們通過考慮涵蓋各種圖像域的 17 個源數(shù)據(jù)集來創(chuàng)建一個龐大而多樣化的源模型池,兩個不同的體系結(jié)構(gòu)和兩個預(yù)訓(xùn)練方案。給定這個池,我們?nèi)缓笞詣舆x擇一個子集以形成一個在給定目標(biāo)數(shù)據(jù)集上表現(xiàn)良好的集成。我們將我們的方法選擇的集合與選擇單個源模型的兩個基線進(jìn)行比較,要么 (1) 來自與我們的方法相同的池;或 (2) 來自包含大型源模型的池,每個模型都具有與集成相似的容量。平均超過 17 個目標(biāo)數(shù)據(jù)集,我們分別比這些基線高出 6.0% 和 2.5% 的相對平均 IoU。

* 題目: Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation
* 鏈接: https://arxiv.org/abs/2111.13010
* 作者: Rui Wang,Jian Chen,Gang Yu,Li Sun,Changqian Yu,Changxin Gao,Nong Sang
* 其他: ACM MultiMedia 2021.Project: https://wrong.wang/x/Control-Units-in-StyleGAN2/
* 摘要: 近年來,使用 StyleGAN 進(jìn)行圖像處理越來越受到關(guān)注。最近的工作在分析多個語義潛在空間以編輯生成圖像的屬性方面取得了巨大成功。然而,由于這些潛在空間中的語義和空間處理精度有限,現(xiàn)有的努力在細(xì)粒度的 StyleGAN 圖像處理中失敗了,即本地屬性這個 http URL 解決了這個問題,我們發(fā)現(xiàn)了屬性特定的控制單元,它由多個通道的特征圖和調(diào)制樣式組成。具體來說,我們在控制單元而不是單個單元中協(xié)作操縱調(diào)制風(fēng)格通道和特征圖,以獲得語義和空間解開的控制。此外,我們提出了一種簡單而有效的方法來檢測特定于屬性的控制單元。我們沿著特定的稀疏方向向量移動調(diào)制樣式,并替換用于計算特征圖的過濾樣式以操縱這些控制單元。我們在各種面部屬性操作任務(wù)中評估我們提出的方法。大量的定性和定量結(jié)果表明,我們提出的方法與最先進(jìn)的方法相比表現(xiàn)良好。真實圖像的處理結(jié)果進(jìn)一步表明了我們方法的有效性。

* 題目: Investigation of domain gap problem in several deep-learning-based CT metal artefact reduction methods
* 鏈接: https://arxiv.org/abs/2111.12983
* 作者: Muge Du,Kaichao Liang,Yinong Liu,Yuxiang Xing
* 摘要: CT 圖像中的金屬偽影可能會破壞圖像質(zhì)量并干擾診斷。最近已經(jīng)提出了許多基于深度學(xué)習(xí)的 CT 金屬偽影減少(MAR)方法。當(dāng)前的深度 MAR 方法可能會遇到域間隙問題,即在模擬數(shù)據(jù)上訓(xùn)練的方法無法在實際數(shù)據(jù)上表現(xiàn)良好。在這項工作中,我們在牙科數(shù)據(jù)集和軀干數(shù)據(jù)集上實驗性地研究了兩種圖像域監(jiān)督方法、兩種雙域監(jiān)督方法和兩種圖像域無監(jiān)督方法,以探索域間隙問題是否存在或被克服。我們發(fā)現(xiàn) I-DL-MAR 和 DudoNet 對軀干數(shù)據(jù)集的實際數(shù)據(jù)有效,表明域間隙問題得到解決。然而,沒有一種研究方法在牙科數(shù)據(jù)集的實際數(shù)據(jù)上表現(xiàn)令人滿意?;趯嶒灲Y(jié)果,我們進(jìn)一步分析了每種方法和數(shù)據(jù)集的域間隙問題的原因,這可能有利于改進(jìn)現(xiàn)有方法或設(shè)計新方法。研究結(jié)果表明,深度 MAR 方法中的域差距問題仍有待解決。

* 題目: CDNet is all you need: Cascade DCN based underwater object detection RCNN
* 鏈接: https://arxiv.org/abs/2111.12982
* 作者: Di Chang
* 其他: 6 pages, 6 figures. arXiv admin note: text overlap with arXiv:1906.09756 by other authors
* 摘要: 目標(biāo)檢測是計算機(jī)視覺領(lǐng)域非常重要的基礎(chǔ)研究方向,也是計算機(jī)視覺領(lǐng)域其他高級任務(wù)的基本方法。它已廣泛應(yīng)用于目標(biāo)跟蹤、視頻行為識別和水下機(jī)器人視覺等實際應(yīng)用中。 Cascade-RCNN 和 Deformable Convolution Network 都是經(jīng)典且優(yōu)秀的目標(biāo)檢測算法。在本報告中,我們使用不同的工程技巧和增強(qiáng)對水下光學(xué)圖像和聲學(xué)圖像數(shù)據(jù)集評估了基于 Cascade-DCN 的方法。

* 題目: AdvBokeh: Learning to Adversarially Defocus Blur
* 鏈接: https://arxiv.org/abs/2111.12971
* 作者: Yihao Huang,Felix Juefei-Xu,Qing Guo,Weikai Miao,Yang Liu,Geguang Pu
* 其他: 13 pages
* 摘要: 散景效果是一種自然的淺景深現(xiàn)象,可以模糊攝影中的失焦部分。為了追求美觀的照片,人們通常將散景效果視為照片中不可或缺的一部分。由于其天然的優(yōu)勢和普遍性,以及許多視覺識別任務(wù)已經(jīng)受到“自然散景”現(xiàn)象的負(fù)面影響,在這項工作中,我們從一個新的角度系統(tǒng)地研究了散景效果,即對抗性散景攻擊 (AdvBokeh) 旨在將計算出的欺騙性信息嵌入到散景生成中,并生成一個自然的對抗性示例,而沒有任何人類可察覺的噪聲偽影。為此,我們首先提出了一種深度引導(dǎo)的散景合成網(wǎng)絡(luò)(DebsNet),它能夠通過一個階段的訓(xùn)練過程靈活地合成、重新聚焦和調(diào)整圖像的散景水平。 DebsNet 允許我們利用散景生成過程并根據(jù)后續(xù)視覺任務(wù)攻擊生成逼真散景所需的深度圖(即對抗性調(diào)整深度圖)。為了進(jìn)一步提高對抗散景的真實性,我們提出了基于深度引導(dǎo)的基于梯度的攻擊來正則化梯度??梢源┩杆姆N最先進(jìn)的 (SOTA) 圖像分類網(wǎng)絡(luò),即 ResNet50、VGG、DenseNet 和 MobileNetV2,具有高成功率和高圖像質(zhì)量。 AdvBokeh 獲得的對抗樣本在黑盒設(shè)置下也表現(xiàn)出高度的可轉(zhuǎn)移性。此外,來自 AdvBokeh 的對抗性生成的散焦模糊圖像實際上可以用來提高 SOTA 散焦去模糊系統(tǒng),即 IFAN 的性能。

* 題目: ML-Decoder: Scalable and Versatile Classification Head
* 鏈接: https://arxiv.org/abs/2111.12933
* 作者: Tal Ridnik,Gilad Sharir,Avi Ben-Cohen,Emanuel Ben-Baruch,Asaf Noy
* 摘要: 在本文中,我們介紹了 ML-Decoder,一種新的基于注意力的分類頭。 ML-Decoder 通過查詢預(yù)測類標(biāo)簽的存在,與全局平均池化相比,可以更好地利用空間數(shù)據(jù)。通過重新設(shè)計解碼器架構(gòu),并使用新穎的組解碼方案,ML-Decoder 非常高效,并且可以很好地擴(kuò)展到數(shù)千個類別。與使用更大的主干相比,ML-Decoder 始終提供更好的速度-準(zhǔn)確性權(quán)衡。 ML-Decoder 也是多功能的——它可以用作各種分類頭的替代品,并在使用單詞查詢操作時泛化到看不見的類別。新穎的查詢增強(qiáng)進(jìn)一步提高了其泛化能力。使用 ML-Decoder,我們在幾個分類任務(wù)上取得了最先進(jìn)的結(jié)果:在 MS-COCO 多標(biāo)簽上,我們達(dá)到了 91.4% 的 mAP;在 NUS-WIDE 零樣本上,我們達(dá)到了 31.1% ZSL mAP;在 ImageNet 單標(biāo)簽上,我們使用 vanilla ResNet50 主干達(dá)到了 80.7% 的新最高分,無需額外的數(shù)據(jù)或蒸餾。公共代碼位于:此 https URL

* 題目: Facial Depth and Normal Estimation using Single Dual-Pixel Camera
* 鏈接: https://arxiv.org/abs/2111.12928
* 作者: Minjun Kang,Jaesung Choe,Hyowon Ha,Hae-Gon Jeon,Sunghoon Im,In So Kweon
* 摘要: 許多移動制造商最近在其旗艦機(jī)型中采用了雙像素 (DP) 傳感器,以實現(xiàn)更快的自動對焦和美觀的圖像捕捉。盡管它們具有優(yōu)勢,但由于缺乏利用 DP 圖像中的視差的數(shù)據(jù)集和算法設(shè)計,因此對其用于 3D 面部理解的研究受到限制。這是因為子孔徑圖像的基線極窄,離焦模糊區(qū)域存在視差。在本文中,我們介紹了一個面向 DP 的深度/法線網(wǎng)絡(luò),用于重建 3D 面部幾何結(jié)構(gòu)。為此,我們收集了 DP 面部數(shù)據(jù),其中包含使用我們的多相機(jī)結(jié)構(gòu)光系統(tǒng)拍攝的 101 個人的超過 135K 圖像。它包含相應(yīng)的地面實況 3D 模型,包括公制尺度的深度圖和表面法線。我們的數(shù)據(jù)集允許將提議的匹配網(wǎng)絡(luò)推廣到 3D 面部深度/法線估計。所提出的網(wǎng)絡(luò)由兩個新穎的模塊組成:自適應(yīng)采樣模塊和自適應(yīng)法線模塊,它們專門用于處理 DP 圖像中的散焦模糊。最后,與最近的基于 DP 的深度/法線估計方法相比,所提出的方法實現(xiàn)了最先進(jìn)的性能。我們還展示了估計深度/法線對面部欺騙和重新照明的適用性。

* 題目: Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion
* 鏈接: https://arxiv.org/abs/2111.12927
* 作者: Nobuhiko Wakai,Satoshi Sato,Yasunori Ishii,Takayoshi Yamashita
* 摘要: 盡管最近基于學(xué)習(xí)的校準(zhǔn)方法可以從單個圖像中預(yù)測外部和內(nèi)部相機(jī)參數(shù),但這些方法的準(zhǔn)確性在魚眼圖像中會降低。這種退化是由實際投影和預(yù)期投影之間的不匹配引起的。為了解決這個問題,我們提出了一種通用相機(jī)模型,它有可能解決各種類型的失真。我們的通用相機(jī)模型通過相機(jī)投影的封閉形式數(shù)值計算用于基于學(xué)習(xí)的方法。同時為了恢復(fù)旋轉(zhuǎn)和魚眼失真,我們提出了一種使用相機(jī)模型的基于學(xué)習(xí)的校準(zhǔn)方法。此外,我們提出了一種損失函數(shù),可以減輕四個外部和內(nèi)部相機(jī)參數(shù)的誤差幅度偏差。大量實驗表明,我們提出的方法在兩個大型數(shù)據(jù)集和現(xiàn)成的魚眼相機(jī)捕獲的圖像上優(yōu)于傳統(tǒng)方法。此外,我們是第一批使用各種類型的現(xiàn)成相機(jī)投影來分析基于學(xué)習(xí)的方法的性能的研究人員。

* 題目: ContourletNet: A Generalized Rain Removal Architecture Using Multi-Direction Hierarchical Representation
* 鏈接: https://arxiv.org/abs/2111.12925
* 作者: Wei-Ting Chen,Cheng-Che Tsai,Hao-Yu Fang,I-Hsiang Chen,Jian-Jiun Ding,Sy-Yen Kuo
* 其他: This paper is accepted by BMVC 2021
* 摘要: 從雨天場景中獲取的圖像通??梢姸炔患眩@可能會損害計算機(jī)視覺應(yīng)用程序的性能。下雨場景可以分為兩類:中雨場景和大雨場景。中雨場景主要由雨條紋組成,而大雨場景則包含雨條紋和遮蔽效果(類似于霧霾)。盡管現(xiàn)有的方法分別在這兩種情況下都取得了優(yōu)異的性能,但仍然缺乏有效解決大雨和中雨情況的通用架構(gòu)。在本文中,我們通過使用輪廓波變換 (CT) 來構(gòu)建分層多向表示網(wǎng)絡(luò)來解決中雨和大雨場景。 CT 將圖像分為多方向子帶 (MS) 和語義子帶 (SS)。首先,基于 CT 的多方位特性將雨條信息檢索到 MS。其次,提出了一種分層架構(gòu)來重建背景信息,包括 SS 中損壞的語義信息和遮蔽效應(yīng)。最后,提出了帶有反饋誤差圖的多級子帶鑒別器。通過該模塊,可以很好地優(yōu)化所有子帶。這是第一個可以有效解決這兩種情況的架構(gòu)。該代碼在此 https URL 中可用。

* 題目: A dual benchmarking study of facial forgery and facial forensics
* 鏈接: https://arxiv.org/abs/2111.12912
* 作者: Minh Tam Pham,Thanh Trung Huynh,Van Vinh Tong,Thanh Tam Nguyen,Thanh Thi Nguyen,Hongzhi Yin,Quoc Viet Hung Nguyen
* 摘要: 近年來,視覺偽造已經(jīng)達(dá)到人類無法識別欺詐的復(fù)雜程度,這對信息安全構(gòu)成了重大威脅。虛假新聞、誹謗或勒索名人、冒充政客、散播謠言等惡意應(yīng)用層出不窮。因此,已經(jīng)提出了豐富的視覺取證技術(shù),試圖阻止這種危險的趨勢。在本文中,我們提出了一個基準(zhǔn),該基準(zhǔn)使用全面的實證方法提供對視覺偽造和視覺取證的深入見解。更具體地說,我們開發(fā)了一個獨立的框架,該框架集成了最先進(jìn)的偽造生成器和檢測器,并使用各種標(biāo)準(zhǔn)來衡量這些技術(shù)的性能。我們還對標(biāo)桿結(jié)果進(jìn)行了詳盡的分析,以確定在這場永無休止的措施與對策之間的戰(zhàn)爭中作為比較參考的方法的特征。

* 題目: Human and Scene Motion Deblurring using Pseudo-blur Synthesizer
* 鏈接: https://arxiv.org/abs/2111.12911
* 作者: Jonathan Samuel Lumentut,In Kyu Park
* 摘要: 當(dāng)今基于深度學(xué)習(xí)的運動去模糊方法利用合成模糊和清晰數(shù)據(jù)對來回歸任何特定框架。此任務(wù)旨在將模糊圖像輸入直接轉(zhuǎn)換為其恢復(fù)版本作為輸出。上述方法在很大程度上依賴于合成模糊數(shù)據(jù)的質(zhì)量,這些數(shù)據(jù)僅在訓(xùn)練階段之前可用。通過提供大量數(shù)據(jù)來處理這個問題對于普通用途來說是昂貴的。我們通過提供可在訓(xùn)練和測試階段運行的動態(tài)模糊數(shù)據(jù)增強(qiáng)器來應(yīng)對這一挑戰(zhàn)。為了充分利用它,我們采用了一種非正統(tǒng)的去模糊框架方案,該方案采用了模糊-去模糊-再模糊-去模糊步驟的順序。重新模糊步驟由重新模糊模塊(合成器)協(xié)助,該模塊提供其清晰或去模糊對應(yīng)物的重新模糊版本(偽模糊)。所提出的模塊還配備了使用最先進(jìn)的人體統(tǒng)計模型提取的手工先驗信息。該先驗用于在對抗性學(xué)習(xí)期間映射人類和非人類區(qū)域,以充分感知人類關(guān)節(jié)和場景運動模糊的特征。通過采用這種方法,與最近最先進(jìn)的去模糊算法相比,我們的去模糊模塊變得自適應(yīng)并取得了更好的結(jié)果。

* 題目: CIRCLE: Convolutional Implicit Reconstruction and Completion for Large-scale Indoor Scene
* 鏈接: https://arxiv.org/abs/2111.12905
* 作者: Haoxiang Chen,Jiahui Huang,Tai-Jiang Mu,Shi-Min Hu
* 摘要: 我們提出了 CIRCLE,這是一個基于局部隱式帶符號距離函數(shù)的大規(guī)模場景完成和幾何細(xì)化框架。它基于端到端稀疏卷積網(wǎng)絡(luò) CircNet,它聯(lián)合建模局部幾何細(xì)節(jié)和全局場景結(jié)構(gòu)上下文,使其能夠保留細(xì)粒度的對象細(xì)節(jié),同時恢復(fù)傳統(tǒng) 3D 場景數(shù)據(jù)中常見的缺失區(qū)域。一種新穎的可微渲染模塊可實現(xiàn)測試時間細(xì)化,以實現(xiàn)更好的重建質(zhì)量。在真實世界和合成數(shù)據(jù)集上的大量實驗表明,我們簡潔的框架高效且有效,比最接近的競爭對手實現(xiàn)了更好的重建質(zhì)量,同時速度提高了 10-50 倍。

* 題目: Attend to Who You Are: Supervising Self-Attention for Keypoint Detection and Instance-Aware Association
* 鏈接: https://arxiv.org/abs/2111.12892
* 作者: Sen Yang,Zhicheng Wang,Ze Chen,Yanjie Li,Shoukui Zhang,Zhibin Quan,Shu-Tao Xia,Yiping Bao,Erjin Zhou,Wankou Yang
* 其他: 16 pages, 9 figures, 7 tables
* 摘要: 本文提出了一種利用Transformer解決關(guān)鍵點檢測和實例關(guān)聯(lián)的新方法。對于自下而上的多人姿態(tài)估計模型,他們需要檢測關(guān)鍵點并學(xué)習(xí)關(guān)鍵點之間的關(guān)聯(lián)信息。我們認(rèn)為這些問題完全可以通過 Transformer 解決。具體來說,Transformer 中的 self-attention 測量任何一對位置之間的依賴關(guān)系,可以為關(guān)鍵點分組提供關(guān)聯(lián)信息。然而,樸素的注意力模式仍然不受主觀控制,因此不能保證關(guān)鍵點總是關(guān)注它們所屬的實例。為了解決這個問題,我們提出了一種監(jiān)督自我注意的新方法,用于多人關(guān)鍵點檢測和實例關(guān)聯(lián)。通過使用實例掩碼來監(jiān)督自我注意以實現(xiàn)實例感知,我們可以根據(jù)成對注意分?jǐn)?shù)將檢測到的關(guān)鍵點分配給相應(yīng)的實例,而無需使用預(yù)定義的偏移向量場或像基于 CNN 的自下而上模型那樣的嵌入.我們方法的另一個好處是可以直接從監(jiān)督注意力矩陣中獲得任意數(shù)量的人的實例分割結(jié)果,從而簡化像素分配管道。 COCO 多人關(guān)鍵點檢測挑戰(zhàn)和人物實例分割任務(wù)的實驗證明了所提出方法的有效性和簡單性,并展示了一種有前途的方法來控制特定目的的自我注意行為。

* 題目: V2C: Visual Voice Cloning
* 鏈接: https://arxiv.org/abs/2111.12890
* 作者: Qi Chen,Yuanqing Li,Yuankai Qi,Jiaqiu Zhou,Mingkui Tan,Qi Wu
* 其他: 15 pages, 14 figures
* 摘要: 現(xiàn)有的語音克隆 (VC) 任務(wù)旨在將段落文本轉(zhuǎn)換為具有由參考音頻指定的所需語音的語音。這極大地促進(jìn)了人工語音應(yīng)用的發(fā)展。但是,也有很多場景不能被這些 VC 任務(wù)很好的體現(xiàn),比如電影配音,這就要求演講的情緒要與電影情節(jié)一致。為了填補(bǔ)這一空白,在這項工作中,我們提出了一項名為 Visual Voice Cloning (V2C) 的新任務(wù),該任務(wù)旨在將一段文本轉(zhuǎn)換為具有參考音頻指定的所需語音和參考視頻指定的所需情感的語音。為了促進(jìn)該領(lǐng)域的研究,我們構(gòu)建了一個數(shù)據(jù)集 V2C-Animation,并基于現(xiàn)有的最先進(jìn) (SoTA) VC 技術(shù)提出了一個強(qiáng)大的基線。我們的數(shù)據(jù)集包含 10,217 個動畫電影剪輯,涵蓋各種類型(例如喜劇、奇幻)和情感(例如快樂、悲傷)。我們進(jìn)一步設(shè)計了一組名為 MCD-DTW-SL 的評估指標(biāo),它有助于評估真實語音與合成語音之間的相似性。大量實驗結(jié)果表明,即使是 SoTA VC 方法也無法為我們的 V2C 任務(wù)生成令人滿意的語音。我們希望提議的新任務(wù)連同構(gòu)建的數(shù)據(jù)集和評估指標(biāo)將促進(jìn)語音克隆領(lǐng)域和更廣泛的視覺和語言社區(qū)的研究。

* 題目: Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio
* 鏈接: https://arxiv.org/abs/2111.12888
* 作者: Khanh-Duy Nguyen,Huy H. Nguyen,Trung-Nghia Le,Junichi Yamagishi,Isao Echizen
* 摘要: 估算公共場所的口罩佩戴率很重要,因為它使衛(wèi)生當(dāng)局能夠及時分析和實施政策。已經(jīng)報道了基于圖像分析來估計口罩佩戴率的方法。然而,仍然缺乏對方法論和數(shù)據(jù)集的全面研究。最近的大多數(shù)報告直接提出通過應(yīng)用傳統(tǒng)的對象檢測和分類方法來估計比率。使用基于回歸的方法來估計戴口罩的人數(shù)是可行的,尤其是對于人臉很小和被遮擋的擁擠場景,但這還沒有得到很好的研究。仍然需要大規(guī)模且注釋良好的數(shù)據(jù)集。在本文中,我們提出了兩種利用基于檢測或基于回歸的方法進(jìn)行比率估計的方法。對于基于檢測的方法,我們改進(jìn)了最先進(jìn)的人臉檢測器 RetinaFace,用于估計比率。對于基于回歸的方法,我們對基線網(wǎng)絡(luò) CSRNet 進(jìn)行了微調(diào),用于估計蒙面和未蒙面人臉的密度圖。我們還展示了第一個大規(guī)模數(shù)據(jù)集“NFM 數(shù)據(jù)集”,其中包含從 17 個街景視頻的 18,088 個視頻幀中提取的 581,108 個面部注釋。實驗表明,基于 RetinaFace 的方法在各種情況下具有更高的準(zhǔn)確性,基于 CSRNet 的方法由于其緊湊性而具有更短的運算時間。

* 題目: Active Learning at the ImageNet Scale
* 鏈接: https://arxiv.org/abs/2111.12880
* 作者: Zeyad Ali Sami Emam,Hong-Min Chu,Ping-Yeh Chiang,Wojciech Czaja,Richard Leapman,Micah Goldblum,Tom Goldstein
* 摘要: 主動學(xué)習(xí) (AL) 算法旨在識別用于注釋的最佳數(shù)據(jù)子集,以便深度神經(jīng)網(wǎng)絡(luò) (DNN) 在此標(biāo)記子集上進(jìn)行訓(xùn)練時可以獲得更好的性能。 AL 在數(shù)據(jù)標(biāo)記成本高且從業(yè)者使用各種可用工具來提高模型性能的工業(yè)規(guī)模環(huán)境中尤其具有影響力。最近自監(jiān)督預(yù)訓(xùn)練 (SSP) 的成功凸顯了利用大量未標(biāo)記數(shù)據(jù)來提高模型性能的重要性。通過將 AL 與 SSP 相結(jié)合,我們可以利用未標(biāo)記的數(shù)據(jù),同時對特別有用的樣本進(jìn)行標(biāo)記和訓(xùn)練。在這項工作中,我們在 ImageNet 上研究了 AL 和 SSP 的組合。我們發(fā)現(xiàn),由于主動學(xué)習(xí)器選擇的類別不平衡樣本,小型玩具數(shù)據(jù)集的性能(文獻(xiàn)中的典型基準(zhǔn)設(shè)置)不能代表 ImageNet 的性能。在我們測試的現(xiàn)有基線中,流行的 AL 算法在各種小規(guī)模和大規(guī)模設(shè)置中無法勝過隨機(jī)抽樣。為了解決類別不平衡問題,我們提出了平衡選擇 (BASE),這是一種簡單、可擴(kuò)展的 AL 算法,通過選擇比現(xiàn)有方法更多的平衡樣本進(jìn)行注釋,始終優(yōu)于隨機(jī)抽樣。我們的代碼位于:此 https URL 。

* 題目: Quantised Transforming Auto-Encoders: Achieving Equivariance to Arbitrary Transformations in Deep Networks
* 鏈接: https://arxiv.org/abs/2111.12873
* 作者: Jianbo Jiao,Jo?o F. Henriques
* 其他: BMVC 2021 | Project page: this https URL
* 摘要: 在這項工作中,我們研究如何在沒有給出這些轉(zhuǎn)換模型的情況下,完全從數(shù)據(jù)中實現(xiàn)深度網(wǎng)絡(luò)中輸入轉(zhuǎn)換的等方差。例如,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 與圖像平移等變,這是一種可以輕松建模的變換(通過垂直或水平移動像素)。其他變換,例如平面外旋轉(zhuǎn),不允許使用簡單的解析模型。我們提出了一種自動編碼器架構(gòu),其嵌入同時遵循一組任意的等方差關(guān)系,例如平移、旋轉(zhuǎn)、顏色變化等。這意味著它可以獲取輸入圖像,并生成按給定數(shù)量轉(zhuǎn)換的版本,而這些版本之前未觀察到(例如,同一對象的不同視角或顏色變化)。盡管擴(kuò)展到許多(甚至非幾何)變換,我們的模型在平移等方差的特殊情況下精確地減少到 CNN。等方差對于深度網(wǎng)絡(luò)的可解釋性和魯棒性很重要,我們展示了在幾個合成和真實數(shù)據(jù)集上成功重新渲染輸入圖像的轉(zhuǎn)換版本的結(jié)果,以及對象姿態(tài)估計的結(jié)果。

* 題目: Less is More: Generating Grounded Navigation Instructions from Landmarks
* 鏈接: https://arxiv.org/abs/2111.12872
* 作者: Su Wang,Ceslee Montgomery,Jordi Orbay,Vighnesh Birodkar,Aleksandra Faust,Izzeddin Gur,Natasha Jaques,Austin Waters,Jason Baldridge,Peter Anderson
* 其他: Submitted to CVPR'22
* 摘要: 我們研究從室內(nèi)路線上捕獲的 360 度圖像自動生成導(dǎo)航指令?,F(xiàn)有的生成器缺乏視覺基礎(chǔ),導(dǎo)致它們依賴語言先驗和幻覺對象。我們的MARKY-MT5系統(tǒng)通過關(guān)注視覺地標(biāo)來解決這個問題;它包括一個第一階段地標(biāo)檢測器和一個第二階段生成器——一個多模式、多語言、多任務(wù)的編碼器-解碼器。為了訓(xùn)練它,我們在 Room-across-Room (RxR) 數(shù)據(jù)集之上引導(dǎo)接地地標(biāo)注釋。使用文本解析器、RxR 姿勢軌跡的弱監(jiān)督以及在 1.8b 圖像上訓(xùn)練的多語言圖像文本編碼器,我們識別了 1.1m 英語、印地語和泰盧固語地標(biāo)描述,并將它們定位到全景圖中的特定區(qū)域。在 Room-to-Room 中,人類尋路者按照 MARKY-MT5 的指令獲得 71% 的成功率 (SR),略低于他們按照人類指令的 75% SR——并且遠(yuǎn)高于其他生成器的 SR。對 RxR 更長、更多樣化的路徑的評估在三種語言上獲得了 61-64% 的 SR。在新環(huán)境中生成如此高質(zhì)量的導(dǎo)航指令是朝著對話式導(dǎo)航工具邁出的一步,可以促進(jìn)對指令遵循代理的更大規(guī)模培訓(xùn)。

* 題目: Amortized Prompt: Lightweight Fine-Tuning for CLIP in Domain Generalization
* 鏈接: https://arxiv.org/abs/2111.12853
* 作者: Xin Zhang,Yusuke Iwasawa,Yutaka Matsuo,Shixiang Shane Gu
* 摘要: 域泛化 (DG) 是一個困難的遷移學(xué)習(xí)問題,旨在學(xué)習(xí)一個可泛化的模型到看不見的域。最近的大量預(yù)訓(xùn)練模型,如 CLIP 和 GPT-3,即基礎(chǔ)模型 (FM),已被證明對許多分布變化具有魯棒性,因此應(yīng)該會導(dǎo)致 DG 的實質(zhì)性改進(jìn)。在這項工作中,我們研究了在圖像分類中對 DG 問題采用 CLIP 的通用方法,我們評估了樸素的零樣本學(xué)習(xí)和完整的 DG 學(xué)習(xí)設(shè)置。對于后者,我們提出了 AP(Amortized Prompt),作為一種以提示生成形式進(jìn)行領(lǐng)域推理的新方法。在域泛化基準(zhǔn)測試中使用多個標(biāo)準(zhǔn)數(shù)據(jù)集,即 PACS、VLCS、OfficeHome 和 TerraIncognita,CLIP 提供了可比的性能,而無需微調(diào)任何參數(shù),表明 FM 在 DG 中的適用性和重要性。此外,我們表明,將域提示推理與 CLIP 相結(jié)合,使 AP 能夠大幅超越強(qiáng)基線和樸素 CLIP 基線,將準(zhǔn)確率從 71.3/% 提高到 79.3/%。我們希望我們的方法的簡單性和成功強(qiáng)調(diào)了基礎(chǔ)模型在域泛化領(lǐng)域的重要性,并導(dǎo)致更廣泛地采用和分析基礎(chǔ)模型。

* 題目: Cross Your Body: A Cognitive Assessment System for Children
* 鏈接: https://arxiv.org/abs/2111.12824
* 作者: Saif Sayed,Vassilis Athitsos
* 其他: Accepted in ISVC 2021
* 摘要: 雖然許多動作識別技術(shù)在公共基準(zhǔn)測試中取得了巨大成功,但這種性能不一定能在真實世界場景中復(fù)制,其中數(shù)據(jù)來自特定的應(yīng)用程序需求。我們在本文中關(guān)注的特定現(xiàn)實世界應(yīng)用是對使用認(rèn)知要求高的體力任務(wù)的兒童進(jìn)行的認(rèn)知評估。我們創(chuàng)建了一個名為 Cross-Your-Body 的系統(tǒng)并記錄了數(shù)據(jù),它在幾個方面是獨一無二的,包括任務(wù)是由心理學(xué)家設(shè)計的,對象是兒童,視頻捕捉了現(xiàn)實世界的使用情況,因為他們記錄了兒童在心理學(xué)家的真實世界評估中執(zhí)行任務(wù)。我們系統(tǒng)的其他顯著特點是它的分?jǐn)?shù)可以直接轉(zhuǎn)換為衡量執(zhí)行功能,這是區(qū)分青少年兒童多動癥發(fā)作的關(guān)鍵因素之一。由于兒童執(zhí)行的動作不精確,并且存在細(xì)粒度的運動模式,我們系統(tǒng)地調(diào)查和評估記錄數(shù)據(jù)的相關(guān)方法。我們的目標(biāo)是該系統(tǒng)將有助于推進(jìn)兒童認(rèn)知評估的研究。

* 題目: Application of deep learning to camera trap data for ecologists in planning / engineering -- Can captivity imagery train a model which generalises to the wild?
* 鏈接: https://arxiv.org/abs/2111.12805
* 作者: Ryan Curry,Cameron Trotter,Andrew Stephen McGough
* 其他: Submitted to Big Data 2021
* 摘要: 了解一個物種的豐富程度是了解其長期可持續(xù)性和我們可能對其產(chǎn)生的影響的第一步。生態(tài)學(xué)家使用相機(jī)陷阱遠(yuǎn)程調(diào)查特定動物物種的存在。先前的研究表明,可以訓(xùn)練深度學(xué)習(xí)模型以高置信度自動檢測和分類相機(jī)陷阱圖像中的動物。然而,訓(xùn)練這些模型的能力取決于擁有足夠的高質(zhì)量訓(xùn)練數(shù)據(jù)。當(dāng)動物稀有或數(shù)據(jù)集不存在時會發(fā)生什么?這項研究提出了一種使用圈養(yǎng)稀有動物(重點是蘇格蘭野貓)的圖像來生成訓(xùn)練數(shù)據(jù)集的方法。我們探討了在應(yīng)用于野外收集的數(shù)據(jù)時,將在圈養(yǎng)數(shù)據(jù)上訓(xùn)練的模型泛化相關(guān)的挑戰(zhàn)。該研究以生態(tài)學(xué)家在規(guī)劃/工程方面的需求為背景。遵循其他研究的先例,該項目為對象檢測、圖像分割和圖像分類模型建立了一個集合,然后使用不同的圖像處理和類結(jié)構(gòu)技術(shù)進(jìn)行測試,以鼓勵模型泛化。該研究得出結(jié)論,在蘇格蘭野貓的背景下,使用現(xiàn)有技術(shù)無法將在圈養(yǎng)圖像上訓(xùn)練的模型推廣到野生相機(jī)陷阱圖像。然而,在只有 1% 的圖像包含野貓的測試集上,基于 Wildcat 與 Not Wildcat 兩類模型的最終模型性能實現(xiàn)了 81.6% 的整體準(zhǔn)確度得分和 54.8% 的 Wildcat 準(zhǔn)確度得分。這表明通過進(jìn)一步研究使用圈養(yǎng)圖像是可行的。這是第一項嘗試基于圈養(yǎng)數(shù)據(jù)生成訓(xùn)練集的研究,也是第一項在生態(tài)學(xué)家規(guī)劃/工程背景下探索此類模型開發(fā)的研究。

* 題目: Improving the Perceptual Quality of 2D Animation Interpolation
* 鏈接: https://arxiv.org/abs/2111.12792
* 作者: Shuhong Chen,Matthias Zwicker
* 其他: under review
* 摘要: 傳統(tǒng)的 2D 動畫是勞動密集型的,通常需要動畫師每秒手動繪制 12 幅運動插圖。雖然自動幀插值可以減輕這種負(fù)擔(dān),但 2D 動畫固有的藝術(shù)效果使視頻合成與照片級寫實領(lǐng)域相比特別具有挑戰(zhàn)性。較低的幀率會導(dǎo)致較大的位移和遮擋,離散的感知元素(例如線條和純色區(qū)域)給面向紋理的卷積網(wǎng)絡(luò)帶來困難,并且夸大的非線性運動阻礙了訓(xùn)練數(shù)據(jù)的收集。以前的工作嘗試解決這些問題,但使用了不可擴(kuò)展的方法并專注于像素完美的性能。相比之下,我們?yōu)檫@個藝術(shù)領(lǐng)域構(gòu)建了一個更適合以感知質(zhì)量為中心的可擴(kuò)展系統(tǒng)。首先,我們提出了一種輕量級架構(gòu),采用簡單而有效的遮擋修復(fù)技術(shù),以使用較少的可訓(xùn)練參數(shù)提高感知度量的收斂性。其次,我們設(shè)計了一個新穎的輔助模塊,利用歐幾里德距離變換來改善關(guān)鍵線和區(qū)域結(jié)構(gòu)的保留。第三,我們通過定量濾除運動非線性,自動將現(xiàn)有的手動收集的數(shù)據(jù)集加倍,從而提高模型泛化能力。最后,我們通過用戶研究確定了 LPIPS 和倒角距離比 PSNR 和 SSIM 更可取,從而驗證了我們的系統(tǒng)對 2D 動畫領(lǐng)域感知質(zhì)量的重視。

* 題目: Fast mesh denoising with data driven normal filtering using deep variational autoencoders
* 鏈接: https://arxiv.org/abs/2111.12782
* 作者: Stavros Nousias,Gerasimos Arvanitis,Aris S. Lalos,Konstantinos Moustakas
* 其他: 12 pages, 12 figures
* 摘要: 3D 掃描技術(shù)的最新進(jìn)展使 3D 模型能夠在各種工業(yè)應(yīng)用中部署,例如數(shù)字孿生、遠(yuǎn)程檢查和逆向工程。盡管 3D 掃描儀的性能不斷發(fā)展,但仍會在獲取的密集模型中引入噪聲和偽影。在這項工作中,我們?yōu)槊芗?3D 掃描工業(yè)模型提出了一種快速而強(qiáng)大的去噪方法。所提出的方法采用條件變分自編碼器來有效地過濾面部法線。訓(xùn)練和推理在滑動補(bǔ)丁設(shè)置中執(zhí)行,減少了所需訓(xùn)練數(shù)據(jù)的大小和執(zhí)行時間。我們使用 3D 掃描和 CAD 模型進(jìn)行了廣泛的評估研究。結(jié)果驗證了合理的去噪結(jié)果,與其他最先進(jìn)的方法相比,顯示出相似或更高的重建精度。具體來說,對于具有超過 1e4 個面的 3D 模型,所提出的流水線是具有等效重建誤差的方法的兩倍。

* 題目: Transferability Estimation using Bhattacharyya Class Separability
* 鏈接: https://arxiv.org/abs/2111.12780
* 作者: Michal Pándy,Andrea Agostinelli,Jasper Uijlings,Vittorio Ferrari,Thomas Mensink
* 摘要: 遷移學(xué)習(xí)已成為在計算機(jī)視覺中利用預(yù)訓(xùn)練模型的流行方法。然而,如果不執(zhí)行計算成本高的微調(diào),就很難量化哪些預(yù)訓(xùn)練的源模型適合特定的目標(biāo)任務(wù),或者相反,預(yù)訓(xùn)練的源模型可以輕松適應(yīng)哪些任務(wù)。在這項工作中,我們提出了高斯 Bhattacharyya 系數(shù) (GBC),這是一種量化源模型和目標(biāo)數(shù)據(jù)集之間可轉(zhuǎn)移性的新方法。在第一步中,我們將所有目標(biāo)圖像嵌入源模型定義的特征空間中,并用每類高斯分布來表示它們。然后,我們使用 Bhattacharyya 系數(shù)估計它們的成對類可分離性,從而產(chǎn)生一個簡單而有效的衡量源模型如何轉(zhuǎn)移到目標(biāo)任務(wù)的方法。我們在數(shù)據(jù)集和架構(gòu)選擇的背景下評估圖像分類任務(wù)上的 GBC。此外,我們還對更復(fù)雜的語義分割可轉(zhuǎn)移性估計任務(wù)進(jìn)行了實驗。我們證明了 GBC 在語義分割設(shè)置中的大多數(shù)評估標(biāo)準(zhǔn)上都優(yōu)于最先進(jìn)的可轉(zhuǎn)移性指標(biāo),與圖像分類中數(shù)據(jù)集可轉(zhuǎn)移性的頂級方法的性能相匹配,并且在圖像分類的架構(gòu)選擇問題上表現(xiàn)最佳。

* 題目: ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based Image Retrieval
* 鏈接: https://arxiv.org/abs/2111.12757
* 作者: Hao Ren,Ziqiang Zheng,Yang Wu,Hong Lu,Yang Yang,Sai-Kit Yeung
* 摘要: 草圖和照片之間的巨大領(lǐng)域差距以及高度抽象的草圖表示給基于草圖的圖像檢索(/underline{SBIR})帶來了挑戰(zhàn)?;诹沌R頭草圖的圖像檢索(/underline{ZS-SBIR})更加通用和實用,但由于可見和不可見類別之間的額外知識差距而帶來更大的挑戰(zhàn)。為了同時縮小這兩個差距,我們提出了一個 /textbf{A}pproaching-and-/textbf{C}entralizing /textbf{Net} 工作(稱為“/textbf{ACNet}”)來共同優(yōu)化草圖到照片合成和圖像檢索。檢索模塊引導(dǎo)合成模塊生成大量不同的類似照片的圖像,這些圖像逐漸接近照片域,從而比以往更好地為檢索模塊服務(wù),以學(xué)習(xí)與領(lǐng)域無關(guān)的表示和與類別無關(guān)的常識,以推廣到看不見的類別.這些通過檢索指導(dǎo)生成的不同圖像可以有效地緩解困擾具有高梯度的特定類別訓(xùn)練樣本的過度擬合問題。我們還發(fā)現(xiàn)使用基于代理的 NormSoftmax 損失在零樣本設(shè)置中是有效的,因為它的集中效應(yīng)可以穩(wěn)定我們的聯(lián)合訓(xùn)練并促進(jìn)對未知類別的泛化能力。我們的方法簡單而有效,它在兩個廣泛使用的 ZS-SBIR 數(shù)據(jù)集上實現(xiàn)了最先進(jìn)的性能,并且大大超過了以前的方法。

* 題目: Human Pose Manipulation and Novel View Synthesis using Differentiable Rendering
* 鏈接: https://arxiv.org/abs/2111.12731
* 作者: Guillaume Rochette,Chris Russell,Richard Bowden
* 其他: Accepted at Face and Gesture 2021, 8 pages, 7 figures
* 摘要: 我們提出了一種新方法來合成新姿勢的人的新觀點。我們新穎的可微渲染器可以從任何角度合成高度逼真的圖像。我們的渲染器不是在基于網(wǎng)格的結(jié)構(gòu)上操作,而是使用直接代表人類底層骨骼結(jié)構(gòu)的漫反射高斯基元。渲染這些基元會產(chǎn)生一個高維的潛在圖像,然后由解碼器網(wǎng)絡(luò)將其轉(zhuǎn)換為 RGB 圖像。該公式產(chǎn)生了一個完全可微的框架,可以進(jìn)行端到端的訓(xùn)練。我們在 Human3.6M 和 Panoptic Studio 數(shù)據(jù)集上展示了我們的圖像重建方法的有效性。我們展示了我們的方法如何用于個體之間的運動轉(zhuǎn)移;僅從單個相機(jī)捕獲的個人的新穎視圖合成;從任何虛擬視點合成個體;并以新穎的姿勢重新渲染人物。此 https URL 提供代碼和視頻結(jié)果。

* 題目: Online Adaptation for Implicit Object Tracking and Shape Reconstruction in the Wild
* 鏈接: https://arxiv.org/abs/2111.12728
* 作者: Jianglong Ye,Yuntao Chen,Naiyan Wang,Xiaolong Wang
* 摘要: 從雜亂的場景中跟蹤和重建 3D 對象是計算機(jī)視覺、機(jī)器人和自動駕駛系統(tǒng)的關(guān)鍵組成部分。雖然隱函數(shù)(例如,DeepSDF)的最新進(jìn)展在高質(zhì)量 3D 形狀重建方面顯示出令人鼓舞的結(jié)果,但將其推廣到雜亂且部分可觀察的 LiDAR 數(shù)據(jù)仍然非常具有挑戰(zhàn)性。在本文中,我們建議利用視頻數(shù)據(jù)的連續(xù)性。我們引入了一種新穎且統(tǒng)一的框架,該框架利用 DeepSDF 模型在野外同時跟蹤和重建 3D 對象。我們在線調(diào)整視頻中的 DeepSDF 模型,迭代改進(jìn)形狀重建,同時改進(jìn)跟蹤,反之亦然。我們對 Waymo 和 KITTI 數(shù)據(jù)集進(jìn)行了實驗,并展示了對跟蹤和形狀重建的最先進(jìn)方法的顯著改進(jìn)。

* 題目: Universal Captioner: Long-Tail Vision-and-Language Model Training through Content-Style Separation
* 鏈接: https://arxiv.org/abs/2111.12727
* 作者: Marcella Cornia,Lorenzo Baraldi,Giuseppe Fiameni,Rita Cucchiara
* 摘要: 雖然字幕模型在描述自然圖像方面取得了令人信服的結(jié)果,但它們?nèi)匀粵]有涵蓋現(xiàn)實世界概念的整個長尾分布。在本文中,我們通過對網(wǎng)絡(luò)規(guī)模自動收集的數(shù)據(jù)集進(jìn)行訓(xùn)練,解決了生成具有野外概念的類人描述的任務(wù)。為此,我們提出了一種模型,該模型可以利用嘈雜的圖像-字幕對,同時保持 COCO 等傳統(tǒng)人工注釋數(shù)據(jù)集的描述風(fēng)格。我們的模型通過使用關(guān)鍵字和風(fēng)格標(biāo)記將內(nèi)容與風(fēng)格分開,采用提示語言建模的單一目標(biāo),并且比其他最近的提議更簡單。在實驗上,我們的模型在字幕質(zhì)量和描述長尾概念的能力方面始終優(yōu)于現(xiàn)有方法,在零鏡頭設(shè)置中也是如此。根據(jù) CIDEr 指標(biāo),我們在使用外部數(shù)據(jù)時獲得了 COCO 和 nocaps 的最新技術(shù)。

* 題目: Latent Space Smoothing for Individually Fair Representations
* 鏈接: https://arxiv.org/abs/2111.13650
* 作者: Momchil Peychev,Anian Ruoss,Mislav Balunovi?,Maximilian Baader,Martin Vechev
* 摘要: 公平表示學(xué)習(xí)對用戶數(shù)據(jù)進(jìn)行編碼以確保公平性和實用性,而不管下游應(yīng)用程序如何。然而,學(xué)習(xí)個體公平的表示,即保證相似的個體得到相似的對待,在計算機(jī)視覺等高維環(huán)境中仍然具有挑戰(zhàn)性。在這項工作中,我們介紹了 LASSI,這是第一種證明高維數(shù)據(jù)個體公平性的表示學(xué)習(xí)方法。我們的主要見解是利用生成建模的最新進(jìn)展來捕獲生成潛在空間中的一組相似個體。這允許通過使用對抗性訓(xùn)練來最小化他們的表示之間的距離,從而學(xué)習(xí)單獨的公平表示,其中相似的個體被映射得很近。最后,我們采用隨機(jī)平滑來證明將相似的個體緊密地映射在一起,從而確保下游應(yīng)用程序的局部穩(wěn)健性驗證導(dǎo)致端到端的公平性認(rèn)證。我們對具有挑戰(zhàn)性的現(xiàn)實世界圖像數(shù)據(jù)的實驗評估表明,我們的方法將認(rèn)證的個人公平性提高了 60%,而不會顯著影響任務(wù)效用。

* 題目: Conditional Image Generation with Score-Based Diffusion Models
* 鏈接: https://arxiv.org/abs/2111.13606
* 作者: Georgios Batzolis,Jan Stanczuk,Carola-Bibiane Sch?nlieb,Christian Etmann
* 摘要: 基于分?jǐn)?shù)的擴(kuò)散模型已成為最有前途的深度生成建??蚣苤弧T谶@項工作中,我們對使用基于分?jǐn)?shù)的擴(kuò)散模型學(xué)習(xí)條件概率分布的不同方法進(jìn)行了系統(tǒng)的比較和理論分析。特別是,我們證明的結(jié)果為最成功的條件分?jǐn)?shù)估計器之一提供了理論依據(jù)。此外,我們引入了一個多速擴(kuò)散框架,它產(chǎn)生了一個新的條件分?jǐn)?shù)估計器,與以前的最先進(jìn)方法相當(dāng)。我們的理論和實驗結(jié)果伴隨著一個開源庫 MSDiff,它允許應(yīng)用和進(jìn)一步研究多速擴(kuò)散模型。

* 題目: $μ$NCA: Texture Generation with Ultra-Compact Neural Cellular Automata
* 鏈接: https://arxiv.org/abs/2111.13545
* 作者: Alexander Mordvintsev,Eyvind Niklasson
* 摘要: 我們使用高度緊湊的模型研究基于示例的程序紋理合成問題。給定樣本圖像,我們使用可微編程來訓(xùn)練生成過程,該過程由循環(huán)神經(jīng)元胞自動機(jī) (NCA) 規(guī)則參數(shù)化。與神經(jīng)網(wǎng)絡(luò)應(yīng)該顯著過度參數(shù)化的普遍看法相反,我們證明我們的模型架構(gòu)和訓(xùn)練程序允許僅使用幾百個學(xué)習(xí)參數(shù)來表示復(fù)雜的紋理模式,使其表達(dá)能力與手工設(shè)計的程序紋理生成程序相媲美.建議的 $/mu$NCA 系列中最小的模型縮減到 68 個參數(shù)。當(dāng)使用量化為每個參數(shù)一個字節(jié)時,建議的模型可以縮小到 588 和 68 字節(jié)之間的大小范圍。只需幾行 GLSL 或 C 代碼,就可以實現(xiàn)使用這些參數(shù)生成圖像的紋理生成器。

* 題目: A model of semantic completion in generative episodic memory
* 鏈接: https://arxiv.org/abs/2111.13537
* 作者: Zahra Fayyaz,Aya Altamimi,Sen Cheng,Laurenz Wiskott
* 其他: 15 pages, 9 figures, 58 references
* 摘要: 許多不同的研究表明,情景記憶是一個生成過程,但大多數(shù)計算模型采用存儲觀點。在這項工作中,我們提出了一種生成情景記憶的計算模型。它基于海馬體存儲和檢索事件的選定方面作為記憶痕跡的中心假設(shè),這必然是不完整的。在回憶時,新皮層在我們稱為語義完成的過程中根據(jù)一般語義信息合理地填充缺失的信息。作為劇集,我們使用由代表上下文的不同背景增強(qiáng)的數(shù)字圖像 (MNIST)。我們的模型基于 VQ-VAE,它以索引矩陣的形式生成壓縮的潛在表示,該表示仍然具有一定的空間分辨率。我們假設(shè)注意力選擇了索引矩陣的某些部分,而其他部分則被丟棄,然后這代表了情節(jié)的要點并存儲為記憶軌跡。在召回時,缺失的部分由 PixelCNN 填充,建模語義完成,然后完成的索引矩陣由 VQ-VAE 解碼成完整圖像。該模型能夠以語義上合理的方式完成記憶痕跡的缺失部分,直到它可以從頭開始生成合理的圖像。由于索引矩陣中的組合,該模型可以很好地推廣到未經(jīng)訓(xùn)練的圖像。壓縮和語義完成有助于大大減少內(nèi)存需求和對噪聲的魯棒性。最后,我們還模擬了一個情景記憶實驗,并且可以重現(xiàn)語義一致的上下文總是比不一致的上下文更好地回憶,高注意力水平在兩種情況下都提高了記憶準(zhǔn)確性,并且沒有正確記住的上下文在語義一致的情況下比完全錯誤的情況更常被記住。

* 題目: Confounder Identification-free Causal Visual Feature Learning
* 鏈接: https://arxiv.org/abs/2111.13420
* 作者: Xin Li,Zhizheng Zhang,Guoqiang Wei,Cuiling Lan,Wenjun Zeng,Xin Jin,Zhibo Chen
* 其他: 14 pages, 10 figures
* 摘要: 深度學(xué)習(xí)中的混雜因素通常不利于模型的泛化,因為它們會滲透到特征表示中。因此,學(xué)習(xí)不受混雜因素干擾的因果特征很重要。大多數(shù)以前的基于因果學(xué)習(xí)的方法采用后門標(biāo)準(zhǔn)來減輕某些特定混雜因素的不利影響,這需要明確識別混雜因素。然而,在實際場景中,混雜因素通常多種多樣且難以識別。在本文中,我們提出了一種新穎的無混雜識別因果視覺特征學(xué)習(xí) (CICF) 方法,該方法無需識別混雜因素。 CICF基于前門準(zhǔn)則對不同樣本之間的干預(yù)進(jìn)行建模,然后從優(yōu)化的角度近似全局范圍的干預(yù)對實例級干預(yù)的影響。通過這種方式,我們的目標(biāo)是找到一個可靠的優(yōu)化方向,避免混雜因素的干擾,學(xué)習(xí)因果特征。此外,我們揭示了 CICF 與流行的元學(xué)習(xí)策略 MAML 之間的關(guān)系,并首次從因果學(xué)習(xí)的理論角度解釋了 MAML 為何起作用。由于對因果特征的有效學(xué)習(xí),我們的 CICF 使模型具有卓越的泛化能力。對域泛化基準(zhǔn)數(shù)據(jù)集的大量實驗證明了我們 CICF 的有效性,它實現(xiàn)了最先進(jìn)的性能。

* 題目: Jointly Learning Agent and Lane Information for Multimodal Trajectory Prediction
* 鏈接: https://arxiv.org/abs/2111.13350
* 作者: Jie Wang,Caili Guo,Minan Guo,Jiujiu Chen
* 摘要: 預(yù)測附近代理可能的未來軌跡是自動駕駛汽車安全的核心挑戰(zhàn),它主要取決于兩個外部線索:動態(tài)鄰居代理和靜態(tài)場景上下文。最近的方法在分別表征這兩個線索方面取得了很大進(jìn)展。然而,他們忽略了兩個線索之間的相關(guān)性,并且大多數(shù)都難以實現(xiàn)地圖自適應(yīng)預(yù)測。在本文中,我們使用車道作為場景數(shù)據(jù),并提出了一個分階段網(wǎng)絡(luò),聯(lián)合學(xué)習(xí)代理和車道信息以進(jìn)行多模態(tài)軌跡預(yù)測(JAL-MTP)。 JAL-MTP 使用 Social to Lane (S2L) 模塊將相鄰代理的靜態(tài)車道和動態(tài)運動共同表示為實例級車道,這是一種利用實例級車道預(yù)測車道的循環(huán)車道注意 (RLA) 機(jī)制地圖自適應(yīng)未來軌跡和兩個選擇器來識別典型和合理的軌跡。在公共 Argoverse 數(shù)據(jù)集上進(jìn)行的實驗表明,JAL-MTP 在定量和定性方面都明顯優(yōu)于現(xiàn)有模型。

* 題目: ArchRepair: Block-Level Architecture-Oriented Repairing for Deep Neural Networks
* 鏈接: https://arxiv.org/abs/2111.13330
* 作者: Hua Qi,Zhijie Wang,Qing Guo,Jianlang Chen,Felix Juefei-Xu,Lei Ma,Jianjun Zhao
* 其他: 33 pages, 7 figures
* 摘要: 在過去的幾年中,深度神經(jīng)網(wǎng)絡(luò)(DNN)取得了巨大的成功,并在許多應(yīng)用領(lǐng)域不斷得到應(yīng)用。然而,在工業(yè)任務(wù)的實際部署過程中,發(fā)現(xiàn) DNN 由于各種原因而容易出錯,例如過度擬合、在實際使用過程中缺乏對現(xiàn)實世界損壞的魯棒性。為了應(yīng)對這些挑戰(zhàn),最近進(jìn)行了許多嘗試,通過在神經(jīng)層面上通過再訓(xùn)練、微調(diào)或直接權(quán)重固定來更新權(quán)重(即網(wǎng)絡(luò)參數(shù)),從而在實際操作環(huán)境下修復(fù) DNN 以進(jìn)行版本更新。在這項工作中,作為第一次嘗試,我們開始通過在更高(即塊)級別聯(lián)合優(yōu)化架構(gòu)和權(quán)重來修復(fù) DNN。我們首先進(jìn)行實證研究來調(diào)查整個網(wǎng)絡(luò)級和層級修復(fù)的局限性,這促使我們探索塊級 DNN 修復(fù)的新修復(fù)方向。為此,我們首先提出了針對易受攻擊的塊定位的對抗性感知頻譜分析,該分析考慮了前向和后向過程中塊中神經(jīng)元的狀態(tài)和權(quán)重的梯度,即使在幾個例子下也能實現(xiàn)更準(zhǔn)確的候選塊定位以進(jìn)行修復(fù)。然后,我們進(jìn)一步提出了面向架構(gòu)的基于搜索的修復(fù),將目標(biāo)塊放松到更高深度特征級別的連續(xù)修復(fù)搜索空間。通過聯(lián)合優(yōu)化該空間中的架構(gòu)和權(quán)重,我們可以確定一個更好的塊架構(gòu)。我們將我們提出的修復(fù)技術(shù)作為一種名為 ArchRepair 的工具實施,并進(jìn)行了大量實驗來驗證所提出的方法。結(jié)果表明,我們的方法不僅可以修復(fù),還可以提高準(zhǔn)確性和魯棒性,優(yōu)于最先進(jìn)的 DNN 修復(fù)技術(shù)。

* 題目: Generative Adversarial Networks and Adversarial Autoencoders: Tutorial and Survey
* 鏈接: https://arxiv.org/abs/2111.13282
* 作者: Benyamin Ghojogh,Ali Ghodsi,Fakhri Karray,Mark Crowley
* 其他: To appear as a part of an upcoming textbook on dimensionality reduction and manifold learning
* 摘要: 這是一篇關(guān)于生成對抗網(wǎng)絡(luò) (GAN)、對抗性自動編碼器及其變體的教程和調(diào)查論文。我們首先解釋對抗性學(xué)習(xí)和 vanilla GAN。然后,我們解釋條件 GAN 和 DCGAN。引入了模式崩潰問題,并引入了各種方法來解決這個問題,包括小批量 GAN、展開 GAN、BourGAN、混合 GAN、D2GAN 和 Wasserstein GAN。然后,將解釋 GAN 中的最大似然估計以及 f-GAN、對抗性變分貝葉斯和貝葉斯 GAN。然后,我們介紹了 GAN、InfoGAN、GRAN、LSGAN、基于能量的 GAN、CatGAN、MMD GAN、LapGAN、漸進(jìn)式 GAN、三重 GAN、LAG、GMAN、AdaGAN、CoGAN、逆 GAN、BiGAN、ALI、SAGAN 中的特征匹配,小樣本 GAN、SinGAN 以及 GAN 的插值和評估。然后,我們介紹了 GAN 的一些應(yīng)用,例如圖像到圖像的轉(zhuǎn)換(包括 PatchGAN、CycleGAN、DeepFaceDrawing、模擬 GAN、交互式 GAN)、文本到圖像的轉(zhuǎn)換(包括 StackGAN)和混合圖像特征(包括 FineGAN 和混合N匹配)。最后,我們解釋了基于對抗性學(xué)習(xí)的自動編碼器,包括對抗性自動編碼器、PixelGAN 和隱式自動編碼器。

* 題目: Joint inference and input optimization in equilibrium networks
* 鏈接: https://arxiv.org/abs/2111.13236
* 作者: Swaminathan Gurumurthy,Shaojie Bai,Zachary Manchester,J. Zico Kolter
* 其他: Neurips 2021
* 摘要: 深度學(xué)習(xí)中的許多任務(wù)涉及優(yōu)化網(wǎng)絡(luò)的 /emph{inputs} 以最小化或最大化某些目標(biāo);示例包括優(yōu)化生成模型中的潛在空間以匹配目標(biāo)圖像,或?qū)剐詳_亂輸入以降低分類器性能。然而,執(zhí)行此類優(yōu)化傳統(tǒng)上非常昂貴,因為它涉及針對每個梯度步驟完整地向前和向后傳遞網(wǎng)絡(luò)。在一項單獨的工作中,最近的一項研究開發(fā)了深度均衡 (DEQ) 模型,這是一類放棄傳統(tǒng)網(wǎng)絡(luò)深度的模型,而是通過找到單個非線性層的不動點來計算網(wǎng)絡(luò)的輸出。在本文中,我們表明這兩種設(shè)置之間存在天然的協(xié)同作用。雖然,天真地將 DEQ 用于這些優(yōu)化問題是昂貴的(由于為每個梯度步驟計算固定點所需的時間),但我們可以利用基于梯度的優(yōu)化可以/emph {本身} 被轉(zhuǎn)換為固定點的事實迭代以大幅提高整體速度。也就是說,我們/emph{同時}都解決了DEQ 定點/emph{和}優(yōu)化網(wǎng)絡(luò)輸入,所有這些都在一個單一的“增強(qiáng)”DEQ 模型中,該模型聯(lián)合編碼原始網(wǎng)絡(luò)和優(yōu)化過程。事實上,該過程足夠快,它允許我們有效地/emph{train} DEQ 模型用于傳統(tǒng)上依賴“內(nèi)部”優(yōu)化循環(huán)的任務(wù)。我們在各種任務(wù)上展示了這種策略,例如在優(yōu)化潛在代碼的同時訓(xùn)練生成模型、針對逆問題(如去噪和修復(fù))、對抗性訓(xùn)練和基于梯度的元學(xué)習(xí)的訓(xùn)練模型。

* 題目: Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks
* 鏈接: https://arxiv.org/abs/2111.13171
* 作者: Tolga Birdal,Aaron Lou,Leonidas Guibas,Umut ?im?ekli
* 其他: Appears at NeurIPS 2021
* 摘要: 現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)違背了統(tǒng)計學(xué)習(xí)理論的經(jīng)典智慧,即使它們通常包含數(shù)百萬個參數(shù),也能很好地泛化。最近,已經(jīng)表明迭代優(yōu)化算法的軌跡可以具有分形結(jié)構(gòu),并且它們的泛化誤差可以正式地與這種分形的復(fù)雜性聯(lián)系起來。這種復(fù)雜性是由分形的內(nèi)在維數(shù)來衡量的,這個量通常比網(wǎng)絡(luò)中的參數(shù)數(shù)量小得多。盡管這個觀點解釋了為什么過度參數(shù)化的網(wǎng)絡(luò)不會過度擬合,但計算內(nèi)在維度(例如,用于在訓(xùn)練期間監(jiān)控泛化)是一項眾所周知的艱巨任務(wù),現(xiàn)有方法即使在中等環(huán)境維度下通常也會失敗。在這項研究中,我們從拓?fù)鋽?shù)據(jù)分析 (TDA) 的角度考慮這個問題,并開發(fā)了一種基于嚴(yán)格數(shù)學(xué)基礎(chǔ)的通用計算工具。通過在學(xué)習(xí)理論和 TDA 之間建立新的聯(lián)系,我們首先說明泛化誤差可以等效地限制在稱為“持久同源維數(shù)”(PHD)的概念中,與之前的工作相比,我們的方法不需要關(guān)于訓(xùn)練動態(tài)的任何其他幾何或統(tǒng)計假設(shè)。然后,通過利用最近建立的理論結(jié)果和 TDA 工具,我們開發(fā)了一種有效的算法來估計現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)規(guī)模的 PHD,并進(jìn)一步提供可視化工具來幫助理解深度學(xué)習(xí)中的泛化。我們的實驗表明,所提出的方法可以在各種設(shè)置中有效地計算網(wǎng)絡(luò)的內(nèi)在維度,這可以預(yù)測泛化誤差。

* 題目: Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models
* 鏈接: https://arxiv.org/abs/2111.13129
* 作者: Iman Nematollahi,Erick Rosete-Beas,Adrian R?fer,Tim Welschehold,Abhinav Valada,Wolfram Burgard
* 其他: Submitted to the 2022 IEEE International Conference on Robotics and Automation (ICRA)
* 摘要: 在現(xiàn)實世界中行動的自主代理的核心挑戰(zhàn)是調(diào)整其技能庫以應(yīng)對其嘈雜的感知和動態(tài)。為了將技能學(xué)習(xí)擴(kuò)展到長期任務(wù),機(jī)器人應(yīng)該能夠通過軌跡以結(jié)構(gòu)化的方式學(xué)習(xí)并隨后改進(jìn)他們的技能,而不是在每個時間步單獨做出即時決策。為此,我們提出了 Soft Actor-Critic Gaussian Mixture Model (SAC-GMM),這是一種新穎的混合方法,它通過動態(tài)系統(tǒng)學(xué)習(xí)機(jī)器人技能,并通過與環(huán)境的交互在自己的軌跡分布空間中調(diào)整學(xué)習(xí)到的技能。我們的方法結(jié)合了從演示中學(xué)習(xí)的經(jīng)典機(jī)器人技術(shù)與深度強(qiáng)化學(xué)習(xí)框架,并利用了它們的互補(bǔ)性。我們表明,我們的方法利用僅在執(zhí)行初步學(xué)習(xí)技能期間可用的傳感器來提取相關(guān)特征,從而更快地改進(jìn)技能。在模擬和現(xiàn)實環(huán)境中的廣泛評估證明了我們的方法通過利用物理交互、高維感官數(shù)據(jù)和稀疏任務(wù)完成獎勵來改進(jìn)機(jī)器人技能的有效性。視頻、代碼和預(yù)訓(xùn)練模型可在 /url{this http URL} 獲得。

* 題目: A Novel Framework for Image-to-image Translation and Image Compression
* 鏈接: https://arxiv.org/abs/2111.13105
* 作者: Fei Yang,Yaxing Wang,Luis Herranz,Yongmei Cheng,Mikhail Mozerov
* 摘要: 使用機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動范式在圖像處理和通信中變得無處不在。特別是,圖像到圖像 (I2I) 轉(zhuǎn)換是一種通用且廣泛使用的圖像處理問題方法,例如圖像合成、樣式轉(zhuǎn)換和圖像恢復(fù)。與此同時,神經(jīng)圖像壓縮已成為視覺通信中傳統(tǒng)編碼方法的數(shù)據(jù)驅(qū)動替代方案。在本文中,我們研究將這兩種范式組合成一個聯(lián)合的 I2I 壓縮和翻譯框架,重點是多域圖像合成。我們首先通過將量化和熵編碼集成到 I2I 翻譯框架(即 I2Icodec)中來提出分布式 I2I 翻譯。在實踐中,圖像壓縮功能(即自動編碼)也是可取的,需要與 I2Icodec 一起部署常規(guī)圖像編解碼器。因此,我們進(jìn)一步提出了一個統(tǒng)一的框架,允許在單個編解碼器中同時具備翻譯和自動編碼功能。以轉(zhuǎn)換/壓縮模式為條件的自適應(yīng)殘差塊提供對所需功能的靈活適應(yīng)。實驗表明,使用單個模型在 I2I 轉(zhuǎn)換和圖像壓縮方面都取得了可喜的成果。

* 題目: Path Guiding Using Spatio-Directional Mixture Models
* 鏈接: https://arxiv.org/abs/2111.13094
* 作者: Ana Dodik,Marios Papas,Cengiz ?ztireli,Thomas Müller
* 其他: 17 pages
* 摘要: 我們在路徑跟蹤算法中提出了一種基于學(xué)習(xí)的光路構(gòu)建方法,該方法從我們稱為空間方向高斯混合模型 (SDMM) 的模型中迭代優(yōu)化和采樣。特別是,我們將事件輻射近似為通過 $k$D 樹加速的在線訓(xùn)練的 $5$D 混合物。使用相同的框架,我們將 BSDF 近似為預(yù)訓(xùn)練的 $n$D 混合,其中 $n$ 是 BSDF 參數(shù)的數(shù)量。這種方法解決了路徑引導(dǎo)模型中的兩個主要挑戰(zhàn)。首先,$5$D 輻射度表示自然地捕捉了空間和方向維度之間的相關(guān)性。這種相關(guān)性存在于例如視差和焦散中。其次,通過使用高斯的切線空間參數(shù)化,我們的空間方向混合可以使用任意方向的 BSDF 執(zhí)行近似乘積采樣?,F(xiàn)有模型只能通過上述混合成分的各向異性或通過在局部(法線對齊)坐標(biāo)中表示輻射場來做到這一點,這兩者都使輻射場更難以學(xué)習(xí)。切線空間參數(shù)化的另一個好處是,每個單獨的高斯函數(shù)都映射到實心球體,在其質(zhì)心附近具有低失真。我們的方法在具有小型局部燈具的場景中表現(xiàn)特別好,這些燈具會在入射輻射中產(chǎn)生高空間方向相關(guān)性。

* 題目: Learning Algebraic Representation for Systematic Generalization in Abstract Reasoning
* 鏈接: https://arxiv.org/abs/2111.12990
* 作者: Chi Zhang,Sirui Xie,Baoxiong Jia,Ying Nian Wu,Song-Chun Zhu,Yixin Zhu
* 摘要: 智能是由聯(lián)結(jié)主義者還是古典主義者實現(xiàn)的?雖然聯(lián)結(jié)主義方法已經(jīng)取得了超人的表現(xiàn),但越來越多的證據(jù)表明,這種特定于任務(wù)的優(yōu)勢在系統(tǒng)概括中特別脆弱。這一觀察在于聯(lián)結(jié)主義者和古典主義者之間的中心辯論,后者不斷提倡在認(rèn)知架構(gòu)中進(jìn)行代數(shù)處理。在這項工作中,我們遵循古典主義者的呼吁,并提出了一種混合方法來改進(jìn)推理中的系統(tǒng)概括。具體來說,我們展示了一個具有代數(shù)表示的原型,用于 Raven 漸進(jìn)矩陣 (RPM) 的抽象時空推理任務(wù),并展示了代數(shù)感知神經(jīng)半符號 (ALANS) 學(xué)習(xí)器。 ALANS 學(xué)習(xí)者的動機(jī)是抽象代數(shù)和表示理論。它由一個神經(jīng)視覺感知前端和一個代數(shù)抽象推理后端組成:前端從基于對象的表示中總結(jié)視覺信息,而后端將其轉(zhuǎn)換為代數(shù)結(jié)構(gòu)并動態(tài)引入隱藏算子。稍后執(zhí)行誘導(dǎo)算子以預(yù)測答案的表示,并選擇與預(yù)測最相似的選項作為解決方案。大量實驗表明,通過結(jié)合代數(shù)處理,ALANS 學(xué)習(xí)器在需要系統(tǒng)泛化的領(lǐng)域中優(yōu)于各種純聯(lián)結(jié)主義模型。我們進(jìn)一步表明,學(xué)習(xí)到的代數(shù)表示可以通過同構(gòu)進(jìn)行解碼以生成答案。

* 題目: Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks
* 鏈接: https://arxiv.org/abs/2111.12965
* 作者: Xiangyu Qi,Tinghao Xie,Ruizhe Pan,Jifeng Zhu,Yong Yang,Kai Bu
* 摘要: AI 安全社區(qū)的一個主要目標(biāo)是為現(xiàn)實世界的應(yīng)用程序安全可靠地生成和部署深度學(xué)習(xí)模型。為此,近年來對生產(chǎn)階段(或訓(xùn)練階段)的深度神經(jīng)網(wǎng)絡(luò)(DNN)的基于數(shù)據(jù)中毒的后門攻擊和相應(yīng)的防御進(jìn)行了廣泛的探索。具有諷刺意味的是,部署階段的后門攻擊經(jīng)常發(fā)生在非專業(yè)用戶的設(shè)備上,因此在現(xiàn)實世界中可能更具威脅性,卻很少引起社區(qū)的關(guān)注。我們將這種警惕性的不平衡歸因于現(xiàn)有部署階段后門攻擊算法的弱實用性和現(xiàn)實世界攻擊演示的不足。為了填補(bǔ)空白,在這項工作中,我們研究了部署階段后門攻擊對 DNN 的現(xiàn)實威脅。我們的研究基于常用的部署階段攻擊范式——對抗性權(quán)重攻擊,其中對手有選擇地修改模型權(quán)重以將后門嵌入到部署的 DNN 中。為了接近現(xiàn)實實用性,我們提出了第一個用于后門注入的灰盒和物理可實現(xiàn)權(quán)重攻擊算法,即子網(wǎng)替換攻擊(SRA),它只需要受害者模型的架構(gòu)信息,并且可以支持現(xiàn)實世界中的物理觸發(fā)器。進(jìn)行了廣泛的實驗?zāi)M和系統(tǒng)級真實世界的攻擊演示。我們的結(jié)果不僅表明了所提出的攻擊算法的有效性和實用性,而且還揭示了一種新型計算機(jī)病毒的實際風(fēng)險,該病毒可能會廣泛傳播并秘密地將后門注入用戶設(shè)備的 DNN 模型中。通過我們的研究,我們呼吁更多地關(guān)注 DNN 在部署階段的脆弱性。

* 題目: Morphological feature visualization of Alzheimer's disease via Multidirectional Perception GAN
* 鏈接: https://arxiv.org/abs/2111.12886
* 作者: Wen Yu,Baiying Lei,Yanyan Shen,Shuqiang Wang,Yong Liu,Zhiguang Feng,Yong Hu,Michael K. Ng
* 摘要: 阿爾茨海默病 (AD) 早期階段的診斷對于及時治療以減緩進(jìn)一步惡化至關(guān)重要??梢暬?AD 早期階段的形態(tài)特征具有重要的臨床價值。在這項工作中,提出了一種新穎的多向感知生成對抗網(wǎng)絡(luò)(MP-GAN)來可視化指示不同階段患者 AD 嚴(yán)重程度的形態(tài)學(xué)特征。具體來說,通過在模型中引入一種新的多向映射機(jī)制,所提出的 MP-GAN 可以有效地捕獲顯著的全局特征。因此,通過利用來自生成器的類別判別圖,所提出的模型可以通過源域和預(yù)定義目標(biāo)域之間的 MR 圖像變換清楚地描繪出細(xì)微的病變。此外,通過整合對抗性損失、分類損失、循環(huán)一致性損失和 /emph{L}1 懲罰,MP-GAN 中的單個生成器可以學(xué)習(xí)多個類別的類別判別圖。阿爾茨海默病神經(jīng)影像學(xué)倡議 (ADNI) 數(shù)據(jù)集的大量實驗結(jié)果表明,與現(xiàn)有方法相比,MP-GAN 實現(xiàn)了卓越的性能。 MP-GAN 可視化的病變也與臨床醫(yī)生觀察到的一致。

* 題目: Coded Illumination for Improved Lensless Imaging
* 鏈接: https://arxiv.org/abs/2111.12862
* 作者: Yucheng Zheng,M. Salman Asif
* 其他: Supplementary material available at this https URL
* 摘要: 基于掩模的無鏡頭相機(jī)可以是扁平、薄且重量輕的,這使得它們適用于具有大表面積和任意形狀的計算成像系統(tǒng)的新穎設(shè)計。盡管最近在無鏡頭相機(jī)方面取得了進(jìn)展,但由于基礎(chǔ)測量系統(tǒng)的不良狀況,從無鏡頭相機(jī)恢復(fù)的圖像質(zhì)量通常很差。在本文中,我們建議使用編碼照明來提高使用無鏡頭相機(jī)重建的圖像質(zhì)量。在我們的成像模型中,當(dāng)無鏡頭相機(jī)記錄傳感器測量值時,場景/物體被多個編碼照明模式照亮。我們設(shè)計并測試了許多照明圖案,并觀察到移動點(和相關(guān)的正交)圖案提供了最佳的整體性能。我們提出了一種快速且低復(fù)雜度的恢復(fù)算法,該算法利用了我們系統(tǒng)中的可分離性和塊對角線結(jié)構(gòu)。我們展示了仿真結(jié)果和硬件實驗結(jié)果,以證明我們提出的方法可以顯著提高重建質(zhì)量。

* 題目: Extending the Relative Seriality Formalism for Interpretable Deep Learning of Normal Tissue Complication Probability Models
* 鏈接: https://arxiv.org/abs/2111.12854
* 作者: Tahir I. Yusufaly
* 摘要: 我們正式證明了 Kallman 等人的相對序列模型。完全映射到一種簡單類型的卷積神經(jīng)網(wǎng)絡(luò)。這種方法分別在旁觀者效應(yīng)和分層組織組織方面對卷積層和堆疊中間池層中的前饋連接進(jìn)行自然解釋。這些結(jié)果用作使用大規(guī)模成像和劑量學(xué)數(shù)據(jù)集對正常組織并發(fā)癥概率進(jìn)行放射生物學(xué)可解釋深度學(xué)習(xí)的原理證明。

* 題目: Geometric Priors for Scientific Generative Models in Inertial Confinement Fusion
* 鏈接: https://arxiv.org/abs/2111.12798
* 作者: Ankita Shukla,Rushil Anirudh,Eugene Kur,Jayaraman J. Thiagarajan,Peer-Timo Bremer,Brian K. Spears,Tammy Ma,Pavan Turaga
* 其他: 5 pages, 4 figures, Fourth Workshop on Machine Learning and the Physical Sciences, NeurIPS 2021
* 摘要: 在本文中,我們?yōu)閼T性約束融合應(yīng)用中的多模態(tài)數(shù)據(jù)開發(fā)了具有超球面先驗的 Wasserstein 自動編碼器 (WAE)。與典型的超球面生成模型不同,該模型需要從 von Mis Fisher 等分布中進(jìn)行低效采樣,我們從正態(tài)分布中采樣,然后是生成器之前的投影層。最后,為了確定生成樣本的有效性,我們利用數(shù)據(jù)集中模態(tài)之間的已知關(guān)系作為科學(xué)約束,并研究所提出模型的不同屬性。

* 題目: JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints
* 鏈接: https://arxiv.org/abs/2111.12772
* 作者: Karl D.D. Willis,Pradeep Kumar Jayaraman,Hang Chu,Yunsheng Tian,Yifei Li,Daniele Grandi,Aditya Sanghi,Linh Tran,Joseph G. Lambourne,Armando Solar-Lezama,Wojciech Matusik
* 摘要: 實體產(chǎn)品通常是復(fù)雜的裝配體,結(jié)合了在計算機(jī)輔助設(shè)計 (CAD) 軟件中建模的大量 3D 零件。 CAD 設(shè)計師通過使用稱為關(guān)節(jié)的約束將單個零件彼此對齊來構(gòu)建這些組件。在本文中,我們介紹了 JoinABLe,這是一種基于學(xué)習(xí)的方法,可將零件組裝在一起形成關(guān)節(jié)。 JoinABLe 使用標(biāo)準(zhǔn)參數(shù)化 CAD 文件中可用的弱監(jiān)督,而無需對象類標(biāo)簽或人工指導(dǎo)的幫助。我們的結(jié)果表明,通過對實體模型的圖形表示進(jìn)行網(wǎng)絡(luò)預(yù)測,我們可以以接近人類表現(xiàn) (80%) 的準(zhǔn)確度 (79.53%) 勝過多種基線方法。最后,為了支持未來的研究,我們發(fā)布了 Fusion 360 Gallery 裝配數(shù)據(jù)集,其中包含有關(guān)接頭、接觸面、孔和底層裝配圖結(jié)構(gòu)的豐富信息的裝配。

關(guān)鍵詞:關(guān)鍵,更新

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉