arXiv每日更新-2021.12.7(今日關(guān)鍵詞:detection, segmentation, transformer)
時(shí)間:2023-04-21 13:54:01 | 來(lái)源:網(wǎng)站運(yùn)營(yíng)
時(shí)間:2023-04-21 13:54:01 來(lái)源:網(wǎng)站運(yùn)營(yíng)
arXiv每日更新-2021.12.7(今日關(guān)鍵詞:detection, segmentation, transformer):
Transformer
* 題目: DoodleFormer: Creative Sketch Drawing with Transformers
* 鏈接:
https://arxiv.org/abs/2112.03258* 作者: Ankan Kumar Bhunia,Salman Khan,Hisham Cholakkal,Rao Muhammad Anwer,Fahad Shahbaz Khan,Jorma Laaksonen,Michael Felsberg
* 摘要: 創(chuàng)意素描或涂鴉是一種富有表現(xiàn)力的活動(dòng),在這種活動(dòng)中,可以繪制出日常視覺(jué)對(duì)象的富有想象力和以前未曾見(jiàn)過(guò)的描繪。創(chuàng)意草圖圖像生成是一個(gè)具有挑戰(zhàn)性的視覺(jué)問(wèn)題,其任務(wù)是生成具有視覺(jué)世界對(duì)象看不見(jiàn)的組合的多樣化但逼真的創(chuàng)意草圖。在這里,我們提出了一種新穎的由粗到細(xì)的兩階段框架 DoodleFormer,它將創(chuàng)意草圖生成問(wèn)題分解為粗略草圖合成的創(chuàng)建,然后在草圖中加入精細(xì)細(xì)節(jié)。我們引入了圖形感知轉(zhuǎn)換器編碼器,可有效捕獲不同身體部位之間的全局動(dòng)態(tài)和局部靜態(tài)結(jié)構(gòu)關(guān)系。為了確保生成的創(chuàng)意草圖的多樣性,我們引入了一個(gè)概率粗略草圖解碼器,它明確地模擬要繪制的每個(gè)草圖身體部分的變化。實(shí)驗(yàn)在兩個(gè)創(chuàng)意草圖數(shù)據(jù)集上進(jìn)行:Creative Birds 和 Creative Creatures。我們的定性、定量和基于人的評(píng)估表明,DoodleFormer 在兩個(gè)數(shù)據(jù)集上都優(yōu)于最先進(jìn)的技術(shù),生成了逼真且多樣化的創(chuàng)意草圖。在 Creative Creatures 上,DoodleFormer 在 Fr`echet 起始距離 (FID) 方面比最先進(jìn)的技術(shù)獲得了 25 的絕對(duì)增益。我們還展示了 DoodleFormer 對(duì)文本相關(guān)應(yīng)用到創(chuàng)意草圖生成和草圖完成的有效性。
* 題目: PTTR: Relational 3D Point Cloud Object Tracking with Transformer
* 鏈接:
https://arxiv.org/abs/2112.02857* 作者: Changqing Zhou,Zhipeng Luo,Yueru Luo,Tianrui Liu,Liang Pan,Zhongang Cai,Haiyu Zhao,Shijian Lu
* 摘要: 在點(diǎn)云序列中,3D 對(duì)象跟蹤旨在在給定模板點(diǎn)云的情況下預(yù)測(cè)當(dāng)前搜索點(diǎn)云中對(duì)象的位置和方向。受 Transformer 成功的啟發(fā),我們提出了 Point Tracking TRansformer (PTTR),它在 Transformer 操作的幫助下以粗到細(xì)的方式有效地預(yù)測(cè)高質(zhì)量的 3D 跟蹤結(jié)果。 PTTR 由三個(gè)新穎的設(shè)計(jì)組成。 1)我們?cè)O(shè)計(jì)了關(guān)系感知采樣而不是隨機(jī)采樣,以在子采樣期間保留給定模板的相關(guān)點(diǎn)。 2)此外,我們提出了一個(gè)點(diǎn)關(guān)系變換器(PRT),它由一個(gè)自注意力和一個(gè)交叉注意力模塊組成。全局自注意力操作捕獲遠(yuǎn)程依賴項(xiàng),以分別增強(qiáng)搜索區(qū)域和模板的編碼點(diǎn)特征。隨后,我們通過(guò)交叉注意匹配兩組點(diǎn)特征來(lái)生成粗略跟蹤結(jié)果。 3)基于粗略的跟蹤結(jié)果,我們采用一種新穎的預(yù)測(cè)細(xì)化模塊來(lái)獲得最終的細(xì)化預(yù)測(cè)。此外,我們基于 Waymo 開(kāi)放數(shù)據(jù)集創(chuàng)建了一個(gè)大規(guī)模點(diǎn)云單對(duì)象跟蹤基準(zhǔn)。大量實(shí)驗(yàn)表明,PTTR 在精度和效率方面都實(shí)現(xiàn)了卓越的點(diǎn)云跟蹤。
* 題目: GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation
* 鏈接:
https://arxiv.org/abs/2112.02841* 作者: Weixuan Sun,Jing Zhang,Zheyuan Liu,Yiran Zhong,Nick Barnes
* 摘要: 弱監(jiān)督語(yǔ)義分割 (WSSS) 具有挑戰(zhàn)性,尤其是在使用圖像級(jí)標(biāo)簽來(lái)監(jiān)督像素級(jí)預(yù)測(cè)時(shí)。為了彌補(bǔ)它們的差距,通常會(huì)生成類激活圖 (CAM) 以提供像素級(jí)偽標(biāo)簽。卷積神經(jīng)網(wǎng)絡(luò)中的 CAM 受到部分激活的影響,即,只有最具辨別力的區(qū)域被激活。另一方面,基于 Transformer 的方法在通過(guò)遠(yuǎn)程依賴建模探索全局上下文方面非常有效,可能會(huì)緩解“部分激活”問(wèn)題。在本文中,我們提出了第一個(gè)基于變換器的 WSSS 方法,并介紹了梯度加權(quán)元素明智變換器注意圖 (GETAM)。 GETAM 顯示了所有特征圖元素的精細(xì)尺度激活,揭示了跨變換器層的對(duì)象的不同部分。此外,我們提出了一個(gè)激活感知標(biāo)簽完成模塊來(lái)生成高質(zhì)量的偽標(biāo)簽。最后,我們使用雙重反向傳播將我們的方法整合到 WSSS 的端到端框架中。在 PASCAL VOC 和 COCO 上的大量實(shí)驗(yàn)表明,我們的結(jié)果以顯著優(yōu)勢(shì)擊敗了最先進(jìn)的端到端方法,并且優(yōu)于大多數(shù)多階段方法。
* 題目: Dynamic Token Normalization Improves Vision Transformer
* 鏈接:
https://arxiv.org/abs/2112.02624* 作者: Wenqi Shao,Yixiao Ge,Zhaoyang Zhang,Xuyuan Xu,Xiaogang Wang,Ying Shan,Ping Luo
* 其他: 18 pages, 12 Tables, 9 Figures
* 摘要: Vision Transformer (ViT) 及其變體(例如 Swin、PVT)由于能夠?qū)W習(xí)遠(yuǎn)程上下文信息,在各種計(jì)算機(jī)視覺(jué)任務(wù)中取得了巨大成功。層歸一化 (LN) 是這些模型中的重要組成部分。然而,我們發(fā)現(xiàn)普通 LN 使不同位置的令牌在量級(jí)上相似,因?yàn)樗鼧?biāo)準(zhǔn)化了每個(gè)令牌內(nèi)的嵌入。 Transformers 很難用 LN 捕獲歸納偏差,例如圖像中的位置上下文。我們通過(guò)提出一個(gè)新的規(guī)范化器來(lái)解決這個(gè)問(wèn)題,稱為動(dòng)態(tài)令牌規(guī)范化 (DTN),其中規(guī)范化在每個(gè)令牌(令牌內(nèi))和不同令牌(令牌間)內(nèi)執(zhí)行。 DTN 有幾個(gè)優(yōu)點(diǎn)。首先,它建立在統(tǒng)一的公式之上,因此可以代表各種現(xiàn)有的歸一化方法。其次,DTN 學(xué)習(xí)以令牌內(nèi)和令牌間的方式規(guī)范化令牌,使 Transformer 能夠捕獲全局上下文信息和本地位置上下文。 {第三,通過(guò)簡(jiǎn)單地替換 LN 層,DTN 可以輕松插入各種視覺(jué)轉(zhuǎn)換器,例如 ViT、Swin、PVT、LeViT、T2T-ViT、BigBird 和 Reformer。大量實(shí)驗(yàn)表明,配備 DTN 的變壓器在額外參數(shù)和計(jì)算開(kāi)銷(xiāo)最小的情況下始終優(yōu)于基線模型。例如,DTN 在 ImageNet 上的 top-1 準(zhǔn)確度比 LN 高 $0.5/%$ - $1.2/%$,在 COCO 基準(zhǔn)測(cè)試中的對(duì)象檢測(cè)比 box AP 高 $2.3/%$ - $3.9/%$ mCE ImageNet-C 上的魯棒性實(shí)驗(yàn),在 Long-Range Arena 上的 Long ListOps 精度提高了 $0.5/%$ - $0.8/%$。} 代碼將在 /url{this https URL} 公開(kāi)
* 題目: Learning Tracking Representations via Dual-Branch Fully Transformer Networks
* 鏈接:
https://arxiv.org/abs/2112.02571* 作者: Fei Xie,Chunyu Wang,Guangting Wang,Wankou Yang,Wenjun Zeng
* 其他: ICCV21 Workshops
* 摘要: 我們提出了一個(gè)類似 Siamese 的雙分支網(wǎng)絡(luò),僅基于 Transformers 進(jìn)行跟蹤。給定一個(gè)模板和一個(gè)搜索圖像,我們將它們分成不重疊的補(bǔ)丁,并根據(jù)每個(gè)補(bǔ)丁與注意力窗口內(nèi)其他補(bǔ)丁的匹配結(jié)果為每個(gè)補(bǔ)丁提取一個(gè)特征向量。對(duì)于每個(gè)token,我們估計(jì)它是否包含目標(biāo)對(duì)象以及對(duì)應(yīng)的大小。該方法的優(yōu)點(diǎn)是特征是從匹配中學(xué)習(xí)的,最終用于匹配。因此特征與對(duì)象跟蹤任務(wù)對(duì)齊。該方法獲得了更好或可比的結(jié)果,作為性能最好的方法,首先使用 CNN 提取特征,然后使用 Transformer 融合它們。它在 GOT-10k 和 VOT2020 基準(zhǔn)測(cè)試中優(yōu)于最先進(jìn)的方法。此外,該方法在一個(gè) GPU 上實(shí)現(xiàn)了實(shí)時(shí)推理速度(約 40 美元 fps)。將發(fā)布代碼和模型。
* 題目: Adaptive Channel Encoding Transformer for Point Cloud Analysis
* 鏈接:
https://arxiv.org/abs/2112.02507* 作者: Guoquan Xu,Hezhi Cao,Jianwei Wan,Ke Xu,Yanxin Ma,Cong Zhang
* 摘要: Transformer 在計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域發(fā)揮著越來(lái)越重要的作用,在點(diǎn)云分析方面也取得了顯著的成就。由于他們主要關(guān)注逐點(diǎn)變換器,因此本文提出了一種自適應(yīng)信道編碼變換器。具體來(lái)說(shuō),稱為 Transformer-Conv 的通道卷積旨在對(duì)通道進(jìn)行編碼。它可以通過(guò)捕獲坐標(biāo)和特征之間的潛在關(guān)系來(lái)編碼特征通道。與簡(jiǎn)單地為每個(gè)通道分配注意力權(quán)重相比,我們的方法旨在對(duì)通道進(jìn)行自適應(yīng)編碼。此外,我們的網(wǎng)絡(luò)采用低級(jí)和高級(jí)雙語(yǔ)義感受野的鄰域搜索方法來(lái)提高性能。大量實(shí)驗(yàn)表明,我們的方法在三個(gè)基準(zhǔn)數(shù)據(jù)集上優(yōu)于最先進(jìn)的點(diǎn)云分類和分割方法。
* 題目: Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer
* 鏈接:
https://arxiv.org/abs/2112.02466* 作者: Tao Wang,Hong Liu,Pinhao Song,Tianyu Guo,Wei Shi
* 其他: Accepted by AAAI2022
* 摘要: 被遮擋的人重新識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樵谀承﹫?chǎng)景中,人體部位可能會(huì)被某些障礙物(例如樹(shù)木、汽車(chē)和行人)遮擋。一些現(xiàn)有的姿勢(shì)引導(dǎo)方法通過(guò)根據(jù)圖匹配對(duì)齊身體部位來(lái)解決這個(gè)問(wèn)題,但這些基于圖的方法并不直觀和復(fù)雜。因此,我們提出了一種基于變換器的姿態(tài)引導(dǎo)特征解纏 (PFD) 方法,利用姿態(tài)信息清楚地解開(kāi)語(yǔ)義成分(例如人體或關(guān)節(jié)部位),并相應(yīng)地選擇性地匹配未遮擋的部分。首先,Vision Transformer(ViT)以其強(qiáng)大的能力用于提取patch特征。其次,為了初步從補(bǔ)丁信息中分離出姿勢(shì)信息,在姿勢(shì)引導(dǎo)特征聚合(PFA)模塊中利用了匹配和分配機(jī)制。第三,在轉(zhuǎn)換器解碼器中引入了一組可學(xué)習(xí)的語(yǔ)義視圖,以隱式增強(qiáng)解開(kāi)的身體部位特征。但是,在沒(méi)有額外監(jiān)督的情況下,不能保證這些語(yǔ)義視圖與主體相關(guān)。因此,提出了姿勢(shì)視圖匹配(PVM)模塊來(lái)顯式匹配可見(jiàn)的身體部位并自動(dòng)分離遮擋特征。第四,為了更好地防止遮擋的干擾,我們?cè)O(shè)計(jì)了一個(gè) Pose-guided Push Loss 來(lái)強(qiáng)調(diào)可見(jiàn)身體部位的特征。對(duì)兩個(gè)任務(wù)(遮擋和整體 Re-ID)的五個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,我們提出的 PFD 非常有前途,與最先進(jìn)的方法相比表現(xiàn)出色。代碼可在此 https URL 獲得
* 題目: TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection
* 鏈接:
https://arxiv.org/abs/2112.02363* 作者: Youwei Pang,Xiaoqi Zhao,Lihe Zhang,Huchuan Lu
* 其他: Manuscript Version
* 摘要: 現(xiàn)有的RGB-D顯著目標(biāo)檢測(cè)方法大多利用卷積運(yùn)算,構(gòu)建復(fù)雜的交織融合結(jié)構(gòu),實(shí)現(xiàn)跨模態(tài)信息集成。卷積操作固有的局部連接性將基于卷積的方法的性能限制在一個(gè)上限。在這項(xiàng)工作中,我們從全局信息對(duì)齊和轉(zhuǎn)換的角度重新思考這項(xiàng)任務(wù)。具體而言,所提出的方法(TransCMD)級(jí)聯(lián)多個(gè)跨模態(tài)集成單元以構(gòu)建自上而下的基于變壓器的信息傳播路徑(TIPP)。 TransCMD 將多尺度和多模態(tài)特征集成視為建立在轉(zhuǎn)換器上的序列到序列上下文傳播和更新過(guò)程。此外,考慮二次復(fù)雜性 w.r.t.輸入令牌的數(shù)量,我們?cè)O(shè)計(jì)了一個(gè)具有可接受的計(jì)算成本的補(bǔ)丁式令牌重新嵌入策略(PTRE)。七個(gè) RGB-D SOD 基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,當(dāng)配備 TIPP 時(shí),簡(jiǎn)單的兩流編碼器-解碼器框架可以超越最先進(jìn)的純基于 CNN 的方法。
* 題目: U2-Former: A Nested U-shaped Transformer for Image Restoration
* 鏈接:
https://arxiv.org/abs/2112.02279* 作者: Haobo Ji,Xin Feng,Wenjie Pei,Jinxing Li,Guangming Lu
* 摘要: 雖然 Transformer 在各種高級(jí)視覺(jué)任務(wù)中取得了非凡的表現(xiàn),但在圖像恢復(fù)中充分發(fā)揮 Transformer 的潛力仍然具有挑戰(zhàn)性。關(guān)鍵在于在典型的編碼器 - 解碼器框架中應(yīng)用 Transformer 進(jìn)行圖像恢復(fù)的深度有限,這是由于大量的自注意力計(jì)算負(fù)載和跨不同深度(尺度)層的低效率通信造成的。在本文中,我們提出了一種深度有效的基于 Transformer 的圖像恢復(fù)網(wǎng)絡(luò),稱為 U2-Former,它能夠以 Transformer 為核心操作在深度編碼和解碼空間中執(zhí)行圖像恢復(fù)。具體來(lái)說(shuō),它利用嵌套的 U 形結(jié)構(gòu)來(lái)促進(jìn)具有不同尺度特征圖的不同層之間的交互。此外,我們通過(guò)引入特征過(guò)濾機(jī)制來(lái)壓縮令牌表示來(lái)優(yōu)化基本 Transformer 塊的計(jì)算效率。除了圖像恢復(fù)的典型監(jiān)督方式外,我們的 U2-Former 還進(jìn)行了多方面的對(duì)比學(xué)習(xí),以進(jìn)一步將噪聲成分與背景圖像分離。在各種圖像恢復(fù)任務(wù)上的大量實(shí)驗(yàn),包括反射去除、雨痕去除和去霧,證明了所提出的 U2-Former 的有效性。
* 題目: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
* 鏈接:
https://arxiv.org/abs/2112.02244* 作者: Zhao Yang,Jiaqi Wang,Yansong Tang,Kai Chen,Hengshuang Zhao,Philip H.S. Torr
* 其他: 10 pages, 8 figures
* 摘要: 引用圖像分割是一項(xiàng)基本的視覺(jué)語(yǔ)言任務(wù),旨在從圖像中分割出自然語(yǔ)言表達(dá)式所引用的對(duì)象。此任務(wù)背后的主要挑戰(zhàn)之一是利用引用表達(dá)式來(lái)突出顯示圖像中的相關(guān)位置。解決這個(gè)問(wèn)題的一個(gè)范例是利用強(qiáng)大的視覺(jué)語(yǔ)言(“跨模式”)解碼器來(lái)融合從視覺(jué)編碼器和語(yǔ)言編碼器獨(dú)立提取的特征。最近的方法通過(guò)利用 Transformer 作為跨模式解碼器,在這種范式上取得了顯著進(jìn)步,同時(shí) Transformer 在許多其他視覺(jué)語(yǔ)言任務(wù)中取得了壓倒性的成功。在這項(xiàng)工作中采用不同的方法,我們表明,通過(guò)在視覺(jué) Transformer 編碼器網(wǎng)絡(luò)的中間層中早期融合語(yǔ)言和視覺(jué)特征,可以實(shí)現(xiàn)明顯更好的跨模式對(duì)齊。通過(guò)在視覺(jué)特征編碼階段進(jìn)行跨模態(tài)特征融合,我們可以利用 Transformer 編碼器經(jīng)過(guò)充分驗(yàn)證的相關(guān)建模能力來(lái)挖掘有用的多模態(tài)上下文。通過(guò)這種方式,可以使用輕量級(jí)掩碼預(yù)測(cè)器輕松獲得準(zhǔn)確的分割結(jié)果。沒(méi)有花里胡哨,我們的方法大大超過(guò)了之前在 RefCOCO、RefCOCO+ 和 G-Ref 上的最先進(jìn)方法。
三維視覺(jué)
* 題目: Input-level Inductive Biases for 3D Reconstruction
* 鏈接:
https://arxiv.org/abs/2112.03243* 作者: Wang Yifan,Carl Doersch,Relja Arandjelovi?,Jo?o Carreira,Andrew Zisserman
* 摘要: 我們使用通用感知模型探索 3D 重建,最近的 Perceiver IO 攝取無(wú)序和扁平輸入(例如像素)矩陣。該模型使用查詢矩陣進(jìn)行查詢,并為每個(gè)查詢生成一個(gè)輸出——在本文中,輸出是輸入圖像對(duì)的所有像素的深度值。我們將對(duì)于多視圖幾何有用的歸納偏置納入到這個(gè)通用模型中,而不必觸及其架構(gòu),而是將它們直接編碼為附加輸入。
* 題目: 3D Hierarchical Refinement and Augmentation for Unsupervised Learning of Depth and Pose from Monocular Video
* 鏈接:
https://arxiv.org/abs/2112.03045* 作者: Guangming Wang,Jiquan Zhong,Shijie Zhao,Wenhua Wu,Zhe Liu,Hesheng Wang
* 其他: 10 pages, 7 figures, under review
* 摘要: 深度和自我運(yùn)動(dòng)估計(jì)對(duì)于自主機(jī)器人和自主駕駛的定位和導(dǎo)航至關(guān)重要。最近的研究使得從未標(biāo)記的單目視頻中學(xué)習(xí)每像素深度和自我運(yùn)動(dòng)成為可能。提出了一種新的無(wú)監(jiān)督訓(xùn)練框架,使用顯式 3D 幾何進(jìn)行 3D 分層細(xì)化和增強(qiáng)。在這個(gè)框架中,深度和姿態(tài)估計(jì)是分層的,相互耦合,以逐層細(xì)化估計(jì)的姿態(tài)。中間視圖圖像是通過(guò)使用估計(jì)的深度和粗略姿態(tài)扭曲圖像中的像素來(lái)提出和合成的。然后,可以從新的視圖圖像和相鄰幀的圖像中估計(jì)殘差姿態(tài)變換,以細(xì)化粗略姿態(tài)。本文采用可微分的方式進(jìn)行迭代細(xì)化,使整個(gè)框架統(tǒng)一優(yōu)化。同時(shí),通過(guò)合成新的視圖圖像,提出了一種新的圖像增強(qiáng)方法用于姿態(tài)估計(jì),該方法創(chuàng)造性地增強(qiáng)了 3D 空間中的姿態(tài),但得到了新的增強(qiáng) 2D 圖像。 KITTI 上的實(shí)驗(yàn)表明,我們的深度估計(jì)達(dá)到了最先進(jìn)的性能,甚至超越了最近利用其他輔助任務(wù)的方法。我們的視覺(jué)里程計(jì)優(yōu)于所有最近的基于無(wú)監(jiān)督單目學(xué)習(xí)的方法,并在后端優(yōu)化的基于幾何的方法 ORB-SLAM2 中實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。
* 題目: 4DContrast: Contrastive Learning with Dynamic Correspondences for 3D Scene Understanding
* 鏈接:
https://arxiv.org/abs/2112.02990* 作者: Yujin Chen,Matthias Nie?ner,Angela Dai
* 其他: Video: this https URL
* 摘要: 我們提出了一種新方法,通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練將 4D 動(dòng)態(tài)對(duì)象先驗(yàn)灌輸?shù)綄W(xué)習(xí)的 3D 表示中。我們觀察到對(duì)象在環(huán)境中的動(dòng)態(tài)運(yùn)動(dòng)提供了關(guān)于其對(duì)象性的重要線索,因此建議將這種動(dòng)態(tài)理解灌輸?shù)綄W(xué)習(xí)的 3D 表示中,然后可以有效地轉(zhuǎn)移到下游 3D 語(yǔ)義場(chǎng)景理解任務(wù)中提高性能。我們提出了一種新的數(shù)據(jù)增強(qiáng)方案,利用在靜態(tài) 3D 環(huán)境中移動(dòng)的合成 3D 形狀,并在 3D-4D 約束下采用對(duì)比學(xué)習(xí),將 4D 不變性編碼到學(xué)習(xí)的 3D 表示中。實(shí)驗(yàn)表明,我們的無(wú)監(jiān)督表示學(xué)習(xí)導(dǎo)致下游 3D 語(yǔ)義分割、對(duì)象檢測(cè)和實(shí)例分割任務(wù)的改進(jìn),此外,還顯著提高了數(shù)據(jù)稀缺場(chǎng)景中的性能。
* 題目: No-Reference Point Cloud Quality Assessment via Domain Adaptation
* 鏈接:
https://arxiv.org/abs/2112.02851* 作者: Qi Yang,Yipeng Liu,Siheng Chen,Yiling Xu,Jun Sun
* 摘要: 我們提出了一種新穎的無(wú)參考質(zhì)量評(píng)估指標(biāo),即用于 3D 點(diǎn)云的圖像傳輸點(diǎn)云質(zhì)量評(píng)估 (IT-PCQA)。對(duì)于質(zhì)量評(píng)估,深度神經(jīng)網(wǎng)絡(luò) (DNN) 在無(wú)參考度量設(shè)計(jì)方面表現(xiàn)出引人注目的性能。然而,無(wú)參考 PCQA 最具挑戰(zhàn)性的問(wèn)題是我們?nèi)狈Υ笠?guī)模的主觀數(shù)據(jù)庫(kù)來(lái)驅(qū)動(dòng)強(qiáng)大的網(wǎng)絡(luò)。我們的動(dòng)機(jī)是人類視覺(jué)系統(tǒng) (HVS) 是決策者,無(wú)論用于質(zhì)量評(píng)估的媒體類型如何。利用自然圖像豐富的主觀評(píng)分,我們可以通過(guò) DNN 查詢?nèi)祟惛兄脑u(píng)價(jià)標(biāo)準(zhǔn),并將預(yù)測(cè)能力轉(zhuǎn)移到 3D 點(diǎn)云上。特別是,我們將自然圖像作為源域,點(diǎn)云作為目標(biāo)域,并通過(guò)無(wú)監(jiān)督的對(duì)抗域自適應(yīng)來(lái)推斷點(diǎn)云質(zhì)量。為了提取有效的潛在特征并最小化域差異,我們提出了一個(gè)分層特征編碼器和一個(gè)條件判別網(wǎng)絡(luò)。考慮到最終目的是回歸客觀分?jǐn)?shù),我們?cè)跅l件判別網(wǎng)絡(luò)中引入了一種新的條件交叉熵?fù)p失來(lái)懲罰阻礙質(zhì)量回歸網(wǎng)絡(luò)收斂的負(fù)樣本。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的無(wú)參考指標(biāo)相比,所提出的方法可以獲得更高的性能,甚至可以與全參考指標(biāo)相媲美。所提出的方法還提出了評(píng)估特定媒體內(nèi)容質(zhì)量的可行性,而無(wú)需進(jìn)行昂貴且繁瑣的主觀評(píng)估。
* 題目: Joint Symmetry Detection and Shape Matching for Non-Rigid Point Cloud
* 鏈接:
https://arxiv.org/abs/2112.02713* 作者: Abhishek Sharma,Maks Ovsjanikov
* 其他: Under Review. arXiv admin note: substantial text overlap with arXiv:2110.02994
* 摘要: 盡管深度功能圖在非剛性 3D 形狀匹配中取得了成功,但不存在同時(shí)對(duì)自對(duì)稱和形狀匹配進(jìn)行建模的學(xué)習(xí)框架。盡管由于對(duì)稱性不匹配導(dǎo)致的錯(cuò)誤是非剛性形狀匹配中的主要挑戰(zhàn)。在本文中,我們提出了一種新穎的框架,可以同時(shí)學(xué)習(xí)自對(duì)稱以及一對(duì)形狀之間的成對(duì)映射。我們的關(guān)鍵思想是通過(guò)正則化項(xiàng)將自對(duì)稱映射和成對(duì)映射耦合在一起,該正則化項(xiàng)為兩者提供聯(lián)合約束,從而導(dǎo)致更準(zhǔn)確的映射。我們?cè)趲讉€(gè)基準(zhǔn)測(cè)試中驗(yàn)證了我們的方法,它在兩個(gè)任務(wù)上都優(yōu)于許多有競(jìng)爭(zhēng)力的基準(zhǔn)。
* 題目: Adaptive Channel Encoding for Point Cloud Analysis
* 鏈接:
https://arxiv.org/abs/2112.02509* 作者: Guoquan Xu,Hezhi Cao,Yifan Zhang,Jianwei Wan,Ke Xu,Yanxin Ma
* 摘要: 注意力機(jī)制在點(diǎn)云分析中發(fā)揮著越來(lái)越重要的作用,通道注意力是熱點(diǎn)之一。通道信息如此之多,神經(jīng)網(wǎng)絡(luò)很難篩選出有用的通道信息。因此,本文提出了一種自適應(yīng)信道編碼機(jī)制來(lái)捕獲信道關(guān)系。它通過(guò)顯式編碼其特征通道之間的相互依賴性來(lái)提高網(wǎng)絡(luò)生成的表示質(zhì)量。具體來(lái)說(shuō),提出了一種通道級(jí)卷積(Channel-Conv)來(lái)自適應(yīng)地學(xué)習(xí)坐標(biāo)和特征之間的關(guān)系,從而對(duì)通道進(jìn)行編碼。與流行的注意力權(quán)重方案不同,本文提出的Channel-Conv在卷積運(yùn)算中實(shí)現(xiàn)了適應(yīng)性,而不是簡(jiǎn)單地為通道分配不同的權(quán)重。對(duì)現(xiàn)有基準(zhǔn)的大量實(shí)驗(yàn)驗(yàn)證了我們的方法達(dá)到了最先進(jìn)的水平。
* 題目: PointCLIP: Point Cloud Understanding by CLIP
* 鏈接:
https://arxiv.org/abs/2112.02413* 作者: Renrui Zhang,Ziyu Guo,Wei Zhang,Kunchang Li,Xupeng Miao,Bin Cui,Yu Qiao,Peng Gao,Hongsheng Li
* 其他: Open sourced, Code and Model Available
* 摘要: 最近,通過(guò)對(duì)比視覺(jué)語(yǔ)言預(yù)訓(xùn)練 (CLIP) 進(jìn)行的零樣本和少樣本學(xué)習(xí)在 2D 視覺(jué)識(shí)別方面表現(xiàn)出鼓舞人心的表現(xiàn),該方法學(xué)習(xí)在開(kāi)放詞匯設(shè)置中將圖像與其相應(yīng)的文本進(jìn)行匹配。然而,通過(guò) 2D 中的大規(guī)模圖像-文本對(duì)預(yù)訓(xùn)練的 CLIP 是否可以推廣到 3D 識(shí)別,仍有待探索。在本文中,我們通過(guò)提出 PointCLIP 來(lái)確定這種設(shè)置是可行的,它在 CLIP 編碼的點(diǎn)云和 3D 類別文本之間進(jìn)行對(duì)齊。具體來(lái)說(shuō),我們通過(guò)將點(diǎn)云投影到多視圖深度圖中而不進(jìn)行渲染來(lái)編碼點(diǎn)云,并聚合視圖方式的零鏡頭預(yù)測(cè)以實(shí)現(xiàn)從 2D 到 3D 的知識(shí)轉(zhuǎn)移。最重要的是,我們?cè)O(shè)計(jì)了一個(gè)視圖間適配器,以更好地提取全局特征,并將從 3D 中學(xué)到的小樣本知識(shí)自適應(yīng)地融合到 2D 中預(yù)訓(xùn)練的 CLIP 中。通過(guò)在少拍設(shè)置中微調(diào)輕量級(jí)適配器,PointCLIP 的性能可以大大提高。此外,我們觀察到 PointCLIP 和經(jīng)典 3D 監(jiān)督網(wǎng)絡(luò)之間的互補(bǔ)特性。通過(guò)簡(jiǎn)單的集成,PointCLIP 提高了基線的性能,甚至超越了最先進(jìn)的模型。因此,PointCLIP 是在低資源成本和數(shù)據(jù)機(jī)制下通過(guò) CLIP 進(jìn)行有效 3D 點(diǎn)云理解的有前途的替代方案。我們對(duì)廣泛采用的 ModelNet10、ModelNet40 和具有挑戰(zhàn)性的 ScanObjectNN 進(jìn)行了徹底的實(shí)驗(yàn),以證明 PointCLIP 的有效性。該代碼在此 https URL 上發(fā)布。
* 題目: Sphere Face Model:A 3D Morphable Model with Hypersphere Manifold Latent Space
* 鏈接:
https://arxiv.org/abs/2112.02238* 作者: Diqiong Jiang,Yiwei Jin,Fanglue Zhang,Zhe Zhu,Yun Zhang,Ruofeng Tong,Min Tang
* 摘要: 3D 可變形模型 (3DMM) 是面部形狀和外觀的生成模型。然而,傳統(tǒng) 3DMM 的形狀參數(shù)滿足多元高斯分布,而身份嵌入滿足超球面分布,這種沖突使得人臉重建模型難以同時(shí)保持忠實(shí)度和形狀一致性。為了解決這個(gè)問(wèn)題,我們提出了球形人臉模型(SFM),這是一種用于單目人臉重建的新型 3DMM,它可以保持形狀保真度和身份一致性。我們的 SFM 的核心是可用于重建 3D 人臉形狀的基礎(chǔ)矩陣,基本矩陣是通過(guò)采用兩階段訓(xùn)練方法學(xué)習(xí)的,其中 3D 和 2D 訓(xùn)練數(shù)據(jù)分別用于第一和第二階段。為了解決分布不匹配,我們?cè)O(shè)計(jì)了一種新的損失,使形狀參數(shù)具有超球面潛在空間。大量實(shí)驗(yàn)表明,SFM 具有較高的表示能力和形狀參數(shù)空間的聚類性能。此外,它產(chǎn)生保真人臉形狀,并且形狀在單眼人臉重建中具有挑戰(zhàn)性的條件下是一致的。
* 題目: Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation
* 鏈接:
https://arxiv.org/abs/2112.02214* 作者: Yingruo Fan,Zhaojiang Lin,Jun Saito,Wenping Wang,Taku Komura
* 摘要: 具有準(zhǔn)確嘴唇同步的語(yǔ)音驅(qū)動(dòng)的 3D 面部動(dòng)畫(huà)已被廣泛研究。然而,很少有人探索在語(yǔ)音期間為整個(gè)面部合成逼真的運(yùn)動(dòng)。在這項(xiàng)工作中,我們提出了一個(gè)聯(lián)合音頻-文本模型來(lái)捕獲用于表達(dá)性語(yǔ)音驅(qū)動(dòng)的 3D 面部動(dòng)畫(huà)的上下文信息。收集現(xiàn)有數(shù)據(jù)集以覆蓋盡可能多的不同音素而不是句子,從而限制了基于音頻的模型學(xué)習(xí)更多不同上下文的能力。為了解決這個(gè)問(wèn)題,我們建議利用從強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型中提取的上下文文本嵌入,該模型從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)了豐富的上下文表示。我們的假設(shè)是文本特征可以消除與音頻沒(méi)有強(qiáng)相關(guān)性的上臉表情的變化。與從文本中學(xué)習(xí)音素級(jí)特征的先前方法相比,我們研究了語(yǔ)音驅(qū)動(dòng)的 3D 面部動(dòng)畫(huà)的高級(jí)上下文文本特征。我們表明,組合的聲學(xué)和文本模式可以合成逼真的面部表情,同時(shí)保持音頻-嘴唇同步。我們進(jìn)行定量和定性評(píng)估以及感知用戶研究。結(jié)果表明,我們的模型相對(duì)于現(xiàn)有的最先進(jìn)方法具有卓越的性能。
* 題目: Behind the Curtain: Learning Occluded Shapes for 3D Object Detection
* 鏈接:
https://arxiv.org/abs/2112.02205* 作者: Qiangeng Xu,Yiqi Zhong,Ulrich Neumann
* 摘要: LiDAR 傳感器的進(jìn)步提供了豐富的 3D 數(shù)據(jù),支持 3D 場(chǎng)景理解。然而,由于遮擋和信號(hào)丟失,LiDAR 點(diǎn)云實(shí)際上是 2.5D,因?yàn)樗鼈儍H覆蓋部分底層形狀,這對(duì) 3D 感知構(gòu)成了根本性挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),我們提出了一種新的基于 LiDAR 的 3D 對(duì)象檢測(cè)模型,稱為幕后檢測(cè)器 (BtcDet),該模型學(xué)習(xí)對(duì)象形狀先驗(yàn)并估計(jì)點(diǎn)云中部分遮擋(遮擋)的完整對(duì)象形狀。 BtcDet 首先識(shí)別受遮擋和信號(hào)缺失影響的區(qū)域。在這些區(qū)域中,我們的模型預(yù)測(cè)了占用概率,該概率指示一個(gè)區(qū)域是否包含對(duì)象形狀。結(jié)合這個(gè)概率圖,BtcDet 可以生成高質(zhì)量的 3D 建議。最后,占用概率也被集成到一個(gè)提案細(xì)化模塊中以生成最終的邊界框。在 KITTI 數(shù)據(jù)集和 Waymo 開(kāi)放數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了 BtcDet 的有效性。特別是,對(duì)于 KITTI 基準(zhǔn)上的汽車(chē)和騎自行車(chē)者的 3D 檢測(cè),BtcDet 以顯著的優(yōu)勢(shì)超越了所有已發(fā)布的最先進(jìn)方法。代碼已發(fā)布(此 https URL}{此 https URL)。
* 題目: Fast 3D registration with accurate optimisation and little learning for Learn2Reg 2021
* 鏈接:
https://arxiv.org/abs/2112.03053* 作者: Hanna Siebert,Lasse Hansen,Mattias P. Heinrich
* 摘要: 當(dāng)前用于可變形醫(yī)學(xué)圖像配準(zhǔn)的方法通常難以滿足以下所有標(biāo)準(zhǔn):通用性強(qiáng)、計(jì)算或訓(xùn)練時(shí)間少,以及能夠估計(jì)大變形。此外,用于注冊(cè)監(jiān)督訓(xùn)練的端到端網(wǎng)絡(luò)通常變得過(guò)于復(fù)雜且難以訓(xùn)練。對(duì)于 Learn2Reg2021 挑戰(zhàn),我們旨在通過(guò)將特征學(xué)習(xí)和幾何對(duì)齊解耦來(lái)解決這些問(wèn)題。首先,我們引入了一種新的非??焖偾覝?zhǔn)確的優(yōu)化方法。通過(guò)使用離散位移和耦合凸優(yōu)化程序,我們能夠穩(wěn)健地應(yīng)對(duì)大變形。在基于 Adam 的實(shí)例優(yōu)化的幫助下,我們實(shí)現(xiàn)了非常準(zhǔn)確的配準(zhǔn)性能,并且通過(guò)使用正則化,我們獲得了平滑且合理的變形場(chǎng)。其次,為了適用于不同的注冊(cè)任務(wù),我們提取了模態(tài)和對(duì)比度不變的手工特征,并從特定于任務(wù)的分割 U-Net 中用語(yǔ)義特征補(bǔ)充它們。憑借我們的結(jié)果,我們能夠在整體 Learn2Reg2021 挑戰(zhàn)賽中獲得第二名,贏得任務(wù) 1,并在其他兩項(xiàng)任務(wù)中分別獲得第二和第三名。
* 題目: Pose2Room: Understanding 3D Scenes from Human Activities
* 鏈接:
https://arxiv.org/abs/2112.03030* 作者: Yinyu Nie,Angela Dai,Xiaoguang Han,Matthias Nie?ner
* 其他: Project page: this https URL Video: this https URL
* 摘要: 使用可穿戴 IMU 傳感器,人們可以通過(guò)可穿戴設(shè)備估計(jì)人體姿勢(shì),而無(wú)需視覺(jué)輸入 /cite{von2017sparse}。在這項(xiàng)工作中,我們提出了一個(gè)問(wèn)題:我們能否僅根據(jù)人類軌跡信息來(lái)推斷現(xiàn)實(shí)世界環(huán)境中的對(duì)象結(jié)構(gòu)?至關(guān)重要的是,我們觀察到人類的運(yùn)動(dòng)和交互往往會(huì)提供關(guān)于場(chǎng)景中物體的強(qiáng)烈信息——例如,一個(gè)人坐著表明可能有椅子或沙發(fā)。為此,我們提出 P2R-Net 來(lái)學(xué)習(xí)場(chǎng)景中對(duì)象的概率 3D 模型,該模型以類類別和定向 3D 邊界框?yàn)樘卣?,基于在環(huán)境中觀察到的人類軌跡的輸入。 P2R-Net 對(duì)對(duì)象類別的概率分布以及對(duì)象框的深度高斯混合模型進(jìn)行建模,從而能夠從觀察到的人類軌跡中對(duì)對(duì)象配置的多個(gè)、不同、可能的模式進(jìn)行采樣。在我們的實(shí)驗(yàn)中,我們證明了 P2R-Net 可以有效地學(xué)習(xí)人類運(yùn)動(dòng)的可能對(duì)象的多模態(tài)分布,并生成環(huán)境的各種似是而非的對(duì)象結(jié)構(gòu),即使沒(méi)有任何視覺(jué)信息。
視頻處理
* 題目: Reliable Propagation-Correction Modulation for Video Object Segmentation
* 鏈接:
https://arxiv.org/abs/2112.02853* 作者: Xiaohao Xu,Jinglu Wang,Xiao Li,Yan Lu
* 其他: 13 pages, 8 figures, AAAI 2022 Accepted
* 摘要: 錯(cuò)誤傳播是在線半監(jiān)督視頻對(duì)象分割中一個(gè)普遍但至關(guān)重要的問(wèn)題。我們的目標(biāo)是通過(guò)具有高可靠性的校正機(jī)制來(lái)抑制錯(cuò)誤傳播。關(guān)鍵的見(jiàn)解是用可靠的線索將校正與傳統(tǒng)的掩模傳播過(guò)程分開(kāi)。我們引入了兩個(gè)調(diào)制器,傳播調(diào)制器和校正調(diào)制器,分別根據(jù)局部時(shí)間相關(guān)性和可靠參考對(duì)目標(biāo)幀嵌入進(jìn)行逐通道重新校準(zhǔn)。具體來(lái)說(shuō),我們使用級(jí)聯(lián)傳播校正方案組裝調(diào)制器。這避免了傳播調(diào)制器對(duì)可靠校正調(diào)制器的影響。盡管帶有真實(shí)標(biāo)簽的參考框架提供了可靠的線索,但它可能與目標(biāo)框架非常不同,并引入不確定或不完整的相關(guān)性。我們通過(guò)向維護(hù)池補(bǔ)充可靠的特征補(bǔ)丁來(lái)增加參考線索,從而為調(diào)制器提供更全面和更具表現(xiàn)力的對(duì)象表示。此外,可靠性過(guò)濾器旨在檢索可靠的補(bǔ)丁并將它們傳遞到后續(xù)幀中。我們的模型在 YouTube-VOS18/19 和 DAVIS17-Val/Test 基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能。大量實(shí)驗(yàn)表明,該校正機(jī)制通過(guò)充分利用可靠的引導(dǎo)提供了可觀的性能提升。代碼位于:此 https URL。
* 題目: PP-MSVSR: Multi-Stage Video Super-Resolution
* 鏈接:
https://arxiv.org/abs/2112.02828* 作者: Lielin Jiang,Na Wang,Qingqing Dang,Rui Liu,Baohua Lai
* 其他: 8 pages, 6 figures, 3 tables
* 摘要: 與單幅圖像超分辨率(SISR)任務(wù)不同,視頻超分辨率(VSR)任務(wù)的關(guān)鍵是充分利用跨幀的互補(bǔ)信息來(lái)重建高分辨率序列。由于來(lái)自不同幀的圖像具有不同的運(yùn)動(dòng)和場(chǎng)景,準(zhǔn)確對(duì)齊多個(gè)幀并有效地融合不同的幀一直是 VSR 任務(wù)的重點(diǎn)研究工作。為了利用相鄰幀的豐富互補(bǔ)信息,在本文中,我們提出了一種多級(jí) VSR 深度架構(gòu),稱為 PP-MSVSR,具有局部融合模塊、輔助損失和重新對(duì)齊模塊來(lái)逐步改進(jìn)增強(qiáng)結(jié)果。具體來(lái)說(shuō),為了加強(qiáng)特征傳播中跨幀特征的融合,在第一階段設(shè)計(jì)了局部融合模塊,在特征傳播之前進(jìn)行局部特征融合。此外,我們?cè)诘?2 階段引入輔助損失,使傳播模塊獲得的特征保留更多連接到 HR 空間的相關(guān)信息,并在第 3 階段引入重新對(duì)齊模塊,以充分利用上一階段。大量實(shí)驗(yàn)證實(shí),PP-MSVSR 實(shí)現(xiàn)了 Vid4 數(shù)據(jù)集的良好性能,僅用 1.45M 參數(shù)就實(shí)現(xiàn)了 28.13dB 的 PSNR。并且 PP-MSVSR-L 在具有相當(dāng)大參數(shù)的 REDS4 數(shù)據(jù)集上超過(guò)了所有最先進(jìn)的方法。代碼和模型將在 PaddleGAN/footnote{this https URL.} 中發(fā)布。
* 題目: Make It Move: Controllable Image-to-Video Generation with Text Descriptions
* 鏈接:
https://arxiv.org/abs/2112.02815* 作者: Yaosi Hu,Chong Luo,Zhenzhong Chen
* 摘要: 生成符合用戶意圖的可控視頻是計(jì)算機(jī)視覺(jué)中一個(gè)有吸引力但具有挑戰(zhàn)性的話題。為了實(shí)現(xiàn)符合用戶意圖的可操作控制,提出了一種新的視頻生成任務(wù),稱為文本圖像到視頻生成(TI2V)。 TI2V 具有可控的外觀和運(yùn)動(dòng),旨在從靜態(tài)圖像和文本描述生成視頻。 TI2V 任務(wù)的主要挑戰(zhàn)在于對(duì)齊來(lái)自不同模式的外觀和運(yùn)動(dòng),以及處理文本描述中的不確定性。為了應(yīng)對(duì)這些挑戰(zhàn),我們提出了一種基于運(yùn)動(dòng)錨的視頻生成器 (MAGE),它具有創(chuàng)新的運(yùn)動(dòng)錨 (MA) 結(jié)構(gòu)來(lái)存儲(chǔ)外觀運(yùn)動(dòng)對(duì)齊的表示。為了對(duì)不確定性進(jìn)行建模并增加多樣性,它還允許注入顯式條件和隱式隨機(jī)性。通過(guò)三維軸向變換器,MA 與給定圖像交互以遞歸地生成下一幀,并具有令人滿意的可控性和多樣性。伴隨著新任務(wù),我們基于 MNIST 和 CATER 構(gòu)建了兩個(gè)新的視頻文本配對(duì)數(shù)據(jù)集進(jìn)行評(píng)估。在這些數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了 MAGE 的有效性,并展示了 TI2V 任務(wù)的吸引力。模型和數(shù)據(jù)集的源代碼將很快可用。
* 題目: PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation
* 鏈接:
https://arxiv.org/abs/2112.02582* 作者: Haobo Yuan,Xiangtai Li,Yibo Yang,Guangliang Cheng,Jing Zhang,Yunhai Tong,Lefei Zhang,Dacheng Tao
* 摘要: 最近提出的深度感知視頻全景分割(DVPS)旨在預(yù)測(cè)視頻中的全景分割結(jié)果和深度圖,這是一個(gè)具有挑戰(zhàn)性的場(chǎng)景理解問(wèn)題。在本文中,我們提出了 PolyphonicFormer,這是一種視覺(jué)轉(zhuǎn)換器,用于統(tǒng)一 DVPS 任務(wù)下的所有子任務(wù)。我們的方法通過(guò)基于查詢的學(xué)習(xí)探索深度估計(jì)和全景分割之間的關(guān)系。特別地,我們?cè)O(shè)計(jì)了三種不同的查詢,包括事物查詢、事物查詢和深度查詢。然后我們建議通過(guò)門(mén)控融合來(lái)學(xué)習(xí)這些查詢之間的相關(guān)性。從實(shí)驗(yàn)中,我們從深度估計(jì)和全景分割方面證明了我們?cè)O(shè)計(jì)的好處。由于每個(gè)事物查詢還對(duì)實(shí)例信息進(jìn)行編碼,因此通過(guò)使用外觀學(xué)習(xí)裁剪實(shí)例掩碼特征來(lái)執(zhí)行跟蹤是很自然的。我們的方法在 ICCV-2021 BMTT 挑戰(zhàn)視頻 + 深度跟蹤中排名第一。據(jù)報(bào)道,消融研究顯示了我們?nèi)绾翁岣咝阅?。?https URL 將提供代碼。
* 題目: An Annotated Video Dataset for Computing Video Memorability
* 鏈接:
https://arxiv.org/abs/2112.02303* 作者: Rukiye Savran Kiziltepe,Lorin Sweeney,Mihai Gabriel Constantin,Faiyaz Doctor,Alba Garcia Seco de Herrera,Claire-Helene Demarty,Graham Healy,Bogdan Ionescu,Alan F. Smeaton
* 其他: 11 pages
* 摘要: 使用一組公開(kāi)可用的短片視頻鏈接集合,每個(gè)短片的平均持續(xù)時(shí)間為 6 秒,1,275 名用戶多次手動(dòng)注釋每個(gè)視頻,以表明視頻的長(zhǎng)期和短期記憶性。這些注釋是作為在線記憶游戲的一部分收集的,并測(cè)量了參與者在顯示一組視頻時(shí)回憶以前看過(guò)視頻的能力。識(shí)別任務(wù)是對(duì)前幾分鐘內(nèi)看到的視頻進(jìn)行短期記憶,在前 24 到 72 小時(shí)內(nèi)看到的視頻進(jìn)行長(zhǎng)期記憶。數(shù)據(jù)包括每個(gè)視頻的每次識(shí)別的反應(yīng)時(shí)間。與每個(gè)視頻相關(guān)的是文本描述(字幕)以及應(yīng)用于從每個(gè)視頻(開(kāi)始、中間和結(jié)束)中提取的 3 幀的圖像級(jí)特征的集合。還提供了視頻級(jí)功能。該數(shù)據(jù)集作為 2020 年 MediaEval 基準(zhǔn)測(cè)試的一部分用于視頻記憶性任務(wù)。
* 題目: Snapshot HDR Video Construction Using Coded Mask
* 鏈接:
https://arxiv.org/abs/2112.02522* 作者: Masheal Alghamdi,Qiang Fu,Ali Thabet,Wolfgang Heidrich
* 其他: 13 pages, 7 figures
* 摘要: 本文研究了從快照編碼的 LDR 視頻重建高動(dòng)態(tài)范圍 (HDR) 視頻。構(gòu)建 HDR 視頻需要恢復(fù)每一幀的 HDR 值并保持連續(xù)幀之間的一致性。從單個(gè)圖像捕獲中獲取 HDR 圖像,也稱為快照 HDR 成像,可以通過(guò)多種方式實(shí)現(xiàn)。例如,可重構(gòu)快照HDR相機(jī)是通過(guò)在相機(jī)的光學(xué)堆棧中引入光學(xué)元件來(lái)實(shí)現(xiàn)的;通過(guò)在傳感器前面一小段距離處放置一個(gè)編碼掩模??梢允褂蒙疃葘W(xué)習(xí)方法從捕獲的編碼圖像中恢復(fù)高質(zhì)量的 HDR 圖像。本研究利用 3D-CNN 從編碼的 LDR 視頻中執(zhí)行聯(lián)合去馬賽克、去噪和 HDR 視頻重建。我們通過(guò)引入考慮短期和長(zhǎng)期一致性的時(shí)間損失函數(shù)來(lái)強(qiáng)制執(zhí)行更時(shí)間一致的 HDR 視頻重建。獲得的結(jié)果很有希望,并且可以使用傳統(tǒng)相機(jī)進(jìn)行負(fù)擔(dān)得起的 HDR 視頻捕獲。
分割
* 題目: Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey
* 鏈接:
https://arxiv.org/abs/2112.03241* 作者: Gabriela Csurka,Riccardo Volpi,Boris Chidlovskii
* 其他: 33 pages
* 摘要: 語(yǔ)義分割在各種計(jì)算機(jī)視覺(jué)應(yīng)用中發(fā)揮著重要作用,為全球理解圖像提供關(guān)鍵信息。然而,最先進(jìn)的模型依賴于大量帶注釋的樣本,與圖像分類等任務(wù)相比,獲得這些樣本的成本更高。由于未標(biāo)記數(shù)據(jù)的獲取成本要低得多,因此無(wú)監(jiān)督域適應(yīng)在語(yǔ)義分割社區(qū)中取得廣泛成功也就不足為奇了。這項(xiàng)調(diào)查旨在總結(jié)這個(gè)令人難以置信的快速發(fā)展領(lǐng)域的五年,其中包含語(yǔ)義分割本身的重要性以及使分割模型適應(yīng)新環(huán)境的迫切需求。我們介紹了最重要的語(yǔ)義分割方法;我們對(duì)語(yǔ)義分割的域適應(yīng)技術(shù)進(jìn)行了全面的調(diào)查;我們揭示了新的趨勢(shì),例如多領(lǐng)域?qū)W習(xí)、領(lǐng)域泛化、測(cè)試時(shí)間適應(yīng)或無(wú)源領(lǐng)域適應(yīng);我們通過(guò)描述語(yǔ)義分割研究中最廣泛使用的數(shù)據(jù)集和基準(zhǔn)來(lái)結(jié)束這項(xiàng)調(diào)查。我們希望這項(xiàng)調(diào)查能為學(xué)術(shù)界和工業(yè)界的研究人員提供全面的參考指南,并幫助他們?cè)谠擃I(lǐng)域培育新的研究方向。
* 題目: Semantic Segmentation In-the-Wild Without Seeing Any Segmentation Examples
* 鏈接:
https://arxiv.org/abs/2112.03185* 作者: Nir Zabari,Yedid Hoshen
* 摘要: 語(yǔ)義分割是一項(xiàng)關(guān)鍵的計(jì)算機(jī)視覺(jué)任務(wù),幾十年來(lái)一直在積極研究。近年來(lái),監(jiān)督方法已經(jīng)達(dá)到了前所未有的準(zhǔn)確性,但是它們需要為每個(gè)新的類別類別進(jìn)行許多像素級(jí)注釋,這非常耗時(shí)且昂貴。此外,當(dāng)前語(yǔ)義分割網(wǎng)絡(luò)處理大量類別的能力是有限的。這意味著包含稀有類別類別的圖像不太可能被當(dāng)前方法很好地分割。在本文中,我們提出了一種為每個(gè)對(duì)象創(chuàng)建語(yǔ)義分割掩碼的新方法,無(wú)需訓(xùn)練分割網(wǎng)絡(luò)或查看任何分割掩碼。我們的方法將圖像中存在的類別類別的圖像級(jí)標(biāo)簽作為輸入;它們可以自動(dòng)或手動(dòng)獲取。我們利用視覺(jué)語(yǔ)言嵌入模型(特別是 CLIP)使用模型可解釋性方法為每個(gè)類創(chuàng)建粗略的分割圖。我們使用測(cè)試時(shí)間增強(qiáng)技術(shù)優(yōu)化地圖。此階段的輸出提供像素級(jí)偽標(biāo)簽,而不是監(jiān)督方法所需的手動(dòng)像素級(jí)標(biāo)簽。鑒于偽標(biāo)簽,我們利用單圖像分割技術(shù)來(lái)獲得高質(zhì)量的輸出分割掩碼。我們的方法在數(shù)量和質(zhì)量上都優(yōu)于使用類似監(jiān)督量的方法。對(duì)于包含稀有類別的圖像,我們的結(jié)果尤其顯著。
* 題目: Diffusion Models for Implicit Image Segmentation Ensembles
* 鏈接:
https://arxiv.org/abs/2112.03145* 作者: Julia Wolleb,Robin Sandkühler,Florentin Bieder,Philippe Valmaggia,Philippe C. Cattin
* 摘要: 擴(kuò)散模型在圖像的生成建模方面表現(xiàn)出令人印象深刻的性能。在本文中,我們提出了一種基于擴(kuò)散模型的新型語(yǔ)義分割方法。通過(guò)修改訓(xùn)練和采樣方案,我們表明擴(kuò)散模型可以執(zhí)行醫(yī)學(xué)圖像的病變分割。為了生成特定于圖像的分割,我們?cè)诘孛鎸?shí)況分割上訓(xùn)練模型,并在訓(xùn)練期間和采樣過(guò)程的每個(gè)步驟中使用圖像作為先驗(yàn)。通過(guò)給定的隨機(jī)采樣過(guò)程,我們可以生成分割掩碼的分布。此屬性允許我們計(jì)算分割的像素級(jí)不確定性圖,并允許使用隱式的分割集合來(lái)提高分割性能。我們?cè)谟糜谀X腫瘤分割的 BRATS2020 數(shù)據(jù)集上評(píng)估了我們的方法。與最先進(jìn)的分割模型相比,我們的方法產(chǎn)生了良好的分割結(jié)果,此外,還有有意義的不確定性圖。
* 題目: Label-Efficient Semantic Segmentation with Diffusion Models
* 鏈接:
https://arxiv.org/abs/2112.03126* 作者: Dmitry Baranchuk,Ivan Rubachev,Andrey Voynov,Valentin Khrulkov,Artem Babenko
* 摘要: 去噪擴(kuò)散概率模型最近受到了很多研究的關(guān)注,因?yàn)樗鼈儍?yōu)于替代方法,例如 GAN,并且目前提供最先進(jìn)的生成性能。擴(kuò)散模型的卓越性能使其成為多種應(yīng)用中的有吸引力的工具,包括修復(fù)、超分辨率和語(yǔ)義編輯。在本文中,我們證明了擴(kuò)散模型也可以作為語(yǔ)義分割的工具,特別是在標(biāo)記數(shù)據(jù)稀缺的設(shè)置中。特別是,對(duì)于幾個(gè)預(yù)訓(xùn)練的擴(kuò)散模型,我們研究了來(lái)自執(zhí)行反向擴(kuò)散過(guò)程的馬爾可夫步驟的網(wǎng)絡(luò)的中間激活。我們表明這些激活有效地從輸入圖像中捕獲語(yǔ)義信息,并且似乎是分割問(wèn)題的出色像素級(jí)表示?;谶@些觀察,我們描述了一種簡(jiǎn)單的分割方法,即使只提供少量訓(xùn)練圖像也能工作。對(duì)于相同數(shù)量的人工監(jiān)督,我們的方法在多個(gè)數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有替代方案。
* 題目: End-to-End Segmentation via Patch-wise Polygons Prediction
* 鏈接:
https://arxiv.org/abs/2112.02535* 作者: Tal Shaharabany,Lior Wolf
* 摘要: 領(lǐng)先的分割方法將輸出圖表示為像素網(wǎng)格。我們研究了另一種表示,其中對(duì)象邊緣被建模為每個(gè)圖像塊,作為具有 $k$ 個(gè)頂點(diǎn)的多邊形,該多邊形與每個(gè)塊的標(biāo)簽概率相結(jié)合。通過(guò)使用可微神經(jīng)渲染器創(chuàng)建光柵圖像來(lái)優(yōu)化頂點(diǎn)。然后將劃定的區(qū)域與地面實(shí)況分割進(jìn)行比較。我們的方法獲得了多個(gè)最先進(jìn)的結(jié)果:Cityscapes 驗(yàn)證為 76.26/% mIoU,Vaihingen 建筑分割基準(zhǔn)為 90.92/% IoU,MoNU 顯微鏡數(shù)據(jù)集為 66.82/% IoU,鳥(niǎo)類為 90.91/%基準(zhǔn) CUB。我們用于訓(xùn)練和再現(xiàn)這些結(jié)果的代碼作為補(bǔ)充附在后面。
* 題目: Unsupervised Adaptation of Semantic Segmentation Models without Source Data
* 鏈接:
https://arxiv.org/abs/2112.02359* 作者: Sujoy Paul,Ansh Khurana,Gaurav Aggarwal
* 摘要: 我們考慮了源模型的無(wú)監(jiān)督域適應(yīng)的新問(wèn)題,而無(wú)需訪問(wèn)源數(shù)據(jù)進(jìn)行語(yǔ)義分割。無(wú)監(jiān)督域適應(yīng)旨在使在標(biāo)記源數(shù)據(jù)上學(xué)習(xí)的模型適應(yīng)新的未標(biāo)記目標(biāo)數(shù)據(jù)集。現(xiàn)有方法假設(shè)在適應(yīng)期間源數(shù)據(jù)與目標(biāo)數(shù)據(jù)一起可用。然而,在實(shí)際場(chǎng)景中,由于隱私、存儲(chǔ)等原因,我們可能只能訪問(wèn)源模型和未標(biāo)記的目標(biāo)數(shù)據(jù),而不能訪問(wèn)標(biāo)記的源。在這項(xiàng)工作中,我們提出了一種自我訓(xùn)練的方法從源模型中提取知識(shí)。為了補(bǔ)償從源到目標(biāo)的分布偏移,我們首先只用未標(biāo)記的目標(biāo)數(shù)據(jù)更新網(wǎng)絡(luò)的歸一化參數(shù)。然后我們使用置信度過(guò)濾偽標(biāo)簽并針對(duì)某些轉(zhuǎn)換強(qiáng)制執(zhí)行一致性。盡管非常簡(jiǎn)單和直觀,但與直接將源模型應(yīng)用于目標(biāo)數(shù)據(jù)相比,我們的框架能夠?qū)崿F(xiàn)顯著的性能提升,正如我們廣泛的實(shí)驗(yàn)和消融研究所反映的那樣。事實(shí)上,性能與最近使用源數(shù)據(jù)進(jìn)行自適應(yīng)的最先進(jìn)方法僅相差幾分。我們進(jìn)一步證明了所提出的完全測(cè)試時(shí)間適應(yīng)設(shè)置方法的普遍性,其中我們不需要任何目標(biāo)訓(xùn)練數(shù)據(jù)并且僅在測(cè)試時(shí)間進(jìn)行適應(yīng)。
* 題目: Separated Contrastive Learning for Organ-at-Risk and Gross-Tumor-Volume Segmentation with Limited Annotation
* 鏈接:
https://arxiv.org/abs/2112.02743* 作者: Jiacheng Wang,Xiaomeng Li,Yiming Han,Jing Qin,Liansheng Wang,Qichao Zhou
* 其他: Accepted in AAAI-22
* 摘要: 危險(xiǎn)器官(OAR)和總腫瘤體積(GTV)的自動(dòng)勾畫(huà)對(duì)于放射治療計(jì)劃具有重要意義。然而,在有限的像素(體素)注釋下學(xué)習(xí)用于準(zhǔn)確描繪的強(qiáng)大表示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。像素級(jí)的對(duì)比學(xué)習(xí)可以通過(guò)從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)密集表示來(lái)減輕對(duì)注釋的依賴。最近在這個(gè)方向上的研究設(shè)計(jì)了特征圖上的各種對(duì)比損失,以產(chǎn)生地圖中每個(gè)像素的判別特征。然而,同一地圖中的像素不可避免地共享語(yǔ)義比實(shí)際更接近,這可能會(huì)影響同一地圖中像素的辨別力,并導(dǎo)致與其他地圖中像素的不公平比較。針對(duì)這些問(wèn)題,我們提出了一種分離的區(qū)域級(jí)對(duì)比學(xué)習(xí)方案,即SepaReg,其核心是將每幅圖像分成區(qū)域并分別對(duì)每個(gè)區(qū)域進(jìn)行編碼。具體來(lái)說(shuō),SepaReg 包括兩個(gè)組件:結(jié)構(gòu)感知圖像分離 (SIS) 模塊和器官內(nèi)和器官間蒸餾 (IID) 模塊。 SIS 被提議對(duì)圖像集進(jìn)行操作,以在結(jié)構(gòu)信息的指導(dǎo)下重建一個(gè)區(qū)域集。器官間表示將通過(guò)典型的跨區(qū)域?qū)Ρ葥p失從該集合中學(xué)習(xí)。另一方面,IID 被提議通過(guò)利用器官內(nèi)表示來(lái)解決區(qū)域集中的數(shù)量不平衡,因?yàn)槲⑿∑鞴倏赡墚a(chǎn)生較少的區(qū)域。我們進(jìn)行了廣泛的實(shí)驗(yàn),以在一個(gè)公共數(shù)據(jù)集和兩個(gè)私有數(shù)據(jù)集上評(píng)估所提出的模型。實(shí)驗(yàn)結(jié)果證明了所提出模型的有效性,始終比最先進(jìn)的方法獲得更好的性能。此 https URL 提供代碼。
* 題目: Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised Medical Image Segmentation
* 鏈接:
https://arxiv.org/abs/2112.02508* 作者: Yichi Zhang,Qingcheng Liao,Rushi Jiao,Jicong Zhang
* 摘要: 醫(yī)學(xué)圖像分割是許多臨床方法中的基本和關(guān)鍵步驟。半監(jiān)督學(xué)習(xí)已被廣泛應(yīng)用于醫(yī)學(xué)圖像分割任務(wù),因?yàn)樗鼫p輕了獲取專家檢查注釋的沉重負(fù)擔(dān),并利用了更容易獲取的未標(biāo)記數(shù)據(jù)的優(yōu)勢(shì)。盡管一致性學(xué)習(xí)已被證明是一種通過(guò)在不同分布下強(qiáng)制預(yù)測(cè)不變性的有效方法,但現(xiàn)有方法無(wú)法充分利用來(lái)自未標(biāo)記數(shù)據(jù)的區(qū)域級(jí)形狀約束和邊界級(jí)距離信息。在本文中,我們提出了一種新的不確定性引導(dǎo)的相互一致性學(xué)習(xí)框架,通過(guò)集成從任務(wù)級(jí)正則化到自集成的最新預(yù)測(cè)的任務(wù)內(nèi)一致性學(xué)習(xí)和跨任務(wù)一致性學(xué)習(xí),有效地利用未標(biāo)記的數(shù)據(jù)。利用幾何形狀信息。該框架以估計(jì)的模型分割不確定性為指導(dǎo),選擇出相對(duì)確定的預(yù)測(cè)進(jìn)行一致性學(xué)習(xí),從而有效地從未標(biāo)記的數(shù)據(jù)中挖掘出更可靠的信息。我們?cè)趦蓚€(gè)公開(kāi)可用的基準(zhǔn)數(shù)據(jù)集上廣泛驗(yàn)證了我們提出的方法:左心房分割 (LA) 數(shù)據(jù)集和腦腫瘤分割 (BraTS) 數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,我們的方法通過(guò)利用未標(biāo)記的數(shù)據(jù)實(shí)現(xiàn)了性能提升,并且優(yōu)于現(xiàn)有的半監(jiān)督分割方法。
* 題目: Classification of COVID-19 on chest X-Ray images using Deep Learning model with Histogram Equalization and Lungs Segmentation
* 鏈接:
https://arxiv.org/abs/2112.02478* 作者: Hitendra Singh Bhadouria,Krishan Kumar,Aman Swaraj,Karan Verma,Arshpreet Kaur,Shasvat Sharma,Ghanshyam Singh,Ashok Kumar,Leandro Melo de Sales
* 其他: Total number of words of the manuscript- 6577 The number of words of the abstract- 238 The number of figures- 8 The number of tables- 10
* 摘要: 背景和目的:人工智能 (AI) 方法與生物醫(yī)學(xué)分析相結(jié)合,在大流行期間發(fā)揮著關(guān)鍵作用,因?yàn)樗兄诰徑忉t(yī)療保健系統(tǒng)和醫(yī)生的巨大壓力。隨著巴西和印度等人口稠密且檢測(cè)試劑盒不足的國(guó)家持續(xù)發(fā)生的 COVID-19 危機(jī)惡化,放射成像可以作為重要的診斷工具,對(duì) COVID-19 患者進(jìn)行準(zhǔn)確分類,并在適當(dāng)?shù)臅r(shí)候開(kāi)出必要的治療處方。出于這個(gè)動(dòng)機(jī),我們提出了基于深度學(xué)習(xí)架構(gòu)的研究,用于使用胸部 X 光檢測(cè)感染 covid-19 的肺部。數(shù)據(jù)集:我們收集了三個(gè)不同類別標(biāo)簽的總共 2470 張圖像,即健康肺、普通肺炎和 covid-19 感染性肺炎,其中 470 張 X 射線圖像屬于 covid-19 類別。方法:我們首先使用直方圖均衡技術(shù)對(duì)所有圖像進(jìn)行預(yù)處理,并使用 U-net 架構(gòu)對(duì)它們進(jìn)行分割。然后使用 VGG-16 網(wǎng)絡(luò)從預(yù)處理圖像中提取特征,然后通過(guò) SMOTE 過(guò)采樣技術(shù)進(jìn)一步采樣以實(shí)現(xiàn)平衡的數(shù)據(jù)集。最后,使用具有 10 倍交叉驗(yàn)證的支持向量機(jī) (SVM) 分類器對(duì)類平衡特征進(jìn)行分類,并評(píng)估準(zhǔn)確性。結(jié)果和結(jié)論:我們的新方法結(jié)合了眾所周知的預(yù)處理技術(shù)、特征提取方法和數(shù)據(jù)集平衡方法,使我們?cè)?2470 張 X 射線圖像的數(shù)據(jù)集上對(duì) COVID-19 圖像的識(shí)別率達(dá)到了 98% .因此,我們的模型適合用于醫(yī)療機(jī)構(gòu)進(jìn)行篩查。
* 題目: Echocardiography Segmentation with Enforced Temporal Consistency
* 鏈接:
https://arxiv.org/abs/2112.02102* 作者: Nathan Painchaud,Nicolas Duchateau,Olivier Bernard,Pierre-Marc Jodoin
* 其他: 10 pages, submitted to IEEE TMI
* 摘要: 卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已經(jīng)證明了它們分割 2D 心臟超聲圖像的能力。然而,盡管最近取得了成功,根據(jù)已經(jīng)達(dá)到了舒張末期和收縮末期圖像的觀察者內(nèi)可變性,CNN 仍然努力利用時(shí)間信息在整個(gè)周期中提供準(zhǔn)確和時(shí)間一致的分割圖。準(zhǔn)確描述心臟功能需要這種一致性,這是診斷許多心血管疾病的必要步驟。在本文中,我們提出了一個(gè)框架來(lái)學(xué)習(xí) 2D + 時(shí)間長(zhǎng)軸心臟形狀,以便分段序列可以從時(shí)間和解剖一致性約束中受益。我們的方法是一種后處理,它將任何最先進(jìn)的方法產(chǎn)生的分段超聲心動(dòng)圖序列作為輸入,并分兩步處理,以 (i) 根據(jù)心臟序列的整體動(dòng)態(tài)識(shí)別時(shí)空不一致,以及(ii) 糾正不一致之處。心臟不一致的識(shí)別和糾正依賴于受過(guò)訓(xùn)練的約束自編碼器,以學(xué)習(xí)心臟形狀的生理可解釋嵌入,我們可以在其中檢測(cè)和修復(fù)異常。我們?cè)趤?lái)自 CAMUS 數(shù)據(jù)集的 98 個(gè)全周期序列上測(cè)試了我們的框架,這些序列將與本文一起公開(kāi)。我們的時(shí)間正則化方法不僅提高了整個(gè)序列分割的準(zhǔn)確性,而且還加強(qiáng)了時(shí)間和解剖學(xué)的一致性。
* 題目: View-Consistent Metal Segmentation in the Projection Domain for Metal Artifact Reduction in CBCT -- An Investigation of Potential Improvement
* 鏈接:
https://arxiv.org/abs/2112.02101* 作者: Tristan M. Gottschalk,Andreas Maier,Florian Kordon,Bj?rn W. Kreher
* 其他: Accepted for publication at the Journal of Machine Learning for Biomedical Imaging (MELBA)
* 摘要: 創(chuàng)傷干預(yù)的積極結(jié)果取決于對(duì)插入的金屬植入物的術(shù)中評(píng)估。由于發(fā)生金屬偽影,此評(píng)估的質(zhì)量在很大程度上取決于所謂的金屬偽影減少方法 (MAR) 的性能。大多數(shù)這些 MAR 方法需要對(duì)插入的金屬物體進(jìn)行事先分割。因此,盡管存在一些主要缺點(diǎn),但通常在重建的 3D 體積中應(yīng)用相當(dāng)簡(jiǎn)單的基于閾值的分割方法。通過(guò)本出版物,研究了將分割任務(wù)轉(zhuǎn)變?yōu)榛趯W(xué)習(xí)的、基于視圖一致的基于 2D 投影的下游 MAR 結(jié)果方法的潛力。為了分割目前的金屬,檢查了一個(gè)相當(dāng)簡(jiǎn)單的基于學(xué)習(xí)的 2D 投影分割網(wǎng)絡(luò),該網(wǎng)絡(luò)使用在尸體研究期間獲得的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練。為了克服 2D 投影方式分割帶來(lái)的缺點(diǎn),提出了一致性過(guò)濾器。通過(guò)將標(biāo)準(zhǔn) fsMAR 的結(jié)果與使用新分割掩碼的修改后的 fsMAR 版本的結(jié)果進(jìn)行比較,研究了移位分割域的影響。通過(guò)對(duì)真實(shí)尸體數(shù)據(jù)的定量和定性評(píng)估,所研究的方法顯示出更高的 MAR 性能和對(duì)金屬制品的高度不敏感性。對(duì)于重建的 FoV 之外的金屬情況或金屬消失的情況,可以顯示偽影顯著減少。因此,增加了大約 3 dB w.r.t.實(shí)現(xiàn)了所有切片的平均 PSNR 指標(biāo)以及單個(gè)切片的高達(dá) 9 dB。顯示的結(jié)果揭示了轉(zhuǎn)向基于 2D 的分割方法對(duì)真實(shí)數(shù)據(jù)的有益影響,用于下游使用 MAR 方法,如 fsMAR。
非強(qiáng)監(jiān)督
* 題目: Anomaly Detection in IR Images of PV Modules using Supervised Contrastive Learning
* 鏈接:
https://arxiv.org/abs/2112.02922* 作者: Lukas Bommes,Mathis Hoffmann,Claudia Buerhop-Lutz,Tobias Pickel,Jens Hauch,Christoph Brabec,Andreas Maier,Ian Marius Peters
* 摘要: 越來(lái)越多的光伏 (PV) 工廠的部署需要在模態(tài)中自動(dòng)檢測(cè)故障光伏模塊的方法,例如紅外 (IR) 圖像。最近,深度學(xué)習(xí)因此變得流行起來(lái)。然而,相關(guān)工作通常從相同的分布中采樣訓(xùn)練和測(cè)試數(shù)據(jù),而忽略了不同光伏電站數(shù)據(jù)之間域偏移的存在。相反,我們將故障檢測(cè)構(gòu)建為更現(xiàn)實(shí)的無(wú)監(jiān)督域適應(yīng)問(wèn)題,我們對(duì)一個(gè)源光伏電站的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,并對(duì)另一個(gè)目標(biāo)電站進(jìn)行預(yù)測(cè)。我們訓(xùn)練一個(gè)具有監(jiān)督對(duì)比損失的 ResNet-34 卷積神經(jīng)網(wǎng)絡(luò),在此基礎(chǔ)上我們使用 k-最近鄰分類器來(lái)檢測(cè)異常。我們的方法在四個(gè)源和目標(biāo)數(shù)據(jù)集的九種組合上實(shí)現(xiàn)了 73.3% 到 96.6% 的令人滿意的區(qū)域,其中包含 292 萬(wàn)張紅外圖像,其中 8.5% 是異常的。在某些情況下,它甚至優(yōu)于二元交叉熵分類器。使用固定的決策閾值,這會(huì)分別導(dǎo)致 79.4% 和 77.1% 正確分類正常和異常圖像。大多數(shù)錯(cuò)誤分類的異常嚴(yán)重程度較低,例如熱二極管和小熱點(diǎn)。我們的方法對(duì)超參數(shù)設(shè)置不敏感,收斂快速且可靠地檢測(cè)未知類型的異常,使其非常適合實(shí)踐??赡艿挠猛臼窃谧詣?dòng)光伏電站檢查系統(tǒng)中,或通過(guò)過(guò)濾掉正常圖像來(lái)簡(jiǎn)化 IR 數(shù)據(jù)集的手動(dòng)標(biāo)記。此外,我們的工作為社區(qū)提供了一個(gè)更現(xiàn)實(shí)的觀點(diǎn),即使用無(wú)監(jiān)督域適應(yīng)來(lái)開(kāi)發(fā)具有良好泛化能力的更高效的方法來(lái)檢測(cè)光伏模塊故障。
* 題目: A Tale of Color Variants: Representation and Self-Supervised Learning in Fashion E-Commerce
* 鏈接:
https://arxiv.org/abs/2112.02910* 作者: Ujjal Kr Dutta,Sandeep Repakula,Maulik Parmar,Abhinav Ravi
* 其他: In Annual Conference on Innovative Applications of Artificial Intelligence (IAAI)/ AAAI Conference on Artificial Intelligence (AAAI) 2022. arXiv admin note: substantial text overlap with arXiv:2104.08581
* 摘要: 在本文中,我們解決了時(shí)尚電子商務(wù)中的一個(gè)關(guān)鍵問(wèn)題(關(guān)于客戶體驗(yàn)和收入):顏色變體識(shí)別,即識(shí)別與其設(shè)計(jì)(或風(fēng)格)完全匹配的時(shí)尚產(chǎn)品,但僅用于它們的顏色不同。我們提出了一個(gè)通用框架,該框架以深度視覺(jué)表示學(xué)習(xí)為核心,為我們的時(shí)尚電子商務(wù)平臺(tái)解決這個(gè)問(wèn)題。我們的框架可以用手動(dòng)獲得的三元組形式的監(jiān)督信號(hào)進(jìn)行訓(xùn)練。然而,在捕獲所有困難的極端情況的同時(shí),為通常出現(xiàn)在我們這樣的時(shí)尚電子商務(wù)平臺(tái)中的整個(gè)龐大數(shù)據(jù)集進(jìn)行手動(dòng)注釋是不可行的。但是,有趣的是,我們發(fā)現(xiàn)時(shí)尚電子商務(wù)中的這個(gè)關(guān)鍵問(wèn)題也可以通過(guò)簡(jiǎn)單的基于顏色抖動(dòng)的圖像增強(qiáng)來(lái)解決,這種增強(qiáng)最近在對(duì)比性自監(jiān)督學(xué)習(xí) (SSL) 文獻(xiàn)中廣為流行,旨在在不使用手動(dòng)標(biāo)簽的情況下學(xué)習(xí)視覺(jué)表示。這自然會(huì)導(dǎo)致我們想到一個(gè)問(wèn)題:我們能否在我們的用例中利用 SSL,并且仍然獲得與我們的監(jiān)督框架相當(dāng)?shù)男阅??答案是,是的!因?yàn)椋伾凅w的時(shí)尚對(duì)象只不過(guò)是一種風(fēng)格的表現(xiàn),以不同的顏色,經(jīng)過(guò)訓(xùn)練對(duì)顏色保持不變的模型(有或沒(méi)有監(jiān)督),應(yīng)該能夠識(shí)別這一點(diǎn)!這就是本文在評(píng)估一些最先進(jìn)的 SSL 技術(shù)并提出一種新方法的同時(shí),在定性和定量方面進(jìn)一步證明的內(nèi)容。
* 題目: A Dataset-free Self-supervised Disentangled Learning Method for Adaptive Infrared and Visible Images Super-resolution Fusion
* 鏈接:
https://arxiv.org/abs/2112.02869* 作者: Yuanjie Gu,Zhibo Xiao,Hailun Wang,Cheng Liu,Shouyu Wang
* 其他: 10 pages, 9 figures
* 摘要: 本研究提出了一種基于物理模型的新型通用無(wú)數(shù)據(jù)集自監(jiān)督學(xué)習(xí)框架,名為自監(jiān)督解開(kāi)學(xué)習(xí) (SDL),并提出了一種名為 Deep Retinex fusion (DRF) 的新方法,該方法將 SDL 框架與生成網(wǎng)絡(luò)和 Retinex 結(jié)合使用紅外和可見(jiàn)光圖像超分辨率融合理論。同時(shí),設(shè)計(jì)了生成雙路徑融合網(wǎng)絡(luò) ZipperNet 和自適應(yīng)融合損失函數(shù) Retinex loss,以實(shí)現(xiàn)有效的高質(zhì)量融合。 DRF(基于SDL)的核心思想由兩部分組成:一是使用生成網(wǎng)絡(luò)生成從物理模型中解開(kāi)出來(lái)的組件;另一種是基于物理關(guān)系設(shè)計(jì)的損失函數(shù),生成的組件在訓(xùn)練階段通過(guò)損失函數(shù)組合。此外,為了驗(yàn)證我們提出的 DRF 的有效性,在三個(gè)不同的紅外和可見(jiàn)光數(shù)據(jù)集上進(jìn)行了與六種最先進(jìn)方法的定性和定量比較。我們的代碼很快就會(huì)在這個(gè) https URL 上開(kāi)源。
* 題目: Clue Me In: Semi-Supervised FGVC with Out-of-Distribution Data
* 鏈接:
https://arxiv.org/abs/2112.02825* 作者: Ruoyi Du,Dongliang Chang,Zhanyu Ma,Yi-Zhe Song,Jun Guo
* 摘要: 盡管在細(xì)粒度視覺(jué)分類 (FGVC) 方面取得了長(zhǎng)足的進(jìn)步,但當(dāng)前的方法仍然嚴(yán)重依賴于需要大量專家標(biāo)簽的全監(jiān)督范式。半監(jiān)督學(xué)習(xí) (SSL) 技術(shù)從未標(biāo)記的數(shù)據(jù)中獲取知識(shí),提供了一種相當(dāng)可觀的方法,并在粗粒度問(wèn)題上顯示出巨大的前景。然而,現(xiàn)有的 SSL 范式大多假設(shè)分布內(nèi)(即類別對(duì)齊)未標(biāo)記數(shù)據(jù),這阻礙了它們?cè)?FGVC 上重新提出時(shí)的有效性。在本文中,我們提出了一種新穎的設(shè)計(jì),專門(mén)針對(duì)使分布外數(shù)據(jù)適用于半監(jiān)督 FGVC,即“將它們引入”。我們提出了一個(gè)重要假設(shè),即所有細(xì)粒度類別都自然地遵循層次結(jié)構(gòu)(例如,涵蓋所有鳥(niǎo)類物種的“Aves”的系統(tǒng)發(fā)育樹(shù))。因此,我們可以代替對(duì)單個(gè)樣本進(jìn)行操作,而是預(yù)測(cè)此樹(shù)結(jié)構(gòu)內(nèi)的樣本關(guān)系,作為 SSL 的優(yōu)化目標(biāo)。除此之外,我們進(jìn)一步引入了這些樹(shù)結(jié)構(gòu)帶來(lái)的兩種獨(dú)特的策略,以實(shí)現(xiàn)樣本間一致性正則化和可靠的偽關(guān)系。我們的實(shí)驗(yàn)結(jié)果表明(i)所提出的方法對(duì)分布外數(shù)據(jù)具有良好的魯棒性,并且(ii)它可以配備現(xiàn)有技術(shù),提高它們的性能,從而產(chǎn)生最先進(jìn)的結(jié)果。此 https URL 提供代碼。
* 題目: Gated2Gated: Self-Supervised Depth Estimation from Gated Images
* 鏈接:
https://arxiv.org/abs/2112.02416* 作者: Amanpreet Walia,Stefanie Walz,Mario Bijelic,Fahim Mannan,Frank Julca-Aguilar,Michael Langer,Werner Ritter,Felix Heide
* 其他: 11 pages, 6 Figures
* 摘要: 門(mén)控相機(jī)有望作為具有高分辨率 3D 深度的激光雷達(dá)傳感器的替代方案,該傳感器對(duì)霧、雪和雨中的反向散射具有強(qiáng)大的抵抗力。門(mén)控成像器不像脈沖 LiDAR 傳感器那樣順序掃描場(chǎng)景并通過(guò)光子飛行時(shí)間直接記錄深度,而是根據(jù)少數(shù)門(mén)控切片的相對(duì)強(qiáng)度對(duì)深度進(jìn)行編碼,以百萬(wàn)像素分辨率捕獲。盡管現(xiàn)有方法已經(jīng)表明可以從此類測(cè)量中解碼高分辨率深度,但這些方法需要同步和校準(zhǔn)的 LiDAR 來(lái)監(jiān)督門(mén)控深度解碼器——禁止跨地域快速采用、對(duì)大型未配對(duì)數(shù)據(jù)集進(jìn)行培訓(xùn)以及探索替代應(yīng)用汽車(chē)用例之外。在這項(xiàng)工作中,我們填補(bǔ)了這一空白并提出了一種完全自我監(jiān)督的深度估計(jì)方法,該方法使用門(mén)控強(qiáng)度分布和時(shí)間一致性作為訓(xùn)練信號(hào)。所提出的模型是從門(mén)控視頻序列端到端訓(xùn)練的,不需要 LiDAR 或 RGB 數(shù)據(jù),并學(xué)習(xí)估計(jì)絕對(duì)深度值。我們將門(mén)控切片作為輸入并解開(kāi)對(duì)場(chǎng)景反照率、深度和環(huán)境光的估計(jì),然后將其用于學(xué)習(xí)通過(guò)循環(huán)損失重建輸入切片。我們依靠給定幀和相鄰門(mén)控切片之間的時(shí)間一致性來(lái)估計(jì)具有陰影和反射的區(qū)域的深度。我們通過(guò)實(shí)驗(yàn)驗(yàn)證,所提出的方法優(yōu)于現(xiàn)有的基于單目 RGB 和立體圖像的監(jiān)督和自監(jiān)督深度估計(jì)方法,以及基于門(mén)控圖像的監(jiān)督方法。
* 題目: Toward Practical Self-Supervised Monocular Indoor Depth Estimation
* 鏈接:
https://arxiv.org/abs/2112.02306* 作者: Cho-Ying Wu,Jialiang Wang,Michael Hall,Ulrich Neumann,Shuochen Su
* 摘要: 大多數(shù)自監(jiān)督的單目深度估計(jì)方法都集中在駕駛場(chǎng)景上。我們表明,這些方法對(duì)看不見(jiàn)的復(fù)雜室內(nèi)場(chǎng)景的泛化能力很差,其中物體在近場(chǎng)中雜亂無(wú)章且任意排列。為了獲得更高的魯棒性,我們提出了一種結(jié)構(gòu)蒸餾方法,從預(yù)訓(xùn)練的深度估計(jì)器中學(xué)習(xí)訣竅,由于其在野外混合數(shù)據(jù)集訓(xùn)練,該方法產(chǎn)生結(jié)構(gòu)化但與度量無(wú)關(guān)的深度。通過(guò)將蒸餾與從左右一致性中學(xué)習(xí)度量的自監(jiān)督分支相結(jié)合,我們獲得了通用室內(nèi)場(chǎng)景的結(jié)構(gòu)化和度量深度,并實(shí)時(shí)進(jìn)行推理。為了便于學(xué)習(xí)和評(píng)估,我們收集了 SimSIN(一個(gè)來(lái)自數(shù)千個(gè)環(huán)境的模擬數(shù)據(jù)集)和 UniSIN(一個(gè)包含大約 500 個(gè)通用室內(nèi)環(huán)境真實(shí)掃描序列的數(shù)據(jù)集)的數(shù)據(jù)集。我們?cè)谀M到真實(shí)和真實(shí)到真實(shí)的設(shè)置中進(jìn)行實(shí)驗(yàn),并在定性和定量方面以及在使用我們的深度圖的下游應(yīng)用中展示改進(jìn)。這項(xiàng)工作提供了一個(gè)完整的研究,涵蓋了方法、數(shù)據(jù)和應(yīng)用。我們相信這項(xiàng)工作為通過(guò)自我監(jiān)督進(jìn)行實(shí)際室內(nèi)深度估計(jì)奠定了堅(jiān)實(shí)的基礎(chǔ)。
* 題目: Unsupervised Domain Generalization by Learning a Bridge Across Domains
* 鏈接:
https://arxiv.org/abs/2112.02300* 作者: Sivan Harary,Eli Schwartz,Assaf Arbelle,Peter Staar,Shady Abu-Hussein,Elad Amrani,Roei Herzig,Amit Alfassy,Raja Giryes,Hilde Kuehne,Dina Katabi,Kate Saenko,Rogerio Feris,Leonid Karlinsky
* 摘要: 在顯著不同的視覺(jué)領(lǐng)域(例如真實(shí)照片、剪貼畫(huà)、繪畫(huà)和草圖之間)概括學(xué)習(xí)表示的能力是人類視覺(jué)系統(tǒng)的基本能力。在本文中,與大多數(shù)利用一些(或完整)源域監(jiān)督的跨域工作不同,我們采用了一種相對(duì)較新且非常實(shí)用的無(wú)監(jiān)督域泛化 (UDG) 設(shè)置,即在源域和目標(biāo)域都沒(méi)有訓(xùn)練監(jiān)督。我們的方法基于跨域橋 (BrAD) 的自監(jiān)督學(xué)習(xí) - 一個(gè)輔助橋域,伴隨著一組語(yǔ)義,保留了從每個(gè)訓(xùn)練域到 BrAD 的視覺(jué)(圖像到圖像)映射。 BrAD 及其映射是通過(guò)對(duì)比性自監(jiān)督表示模型聯(lián)合(端到端)學(xué)習(xí)的,該模型在語(yǔ)義上將每個(gè)域與其 BrAD 投影對(duì)齊,因此隱式驅(qū)動(dòng)所有域(可見(jiàn)或不可見(jiàn))到在語(yǔ)義上相互對(duì)齊。在這項(xiàng)工作中,我們展示了如何使用邊緣正則化的 BrAD 我們的方法在多個(gè)基準(zhǔn)測(cè)試和一系列任務(wù)中取得顯著收益,包括 UDG、Few-shot UDA 和跨多域數(shù)據(jù)集的無(wú)監(jiān)督泛化(包括泛化到看不見(jiàn)的域和類)。
* 題目: Ablation study of self-supervised learning for image classification
* 鏈接:
https://arxiv.org/abs/2112.02297* 作者: Ilias Papastratis
* 摘要: 該項(xiàng)目側(cè)重于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 和變換器網(wǎng)絡(luò)的自監(jiān)督訓(xùn)練,用于圖像識(shí)別任務(wù)。使用具有不同主干的簡(jiǎn)單孿生網(wǎng)絡(luò),以最大化來(lái)自同一源圖像的兩個(gè)增強(qiáng)變換圖像的相似性。通過(guò)這種方式,主干能夠在沒(méi)有監(jiān)督的情況下學(xué)習(xí)視覺(jué)信息。最后,該方法在三個(gè)圖像識(shí)別數(shù)據(jù)集上進(jìn)行了評(píng)估。
未分類
* 題目: CSG0: Continual Urban Scene Generation with Zero Forgetting
* 鏈接:
https://arxiv.org/abs/2112.03252* 作者: Himalaya Jain,Tuan-Hung Vu,Patrick Pérez,Matthieu Cord
* 摘要: 隨著生成對(duì)抗網(wǎng)絡(luò) (GAN) 的快速發(fā)展,合成場(chǎng)景的視覺(jué)質(zhì)量不斷提高,包括應(yīng)用于自動(dòng)駕駛的復(fù)雜城市場(chǎng)景。我們?cè)谶@項(xiàng)工作中解決了一個(gè)連續(xù)的場(chǎng)景生成設(shè)置,其中 GAN 在不同域的流上進(jìn)行訓(xùn)練;理想情況下,學(xué)習(xí)模型最終應(yīng)該能夠在所有看到的領(lǐng)域中生成新場(chǎng)景。此設(shè)置反映了在不同時(shí)間在不同地點(diǎn)連續(xù)獲取數(shù)據(jù)的現(xiàn)實(shí)場(chǎng)景。在這樣一個(gè)連續(xù)的設(shè)置中,我們的目標(biāo)是零遺忘學(xué)習(xí),即不會(huì)由于災(zāi)難性遺忘而降低早期領(lǐng)域的合成質(zhì)量。為此,我們引入了一個(gè)新穎的框架,它不僅 (i) 能夠在持續(xù)訓(xùn)練中實(shí)現(xiàn)無(wú)縫的知識(shí)轉(zhuǎn)移,而且 (ii) 以很小的開(kāi)銷(xiāo)成本保證零遺忘。雖然內(nèi)存效率更高,但由于持續(xù)學(xué)習(xí),與為每個(gè)域訓(xùn)練一個(gè)完整模型的蠻力解決方案相比,我們的模型獲得了更好的綜合質(zhì)量。特別是在極低數(shù)據(jù)情況下,我們的方法明顯優(yōu)于蠻力方法。
* 題目: Learning to Reason from General Concepts to Fine-grained Tokens for Discriminative Phrase Detection
* 鏈接:
https://arxiv.org/abs/2112.03237* 作者: Maan Qraitem,Bryan A. Plummer
* 摘要: 短語(yǔ)檢測(cè)需要方法來(lái)識(shí)別短語(yǔ)是否與圖像相關(guān),然后在適用時(shí)對(duì)其進(jìn)行定位。訓(xùn)練更具辨別力的短語(yǔ)檢測(cè)模型的一個(gè)關(guān)鍵挑戰(zhàn)是對(duì)硬負(fù)樣本進(jìn)行采樣。這是因?yàn)楹苌儆卸陶Z(yǔ)注釋可能適用的幾乎無(wú)限的變化。為了解決這個(gè)問(wèn)題,我們引入了 PFP-Net,一種通過(guò)兩種新方法區(qū)分短語(yǔ)的短語(yǔ)檢測(cè)器。首先,我們將相關(guān)對(duì)象的短語(yǔ)組合成視覺(jué)連貫概念的粗組(例如動(dòng)物與汽車(chē)),然后訓(xùn)練我們的 PFP-Net 以根據(jù)它們的概念成員來(lái)區(qū)分它們。其次,對(duì)于包含細(xì)粒度互斥標(biāo)記(例如顏色)的短語(yǔ),我們強(qiáng)制模型為每個(gè)區(qū)域只選擇一個(gè)適用的短語(yǔ)。我們?cè)?Flickr30K 實(shí)體和 RefCOCO+ 數(shù)據(jù)集上評(píng)估我們的方法,在這項(xiàng)具有挑戰(zhàn)性的任務(wù)中,我們將 mAP 比最先進(jìn)的技術(shù)提高了 1-1.5 分。當(dāng)僅考慮受我們的細(xì)粒度推理模塊影響的短語(yǔ)時(shí),我們?cè)趦蓚€(gè)數(shù)據(jù)集上都提高了 1-4 分。
* 題目: Context-Aware Transfer Attacks for Object Detection
* 鏈接:
https://arxiv.org/abs/2112.03223* 作者: Zikui Cai,Xinxin Xie,Shasha Li,Mingjun Yin,Chengyu Song,Srikanth V. Krishnamurthy,Amit K. Roy-Chowdhury,M. Salman Asif
* 其他: accepted to AAAI 2022
* 摘要: 近年來(lái),對(duì)圖像分類器的黑盒傳輸攻擊進(jìn)行了廣泛的研究。相比之下,對(duì)象檢測(cè)器的轉(zhuǎn)移攻擊幾乎沒(méi)有取得任何進(jìn)展。對(duì)象檢測(cè)器對(duì)圖像進(jìn)行整體觀察,對(duì)一個(gè)對(duì)象(或缺少對(duì)象)的檢測(cè)通常取決于場(chǎng)景中的其他對(duì)象。這使得此類檢測(cè)器在該領(lǐng)域內(nèi)固有的上下文感知和對(duì)抗性攻擊比針對(duì)圖像分類器的檢測(cè)器更具挑戰(zhàn)性。在本文中,我們提出了一種為對(duì)象檢測(cè)器生成上下文感知攻擊的新方法。我們表明,通過(guò)使用對(duì)象的共現(xiàn)及其相對(duì)位置和大小作為上下文信息,我們可以成功生成有針對(duì)性的錯(cuò)誤分類攻擊,在黑盒對(duì)象檢測(cè)器上實(shí)現(xiàn)比最先進(jìn)的傳輸成功率更高的傳輸成功率。我們使用來(lái)自 PASCAL VOC 和 MS COCO 數(shù)據(jù)集的圖像在各種對(duì)象檢測(cè)器上測(cè)試我們的方法,并證明與其他最先進(jìn)的方法相比,性能提高了 20 美元。
* 題目: Text2Mesh: Text-Driven Neural Stylization for Meshes
* 鏈接:
https://arxiv.org/abs/2112.03221* 作者: Oscar Michel,Roi Bar-On,Richard Liu,Sagie Benaim,Rana Hanocka
* 其他: project page: this https URL
* 摘要: 在這項(xiàng)工作中,我們開(kāi)發(fā)了用于編輯 3D 對(duì)象樣式的直觀控件。我們的框架 Text2Mesh 通過(guò)預(yù)測(cè)符合目標(biāo)文本提示的顏色和局部幾何細(xì)節(jié)來(lái)風(fēng)格化 3D 網(wǎng)格。我們考慮使用固定網(wǎng)格輸入(內(nèi)容)和學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)(我們將其稱為神經(jīng)風(fēng)格場(chǎng)網(wǎng)絡(luò))對(duì) 3D 對(duì)象的解開(kāi)表示。為了修改樣式,我們通過(guò)利用 CLIP 的表示能力來(lái)獲得文本提示(描述樣式)和風(fēng)格化網(wǎng)格之間的相似性分?jǐn)?shù)。 Text2Mesh 既不需要預(yù)先訓(xùn)練的生成模型,也不需要專門(mén)的 3D 網(wǎng)格數(shù)據(jù)集。它可以處理具有任意類的低質(zhì)量網(wǎng)格(非流形、邊界等),并且不需要 UV 參數(shù)化。我們展示了我們的技術(shù)在各種 3D 網(wǎng)格上合成無(wú)數(shù)樣式的能力。
* 題目: Simultaneously Predicting Multiple Plant Traits from Multiple Sensors via Deformable CNN Regression
* 鏈接:
https://arxiv.org/abs/2112.03205* 作者: Pranav Raja,Alex Olenskyj,Hamid Kamangir,Mason Earles
* 摘要: 性狀測(cè)量對(duì)于植物育種和農(nóng)業(yè)生產(chǎn)管道至關(guān)重要。通常,使用費(fèi)力的手動(dòng)測(cè)量來(lái)測(cè)量一組植物性狀,然后用于訓(xùn)練和/或驗(yàn)證更高吞吐量的性狀估計(jì)技術(shù)。在這里,我們介紹了一個(gè)相對(duì)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 模型,該模型接受多個(gè)傳感器輸入并預(yù)測(cè)多個(gè)連續(xù)特征輸出——即多輸入多輸出 CNN (MIMO-CNN)。此外,我們將可變形卷積層引入到該網(wǎng)絡(luò)架構(gòu) (MIMO-DCNN) 中,使模型能夠自適應(yīng)地調(diào)整其感受野,對(duì)數(shù)據(jù)中的復(fù)雜變量幾何變換進(jìn)行建模,并對(duì)連續(xù)特征輸出進(jìn)行微調(diào)。我們研究了 MIMO-CNN 和 MIMO-DCNN 模型如何在來(lái)自 2021 年自主溫室挑戰(zhàn)的多輸入(即 RGB 和深度圖像)、多特征輸出生菜數(shù)據(jù)集上執(zhí)行。進(jìn)行消融研究以檢查使用單輸入與多輸入以及單輸出與多輸出的效果。 MIMO-DCNN 模型的歸一化均方誤差 (NMSE) 為 0.068,比 2021 年排行榜的前 0.081 分有了實(shí)質(zhì)性的提高。提供開(kāi)源代碼。
* 題目: HIVE: Evaluating the Human Interpretability of Visual Explanations
* 鏈接:
https://arxiv.org/abs/2112.03184* 作者: Sunnie S. Y. Kim,Nicole Meister,Vikram V. Ramaswamy,Ruth Fong,Olga Russakovsky
* 其他: HIVE can be found at this https URL
* 摘要: 隨著機(jī)器學(xué)習(xí)越來(lái)越多地應(yīng)用于高影響、高風(fēng)險(xiǎn)領(lǐng)域,出現(xiàn)了許多旨在使人工智能模型更易于人類解釋的新方法。盡管最近可解釋性工作有所增長(zhǎng),但缺乏對(duì)提議技術(shù)的系統(tǒng)評(píng)估。在這項(xiàng)工作中,我們?yōu)橛?jì)算機(jī)視覺(jué)中的多種可解釋性方法提出了一種新的人類評(píng)估框架 HIVE(視覺(jué)解釋的人類可解釋性);據(jù)我們所知,這是同類作品中的第一部。我們認(rèn)為,人類研究應(yīng)該是正確評(píng)估一種方法對(duì)人類用戶的可解釋性的黃金標(biāo)準(zhǔn)。雖然由于與成本、研究設(shè)計(jì)和跨方法比較相關(guān)的挑戰(zhàn),經(jīng)常避免人類研究,但我們描述了我們的框架如何緩解這些問(wèn)題,并對(duì)代表可解釋性工作多樣性的四種方法進(jìn)行 IRB 批準(zhǔn)的研究:GradCAM、BagNet 、ProtoPNet 和 ProtoTree。我們的結(jié)果表明,解釋(無(wú)論它們是否真的正確)引起了人類的信任,但不足以讓用戶區(qū)分正確和錯(cuò)誤的預(yù)測(cè)。最后,我們還開(kāi)源了我們的框架,以支持未來(lái)的研究并鼓勵(lì)更多以人為中心的可解釋性方法。
* 題目: Encouraging Disentangled and Convex Representation with Controllable Interpolation Regularization
* 鏈接:
https://arxiv.org/abs/2112.03163* 作者: Yunhao Ge,Zhi Xu,Yao Xiao,Gan Xin,Yunkui Pang,Laurent Itti
* 其他: 14 pages, 15 figure (including appendix)
* 摘要: 我們專注于可控解纏表示學(xué)習(xí)(C-Dis-RL),其中用戶可以控制解纏潛在空間的分區(qū)以分解下游任務(wù)的數(shù)據(jù)集屬性(概念)。當(dāng)前方法中有兩個(gè)普遍問(wèn)題仍未得到充分探索:(1)它們?nèi)狈θ娴慕饫p約束,尤其是缺少跨潛在域和觀察域的不同屬性之間的互信息的最小化。 (2)它們?cè)诮忾_(kāi)的潛在空間中缺乏凸性約束,這對(duì)于有意義地操縱下游任務(wù)的特定屬性很重要。為了同時(shí)鼓勵(lì)全面的 C-Dis-RL 和凸性,我們提出了一種簡(jiǎn)單而有效的方法:可控插值正則化 (CIR),它創(chuàng)建了一個(gè)正循環(huán),其中解纏結(jié)和凸性可以相互幫助。具體來(lái)說(shuō),我們?cè)谟?xùn)練期間在潛在空間中進(jìn)行受控插值,并“重用”編碼器以幫助形成“完美解開(kāi)”正則化。在這種情況下,(a)解開(kāi)損失隱含地?cái)U(kuò)大了潛在的“可理解”分布以鼓勵(lì)凸性; (b) 凸性反過(guò)來(lái)可以提高魯棒性和精確性。 CIR 是一個(gè)通用模塊,我們將 CIR 與三種不同的算法合并:ELEGANT、I2I-Dis 和 GZS-Net,以顯示兼容性和有效性。定性和定量實(shí)驗(yàn)表明 CIR 改善了 C-Dis-RL 和潛在凸性。這進(jìn)一步改進(jìn)了下游任務(wù):可控圖像合成、跨模態(tài)圖像轉(zhuǎn)換和零鏡頭合成。更多的實(shí)驗(yàn)表明,CIR 還可以改進(jìn)其他下游任務(wù),例如新的屬性值挖掘、數(shù)據(jù)增強(qiáng)和消除公平性偏見(jiàn)。
* 題目: Embedding Arithmetic for Text-driven Image Transformation
* 鏈接:
https://arxiv.org/abs/2112.03162* 作者: Guillaume Couairon,Matthieu Cord,Matthijs Douze,Holger Schwenk
* 摘要: 潛在文本表示表現(xiàn)出幾何規(guī)律,例如著名的類比:女王之于國(guó)王,就像女人之于男人一樣。這種結(jié)構(gòu)化的語(yǔ)義關(guān)系沒(méi)有在圖像表示上得到證明。最近的工作旨在彌合這種語(yǔ)義鴻溝,將圖像和文本嵌入到多模態(tài)空間中,從而能夠?qū)⑽谋径x的轉(zhuǎn)換轉(zhuǎn)移到圖像模態(tài)。我們引入了 SIMAT 數(shù)據(jù)集來(lái)評(píng)估文本驅(qū)動(dòng)的圖像轉(zhuǎn)換任務(wù)。 SIMAT 包含 6k 個(gè)圖像和 18k 個(gè)“轉(zhuǎn)換查詢”,旨在替換場(chǎng)景元素或改變它們的成對(duì)關(guān)系。目標(biāo)是檢索與(源圖像、轉(zhuǎn)換)查詢一致的圖像。我們使用圖像/文本匹配預(yù)言機(jī)(OSCAR)來(lái)評(píng)估圖像轉(zhuǎn)換是否成功。 SIMAT 數(shù)據(jù)集將公開(kāi)可用。我們使用 SIMAT 來(lái)證明 vanilla CLIP 多模態(tài)嵌入不太適合文本驅(qū)動(dòng)的圖像轉(zhuǎn)換,但是對(duì) COCO 數(shù)據(jù)集的簡(jiǎn)單微調(diào)可以帶來(lái)顯著的改進(jìn)。我們還研究了利用預(yù)訓(xùn)練通用句子編碼器(FastText、LASER 和 LaBSE)的幾何特性是否有益。
* 題目: Ethics and Creativity in Computer Vision
* 鏈接:
https://arxiv.org/abs/2112.03111* 作者: Negar Rostamzadeh,Emily Denton,Linda Petrini
* 其他: Neural Information Processing System 2021 workshop on Machine Learning for Creativity and Design
* 摘要: 本文回顧了我們?cè)?CVPR 2021 會(huì)議上組織研討會(huì)*計(jì)算機(jī)視覺(jué)創(chuàng)造性應(yīng)用中的倫理考慮* 以及在此之前在 ECCV 舉辦的一系列關(guān)于*時(shí)尚、藝術(shù)和設(shè)計(jì)的計(jì)算機(jī)視覺(jué)* 研討會(huì)的經(jīng)驗(yàn)教訓(xùn)2018、ICCV 2019 和 CVPR 2020。我們希望這種反思能讓藝術(shù)家和機(jī)器學(xué)習(xí)研究人員圍繞計(jì)算機(jī)視覺(jué)創(chuàng)造性應(yīng)用的倫理和社會(huì)維度展開(kāi)對(duì)話。
* 題目: General Facial Representation Learning in a Visual-Linguistic Manner
* 鏈接:
https://arxiv.org/abs/2112.03109* 作者: Yinglin Zheng,Hao Yang,Ting Zhang,Jianmin Bao,Dongdong Chen,Yangyu Huang,Lu Yuan,Dong Chen,Ming Zeng,Fang Wen
* 其他: 15 pages, 5 figures, 12 tables
* 摘要: 如何學(xué)習(xí)一種通用的面部表征來(lái)提升所有面部分析任務(wù)?本文朝著這一目標(biāo)邁出了一步。在本文中,我們研究了預(yù)訓(xùn)練模型在面部分析任務(wù)上的遷移性能,并引入了一個(gè)名為 FaRL 的框架,用于以視覺(jué)語(yǔ)言方式進(jìn)行一般面部表征學(xué)習(xí)。一方面,該框架涉及從圖像-文本對(duì)中學(xué)習(xí)高級(jí)語(yǔ)義的對(duì)比損失。另一方面,我們建議通過(guò)添加蒙版圖像建模,同時(shí)探索低級(jí)信息以進(jìn)一步增強(qiáng)人臉表示。我們對(duì)包含大量人臉圖像-文本對(duì)的數(shù)據(jù)集 LAION-FACE 進(jìn)行預(yù)訓(xùn)練,并評(píng)估多個(gè)下游任務(wù)的表示能力。我們表明,與之前的預(yù)訓(xùn)練模型相比,F(xiàn)aRL 實(shí)現(xiàn)了更好的傳輸性能。我們還驗(yàn)證了它在低數(shù)據(jù)機(jī)制中的優(yōu)越性。更重要的是,我們的模型在人臉?lè)治鋈蝿?wù)(包括人臉解析和人臉對(duì)齊)上超越了最先進(jìn)的方法。
* 題目: Controllable Animation of Fluid Elements in Still Images
* 鏈接:
https://arxiv.org/abs/2112.03051* 作者: Aniruddha Mahapatra,Kuldeep Kulkarni
* 摘要: 我們提出了一種方法來(lái)交互控制靜態(tài)圖像中流體元素的動(dòng)畫(huà)以生成電影圖像。具體來(lái)說(shuō),我們專注于流體元素的動(dòng)畫(huà),如水、煙、火,它們具有重復(fù)紋理和連續(xù)流體運(yùn)動(dòng)的特性。從先前的工作中汲取靈感,我們以恒定 2D 光流圖的形式表示圖像中此類流體元素的運(yùn)動(dòng)。為此,我們?cè)试S用戶提供任意數(shù)量的箭頭方向及其相關(guān)速度以及用戶想要設(shè)置動(dòng)畫(huà)的區(qū)域的掩碼。用戶提供的輸入箭頭方向、它們相應(yīng)的速度值和掩碼然后被轉(zhuǎn)換為表示恒定光流圖 (FD) 的密集流圖。我們觀察到使用簡(jiǎn)單指數(shù)運(yùn)算獲得的 FD 可以非常接近圖像中元素的合理運(yùn)動(dòng)。我們使用生成對(duì)抗網(wǎng)絡(luò) (GAN) 進(jìn)一步細(xì)化計(jì)算的密集光流圖 FD,以獲得更逼真的流圖。我們?cè)O(shè)計(jì)了一種新穎的基于 UNet 的架構(gòu),通過(guò)在不同分辨率下前向扭曲輸入圖像特征,使用改進(jìn)的光流圖自動(dòng)回歸生成未來(lái)幀。我們對(duì)公開(kāi)可用的數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn),并表明我們的方法在定性和定量指標(biāo)方面優(yōu)于基線。此外,我們?cè)谟?xùn)練集中不存在的方向上展示了對(duì)象的定性動(dòng)畫(huà),并提供了一種合成現(xiàn)實(shí)世界中不存在的視頻的方法。
* 題目: Fusion Detection via Distance-Decay IoU and weighted Dempster-Shafer Evidence Theory
* 鏈接:
https://arxiv.org/abs/2112.03044* 作者: Fang Qingyun,Wang Zhaokui
* 其他: 18 pages, 7 pages, under consideration at Journal of Aerospace Information Systems
* 摘要: 近年來(lái),遙感影像中的目標(biāo)檢測(cè)受到越來(lái)越多的關(guān)注。然而,傳統(tǒng)的光學(xué)檢測(cè)極易受到光照和天氣異常的影響。如何有效利用多源遙感影像,尤其是光學(xué)和合成孔徑雷達(dá)影像的跨模態(tài)信息,實(shí)現(xiàn)全天時(shí)、全天候、高精度、高速度的探測(cè)是一個(gè)挑戰(zhàn)。為此,本文提出了一種快速的多源融合檢測(cè)框架。一種新的距離衰減交集被用來(lái)編碼具有尺度不變性的目標(biāo)的形狀特性。因此,多源圖像中的同一目標(biāo)可以準(zhǔn)確配對(duì)。此外,利用加權(quán)Dempster-Shafer證據(jù)理論結(jié)合光學(xué)和合成孔徑雷達(dá)檢測(cè),克服了特征級(jí)融合需要大量配對(duì)數(shù)據(jù)的缺點(diǎn)。此外,還拍攝了在蘇伊士運(yùn)河擱淺的集裝箱船 Ever Given 的光學(xué)和合成孔徑雷達(dá)圖像,以展示我們的融合算法。為了測(cè)試所提出方法的有效性,在自建數(shù)據(jù)集上,所提出的融合檢測(cè)框架的平均精度優(yōu)于光學(xué)檢測(cè)20.13%。
* 題目: Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning
* 鏈接:
https://arxiv.org/abs/2112.03020* 作者: Wenjie Shi,Gao Huang,Shiji Song,Cheng Wu
* 其他: Accepted as a Regular Paper in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
* 摘要: 深度強(qiáng)化學(xué)習(xí) (RL) 代理越來(lái)越精通一系列復(fù)雜的控制任務(wù)。然而,由于引入了黑盒功能,代理的行為通常難以解釋,難以獲得用戶的信任。盡管基于視覺(jué)的 RL 有一些有趣的解釋方法,但大多數(shù)方法無(wú)法揭示時(shí)間因果信息,從而引發(fā)了對(duì)其可靠性的質(zhì)疑。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)時(shí)空因果解釋(TSCI)模型來(lái)理解代理的長(zhǎng)期行為,這對(duì)于順序決策至關(guān)重要。 TSCI 模型建立在時(shí)間因果關(guān)系的公式之上,它反映了 RL 代理的連續(xù)觀察和決策之間的時(shí)間因果關(guān)系。然后采用單獨(dú)的因果發(fā)現(xiàn)網(wǎng)絡(luò)來(lái)識(shí)別時(shí)空因果特征,這些特征被約束以滿足時(shí)間因果關(guān)系。 TSCI 模型適用于循環(huán)代理,一旦訓(xùn)練就可以高效地發(fā)現(xiàn)因果特征。實(shí)證結(jié)果表明,TSCI 模型可以產(chǎn)生高分辨率和清晰的注意力掩碼,以突出與任務(wù)相關(guān)的時(shí)空信息,這些信息構(gòu)成了關(guān)于基于視覺(jué)的 RL 代理如何做出順序決策的大部分證據(jù)。此外,我們進(jìn)一步證明我們的方法能夠從時(shí)間角度為基于視覺(jué)的 RL 代理提供有價(jià)值的因果解釋。
* 題目: Cross-Modality Attentive Feature Fusion for Object Detection in Multispectral Remote Sensing Imagery
* 鏈接:
https://arxiv.org/abs/2112.02991* 作者: Qingyun Fang,Zhaokui Wang
* 其他: 23 pages,11 figures, under consideration at Pattern Recognition
* 摘要: 多光譜遙感圖像對(duì)互補(bǔ)信息的跨模態(tài)融合可以提高檢測(cè)算法的感知能力,使其在夜間檢測(cè)等更廣泛的應(yīng)用中更加穩(wěn)健可靠。與之前的方法相比,我們認(rèn)為應(yīng)該對(duì)不同的特征進(jìn)行具體處理,應(yīng)保留和增強(qiáng)特定于模態(tài)的特征,而應(yīng)從 RGB 和熱紅外模態(tài)中挑選出模態(tài)共享的特征。遵循這個(gè)想法,提出了一種具有聯(lián)合共模態(tài)和微分模態(tài)注意力的新型輕量級(jí)多光譜特征融合方法,稱為跨模態(tài)注意力特征融合(CMAFF)。給定 RGB 和 IR 圖像的中間特征圖,我們的模塊從兩個(gè)獨(dú)立的模態(tài)(共模態(tài)和差分模態(tài))并行推斷注意力圖,然后將注意力圖分別與輸入特征圖相乘以進(jìn)行自適應(yīng)特征增強(qiáng)或選擇。大量實(shí)驗(yàn)表明,我們提出的方法可以以較低的計(jì)算成本實(shí)現(xiàn)最先進(jìn)的性能。
* 題目: The artificial synesthete: Image-melody translations with variational autoencoders
* 鏈接:
https://arxiv.org/abs/2112.02953* 作者: Karl Wienand,Wolfgang M. Heckl
* 其他: 7 pages, 4 figures, supplementary media can be downloaded at this https URL
* 摘要: 摘要 這個(gè)項(xiàng)目提出了一個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)來(lái)在圖像和旋律之間進(jìn)行轉(zhuǎn)換。自編碼器將樣本中的信息壓縮為抽象表示。翻譯網(wǎng)絡(luò)從重復(fù)的聯(lián)合曝光中學(xué)習(xí)音樂(lè)和視覺(jué)概念之間的一組對(duì)應(yīng)關(guān)系。由此產(chǎn)生的“人工聯(lián)覺(jué)者”會(huì)產(chǎn)生受圖像和音樂(lè)圖像啟發(fā)的簡(jiǎn)單旋律。這些是新穎的解釋(不是轉(zhuǎn)置數(shù)據(jù)),表達(dá)了機(jī)器的感知和理解。觀察作品時(shí),人們會(huì)探索機(jī)器的感知,從而探索自己的感知。
* 題目: ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor Extraction
* 鏈接:
https://arxiv.org/abs/2112.02906* 作者: Xiaoming Zhao,Xingming Wu,Jinyu Miao,Weihai Chen,Peter C. Y. Chen,Zhengguo Li
* 其他: 10 pages, 10 figures
* 摘要: 現(xiàn)有方法以不可微分的方式檢測(cè)關(guān)鍵點(diǎn),因此它們不能通過(guò)反向傳播直接優(yōu)化關(guān)鍵點(diǎn)的位置。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)可微的關(guān)鍵點(diǎn)檢測(cè)模塊,它輸出準(zhǔn)確的亞像素關(guān)鍵點(diǎn)。然后提出重投影損失來(lái)直接優(yōu)化這些亞像素關(guān)鍵點(diǎn),并提出分散峰值損失以進(jìn)行準(zhǔn)確的關(guān)鍵點(diǎn)正則化。我們還以亞像素的方式提取描述符,并用穩(wěn)定的神經(jīng)重投影誤差損失訓(xùn)練它們。此外,輕量級(jí)網(wǎng)絡(luò)專為關(guān)鍵點(diǎn)檢測(cè)和描述符提取而設(shè)計(jì),可以在商業(yè) GPU 上以每秒 95 幀的速度運(yùn)行 640x480 圖像。在單應(yīng)性估計(jì)、相機(jī)姿態(tài)估計(jì)和視覺(jué)(重新)定位任務(wù)上,所提出的方法與最先進(jìn)的方法實(shí)現(xiàn)了等效的性能,同時(shí)大大減少了推理時(shí)間。
* 題目: Interpretable Image Classification with Differentiable Prototypes Assignment
* 鏈接:
https://arxiv.org/abs/2112.02902* 作者: Dawid Rymarczyk,?ukasz Struski,Micha? Górszczak,Koryna Lewandowska,Jacek Tabor,Bartosz Zieliński
* 其他: Code will be published after paper acceptance
* 摘要: 我們介紹了 ProtoPool,這是一種可解釋的圖像分類模型,具有類共享的原型池。訓(xùn)練比現(xiàn)有方法更直接,因?yàn)樗恍枰藜綦A段。它是通過(guò)將原型完全可微分配給特定類來(lái)獲得的。此外,我們引入了一個(gè)新的焦點(diǎn)相似度函數(shù)來(lái)將模型集中在罕見(jiàn)的前景特征上。我們展示了 ProtoPool 在 CUB-200-2011 和斯坦福汽車(chē)數(shù)據(jù)集上獲得了最先進(jìn)的準(zhǔn)確性,大大減少了原型的數(shù)量。我們提供了該方法的理論分析和用戶研究,以表明我們的原型比使用競(jìng)爭(zhēng)方法獲得的原型更具特色。
* 題目: Seeing BDD100K in dark: Single-Stage Night-time Object Detection via Continual Fourier Contrastive Learning
* 鏈接:
https://arxiv.org/abs/2112.02891* 作者: Ujjal Kr Dutta
* 摘要: 盡管最先進(jìn)的物體檢測(cè)器有了巨大的改進(jìn),但在夜間解決物體檢測(cè)的研究很少,這也是通過(guò)有限可用論文中的非統(tǒng)一評(píng)估協(xié)議。除了缺乏解決此問(wèn)題的方法外,還缺乏足夠大的基準(zhǔn)數(shù)據(jù)集來(lái)研究夜間目標(biāo)檢測(cè)。最近,推出了大規(guī)模的 BDD100K,我們認(rèn)為應(yīng)該選擇它作為基準(zhǔn),以啟動(dòng)該領(lǐng)域的研究?,F(xiàn)在,談到方法,現(xiàn)有的方法(數(shù)量有限)主要是基于生成圖像翻譯,或者基于圖像增強(qiáng)/照明,這兩者都不是自然的,符合人類在夜間看到物體的方式(通過(guò)專注于物體輪廓)。在本文中,我們彌補(bǔ)了這 3 個(gè)差距:1. 缺乏統(tǒng)一的評(píng)估協(xié)議(使用單級(jí)檢測(cè)器,因?yàn)樗墓πШ托剩?. 選擇用于基準(zhǔn)夜間目標(biāo)檢測(cè)的數(shù)據(jù)集,以及 3 . 一種解決當(dāng)前替代方案局限性的新方法。我們的方法利用基于對(duì)比學(xué)習(xí)的特征提取器,通過(guò)傅立葉變換從頻域借用信息,并以基于持續(xù)學(xué)習(xí)的方式進(jìn)行訓(xùn)練。用于對(duì)象檢測(cè)時(shí)(在微調(diào)分類和回歸層之后)學(xué)習(xí)的特征有助于實(shí)現(xiàn)新的最先進(jìn)的經(jīng)驗(yàn)性能,輕松超越大量競(jìng)爭(zhēng)對(duì)手。
* 題目: SelectAugment: Hierarchical Deterministic Sample Selection for Data Augmentation
* 鏈接:
https://arxiv.org/abs/2112.02862* 作者: Shiqi Lin,Zhizheng Zhang,Xin Li,Wenjun Zeng,Zhibo Chen
* 摘要: 數(shù)據(jù)增強(qiáng)(DA)已被廣泛研究以促進(jìn)許多任務(wù)中的模型優(yōu)化。然而,在大多數(shù)情況下,數(shù)據(jù)增強(qiáng)是針對(duì)每個(gè)訓(xùn)練樣本以一定概率隨機(jī)執(zhí)行的,這可能會(huì)導(dǎo)致內(nèi)容破壞和視覺(jué)歧義。為了消除這種情況,在本文中,我們提出了一種稱為 SelectAugment 的有效方法,可以根據(jù)樣本內(nèi)容和網(wǎng)絡(luò)訓(xùn)練狀態(tài)以確定性和在線方式選擇要增強(qiáng)的樣本。具體來(lái)說(shuō),在每一個(gè)batch中,我們首先確定增強(qiáng)比例,然后決定是否在這個(gè)比例下對(duì)每個(gè)訓(xùn)練樣本進(jìn)行增強(qiáng)。我們將此過(guò)程建模為兩步馬爾可夫決策過(guò)程,并采用分層強(qiáng)化學(xué)習(xí) (HRL) 來(lái)學(xué)習(xí)增強(qiáng)策略。這樣,可以有效地緩解隨機(jī)性在選擇要增廣的樣本時(shí)帶來(lái)的負(fù)面影響,提高 DA 的有效性。大量實(shí)驗(yàn)表明,我們提出的 SelectAugment 可以適應(yīng)多種常用的 DA 方法,例如 Mixup、Cutmix、AutoAugment 等,并提高它們?cè)趫D像分類和細(xì)粒度圖像識(shí)別的多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能。
* 題目: Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook
* 鏈接:
https://arxiv.org/abs/2112.02838* 作者: Sajid Javed,Martin Danelljan,Fahad Shahbaz Khan,Muhammad Haris Khan,Michael Felsberg,Jiri Matas
* 其他: Tracking Survey
* 摘要: 準(zhǔn)確和魯棒的視覺(jué)對(duì)象跟蹤是最具挑戰(zhàn)性和基本的計(jì)算機(jī)視覺(jué)問(wèn)題之一。它需要估計(jì)圖像序列中目標(biāo)的軌跡,僅給定其初始位置和分割,或邊界框形式的粗略近似。判別相關(guān)濾波器 (DCF) 和深度連體網(wǎng)絡(luò) (SN) 已成為主導(dǎo)跟蹤范式,并取得了重大進(jìn)展。隨著過(guò)去十年視覺(jué)對(duì)象跟蹤的快速發(fā)展,本次調(diào)查根據(jù)九個(gè)跟蹤基準(zhǔn)的結(jié)果,對(duì) 90 多個(gè) DCF 和連體跟蹤器進(jìn)行了系統(tǒng)和徹底的審查。首先,我們介紹 DCF 和 Siamese 跟蹤核心公式的背景理論。然后,我們區(qū)分并全面審查這兩種跟蹤范式中共享的和特定的開(kāi)放研究挑戰(zhàn)。此外,我們徹底分析了 DCF 和 Siamese 跟蹤器在九個(gè)基準(zhǔn)上的性能,涵蓋了視覺(jué)跟蹤的不同實(shí)驗(yàn)方面:數(shù)據(jù)集、評(píng)估指標(biāo)、性能和速度比較。我們通過(guò)根據(jù)我們的分析針對(duì)杰出的開(kāi)放挑戰(zhàn)提出建議和建議來(lái)完成調(diào)查。
* 題目: A Generalized Zero-Shot Quantization of Deep Convolutional Neural Networks via Learned Weights Statistics
* 鏈接:
https://arxiv.org/abs/2112.02834* 作者: Prasen Kumar Sharma,Arun Abraham,Vikram Nelvoy Rajendiran
* 其他: Accepted by IEEE Transactions on Multimedia
* 摘要: 將深度卷積神經(jīng)網(wǎng)絡(luò)的浮點(diǎn)權(quán)重和激活量化為定點(diǎn)表示可以減少內(nèi)存占用和推理時(shí)間。最近,零樣本量化的努力已經(jīng)開(kāi)始,它不需要給定任務(wù)的原始未標(biāo)記訓(xùn)練樣本。這些發(fā)表得最好的作品在很大程度上依賴于學(xué)習(xí)到的批量歸一化 (BN) 參數(shù)來(lái)推斷量化激活的范圍。特別是,這些方法建立在經(jīng)驗(yàn)估計(jì)框架或數(shù)據(jù)蒸餾方法的基礎(chǔ)上,用于計(jì)算激活范圍。然而,當(dāng)出現(xiàn)不適應(yīng) BN 層的網(wǎng)絡(luò)時(shí),此類方案的性能會(huì)嚴(yán)重下降。在這個(gè)思路下,我們提出了一種既不需要原始數(shù)據(jù)也不依賴于 BN 層統(tǒng)計(jì)的廣義零樣本量化 (GZSQ) 框架。我們利用了數(shù)據(jù)蒸餾方法,并僅利用模型的預(yù)訓(xùn)練權(quán)重來(lái)估計(jì)豐富的數(shù)據(jù),以進(jìn)行激活的范圍校準(zhǔn)。據(jù)我們所知,這是第一項(xiàng)利用預(yù)訓(xùn)練權(quán)重分布來(lái)輔助零樣本量化過(guò)程的工作。所提出的方案明顯優(yōu)于現(xiàn)有的零樣本工作,例如,對(duì)于各種任務(wù),MobileNetV2 和其他幾個(gè)沒(méi)有 BN 層的模型的分類精度提高了約 33%。我們還展示了擬議工作在多個(gè)開(kāi)源量化框架中的有效性。重要的是,我們的工作是對(duì)未來(lái)非標(biāo)準(zhǔn)化深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后零樣本量化的首次嘗試。
* 題目: SyntEO: Synthetic Dataset Generation for Earth Observation with Deep Learning -- Demonstrated for Offshore Wind Farm Detection
* 鏈接:
https://arxiv.org/abs/2112.02829* 作者: Thorsten Hoeser,Claudia Kuenzer
* 其他: 25 pages, 12 figures
* 摘要: 隨著過(guò)去幾年深度學(xué)習(xí)的出現(xiàn),地球觀測(cè)研究出現(xiàn)了新的機(jī)遇。盡管如此,他們也帶來(lái)了新的挑戰(zhàn)。深度學(xué)習(xí)模型需要大量數(shù)據(jù)的訓(xùn)練過(guò)程需要大量、資源昂貴、帶注釋的數(shù)據(jù)集和部分替代知識(shí)驅(qū)動(dòng)的方法,因此模型行為和最終預(yù)測(cè)過(guò)程變成了一個(gè)黑匣子。提議的 SyntEO 方法使地球觀測(cè)研究人員能夠自動(dòng)生成大型深度學(xué)習(xí)就緒數(shù)據(jù)集,從而釋放原本占用的資源。 SyntEO 通過(guò)以高度結(jié)構(gòu)化的方式在數(shù)據(jù)生成過(guò)程中包含專家知識(shí)來(lái)做到這一點(diǎn)。通過(guò)這種方式,建立了完全可控的實(shí)驗(yàn)環(huán)境,支持模型訓(xùn)練中的洞察力。因此,SyntEO 使學(xué)習(xí)過(guò)程易于理解,模型行為可解釋,這是可解釋機(jī)器學(xué)習(xí)的重要基石。我們通過(guò)在世界上最大的兩個(gè)海上風(fēng)能生產(chǎn)基地的 Sentinel-1 圖像中預(yù)測(cè)海上風(fēng)電場(chǎng)來(lái)演示 SyntEO 方法。最大的生成數(shù)據(jù)集有 90,000 個(gè)訓(xùn)練示例。用于對(duì)象檢測(cè)的基本卷積神經(jīng)網(wǎng)絡(luò),僅在此合成數(shù)據(jù)上進(jìn)行訓(xùn)練,通過(guò)在具有挑戰(zhàn)性的環(huán)境中最大限度地減少錯(cuò)誤檢測(cè),自信地檢測(cè)海上風(fēng)電場(chǎng)。此外,還生成了四個(gè)順序數(shù)據(jù)集,展示了 SyntEO 方法如何精確定義數(shù)據(jù)集結(jié)構(gòu)并影響訓(xùn)練過(guò)程。因此,SyntEO 是一種混合方法,可在專家知識(shí)和數(shù)據(jù)驅(qū)動(dòng)的圖像分析之間創(chuàng)建接口。
* 題目: Letter-level Online Writer Identification
* 鏈接:
https://arxiv.org/abs/2112.02824* 作者: Zelin Chen,Hong-Xing Yu,Ancong Wu,Wei-Shi Zheng
* 摘要: 作家身份(writer-id)是生物識(shí)別學(xué)中的一個(gè)重要領(lǐng)域,旨在通過(guò)筆跡識(shí)別作家?,F(xiàn)有 writer-id 研究中的識(shí)別需要完整的文檔或文本,這限制了 writer-id 在實(shí)際應(yīng)用中的可擴(kuò)展性和靈活性。為了使 writer-id 的應(yīng)用更加實(shí)用(例如,在移動(dòng)設(shè)備上),我們關(guān)注一個(gè)新問(wèn)題,即字母級(jí)在線 writer-id,它只需要一些書(shū)面字母的軌跡作為識(shí)別線索。與具有豐富識(shí)別上下文的 text-/ document-based writer-id 不同,僅從幾個(gè)單個(gè)字母中識(shí)別作者的線索要少得多。一個(gè)主要的挑戰(zhàn)是一個(gè)人經(jīng)常不時(shí)以不同的風(fēng)格寫(xiě)一封信。我們將此問(wèn)題稱為在線寫(xiě)作風(fēng)格的差異(Var-O-Styles)。我們以捕獲-歸一化-聚合的方式處理 Var-O-Styles:首先,我們通過(guò)精心設(shè)計(jì)的多分支編碼器提取字母軌跡的不同特征,以嘗試捕獲不同的在線寫(xiě)作風(fēng)格。然后我們通過(guò)一個(gè)新的歸一化層將所有這些風(fēng)格特征轉(zhuǎn)換為參考風(fēng)格特征域。最后,我們通過(guò)分層注意力池(HAP)聚合歸一化特征,它將所有具有多種書(shū)寫(xiě)風(fēng)格的輸入字母融合到一個(gè)緊湊的特征向量中。此外,我們還提供了一個(gè)大規(guī)模的 LEtter 級(jí)在線 wRiter IDentification 數(shù)據(jù)集(LERID)用于評(píng)估。大量的比較實(shí)驗(yàn)證明了所提出框架的有效性。
* 題目: A Survey of Deep Learning for Low-Shot Object Detection
* 鏈接:
https://arxiv.org/abs/2112.02814* 作者: Qihan Huang,Haofei Zhang,Jie Song,Mingli Song
* 摘要: 目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)和圖像處理中的一項(xiàng)基本任務(wù)。當(dāng)前基于深度學(xué)習(xí)的對(duì)象檢測(cè)器已經(jīng)非常成功,具有豐富的標(biāo)記數(shù)據(jù)。但在現(xiàn)實(shí)生活中,并不能保證每個(gè)對(duì)象類別都有足夠的標(biāo)記樣本進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練數(shù)據(jù)有限時(shí),這些大型物體檢測(cè)器很容易過(guò)擬合。因此,有必要將小樣本學(xué)習(xí)和零樣本學(xué)習(xí)引入到目標(biāo)檢測(cè)中,可以統(tǒng)稱為低樣本目標(biāo)檢測(cè)。低樣本目標(biāo)檢測(cè)(LSOD)旨在從少量甚至零標(biāo)記數(shù)據(jù)中檢測(cè)目標(biāo),可分別分為少樣本目標(biāo)檢測(cè)(FSOD)和零樣本目標(biāo)檢測(cè)(ZSD)。本文對(duì)基于深度學(xué)習(xí)的 FSOD 和 ZSD 進(jìn)行了全面調(diào)查。首先,本次調(diào)查將 FSOD 和 ZSD 的方法分為不同的類別,并討論了它們的優(yōu)缺點(diǎn)。其次,本次調(diào)查回顧了 FSOD 和 ZSD 的數(shù)據(jù)集設(shè)置和評(píng)估指標(biāo),然后分析了不同方法在這些基準(zhǔn)上的性能。最后,本次調(diào)查討論了 FSOD 和 ZSD 的未來(lái)挑戰(zhàn)和有希望的方向。
* 題目: Forward Compatible Training for Representation Learning
* 鏈接:
https://arxiv.org/abs/2112.02805* 作者: Vivek Ramanujan,Pavan Kumar Anasosalu Vasu,Ali Farhadi,Oncel Tuzel,Hadi Pouransari
* 其他: 14 pages with appendix
* 摘要: 在視覺(jué)檢索系統(tǒng)中,更新嵌入模型需要重新計(jì)算每條數(shù)據(jù)的特征。這個(gè)昂貴的過(guò)程被稱為回填。最近,提出了向后兼容訓(xùn)練(BCT)的想法。為了避免回填的成本,BCT 修改了新模型的訓(xùn)練,使其表示與舊模型的表示兼容。但是,BCT 會(huì)顯著阻礙新模型的性能。在這項(xiàng)工作中,我們?yōu)楸碚鲗W(xué)習(xí)提出了一種新的學(xué)習(xí)范式:前向兼容訓(xùn)練(FCT)。在 FCT 中,在訓(xùn)練舊模型時(shí),我們還為模型的未來(lái)未知版本做準(zhǔn)備。我們建議學(xué)習(xí)輔助信息,這是每個(gè)樣本的輔助特征,有助于模型的未來(lái)更新。為了開(kāi)發(fā)一個(gè)強(qiáng)大而靈活的模型兼容性框架,我們將邊信息與從舊嵌入到新嵌入的前向轉(zhuǎn)換相結(jié)合。新模型的訓(xùn)練沒(méi)有被修改,因此它的準(zhǔn)確性沒(méi)有降低。與 BCT 相比,我們?cè)诟鞣N數(shù)據(jù)集上展示了顯著的檢索準(zhǔn)確性改進(jìn):ImageNet-1k (+18.1%)、Places-365 (+5.4%) 和 VGG-Face2 (+8.3%)。當(dāng)新舊模型在不同的數(shù)據(jù)集、損失和架構(gòu)上進(jìn)行訓(xùn)練時(shí),F(xiàn)CT 獲得模型兼容性。
* 題目: HumanNeRF: Generalizable Neural Human Radiance Field from Sparse Inputs
* 鏈接:
https://arxiv.org/abs/2112.02789* 作者: Fuqiang Zhao,Wei Yang,Jiakai Zhang,Pei Lin,Yingliang Zhang,Jingyi Yu,Lan Xu
* 摘要: 最近的神經(jīng)人體表征可以產(chǎn)生高質(zhì)量的多視圖渲染,但需要使用密集的多視圖輸入和昂貴的訓(xùn)練。因此,它們?cè)诤艽蟪潭壬蟽H限于靜態(tài)模型,因?yàn)橛?xùn)練每一幀都是不可行的。我們提出了 HumanNeRF——一種可推廣的神經(jīng)表示——用于動(dòng)態(tài)人類的高保真自由視角合成。類似于 IBRNet 如何通過(guò)避免逐場(chǎng)景訓(xùn)練來(lái)輔助 NeRF,HumanNeRF 在多視圖輸入中采用聚合像素對(duì)齊功能以及姿勢(shì)嵌入的非剛性變形場(chǎng)來(lái)處理動(dòng)態(tài)運(yùn)動(dòng)。原始的 HumanNeRF 已經(jīng)可以對(duì)看不見(jiàn)的對(duì)象和相機(jī)設(shè)置的稀疏視頻輸入產(chǎn)生合理的渲染。為了進(jìn)一步提高渲染質(zhì)量,我們使用外觀混合模塊來(lái)增強(qiáng)我們的解決方案,以結(jié)合神經(jīng)體積渲染和神經(jīng)紋理混合的優(yōu)點(diǎn)。對(duì)各種多視圖動(dòng)態(tài)人類數(shù)據(jù)集的大量實(shí)驗(yàn)證明了我們的方法在具有挑戰(zhàn)性的運(yùn)動(dòng)和非常稀疏的相機(jī)視圖輸入下合成逼真的自由視圖人類的普遍性和有效性。
* 題目: Texture Reformer: Towards Fast and Universal Interactive Texture Transfer
* 鏈接:
https://arxiv.org/abs/2112.02788* 作者: Zhizhong Wang,Lei Zhao,Haibo Chen,Ailin Li,Zhiwen Zuo,Wei Xing,Dongming Lu
* 其他: Accepted by AAAI2022
* 摘要: 在本文中,我們介紹了紋理重整器,這是一種快速且通用的基于神經(jīng)的框架,用于在用戶指定的指導(dǎo)下進(jìn)行交互式紋理傳輸。挑戰(zhàn)在于三個(gè)方面:1)任務(wù)的多樣性,2)引導(dǎo)圖的簡(jiǎn)單性,3)執(zhí)行效率。為了應(yīng)對(duì)這些挑戰(zhàn),我們的關(guān)鍵思想是使用一種新穎的前饋多視圖和多階段合成程序,包括 I) 全局視圖結(jié)構(gòu)對(duì)齊階段,II) 局部視圖紋理細(xì)化階段,以及 III) 整體效果增強(qiáng)階段,以從粗到細(xì)的方式合成具有連貫結(jié)構(gòu)和精細(xì)紋理細(xì)節(jié)的高質(zhì)量結(jié)果。此外,我們還引入了一種新穎的免學(xué)習(xí)視圖特定紋理重構(gòu) (VSTR) 操作和新的語(yǔ)義映射指導(dǎo)策略,以實(shí)現(xiàn)更準(zhǔn)確的語(yǔ)義指導(dǎo)和結(jié)構(gòu)保留紋理傳輸。在各種應(yīng)用場(chǎng)景上的實(shí)驗(yàn)結(jié)果證明了我們框架的有效性和優(yōu)越性。與最先進(jìn)的交互式紋理傳輸算法相比,它不僅獲得了更高質(zhì)量的結(jié)果,而且更顯著的是,速度提高了 2-5 個(gè)數(shù)量級(jí)。此 https URL 提供代碼。
* 題目: Adjusting the Ground Truth Annotations for Connectivity-Based Learning to Delineate
* 鏈接:
https://arxiv.org/abs/2112.02781* 作者: Doruk Oner,Leonardo Citraro,Mateusz Koziński,Pascal Fua
* 摘要: 基于深度學(xué)習(xí)的描繪 3D 結(jié)構(gòu)的方法依賴于訓(xùn)練網(wǎng)絡(luò)的準(zhǔn)確注釋。然而,在實(shí)踐中,無(wú)論多么認(rèn)真,人們都難以在 3D 中進(jìn)行大規(guī)模精確描繪,部分原因是數(shù)據(jù)通常難以視覺(jué)解釋,部分原因是 3D 界面難以使用。在本文中,我們介紹了一種明確說(shuō)明注釋不準(zhǔn)確的方法。為此,我們將注釋視為活動(dòng)輪廓模型,可以在保持其拓?fù)浣Y(jié)構(gòu)的同時(shí)自行變形。這使我們能夠聯(lián)合訓(xùn)練網(wǎng)絡(luò)并糾正原始注釋中的潛在錯(cuò)誤。結(jié)果是一種提高使用潛在不準(zhǔn)確注釋訓(xùn)練的深度網(wǎng)絡(luò)性能的方法。
* 題目: Real-time Registration and Reconstruction with Cylindrical LiDAR Images
* 鏈接:
https://arxiv.org/abs/2112.02779* 作者: Wei Dong,Kwonyoung Ryu,Michael Kaess,Jaesik Park
* 其他: 6 pages, 7 figures. This paper is under the review
* 摘要: 旋轉(zhuǎn) LiDAR 數(shù)據(jù)在 3D 感知任務(wù)中很普遍,但其圓柱圖像形式的研究較少。傳統(tǒng)方法將掃描視為點(diǎn)云,它們要么依賴昂貴的歐幾里得 3D 最近鄰搜索來(lái)進(jìn)行數(shù)據(jù)關(guān)聯(lián),要么依賴投影距離圖像進(jìn)行進(jìn)一步處理。我們重新審視了 LiDAR 掃描形成,并為原始掃描數(shù)據(jù)提供了圓柱范圍圖像表示,配備了有效的校準(zhǔn)球面投影模型。使用我們的公式,我們 1) 收集由室內(nèi)和室外序列組成的大型 LiDAR 數(shù)據(jù)集以及偽地面實(shí)況姿勢(shì); 2)通過(guò)合成和現(xiàn)實(shí)世界的轉(zhuǎn)換評(píng)估序列的投影和傳統(tǒng)配準(zhǔn)方法; 3) 將最先進(jìn)的 RGB-D 算法轉(zhuǎn)移到 LiDAR,其配準(zhǔn)頻率高達(dá) 180 Hz,密集重建頻率高達(dá) 150 Hz。數(shù)據(jù)集和工具將被發(fā)布。
* 題目: ActiveZero: Mixed Domain Learning for Active Stereovision with Zero Annotation
* 鏈接:
https://arxiv.org/abs/2112.02772* 作者: Isabella Liu,Edward Yang,Jianyu Tao,Rui Chen,Xiaoshuai Zhang,Qing Ran,Zhu Liu,Hao Su
* 摘要: 傳統(tǒng)的深度傳感器生成準(zhǔn)確的現(xiàn)實(shí)世界深度估計(jì),甚至超過(guò)僅在模擬領(lǐng)域訓(xùn)練的最先進(jìn)的學(xué)習(xí)方法。由于地面實(shí)況深度在模擬域中很容易獲得,但在真實(shí)域中很難獲得,因此我們提出了一種利用兩全其美的方法。在本文中,我們提出了一個(gè)新框架 ActiveZero,它是一種不需要現(xiàn)實(shí)世界深度注釋的主動(dòng)立體視覺(jué)系統(tǒng)的混合域?qū)W習(xí)解決方案。首先,我們通過(guò)使用混合域?qū)W習(xí)策略證明了我們的方法對(duì)分布外真實(shí)數(shù)據(jù)的可轉(zhuǎn)移性。在模擬領(lǐng)域,我們?cè)谛螤罨獢?shù)據(jù)集上結(jié)合使用監(jiān)督視差損失和自監(jiān)督損失。相比之下,在真實(shí)領(lǐng)域中,我們只在訓(xùn)練模擬數(shù)據(jù)或測(cè)試真實(shí)數(shù)據(jù)分布不均的數(shù)據(jù)集上使用自監(jiān)督損失。其次,我們的方法引入了一種新的自監(jiān)督損失,稱為時(shí)間 IR 重投影,以提高我們?cè)陔y以感知的區(qū)域中重投影的魯棒性和準(zhǔn)確性。最后,我們展示了如何端到端地訓(xùn)練該方法,以及每個(gè)模塊對(duì)于獲得最終結(jié)果都很重要。對(duì)真實(shí)數(shù)據(jù)的大量定性和定量評(píng)估展示了最先進(jìn)的結(jié)果,甚至可以擊敗商業(yè)深度傳感器。
* 題目: MetaCloth: Learning Unseen Tasks of Dense Fashion Landmark Detection from a Few Samples
* 鏈接:
https://arxiv.org/abs/2112.02763* 作者: Yuying Ge,Ruimao Zhang,Ping Luo
* 其他: Accepted by IEEE Transactions on Image Processing
* 摘要: 最近用于時(shí)尚地標(biāo)檢測(cè)的先進(jìn)方法主要是通過(guò)在大規(guī)模時(shí)尚數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來(lái)驅(qū)動(dòng)的,該數(shù)據(jù)集具有大量帶注釋的地標(biāo)。然而,在實(shí)際應(yīng)用中獲得這樣的大規(guī)模注釋既困難又昂貴,因此需要能夠從少量標(biāo)記數(shù)據(jù)中很好地泛化的模型。我們研究了少拍時(shí)尚地標(biāo)檢測(cè)的這個(gè)問(wèn)題,其中只有少數(shù)標(biāo)記樣本可用于看不見(jiàn)的任務(wù)。這項(xiàng)工作通過(guò)元學(xué)習(xí)提出了一種名為 MetaCloth 的新框架,該框架能夠僅使用少量帶注釋的樣本來(lái)學(xué)習(xí)密集時(shí)尚地標(biāo)檢測(cè)的看不見(jiàn)的任務(wù)。與以前專注于解決“N-way K-shot”任務(wù)的元學(xué)習(xí)工作不同,其中每個(gè)任務(wù)通過(guò)為每個(gè)類使用 K 個(gè)帶注釋的樣本進(jìn)行訓(xùn)練來(lái)預(yù)測(cè) N 個(gè)類(N 對(duì)于所有可見(jiàn)和不可見(jiàn)的任務(wù)都是固定的), MetaCloth 中的任務(wù)使用 K 個(gè)樣本為不同的服裝類別檢測(cè) N 個(gè)不同的地標(biāo),其中 N 因任務(wù)而異,因?yàn)椴煌姆b類別通常具有不同數(shù)量的地標(biāo)。因此,MetaCloth 中不同的可見(jiàn)和不可見(jiàn)任務(wù)的參數(shù)數(shù)量是不同的。 MetaCloth 經(jīng)過(guò)精心設(shè)計(jì),可為不同的任務(wù)動(dòng)態(tài)生成不同數(shù)量的參數(shù),并從具有一組良好初始化參數(shù)的幾個(gè)帶注釋的樣本中學(xué)習(xí)可泛化的特征提取網(wǎng)絡(luò)。大量實(shí)驗(yàn)表明,MetaCloth 的性能大大優(yōu)于同類產(chǎn)品。
* 題目: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
* 鏈接:
https://arxiv.org/abs/2112.02753* 作者: Xingyu Chen,Yufeng Liu,Yajiao Dong,Xiong Zhang,Chongyang Ma,Yanmin Xiong,Yuan Zhang,Xiaoyan Guo
* 摘要: 在這項(xiàng)工作中,我們提出了一種用于單視圖手部網(wǎng)格重建的框架,該框架可以同時(shí)實(shí)現(xiàn)高重建精度、快速推理速度和時(shí)間一致性。具體來(lái)說(shuō),對(duì)于 2D 編碼,我們提出了輕量級(jí)但有效的堆疊結(jié)構(gòu)。關(guān)于 3D 解碼,我們提供了一種高效的圖算子,即深度可分離螺旋卷積。此外,我們提出了一種新穎的特征提升模塊,用于彌合 2D 和 3D 表示之間的差距。該模塊從基于地圖的位置回歸 (MapReg) 塊開(kāi)始,以整合熱圖編碼和位置回歸范式的優(yōu)點(diǎn),以提高 2D 精度和時(shí)間一致性。此外,MapReg 之后是姿勢(shì)池和姿勢(shì)到頂點(diǎn)提升方法,它們將 2D 姿勢(shì)編碼轉(zhuǎn)換為 3D 頂點(diǎn)的語(yǔ)義特征??偟膩?lái)說(shuō),我們的手部重建框架稱為 MobRecon,包括負(fù)擔(dān)得起的計(jì)算成本和微型模型尺寸,在 Apple A14 CPU 上達(dá)到 83FPS 的高推理速度。在 FreiHAND、RHD 和 HO3Dv2 等流行數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的 MobRecon 在重建精度和時(shí)間一致性方面取得了卓越的性能。我們的代碼可在此 https URL 上公開(kāi)獲取。
* 題目: One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning
* 鏈接:
https://arxiv.org/abs/2112.02749* 作者: Suzhen Wang,Lincheng Li,Yu Ding,Xin Yu
* 其他: Accepted by AAAI 2022
* 摘要: 音頻驅(qū)動(dòng)的一次性談話人臉生成方法通常是在各種人的視頻資源上訓(xùn)練的。然而,他們創(chuàng)建的視頻經(jīng)常會(huì)出現(xiàn)不自然的嘴形和不同步的嘴唇,因?yàn)檫@些方法很難從不同的說(shuō)話者那里學(xué)習(xí)一致的說(shuō)話風(fēng)格。我們觀察到,從特定說(shuō)話者那里學(xué)習(xí)一致的說(shuō)話風(fēng)格會(huì)容易得多,這會(huì)導(dǎo)致真實(shí)的嘴巴動(dòng)作。因此,我們通過(guò)探索來(lái)自特定說(shuō)話者的音頻和視覺(jué)運(yùn)動(dòng)之間的一致相關(guān)性,然后將音頻驅(qū)動(dòng)的運(yùn)動(dòng)場(chǎng)轉(zhuǎn)移到參考圖像,提出了一種新穎的一次性說(shuō)話人臉生成框架。具體來(lái)說(shuō),我們開(kāi)發(fā)了一種視聽(tīng)相關(guān)變換器 (AVCT),旨在從輸入音頻中推斷出由基于關(guān)鍵點(diǎn)的密集運(yùn)動(dòng)場(chǎng)表示的談話運(yùn)動(dòng)。特別是,考慮到音頻在部署中可能來(lái)自不同的身份,我們合并了音素來(lái)表示音頻信號(hào)。通過(guò)這種方式,我們的 AVCT 可以固有地泛化到其他身份所說(shuō)的音頻。此外,由于面部關(guān)鍵點(diǎn)用于表示說(shuō)話者,因此 AVCT 與訓(xùn)練說(shuō)話者的外表無(wú)關(guān),因此允許我們輕松地處理不同身份的面部圖像??紤]到不同的面部形狀會(huì)導(dǎo)致不同的運(yùn)動(dòng),利用運(yùn)動(dòng)場(chǎng)傳輸模塊來(lái)減少訓(xùn)練身份和一次性參考之間的音頻驅(qū)動(dòng)密集運(yùn)動(dòng)場(chǎng)差距。一旦我們獲得了參考圖像的密集運(yùn)動(dòng)場(chǎng),我們就使用圖像渲染器從音頻剪輯中生成它的人臉視頻。由于我們學(xué)習(xí)了一致的說(shuō)話風(fēng)格,我們的方法可以生成真實(shí)的嘴形和生動(dòng)的動(dòng)作。大量實(shí)驗(yàn)表明,我們合成的視頻在視覺(jué)質(zhì)量和口型同步方面優(yōu)于最先進(jìn)的視頻。
* 題目: Making a Bird AI Expert Work for You and Me
* 鏈接:
https://arxiv.org/abs/2112.02747* 作者: Dongliang Chang,Kaiyue Pang,Ruoyi Du,Zhanyu Ma,Yi-Zhe Song,Jun Guo
* 摘要: 與細(xì)粒度視覺(jué)分類 (FGVC) 一樣強(qiáng)大,使用“Whip-poor-will”或“Mallard”這樣的鳥(niǎo)名來(lái)回答您的查詢可能沒(méi)有多大意義。然而,這在文獻(xiàn)中普遍被接受,強(qiáng)調(diào)了人工智能和人類交互的一個(gè)基本問(wèn)題——什么構(gòu)成了人類從人工智能學(xué)習(xí)的可轉(zhuǎn)移知識(shí)?本文旨在使用 FGVC 作為測(cè)試平臺(tái)來(lái)回答這個(gè)問(wèn)題。具體來(lái)說(shuō),我們?cè)O(shè)想了一個(gè)場(chǎng)景,訓(xùn)練有素的 FGVC 模型(人工智能專家)充當(dāng)知識(shí)提供者,使普通人(你和我)自己成為更好的領(lǐng)域?qū)<?,即那些能夠區(qū)分“鞭打窮人”的人和“野鴨”。圖 1 展示了我們回答這個(gè)問(wèn)題的方法。假設(shè)使用專家人工標(biāo)簽訓(xùn)練的 AI 專家,我們會(huì)問(wèn) (i) 我們可以從 AI 中提取的最佳可轉(zhuǎn)移知識(shí)是什么,以及 (ii) 在給定這些知識(shí)的情況下,衡量專業(yè)知識(shí)收益的最實(shí)用方法是什么?對(duì)于前者,我們建議將知識(shí)表示為專家專有的高度區(qū)分視覺(jué)區(qū)域。為此,我們?cè)O(shè)計(jì)了一個(gè)多階段學(xué)習(xí)框架,從建模領(lǐng)域?qū)<液托率值囊曈X(jué)注意力開(kāi)始,然后有區(qū)別地提煉他們的差異以獲得專家的專有知識(shí)。對(duì)于后者,我們將評(píng)估過(guò)程模擬為書(shū)籍指南,以最好地適應(yīng)人類習(xí)慣的學(xué)習(xí)實(shí)踐。一項(xiàng)對(duì) 15,000 次試驗(yàn)的綜合人類研究表明,我們的方法能夠不斷提高具有不同鳥(niǎo)類專業(yè)知識(shí)的人來(lái)識(shí)別曾經(jīng)無(wú)法識(shí)別的鳥(niǎo)類。有趣的是,當(dāng)所定義的提取知識(shí)被用作實(shí)現(xiàn)區(qū)分定位的手段時(shí),我們的方法還可以提高傳統(tǒng)的 FGVC 性能。代碼位于:此 https URL
* 題目: Facial Emotion Characterization and Detection using Fourier Transform and Machine Learning
* 鏈接:
https://arxiv.org/abs/2112.02729* 作者: Aishwarya Gouru,Shan Suthaharan
* 其他: 8 pages, 3 figures
* 摘要: 我們提出了一種基于傅立葉的機(jī)器學(xué)習(xí)技術(shù),可以表征和檢測(cè)面部情緒。開(kāi)發(fā)用于面部情緒分類的機(jī)器學(xué)習(xí) (ML) 模型的主要挑戰(zhàn)性任務(wù)是從一組訓(xùn)練樣本中檢測(cè)準(zhǔn)確的情緒特征,以及生成用于構(gòu)建有意義的特征空間和構(gòu)建 ML 模型的特征向量。在本文中,我們假設(shè)情感特征隱藏在頻域中;因此,可以通過(guò)利用頻域和掩蔽技術(shù)來(lái)捕獲它們。我們還利用了面部情緒與正常面部特征和其他情緒特征復(fù)雜的猜想;然而,它們攜帶線性可分的空間頻率(我們稱之為計(jì)算情感頻率)。因此,我們提出了一種利用快速傅立葉變換 (FFT) 和矩形窄帶頻率內(nèi)核以及廣泛使用的 Yale-Faces 圖像數(shù)據(jù)集的技術(shù)。我們使用隨機(jī)森林 (RF) 和人工神經(jīng)網(wǎng)絡(luò) (ANN) 分類器的性能分?jǐn)?shù)來(lái)測(cè)試假設(shè),作為驗(yàn)證捕獲的情緒頻率有效性的措施。我們的發(fā)現(xiàn)是,所提出的方法發(fā)現(xiàn)的計(jì)算情感頻率提供了有意義的情感特征,幫助 RF 和 ANN 平均達(dá)到 93% 以上的高精度分?jǐn)?shù)。
* 題目: A hybrid convolutional neural network/active contour approach to segmenting dead trees in aerial imagery
* 鏈接:
https://arxiv.org/abs/2112.02725* 作者: Jacquelyn A. Shelton,Przemyslaw Polewski,Wei Yao,Marco Heurich
* 摘要: 生態(tài)系統(tǒng)抵御氣候變化的穩(wěn)定性和能力與其生物多樣性直接相關(guān)。死樹(shù)是森林整體健康的關(guān)鍵指標(biāo),占森林生態(tài)系統(tǒng)生物多樣性的三分之一,占全球碳儲(chǔ)量的 8%。它們被幾種自然因素分解,例如氣候、昆蟲(chóng)和真菌。死木質(zhì)量的準(zhǔn)確檢測(cè)和建模對(duì)于理解森林生態(tài)、碳循環(huán)和分解者至關(guān)重要。我們提出了一種新方法,通過(guò)將已建立的卷積神經(jīng)網(wǎng)絡(luò)與能量最小化框架中的新型活動(dòng)輪廓模型相結(jié)合,從航拍照片中構(gòu)建死樹(shù)的精確形狀輪廓。我們的方法在檢測(cè)到的死樹(shù)的聯(lián)合上的精度、召回率和交集方面產(chǎn)生了優(yōu)于最先進(jìn)技術(shù)的性能準(zhǔn)確性。這種改進(jìn)的性能對(duì)于應(yīng)對(duì)氣候變化(以及對(duì)系統(tǒng)的其他人為干擾)造成的新挑戰(zhàn)至關(guān)重要,特別是監(jiān)測(cè)和估計(jì)碳儲(chǔ)量衰減率、監(jiān)測(cè)森林健康和生物多樣性以及死木對(duì)和來(lái)自氣候變化。
* 題目: A Survey on Deep learning based Document Image Enhancement
* 鏈接:
https://arxiv.org/abs/2112.02719* 作者: Zahra Anvari,Vassilis Athitsos
* 摘要: 科學(xué)文章、稅表、發(fā)票、合同文件和歷史文本等數(shù)字化文件如今被廣泛使用。由于各種原因,這些圖像可能會(huì)降級(jí)或損壞,包括拍攝圖像時(shí)光線條件不佳、掃描時(shí)出現(xiàn)陰影、噪聲和模糊等失真、老化、墨漬、滲色、水印、印章等。 文檔圖像增強(qiáng)和恢復(fù)在許多自動(dòng)化文檔分析和識(shí)別任務(wù)中發(fā)揮著至關(guān)重要的作用,例如使用光學(xué)字符識(shí)別 (OCR) 進(jìn)行內(nèi)容提取。隨著深度學(xué)習(xí)的最新進(jìn)展,提出了許多方法來(lái)提高這些文檔圖像的質(zhì)量。在本文中,我們回顧了針對(duì)不同文檔圖像增強(qiáng)問(wèn)題的基于深度學(xué)習(xí)的方法、數(shù)據(jù)集和度量。我們?yōu)榱N不同的文檔圖像增強(qiáng)任務(wù)提供了基于深度學(xué)習(xí)的方法的全面概述,包括二值化、去模糊、去噪、淡化、水印去除和陰影去除。我們總結(jié)了每項(xiàng)任務(wù)的主要最新成果,并討論了它們的特點(diǎn)、挑戰(zhàn)和局限性。我們介紹了受到很少或很少關(guān)注的多個(gè)文檔圖像增強(qiáng)任務(wù),包括過(guò)度曝光和曝光不足校正以及消除滲色,并確定了其他幾個(gè)有前途的研究方向和未來(lái)研究的機(jī)會(huì)。
* 題目: Learning Query Expansion over the Nearest Neighbor Graph
* 鏈接:
https://arxiv.org/abs/2112.02666* 作者: Benjamin Klein,Lior Wolf
* 其他: BMVC 2021
* 摘要: 查詢擴(kuò)展 (QE) 是一種完善的方法,用于改進(jìn)圖像搜索應(yīng)用程序中的檢索指標(biāo)。使用 QE 時(shí),搜索是在新的查詢向量上進(jìn)行的,該向量是使用對(duì)查詢和數(shù)據(jù)庫(kù)圖像的聚合函數(shù)構(gòu)建的。最近的工作產(chǎn)生了學(xué)習(xí)聚合函數(shù)的 QE 技術(shù),而以前的技術(shù)基于手工制作的聚合函數(shù),例如,取查詢的最近鄰居的平均值。然而,大多數(shù) QE 方法都專注于直接在查詢及其最近鄰居上工作的聚合函數(shù)。在這項(xiàng)工作中,提出了一個(gè)分層模型,圖查詢擴(kuò)展(GQE),它以監(jiān)督方式學(xué)習(xí),并在查詢的擴(kuò)展鄰域上進(jìn)行聚合,從而增加計(jì)算查詢擴(kuò)展時(shí)從數(shù)據(jù)庫(kù)中使用的信息,并使用最近鄰圖的結(jié)構(gòu)。該技術(shù)在已知基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
* 題目: Boosting Mobile CNN Inference through Semantic Memory
* 鏈接:
https://arxiv.org/abs/2112.02644* 作者: Yun Li,Chen Zhang,Shihao Han,Li Lyna Zhang,Baoqun Yin,Yunxin Liu,Mengwei Xu
* 其他: 13 pages, 13 figures
* 摘要: 眾所周知,人類大腦能夠通過(guò)更快的記憶編碼和對(duì)激活神經(jīng)元的訪問(wèn)程序來(lái)加速對(duì)重復(fù)呈現(xiàn)對(duì)象的視覺(jué)識(shí)別。我們第一次借用這種能力并將其提煉到語(yǔ)義記憶設(shè)計(jì)中,即 SMTM,以改進(jìn)設(shè)備上的 CNN 推理。 SMTM 采用分層內(nèi)存架構(gòu)來(lái)利用感興趣對(duì)象的長(zhǎng)尾分布,并進(jìn)一步結(jié)合了幾種新技術(shù)將其轉(zhuǎn)化為效果:(1) 它將高維特征圖編碼為低維語(yǔ)義向量,用于低維向量?;ㄙM(fèi)但準(zhǔn)確的緩存和查找; (2) 考慮到不同層的固有特性,它使用一種新穎的度量來(lái)確定退出時(shí)間; (3)自適應(yīng)地調(diào)整緩存大小和語(yǔ)義向量以適應(yīng)場(chǎng)景動(dòng)態(tài)。 SMTM 在商用 CNN 引擎上建立原型,并在移動(dòng) CPU 和 GPU 上運(yùn)行。在大規(guī)模數(shù)據(jù)集和模型上的大量實(shí)驗(yàn)表明,與標(biāo)準(zhǔn)方法(高達(dá) 2 倍)和先前的緩存設(shè)計(jì)(高達(dá) 1.5 倍)相比,SMTM 可以顯著加快模型推理的速度,并且精度損失可以接受。
* 題目: PSI: A Pedestrian Behavior Dataset for Socially Intelligent Autonomous Car
* 鏈接:
https://arxiv.org/abs/2112.02604* 作者: Tina Chen,Renran Tian,Yaobin Chen,Joshua Domeyer,Heishiro Toyoda,Rini Sherony,Taotao Jing,Zhengming Ding
* 摘要: 行人行為預(yù)測(cè)對(duì)于全自動(dòng)駕駛汽車(chē)在繁忙的城市街道上安全高效地行駛至關(guān)重要。未來(lái)的自動(dòng)駕駛汽車(chē)不僅需要適應(yīng)混合條件,還需要具備技術(shù)和社交能力。隨著越來(lái)越多的算法和數(shù)據(jù)集被開(kāi)發(fā)來(lái)預(yù)測(cè)行人行為,這些努力缺乏基準(zhǔn)標(biāo)簽和估計(jì)行人時(shí)間-動(dòng)態(tài)意圖變化的能力,提供交互場(chǎng)景的解釋,并支持具有社會(huì)智能的算法。本文提出并分享了另一個(gè)基準(zhǔn)數(shù)據(jù)集,稱為 IUPUI-CSRC 行人定位(PSI)數(shù)據(jù),除了全面的計(jì)算機(jī)視覺(jué)標(biāo)簽外,還有兩個(gè)創(chuàng)新標(biāo)簽。第一個(gè)新穎的標(biāo)簽是行人在自動(dòng)駕駛汽車(chē)前橫穿的動(dòng)態(tài)意圖變化,由 24 名不同背景的司機(jī)實(shí)現(xiàn)。第二個(gè)是在估計(jì)行人意圖和預(yù)測(cè)他們?cè)诮换テ陂g的行為時(shí)的駕駛員推理過(guò)程的基于文本的解釋。這些創(chuàng)新標(biāo)簽可以實(shí)現(xiàn)多項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù),包括行人意圖/行為預(yù)測(cè)、車(chē)輛-行人交互分割以及可解釋算法的視頻到語(yǔ)言映射。發(fā)布的數(shù)據(jù)集可以從根本上改進(jìn)行人行為預(yù)測(cè)模型的開(kāi)發(fā),開(kāi)發(fā)具有社交智能的自動(dòng)駕駛汽車(chē),以實(shí)現(xiàn)與行人的高效交互。該數(shù)據(jù)集已通過(guò)不同的任務(wù)進(jìn)行評(píng)估,并向公眾發(fā)布以供訪問(wèn)。
* 題目: Simple Adaptive Projection with Pretrained Features for Anomaly Detection
* 鏈接:
https://arxiv.org/abs/2112.02597* 作者: Xingtai Gui
* 摘要: 深度異常檢測(cè)旨在將異常與具有高質(zhì)量表示的正常樣本分開(kāi)。預(yù)訓(xùn)練的特征帶來(lái)了有效的表示和有希望的異常檢測(cè)性能。然而,對(duì)于一類訓(xùn)練數(shù)據(jù),適應(yīng)預(yù)訓(xùn)練的特征是一個(gè)棘手的問(wèn)題。具體來(lái)說(shuō),具有全局目標(biāo)的現(xiàn)有優(yōu)化目標(biāo)通常會(huì)導(dǎo)致模式崩潰,即所有輸入都映射到相同的。在本文中,我們提出了一種新的自適應(yīng)框架,包括簡(jiǎn)單的線性變換和自注意力。這種適應(yīng)應(yīng)用于特定的輸入,并挖掘其在預(yù)訓(xùn)練特征空間中正常樣本的 k 個(gè)最近表示以及相似的一類語(yǔ)義特征之間的內(nèi)部關(guān)系。此外,基于這樣的框架,我們提出了一個(gè)有效的約束項(xiàng)來(lái)避免學(xué)習(xí)瑣碎的解決方案。我們帶有預(yù)訓(xùn)練特征(SAP2)的簡(jiǎn)單自適應(yīng)投影產(chǎn)生了一種新的異常檢測(cè)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)對(duì)模式崩潰更加準(zhǔn)確和魯棒。我們的方法在語(yǔ)義異常檢測(cè)和感官異常檢測(cè)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的異常檢測(cè)性能,包括 CIFAR-100 數(shù)據(jù)集上的 96.5% AUROC、CIFAR-10 數(shù)據(jù)集上的 97.0% AUROC 和 MvTec 數(shù)據(jù)集上的 88.1% AUROC。
* 題目: STSM: Spatio-Temporal Shift Module for Efficient Action Recognition
* 鏈接:
https://arxiv.org/abs/2112.02523* 作者: Zhaoqilin Yang,Gaoyun An
* 其他: 9 pages,4 figures
* 摘要: 傳統(tǒng)時(shí)空網(wǎng)絡(luò)的建模、計(jì)算成本和準(zhǔn)確性是視頻動(dòng)作識(shí)別中三個(gè)最集中的研究課題。傳統(tǒng)的2D卷積計(jì)算成本低,但無(wú)法捕捉時(shí)間關(guān)系;基于3D卷積的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)模型可以獲得良好的性能,但其計(jì)算成本高,參數(shù)量大。在本文中,我們提出了一種即插即用的時(shí)空移位模塊(STSM),它是一種既有效又高性能的通用模塊。具體來(lái)說(shuō),將 STSM 插入其他網(wǎng)絡(luò)后,可以在不增加計(jì)算量和參數(shù)的情況下提高網(wǎng)絡(luò)的性能。特別是,當(dāng)網(wǎng)絡(luò)是 2D CNN 時(shí),我們的 STSM 模塊允許網(wǎng)絡(luò)學(xué)習(xí)有效的時(shí)空特征。我們對(duì)提議的模塊進(jìn)行了廣泛的評(píng)估,進(jìn)行了大量實(shí)驗(yàn)以研究其在視頻動(dòng)作識(shí)別中的有效性,并在 kinetics-400 和 Something-Something V2 數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。
* 題目: Neural Photometry-guided Visual Attribute Transfer
* 鏈接:
https://arxiv.org/abs/2112.02520* 作者: Carlos Rodriguez-Pardo,Elena Garces
* 其他: 13 pages. To be published in Transactions on Visualizations and Computer Graphics. Project website: this http URL
* 摘要: 我們提出了一種基于深度學(xué)習(xí)的方法,用于將空間變化的視覺(jué)材料屬性(例如紋理貼圖或圖像風(fēng)格)傳播到相同或相似材料的更大樣本。對(duì)于訓(xùn)練,我們利用在多個(gè)照明下拍攝的材料圖像和專用的數(shù)據(jù)增強(qiáng)策略,使傳輸對(duì)新的照明條件和仿射變形具有魯棒性。我們的模型依賴于受監(jiān)督的圖像到圖像的轉(zhuǎn)換框架,并且與轉(zhuǎn)移域無(wú)關(guān);我們展示了語(yǔ)義分割、法線貼圖和風(fēng)格化。遵循圖像類比方法,該方法只需要訓(xùn)練數(shù)據(jù)包含與輸入指導(dǎo)相同的視覺(jué)結(jié)構(gòu)。我們的方法以交互速率工作,使其適用于材料編輯應(yīng)用程序。我們?cè)谑芸卦O(shè)置中徹底評(píng)估我們的學(xué)習(xí)方法,提供性能的定量測(cè)量。最后,我們證明在單一材料上訓(xùn)練模型足以推廣到相同類型的材料,而無(wú)需大量數(shù)據(jù)集。
* 題目: Global-Local Context Network for Person Search
* 鏈接:
https://arxiv.org/abs/2112.02500* 作者: Peng Zheng,Jie Qin,Yichao Yan,Shengcai Liao,Bingbing Ni,Xiaogang Cheng,Ling Shao
* 摘要: 人物搜索旨在從自然、未裁剪的圖像中聯(lián)合定位和識(shí)別查詢?nèi)宋铮@在過(guò)去幾年中在計(jì)算機(jī)視覺(jué)社區(qū)中得到了積極研究。在本文中,我們深入研究了圍繞目標(biāo)人物的全局和局部豐富的上下文信息,我們分別指的是場(chǎng)景和組上下文。與之前單獨(dú)處理兩種類型上下文的工作不同,我們?cè)诮y(tǒng)一的全局-局部上下文網(wǎng)絡(luò) (GLCNet) 中利用它們,直觀的目的是增強(qiáng)特征。具體來(lái)說(shuō),re-ID 嵌入和上下文特征以多階段的方式同時(shí)增強(qiáng),最終導(dǎo)致用于人員搜索的增強(qiáng)的判別特征。我們?cè)趦蓚€(gè)人的搜索基準(zhǔn)(即中大和 PRW)上進(jìn)行實(shí)驗(yàn),并將我們的方法擴(kuò)展到更具挑戰(zhàn)性的設(shè)置(即在 MovieNet 上進(jìn)行字符搜索)。廣泛的實(shí)驗(yàn)結(jié)果表明,所提出的 GLCNet 在三個(gè)數(shù)據(jù)集上對(duì)最先進(jìn)方法的持續(xù)改進(jìn)。我們的源代碼、預(yù)訓(xùn)練模型和字符搜索的新設(shè)置可從以下網(wǎng)址獲得:此 https URL。
* 題目: Implicit Neural Deformation for Multi-View Face Reconstruction
* 鏈接:
https://arxiv.org/abs/2112.02494* 作者: Moran Li,Haibin Huang,Yi Zheng,Mengtian Li,Nong Sang,Chongyang Ma
* 其他: 13 pages, 4 figures
* 摘要: 在這項(xiàng)工作中,我們提出了一種從多視圖 RGB 圖像重建 3D 人臉的新方法。與以前建立在細(xì)節(jié)有限的 3D 可變形模型 (3DMM) 上的方法不同,我們的方法利用隱式表示來(lái)編碼豐富的幾何特征。我們的整個(gè)管道由兩個(gè)主要部分組成,包括一個(gè)幾何網(wǎng)絡(luò),它學(xué)習(xí)一個(gè)可變形的神經(jīng)符號(hào)距離函數(shù) (SDF) 作為 3D 人臉表示,以及一個(gè)渲染網(wǎng)絡(luò),它學(xué)習(xí)渲染神經(jīng) SDF 的表面點(diǎn)以匹配通過(guò)自監(jiān)督優(yōu)化輸入圖像。為了在測(cè)試時(shí)處理具有不同表情的同一目標(biāo)的野外稀疏視圖輸入,我們進(jìn)一步提出了殘差潛在代碼以有效擴(kuò)展學(xué)習(xí)到的隱式人臉表示的形狀空間,以及一種新穎的視圖切換損失加強(qiáng)不同觀點(diǎn)之間的一致性。我們?cè)趲讉€(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與最先進(jìn)的方法相比,我們的方法優(yōu)于替代基線并實(shí)現(xiàn)了卓越的人臉重建結(jié)果。
* 題目: Face Trees for Expression Recognition
* 鏈接:
https://arxiv.org/abs/2112.02487* 作者: Mojtaba Kolahdouzi,Alireza Sepas-Moghaddam,Ali Etemad
* 摘要: 我們提出了一種用于面部表情識(shí)別的端到端架構(gòu)。我們的模型學(xué)習(xí)面部標(biāo)志的最佳樹(shù)拓?fù)?,其遍歷生成一個(gè)序列,我們從中獲得嵌入以提供給序列學(xué)習(xí)器。所提出的架構(gòu)包含兩個(gè)主要流,一個(gè)專注于地標(biāo)位置以學(xué)習(xí)面部結(jié)構(gòu),而另一個(gè)專注于地標(biāo)周?chē)难a(bǔ)丁以學(xué)習(xí)紋理信息。每個(gè)流后面都有一個(gè)注意力機(jī)制,輸出被饋送到兩個(gè)流融合組件以執(zhí)行最終分類。我們對(duì)兩個(gè)大規(guī)模公開(kāi)可用的面部表情數(shù)據(jù)集 AffectNet 和 FER2013 進(jìn)行了大量實(shí)驗(yàn),以評(píng)估我們方法的有效性。我們的方法優(yōu)于該領(lǐng)域的其他解決方案,并在這些數(shù)據(jù)集上設(shè)置了新的最先進(jìn)的表達(dá)識(shí)別率。
* 題目: Deblurring via Stochastic Refinement
* 鏈接:
https://arxiv.org/abs/2112.02475* 作者: Jay Whang,Mauricio Delbracio,Hossein Talebi,Chitwan Saharia,Alexandros G. Dimakis,Peyman Milanfar
* 摘要: 圖像去模糊是一個(gè)不適定問(wèn)題,對(duì)于給定的輸入圖像有多種合理的解決方案。然而,大多數(shù)現(xiàn)有方法都會(huì)對(duì)干凈圖像產(chǎn)生確定性估計(jì),并經(jīng)過(guò)訓(xùn)練以最小化像素級(jí)失真。眾所周知,這些指標(biāo)與人類感知的相關(guān)性很差,并且經(jīng)常導(dǎo)致不切實(shí)際的重建。我們提出了一種基于條件擴(kuò)散模型的盲去模糊替代框架。與現(xiàn)有技術(shù)不同的是,我們訓(xùn)練了一個(gè)隨機(jī)采樣器,它可以改進(jìn)確定性預(yù)測(cè)器的輸出,并且能夠?yàn)榻o定的輸入生成一組多樣化的似是而非的重建。與現(xiàn)有的最先進(jìn)方法相比,跨多個(gè)標(biāo)準(zhǔn)基準(zhǔn)的感知質(zhì)量顯著提高。與典型的擴(kuò)散模型相比,我們的預(yù)測(cè)和優(yōu)化方法還可以實(shí)現(xiàn)更有效的采樣。結(jié)合精心調(diào)整的網(wǎng)絡(luò)架構(gòu)和推理過(guò)程,我們的方法在失真指標(biāo)(如 PSNR)方面具有競(jìng)爭(zhēng)力。這些結(jié)果顯示了我們基于擴(kuò)散的去模糊方法的明顯優(yōu)勢(shì),并挑戰(zhàn)了廣泛使用的生成單一、確定性重建的策略。
* 題目: RADA: Robust Adversarial Data Augmentation for Camera Localization in Challenging Weather
* 鏈接:
https://arxiv.org/abs/2112.02469* 作者: Jialu Wang,Muhamad Risqi U. Saputra,Chris Xiaoxuan Lu,Niki Trigon,Andrew Markham
* 摘要: 相機(jī)定位是許多機(jī)器人應(yīng)用的基本和關(guān)鍵問(wèn)題。近年來(lái),使用深度學(xué)習(xí)進(jìn)行基于相機(jī)的定位已經(jīng)成為一個(gè)熱門(mén)的研究方向。然而,它們?nèi)狈?duì)大域變化的魯棒性,這可能是由訓(xùn)練和測(cè)試數(shù)據(jù)集之間的季節(jié)性或光照變化引起的。數(shù)據(jù)增強(qiáng)是解決這個(gè)問(wèn)題的一種有吸引力的方法,因?yàn)樗恍枰峁╊~外的數(shù)據(jù)。然而,現(xiàn)有的增強(qiáng)方法盲目地?cái)_亂所有像素,因此無(wú)法獲得令人滿意的性能。為了克服這個(gè)問(wèn)題,我們提出了 RADA,這是一個(gè)系統(tǒng),其目的是專注于擾動(dòng)圖像的幾何信息部分。結(jié)果,它學(xué)會(huì)了生成仍然能夠使網(wǎng)絡(luò)困惑的最小圖像擾動(dòng)。我們表明,當(dāng)這些例子被用作增強(qiáng)時(shí),它大大提高了魯棒性。我們表明,在“看不見(jiàn)的”具有挑戰(zhàn)性的天氣條件下進(jìn)行測(cè)試時(shí),我們的方法優(yōu)于以前的增強(qiáng)技術(shù),并且比 SOTA 定位模型(例如 AtLoc 和 MapNet)的準(zhǔn)確度高出兩倍。
* 題目: SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction
* 鏈接:
https://arxiv.org/abs/2112.02459* 作者: Pei Lv,Wentong Wang,Yunxin Wang,Yuzhen Zhang,Mingliang Xu,Changsheng Xu
* 其他: 14 pages, 8 figures
* 摘要: 行人軌跡預(yù)測(cè)是自動(dòng)駕駛的一項(xiàng)重要技術(shù),成為近年來(lái)的研究熱點(diǎn)。以前的方法主要依靠行人的位置關(guān)系來(lái)模擬社會(huì)互動(dòng),這顯然不足以表示真實(shí)情況下的復(fù)雜情況。此外,現(xiàn)有的工作大多將場(chǎng)景交互模塊作為一個(gè)獨(dú)立的分支引入,在軌跡生成過(guò)程中嵌入社交特征,而不是同時(shí)進(jìn)行社交和場(chǎng)景交互,這可能會(huì)破壞軌跡預(yù)測(cè)的合理性。 .在本文中,我們提出了一種名為社交軟注意力圖卷積網(wǎng)絡(luò)(SSAGCN)的新預(yù)測(cè)模型,旨在同時(shí)處理行人之間的社交互動(dòng)以及行人與環(huán)境之間的場(chǎng)景互動(dòng)。具體來(lái)說(shuō),在對(duì)社交互動(dòng)進(jìn)行建模時(shí),我們提出了一種新的/emph{社交軟注意力函數(shù)},它充分考慮了行人之間的各種互動(dòng)因素。并且可以在各種情況下根據(jù)不同的因素區(qū)分agent周?chē)腥说挠绊?。?duì)于物理交互,我們提出了一種新的/emph {順序場(chǎng)景共享機(jī)制}。場(chǎng)景在每一時(shí)刻對(duì)一個(gè)智能體的影響可以通過(guò)社會(huì)軟注意力與其他鄰居共享,因此場(chǎng)景的影響在空間和時(shí)間維度上都得到了擴(kuò)展。在這些改進(jìn)的幫助下,我們成功地獲得了社會(huì)和物理上可接受的預(yù)測(cè)軌跡。在公共可用數(shù)據(jù)集上的實(shí)驗(yàn)證明了 SSAGCN 的有效性,并取得了最先進(jìn)的結(jié)果。
* 題目: Implicit Data Augmentation Using Feature Interpolation for Diversified Low-Shot Image Generation
* 鏈接:
https://arxiv.org/abs/2112.02450* 作者: Mengyu Dai,Haibin Hang,Xiaoyang Guo
* 摘要: 生成模型的訓(xùn)練,尤其是生成對(duì)抗網(wǎng)絡(luò),很容易在低數(shù)據(jù)設(shè)置中發(fā)散。為了緩解這個(gè)問(wèn)題,我們提出了一種新穎的隱式數(shù)據(jù)增強(qiáng)方法,該方法有助于穩(wěn)定訓(xùn)練并合成不同的樣本。具體來(lái)說(shuō),我們將鑒別器視為真實(shí)數(shù)據(jù)流形的度量嵌入,它提供真實(shí)數(shù)據(jù)點(diǎn)之間的適當(dāng)距離。然后我們利用特征空間中的信息來(lái)開(kāi)發(fā)數(shù)據(jù)驅(qū)動(dòng)的增強(qiáng)方法。我們進(jìn)一步提出了一個(gè)簡(jiǎn)單的指標(biāo)來(lái)評(píng)估合成樣本的多樣性。少數(shù)鏡頭生成任務(wù)的實(shí)驗(yàn)表明,與當(dāng)前方法相比,我們的方法提高了 FID 和結(jié)果的多樣性,并允許使用少于 100 個(gè)訓(xùn)練樣本生成高質(zhì)量和多樣化的圖像。
* 題目: Next Day Wildfire Spread: A Machine Learning Data Set to Predict Wildfire Spreading from Remote-Sensing Data
* 鏈接:
https://arxiv.org/abs/2112.02447* 作者: Fantine Huot,R. Lily Hu,Nita Goyal,Tharun Sankar,Matthias Ihme,Yi-Fan Chen
* 其他: submitted to IEEE Transactions on Geoscience and Remote Sensing
* 摘要: 預(yù)測(cè)野火蔓延對(duì)于土地管理和備災(zāi)至關(guān)重要。為此,我們展示了“次日野火蔓延”,這是一個(gè)精心策劃的、大規(guī)模的、多元的歷史野火數(shù)據(jù)集,匯集了美國(guó)近十年的遙感數(shù)據(jù)。與現(xiàn)有的基于地球觀測(cè)衛(wèi)星的火災(zāi)數(shù)據(jù)集相比,我們的數(shù)據(jù)集將二維火災(zāi)數(shù)據(jù)與在二維區(qū)域?qū)R的多個(gè)解釋變量(例如,地形、植被、天氣、干旱指數(shù)、人口密度)相結(jié)合,提供了一個(gè)特征豐富的數(shù)據(jù)為機(jī)器學(xué)習(xí)設(shè)置。為了證明這個(gè)數(shù)據(jù)集的有用性,我們實(shí)現(xiàn)了一個(gè)卷積自動(dòng)編碼器,它利用這個(gè)數(shù)據(jù)的空間信息來(lái)預(yù)測(cè)野火蔓延。我們將神經(jīng)網(wǎng)絡(luò)的性能與其他機(jī)器學(xué)習(xí)模型進(jìn)行了比較:邏輯回歸和隨機(jī)森林。該數(shù)據(jù)集可用作基于遙感數(shù)據(jù)在一天的提前時(shí)間內(nèi)開(kāi)發(fā)野火傳播模型的基準(zhǔn)。
* 題目: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
* 鏈接:
https://arxiv.org/abs/2112.02399* 作者: Renrui Zhang,Longtian Qiu,Wei Zhang,Ziyao Zeng
* 摘要: 對(duì)比視覺(jué)語(yǔ)言預(yù)訓(xùn)練 (CLIP) 最近因其可遷移的視覺(jué)表示學(xué)習(xí)而受到越來(lái)越多的關(guān)注。在大規(guī)模圖像-文本對(duì)的監(jiān)督下,CLIP 能夠?qū)R成對(duì)的圖像和文本,從而在開(kāi)放詞匯場(chǎng)景中進(jìn)行零鏡頭識(shí)別。然而,具體應(yīng)用與一般預(yù)訓(xùn)練知識(shí)之間存在語(yǔ)義鴻溝,這使得匹配在下游任務(wù)上次優(yōu)。在本文中,我們提出 VT-CLIP 以通過(guò)視覺(jué)引導(dǎo)文本增強(qiáng)視覺(jué)語(yǔ)言建模。具體來(lái)說(shuō),我們引導(dǎo)文本特征自適應(yīng)地探索圖像上的信息區(qū)域,并通過(guò)交叉注意機(jī)制聚合視覺(jué)特征。通過(guò)這種方式,視覺(jué)引導(dǎo)的文本與圖像在語(yǔ)義上變得更加相關(guān),這極大地有利于匹配過(guò)程。在小樣本設(shè)置中,我們?cè)?11 個(gè)眾所周知的分類數(shù)據(jù)集上評(píng)估了我們的 VT-CLIP,并進(jìn)行了廣泛的消融研究以證明 VT-CLIP 的有效性。代碼將很快發(fā)布。
* 題目: LTT-GAN: Looking Through Turbulence by Inverting GANs
* 鏈接:
https://arxiv.org/abs/2112.02379* 作者: Kangfu Mei,Vishal M. Patel
* 其他: Project Page:
https://kfmei.page/LTT-GAN/* 摘要: 在遠(yuǎn)距離成像的許多應(yīng)用中,我們面臨這樣一種場(chǎng)景,即出現(xiàn)在捕獲圖像中的人往往會(huì)因大氣湍流而退化。然而,恢復(fù)這種退化的圖像以進(jìn)行人臉驗(yàn)證是很困難的,因?yàn)橥嘶瘯?huì)導(dǎo)致圖像幾何失真和模糊。為了減輕湍流效應(yīng),在本文中,我們提出了第一種利用受過(guò)良好訓(xùn)練的 GAN 封裝的視覺(jué)先驗(yàn)的湍流減輕方法。基于視覺(jué)先驗(yàn),我們建議學(xué)習(xí)在空間周期性上下文距離上保留恢復(fù)圖像的身份。這樣的距離可以在考慮網(wǎng)絡(luò)學(xué)習(xí)時(shí)的身份差異的同時(shí)保持從 GAN 恢復(fù)圖像的真實(shí)性。此外,還提出了分層偽連接,通過(guò)在不改變身份的情況下引入更多的外觀變化來(lái)促進(jìn)身份保持學(xué)習(xí)。大量實(shí)驗(yàn)表明,我們的方法在恢復(fù)結(jié)果的視覺(jué)質(zhì)量和面部驗(yàn)證準(zhǔn)確性方面都明顯優(yōu)于現(xiàn)有技術(shù)。
* 題目: 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI Image Similarity Challenge
* 鏈接:
https://arxiv.org/abs/2112.02373* 作者: Xinlong Sun,Yangyang Qin,Xuyuan Xu,Guoping Gong,Yang Fang,Yexin Wang
* 其他: This is the 3rd solution for Facebook Image Similarity Challenge and NIPS2021 Workshop. The current first draft version will be updated later
* 摘要: 圖像相似度檢索作為計(jì)算機(jī)視覺(jué)的一項(xiàng)基本任務(wù),面臨著大規(guī)模數(shù)據(jù)和圖像復(fù)制攻擊的挑戰(zhàn)。本文介紹了我們對(duì) Facebook AI 組織的 2021 年圖像相似性挑戰(zhàn) (ISC) 匹配賽道的第三名解決方案。我們提出了一種結(jié)合全局描述符和局部描述符的多分支檢索方法來(lái)覆蓋所有攻擊情況。具體來(lái)說(shuō),我們嘗試了許多策略來(lái)優(yōu)化全局描述符,包括豐富的數(shù)據(jù)增強(qiáng)、使用單個(gè) Transformer 模型的自監(jiān)督學(xué)習(xí)、疊加檢測(cè)預(yù)處理。此外,我們?yōu)榫植繖z索引入了魯棒的 SIFT 特征和 GPU Faiss,彌補(bǔ)了全局檢索的缺點(diǎn)。最后,使用KNN-matching算法判斷匹配和合并分?jǐn)?shù)。我們展示了我們方法的一些消融實(shí)驗(yàn),這揭示了全局和局部特征的互補(bǔ)優(yōu)勢(shì)。
* 題目: SITA: Single Image Test-time Adaptation
* 鏈接:
https://arxiv.org/abs/2112.02355* 作者: Ansh Khurana,Sujoy Paul,Piyush Rai,Soma Biswas,Gaurav Aggarwal
* 摘要: 在測(cè)試時(shí)自適應(yīng) (TTA) 中,給定一個(gè)在某些源數(shù)據(jù)上訓(xùn)練的模型,目標(biāo)是對(duì)其進(jìn)行調(diào)整,以便對(duì)來(lái)自不同分布的測(cè)試實(shí)例做出更好的預(yù)測(cè)。至關(guān)重要的是,TTA 假設(shè)無(wú)法訪問(wèn)源數(shù)據(jù),甚至無(wú)法訪問(wèn)目標(biāo)分布中的任何其他標(biāo)記/未標(biāo)記樣本來(lái)微調(diào)源模型。在這項(xiàng)工作中,我們?cè)诟鼘?shí)用的環(huán)境中考慮 TTA,我們將其稱為 SITA(單圖像測(cè)試時(shí)間適應(yīng))。在這里,在進(jìn)行每個(gè)預(yù)測(cè)時(shí),模型只能訪問(wèn)給定的 /emph{single} 測(cè)試實(shí)例,而不是像文獻(xiàn)中通??紤]的那樣的 /emph{batch} 實(shí)例。這是由現(xiàn)實(shí)場(chǎng)景推動(dòng)的,其中需要以按需方式進(jìn)行推理,可能不會(huì)延遲“批量化”傳入請(qǐng)求,或者推理發(fā)生在沒(méi)有余地的邊緣設(shè)備(如手機(jī))上分批。 SITA 中的整個(gè)適應(yīng)過(guò)程應(yīng)該非??欤?yàn)樗l(fā)生在推理時(shí)。為了解決這個(gè)問(wèn)題,我們?yōu)閮H需要前向傳播的 SITA 設(shè)置提出了一種新方法 AugBN。該方法可以使任何現(xiàn)成的訓(xùn)練模型適應(yīng)用于分類和分割任務(wù)的單個(gè)測(cè)試實(shí)例。 AugBN 僅使用一個(gè)帶有標(biāo)簽保留變換的前向傳遞來(lái)估計(jì)給定測(cè)試圖像中未見(jiàn)測(cè)試分布的歸一化統(tǒng)計(jì)數(shù)據(jù)。由于 AugBN 不涉及任何反向傳播,因此與其他最近的方法相比,它的速度要快得多。據(jù)我們所知,這是第一項(xiàng)僅使用單個(gè)測(cè)試圖像解決這個(gè)硬適應(yīng)問(wèn)題的工作。盡管非常簡(jiǎn)單,但與將源模型直接應(yīng)用于目標(biāo)實(shí)例相比,我們的框架能夠?qū)崿F(xiàn)顯著的性能提升,正如我們廣泛的實(shí)驗(yàn)和消融研究所反映的那樣。
* 題目: Label Hierarchy Transition: Modeling Class Hierarchies to Enhance Deep Classifiers
* 鏈接:
https://arxiv.org/abs/2112.02353* 作者: Renzhen Wang,De cai,Kaiwen Xiao,Xixi Jia,Xiao Han,Deyu Meng
* 摘要: 層次分類旨在將對(duì)象分類為類別的層次結(jié)構(gòu)。例如,可以根據(jù)順序、科和種的三級(jí)層次結(jié)構(gòu)對(duì)鳥(niǎo)類進(jìn)行分類?,F(xiàn)有方法通常通過(guò)將分層分類解耦為多個(gè)多類分類任務(wù)來(lái)解決分層分類問(wèn)題。然而,這種多任務(wù)學(xué)習(xí)策略未能充分利用不同層次結(jié)構(gòu)中各種類別之間的相關(guān)性。在本文中,我們提出了基于深度學(xué)習(xí)的統(tǒng)一概率框架 Label Hierarchy Transition 來(lái)解決分層分類問(wèn)題。具體來(lái)說(shuō),我們明確地學(xué)習(xí)了標(biāo)簽層次轉(zhuǎn)換矩陣,其列向量表示兩個(gè)相鄰層次之間的類的條件標(biāo)簽分布,并且能夠?qū)η度朐陬悓哟沃械南嚓P(guān)性進(jìn)行編碼。我們進(jìn)一步提出了一種混淆損失,它鼓勵(lì)分類網(wǎng)絡(luò)在訓(xùn)練期間學(xué)習(xí)不同標(biāo)簽層次結(jié)構(gòu)之間的相關(guān)性。所提出的框架只需稍作修改即可適用于任何現(xiàn)有的深度網(wǎng)絡(luò)。我們對(duì)具有不同類別層次結(jié)構(gòu)的三個(gè)公共基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果證明了我們的方法超越現(xiàn)有技術(shù)的優(yōu)越性。源代碼將公開(kāi)提供。
* 題目: Scanpath Prediction on Information Visualisations
* 鏈接:
https://arxiv.org/abs/2112.02340* 作者: Yao Wang,Mihai Bace,Andreas Bulling
* 其他: 11 pages, 6 figures
* 摘要: 我們提出了顯著性和掃描路徑的統(tǒng)一模型(UMSS)——一種學(xué)習(xí)預(yù)測(cè)信息可視化的視覺(jué)顯著性和掃描路徑(即眼睛注視序列)的模型。盡管掃描路徑在視覺(jué)探索過(guò)程中提供了有關(guān)不同可視化元素重要性的豐富信息,但先前的工作僅限于預(yù)測(cè)聚合注意力統(tǒng)計(jì)數(shù)據(jù),例如視覺(jué)顯著性。我們對(duì)流行的 MASSVIS 數(shù)據(jù)集上的不同信息可視化元素(例如標(biāo)題、標(biāo)簽、數(shù)據(jù))的凝視行為進(jìn)行了深入分析。我們表明,雖然總體而言,視覺(jué)化和觀看者之間的凝視模式驚人地一致,但不同元素的凝視動(dòng)態(tài)也存在結(jié)構(gòu)性差異。根據(jù)我們的分析,UMSS 首先預(yù)測(cè)多持續(xù)時(shí)間元素級(jí)顯著圖,然后從它們中概率采樣掃描路徑。 MASSVIS 上的大量實(shí)驗(yàn)表明,我們的方法在幾個(gè)廣泛使用的掃描路徑和顯著性評(píng)估指標(biāo)方面始終優(yōu)于最先進(jìn)的方法。我們的方法使掃描路徑預(yù)測(cè)的序列得分相對(duì)提高了 11.5%,顯著性預(yù)測(cè)的 Pearson 相關(guān)系數(shù)相對(duì)提高了 23.6%。這些結(jié)果是吉祥的,并且指向更豐富的用戶模型和可視化的視覺(jué)注意力模擬,而無(wú)需任何眼動(dòng)追蹤設(shè)備。
* 題目: Generalized Binary Search Network for Highly-Efficient Multi-View Stereo
* 鏈接:
https://arxiv.org/abs/2112.02338* 作者: Zhenxing Mi,Di Chang,Dan Xu
* 其他: 16 pages
* 摘要: 具有已知相機(jī)參數(shù)的多視圖立體 (MVS) 本質(zhì)上是有效深度范圍內(nèi)的一維搜索問(wèn)題。最近基于深度學(xué)習(xí)的 MVS 方法通常在深度范圍內(nèi)對(duì)深度假設(shè)進(jìn)行密集采樣,然后構(gòu)建消耗大量?jī)?nèi)存的 3D 成本量以進(jìn)行深度預(yù)測(cè)。盡管從粗到精的采樣策略在一定程度上緩解了這個(gè)開(kāi)銷(xiāo)問(wèn)題,但 MVS 的效率仍然是一個(gè)開(kāi)放的挑戰(zhàn)。在這項(xiàng)工作中,我們提出了一種高效 MVS 的新方法,該方法顯著減少了內(nèi)存占用,同時(shí)明顯提高了最先進(jìn)的深度預(yù)測(cè)性能。我們調(diào)查考慮到效率和有效性的 MVS 可以合理優(yōu)化的搜索策略。我們首先將 MVS 表述為一個(gè)二分搜索問(wèn)題,并相應(yīng)地為 MVS 提出了一個(gè)廣義的二分搜索網(wǎng)絡(luò)。具體來(lái)說(shuō),在每一步中,深度范圍被分成 2 個(gè) bin,兩邊都有額外的 1 個(gè)容錯(cuò) bin。執(zhí)行分類以識(shí)別哪個(gè) bin 包含真實(shí)深度。我們還設(shè)計(jì)了三種機(jī)制來(lái)分別處理分類錯(cuò)誤、處理超出范圍的樣本和減少訓(xùn)練記憶。新的公式使我們的方法在每個(gè)步驟中僅對(duì)極少量的深度假設(shè)進(jìn)行采樣,具有很高的內(nèi)存效率,也極大地促進(jìn)了快速訓(xùn)練收斂。在競(jìng)爭(zhēng)基準(zhǔn)上的實(shí)驗(yàn)表明,我們的方法以更少的內(nèi)存實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確性。特別是,我們的方法在 DTU 數(shù)據(jù)集上獲得了 0.289 的總分,在所有基于學(xué)習(xí)的方法中,在具有挑戰(zhàn)性的 Tanks and Temples 高級(jí)數(shù)據(jù)集上名列第一。經(jīng)過(guò)訓(xùn)練的模型和代碼將在此 https URL 上發(fā)布。
* 題目: MoFaNeRF: Morphable Facial Neural Radiance Field
* 鏈接:
https://arxiv.org/abs/2112.02308* 作者: Yiyu Zhuang,Hao Zhu,Xusen Sun,Xun Cao
* 摘要: 我們提出了一個(gè)參數(shù)模型,該模型使用神經(jīng)輻射場(chǎng)將自由視圖圖像映射到編碼面部形狀、表情和外觀的向量空間,即 Morphable Facial NeRF。具體來(lái)說(shuō),MoFaNeRF 將編碼的面部形狀、表情和外觀以及空間坐標(biāo)和視圖方向作為 MLP 的輸入,并輸出空間點(diǎn)的輻射以進(jìn)行逼真的圖像合成。與傳統(tǒng)的 3D 可變形模型 (3DMM) 相比,MoFaNeRF 在直接合成逼真的面部細(xì)節(jié)方面表現(xiàn)出優(yōu)勢(shì),即使是眼睛、嘴巴和胡須。此外,通過(guò)插入輸入的形狀、表情和外觀代碼,可以輕松實(shí)現(xiàn)連續(xù)的面部變形。通過(guò)引入特定于身份的調(diào)制和紋理編碼器,我們的模型合成了準(zhǔn)確的光度細(xì)節(jié)并顯示出強(qiáng)大的表示能力。我們的模型在多種應(yīng)用中表現(xiàn)出強(qiáng)大的能力,包括基于圖像的擬合、隨機(jī)生成、人臉綁定、人臉編輯和新視圖合成。實(shí)驗(yàn)表明,我們的方法比以前的參數(shù)模型具有更高的表示能力,并在多個(gè)應(yīng)用中取得了有競(jìng)爭(zhēng)力的性能。據(jù)我們所知,我們的工作是第一個(gè)基于神經(jīng)輻射場(chǎng)的面部參數(shù)模型,可用于擬合、生成和操作。我們的代碼和模型在這個(gè) https URL 中發(fā)布。
* 題目: Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations
* 鏈接:
https://arxiv.org/abs/2112.02290* 作者: Wolfgang Stammer,Marius Memmel,Patrick Schramowski,Kristian Kersting
* 摘要: 在沒(méi)有強(qiáng)大監(jiān)督的情況下從原始圖像中學(xué)習(xí)視覺(jué)概念是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在這項(xiàng)工作中,我們展示了原型表示在理解和修改神經(jīng)概念學(xué)習(xí)器的潛在空間方面的優(yōu)勢(shì)。為此,我們引入了交互式概念交換網(wǎng)絡(luò) (iCSN),這是一種通過(guò)弱監(jiān)督和隱式原型表示學(xué)習(xí)基于概念的表示的新框架。 iCSN 通過(guò)交換配對(duì)圖像的潛在表示,學(xué)習(xí)將概念信息綁定到特定的原型槽。這種基于語(yǔ)義的離散潛在空間促進(jìn)了人類的理解和人機(jī)交互。我們通過(guò)對(duì)我們的新數(shù)據(jù)集“基本概念推理”(ECR)進(jìn)行實(shí)驗(yàn)來(lái)支持這一主張,重點(diǎn)是幾何對(duì)象共享的視覺(jué)概念。
* 題目: BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection
* 鏈接:
https://arxiv.org/abs/2112.02277* 作者: Xiaoxiao Yang,Yeqian Qiang,Huijie Zhu,Chunxiang Wang,Ming Yang
* 摘要: 熱紅外 (TIR) 圖像已被證明可以有效地為多光譜行人檢測(cè)的 RGB 特征提供溫度提示。大多數(shù)現(xiàn)有方法直接將 TIR 模態(tài)注入基于 RGB 的框架或簡(jiǎn)單地將兩種模態(tài)的結(jié)果結(jié)合起來(lái)。然而,這可能導(dǎo)致較差的檢測(cè)性能,因?yàn)?RGB 和 TIR 特征通常具有特定于模態(tài)的噪聲,這可能會(huì)隨著網(wǎng)絡(luò)的傳播而惡化特征。因此,這項(xiàng)工作提出了一種有效且高效的跨模態(tài)融合模塊,稱為雙向自適應(yīng)注意門(mén)(BAA-Gate)。基于注意力機(jī)制,BAA-Gate 被設(shè)計(jì)為提取信息特征并漸近地重新校準(zhǔn)表示。具體而言,采用雙向多階段融合策略逐步優(yōu)化兩種模態(tài)的特征并在傳播過(guò)程中保持其特異性。此外,基于光照的加權(quán)策略引入了 BAA-Gate 的自適應(yīng)交互,以自適應(yīng)地調(diào)整 BAA-Gate 中的重新校準(zhǔn)和聚合強(qiáng)度,并增強(qiáng)對(duì)光照變化的魯棒性。在具有挑戰(zhàn)性的 KAIST 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了我們的方法具有令人滿意的速度的優(yōu)越性能。
* 題目: Feature-based Recognition Framework for Super-resolution Images
* 鏈接:
https://arxiv.org/abs/2112.02270* 作者: Jing Hu,Meiqi Zhang,Rui Zhang
* 其他: 7 pages, 2 figures
* 摘要: 在實(shí)際應(yīng)用中,當(dāng)應(yīng)用于超分辨率圖像時(shí),識(shí)別網(wǎng)絡(luò)的性能通常會(huì)下降。在本文中,我們提出了一種結(jié)合 GAN(FGAN)的基于特征的識(shí)別網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)通過(guò)提取更多有利于 SR 圖像識(shí)別的特征來(lái)提高識(shí)別精度。在實(shí)驗(yàn)中,我們使用三種不同的超分辨率算法構(gòu)建了三個(gè)數(shù)據(jù)集,我們的網(wǎng)絡(luò)與 ReaNet50 和 DenseNet121 相比,識(shí)別準(zhǔn)確率提高了 6% 以上。
* 題目: Construct Informative Triplet with Two-stage Hard-sample Generation
* 鏈接:
https://arxiv.org/abs/2112.02259* 作者: Chuang Zhu,Zheng Hu,Huihui Dong,Gang He,Zekuan Yu,Shangshang Zhang
* 摘要: 在本文中,我們提出了一種穩(wěn)健的樣本生成方案來(lái)構(gòu)建信息豐富的三元組。所提出的硬樣本生成是一個(gè)兩階段合成框架,它分別通過(guò)有效的正負(fù)樣本生成器在兩個(gè)階段產(chǎn)生硬樣本。第一階段通過(guò)分段線性操作拉伸錨正對(duì),并通過(guò)巧妙地設(shè)計(jì)條件生成對(duì)抗網(wǎng)絡(luò)來(lái)提高生成樣本的質(zhì)量,以降低模式崩潰的風(fēng)險(xiǎn)。第二階段利用自適應(yīng)反向度量約束來(lái)生成最終的硬樣本。在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證實(shí),我們的方法比現(xiàn)有的硬樣本生成算法具有更高的性能。此外,我們還發(fā)現(xiàn)我們提出的硬樣本生成方法結(jié)合現(xiàn)有的三元組挖掘策略可以進(jìn)一步提高深度度量學(xué)習(xí)性能。
* 題目: Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction
* 鏈接:
https://arxiv.org/abs/2112.02252* 作者: Yikai Wang,Wenbing Huang,Fuchun Sun,Fengxiang He,Dacheng Tao
* 其他: 18 pages. arXiv admin note: substantial text overlap with arXiv:2011.05005
* 摘要: 多模態(tài)融合和多任務(wù)學(xué)習(xí)是機(jī)器學(xué)習(xí)中的兩個(gè)重要主題。盡管取得了豐碩的進(jìn)展,但解決這兩個(gè)問(wèn)題的現(xiàn)有方法仍然難以應(yīng)對(duì)相同的挑戰(zhàn)——在跨模態(tài)(resp.task)整合公共信息的同時(shí)保留每種模態(tài)(resp.task)的特定模式仍然是兩難的。此外,雖然它們實(shí)際上彼此密切相關(guān),但以前很少在同一方法框架內(nèi)探索多模態(tài)融合和多任務(wù)學(xué)習(xí)。在本文中,我們提出了自適應(yīng)、無(wú)參數(shù)的通道交換網(wǎng)絡(luò) (CEN),更重要的是,它適用于多模態(tài)融合和多任務(wù)學(xué)習(xí)。 CEN的核心是在不同模態(tài)的子網(wǎng)之間動(dòng)態(tài)交換信道。具體來(lái)說(shuō),通道交換過(guò)程是由單個(gè)通道重要性自我引導(dǎo)的,該重要性由訓(xùn)練期間批量歸一化 (BN) 縮放因子的大小來(lái)衡量。對(duì)于密集圖像預(yù)測(cè)的應(yīng)用,通過(guò)多模態(tài)融合、循環(huán)多模態(tài)融合、多任務(wù)學(xué)習(xí)和多模態(tài)多任務(wù)學(xué)習(xí)四種不同場(chǎng)景來(lái)測(cè)試CEN的有效性。與當(dāng)前最先進(jìn)的方法相比,通過(guò) RGB-D 數(shù)據(jù)和通過(guò)多域輸入進(jìn)行圖像轉(zhuǎn)換的語(yǔ)義分割的廣泛實(shí)驗(yàn)驗(yàn)證了我們的 CEN 的有效性。還進(jìn)行了詳細(xì)的消融研究,這證明了我們提出的每個(gè)組件的優(yōu)勢(shì)。
* 題目: Dense Extreme Inception Network for Edge Detection
* 鏈接:
https://arxiv.org/abs/2112.02250* 作者: Xavier Soria Poma,Angel Sappa,Patricio Humanante,Arash Arbarinia
* 其他: Paper submitted to an Elsevier journal
* 摘要: 邊緣檢測(cè)是許多計(jì)算機(jī)視覺(jué)應(yīng)用的基礎(chǔ)。最先進(jìn)的技術(shù)主要依賴于具有兩個(gè)決定性因素的深度學(xué)習(xí):數(shù)據(jù)集內(nèi)容和網(wǎng)絡(luò)架構(gòu)。大多數(shù)公開(kāi)可用的數(shù)據(jù)集都沒(méi)有針對(duì)邊緣檢測(cè)任務(wù)進(jìn)行策劃。在這里,我們提供了針對(duì)此約束的解決方案。首先,我們認(rèn)為邊緣、輪廓和邊界,盡管它們有重疊,但它們是三個(gè)不同的視覺(jué)特征,需要單獨(dú)的基準(zhǔn)數(shù)據(jù)集。為此,我們提出了一個(gè)新的邊數(shù)據(jù)集。其次,我們提出了一種新穎的架構(gòu),稱為邊緣檢測(cè)的密集極端初始網(wǎng)絡(luò) (DexiNed),可以從頭開(kāi)始訓(xùn)練,無(wú)需任何預(yù)訓(xùn)練的權(quán)重。 DexiNed 在呈現(xiàn)的數(shù)據(jù)集中優(yōu)于其他算法。它還可以很好地推廣到其他數(shù)據(jù)集而無(wú)需任何微調(diào)。由于輸出的邊緣更銳利、更精細(xì),DexiNed 的更高質(zhì)量在感知上也很明顯。
* 題目: Dual-Flow Transformation Network for Deformable Image Registration with Region Consistency Constraint
* 鏈接:
https://arxiv.org/abs/2112.02249* 作者: Xinke Ma,Yibo Yang,Yong Xia,Dacheng Tao
* 摘要: 可變形圖像配準(zhǔn)能夠在一對(duì)圖像之間實(shí)現(xiàn)快速準(zhǔn)確的對(duì)齊,因此在許多醫(yī)學(xué)圖像研究中發(fā)揮著重要作用。當(dāng)前基于深度學(xué)習(xí) (DL) 的圖像配準(zhǔn)方法通過(guò)利用卷積神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)從一幅圖像到另一幅圖像的空間變換,這需要地面實(shí)況或相似性度量。然而,這些方法僅使用全局相似性能量函數(shù)來(lái)評(píng)估一對(duì)圖像的相似性,而忽略了圖像內(nèi)感興趣區(qū)域(ROI)的相似性。此外,基于DL的方法通常直接估計(jì)圖像的全局空間變換,從不關(guān)注圖像內(nèi)ROI的區(qū)域空間變換。在本文中,我們提出了一種具有區(qū)域一致性約束的新型雙流變換網(wǎng)絡(luò),該網(wǎng)絡(luò)最大限度地提高了一對(duì)圖像內(nèi) ROI 的相似性,并同時(shí)估計(jì)全局和區(qū)域空間變換。在四個(gè)公共 3D MRI 數(shù)據(jù)集上的實(shí)驗(yàn)表明,與其他最先進(jìn)的方法相比,所提出的方法在準(zhǔn)確性和泛化方面實(shí)現(xiàn)了最佳配準(zhǔn)性能。
* 題目: A Triple-Double Convolutional Neural Network for Panchromatic Sharpening
* 鏈接:
https://arxiv.org/abs/2112.02237* 作者: Tian-Jing Zhang,Liang-Jian Deng,Ting-Zhu Huang,Jocelyn Chanussot,Gemine Vivone
* 摘要: 全色銳化是指將空間分辨率高的全色圖像與空間分辨率低的多光譜圖像進(jìn)行融合,以獲得高空間分辨率的多光譜圖像。在本文中,我們通過(guò)考慮以下雙類型結(jié)構(gòu),/emph{ie,} 雙層、雙分支和雙向,稱為三雙網(wǎng)絡(luò)(TDNet)。通過(guò)使用TDNet的結(jié)構(gòu),可以充分挖掘和利用全色圖像的空間細(xì)節(jié),逐步注入到低空間分辨率的多光譜圖像中,從而產(chǎn)生高空間分辨率的輸出。具體的網(wǎng)絡(luò)設(shè)計(jì)是由傳統(tǒng)的多分辨率分析 (MRA) 方法的物理公式驅(qū)動(dòng)的。因此,有效的 MRA 融合模塊也集成到 TDNet 中。此外,我們采用了一些 ResNet 塊和一些多尺度卷積核來(lái)加深和加寬網(wǎng)絡(luò),以有效增強(qiáng)所提出的 TDNet 的特征提取和魯棒性。對(duì) WorldView-3、QuickBird 和 GaoFen-2 傳感器獲取的縮減和全分辨率數(shù)據(jù)集進(jìn)行的大量實(shí)驗(yàn)證明了所提出的 TDNet 與最近一些最先進(jìn)的全色銳化方法相比的優(yōu)越性。消融研究也證實(shí)了所提出方法的有效性。
* 題目: SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
* 鏈接:
https://arxiv.org/abs/2112.02236* 作者: Yichun Shi,Xiao Yang,Yangyue Wan,Xiaohui Shen
* 其他: project page at this https URL
* 摘要: 最近的研究表明,StyleGAN 為圖像合成和編輯的下游任務(wù)提供了有前景的先驗(yàn)?zāi)P?。然而,由?StyleGAN 的潛在代碼旨在控制全局樣式,因此很難實(shí)現(xiàn)對(duì)合成圖像的細(xì)粒度控制。我們提出 SemanticStyleGAN,其中訓(xùn)練生成器以分別對(duì)局部語(yǔ)義部分進(jìn)行建模并以組合方式合成圖像。不同局部部分的結(jié)構(gòu)和紋理由相應(yīng)的潛在代碼控制。實(shí)驗(yàn)結(jié)果表明,我們的模型提供了不同空間區(qū)域之間的強(qiáng)烈解開(kāi)。當(dāng)結(jié)合為 StyleGAN 設(shè)計(jì)的編輯方法時(shí),它可以實(shí)現(xiàn)更細(xì)粒度的控制來(lái)編輯合成或真實(shí)圖像。該模型還可以通過(guò)遷移學(xué)習(xí)擴(kuò)展到其他領(lǐng)域。因此,作為具有內(nèi)置解耦的通用先驗(yàn)?zāi)P?,它可以促進(jìn)基于 GAN 的應(yīng)用程序的開(kāi)發(fā)并實(shí)現(xiàn)更多潛在的下游任務(wù)。
* 題目: HHF: Hashing-guided Hinge Function for Deep Hashing Retrieval
* 鏈接:
https://arxiv.org/abs/2112.02225* 作者: Chengyin Xu,Zhengzhuo Xu,Zenghao Chai,Hongjia Li,Qiruyi Zuo,Lingyu Yang,Chun Yuan
* 摘要: 深度散列在大規(guī)模圖像檢索中表現(xiàn)出良好的性能。然而,/textbf{D}eep /textbf{N}eural /textbf{N}etwork(DNN)提取的潛在代碼在二值化過(guò)程中不可避免地會(huì)丟失語(yǔ)義信息,這會(huì)損害檢索效率并使其具有挑戰(zhàn)性。盡管許多現(xiàn)有方法執(zhí)行正則化以減輕量化誤差,但我們發(fā)現(xiàn)度量和量化損失之間存在不兼容的沖突。度量損失懲罰類間距離,以將不同的類推遠(yuǎn)不受約束。更糟糕的是,它傾向于將潛在代碼映射到偏離理想二值化點(diǎn)的位置,并在二值化過(guò)程中產(chǎn)生嚴(yán)重的歧義。基于二進(jìn)制線性碼的最小距離,/textbf{H}ashing-guided /textbf{H}inge /textbf{F}unction (HHF) 被提出來(lái)避免這種沖突。具體來(lái)說(shuō),我們精心設(shè)計(jì)了一個(gè)特定的拐點(diǎn),它依靠哈希位長(zhǎng)和類別數(shù)來(lái)平衡度量學(xué)習(xí)和量化學(xué)習(xí)。這種修改可以防止網(wǎng)絡(luò)在深度散列中陷入局部度量最優(yōu)最小值。在 CIFAR-10、CIFAR-100、ImageNet 和 MS-COCO 中進(jìn)行的大量實(shí)驗(yàn)表明,HHF 始終優(yōu)于現(xiàn)有技術(shù),并且可以穩(wěn)健且靈活地移植到其他方法中。
* 題目: Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset
* 鏈接:
https://arxiv.org/abs/2112.02221* 作者: Nazeef Ul Haq,Muhammad Moazam Fraz,Tufail Sajjad Shah Hashmi,Muhammad Shahzad
* 其他: Submitted this paper in Journal
* 摘要: 武器的自動(dòng)檢測(cè)對(duì)于提高個(gè)人的安全和福祉具有重要意義,但由于武器的大小、形狀和外觀多種多樣,因此這是一項(xiàng)艱巨的任務(wù)。視點(diǎn)變化和遮擋也是使這項(xiàng)任務(wù)更加困難的原因。此外,當(dāng)前的物體檢測(cè)算法處理矩形區(qū)域,但是細(xì)長(zhǎng)的步槍可能實(shí)際上只覆蓋了一小部分區(qū)域,其余部分可能包含不重要的細(xì)節(jié)。為了克服這些問(wèn)題,我們提出了一種用于定向感知武器檢測(cè)的 CNN 架構(gòu),它提供了具有改進(jìn)武器檢測(cè)性能的定向邊界框。所提出的模型不僅通過(guò)將角度分為八類來(lái)使用角度作為分類問(wèn)題提供方向,而且還使用角度作為回歸問(wèn)題。為了訓(xùn)練我們的武器檢測(cè)模型,我們從網(wǎng)絡(luò)收集了一個(gè)包含總共 6400 張武器圖像的新數(shù)據(jù)集,然后用面向位置的邊界框手動(dòng)注釋。我們的數(shù)據(jù)集不僅提供定向邊界框作為基本事實(shí),還提供水平邊界框。我們還提供多種格式的現(xiàn)代目標(biāo)檢測(cè)器數(shù)據(jù)集,以供在該領(lǐng)域進(jìn)一步研究。所提出的模型在該數(shù)據(jù)集上進(jìn)行評(píng)估,并且與現(xiàn)成的物體檢測(cè)器的比較分析產(chǎn)生了所提出模型的優(yōu)越性能,使用標(biāo)準(zhǔn)評(píng)估策略進(jìn)行測(cè)量。數(shù)據(jù)集和模型實(shí)現(xiàn)在此鏈接中公開(kāi)提供:此 https URL。
* 題目: Hyper-GAN: Transferring Unconditional to Conditional GANs with HyperNetworks
* 鏈接:
https://arxiv.org/abs/2112.02219* 作者: Héctor Laria,Yaxing Wang,Joost van de Weijer,Bogdan Raducanu
* 其他: 14 pages, 12 figures
* 摘要: 近年來(lái),條件 GAN 已經(jīng)成熟,能夠生成高質(zhì)量的逼真圖像。然而,訓(xùn)練高質(zhì)量 GAN 所需的計(jì)算資源和訓(xùn)練數(shù)據(jù)是巨大的,因此研究這些模型的遷移學(xué)習(xí)是一個(gè)緊迫的課題。在本文中,我們探討了從高質(zhì)量預(yù)訓(xùn)練無(wú)條件 GAN 到條件 GAN 的轉(zhuǎn)移。為此,我們提出了基于超網(wǎng)絡(luò)的自適應(yīng)權(quán)重調(diào)制。此外,我們引入了一個(gè)不需要任何真實(shí)數(shù)據(jù)來(lái)初始化超網(wǎng)絡(luò)參數(shù)的自初始化過(guò)程。為了進(jìn)一步提高知識(shí)轉(zhuǎn)移的樣本效率,我們建議使用自監(jiān)督(對(duì)比)損失來(lái)改進(jìn) GAN 鑒別器。在廣泛的實(shí)驗(yàn)中,我們?cè)趲讉€(gè)標(biāo)準(zhǔn)基準(zhǔn)上驗(yàn)證了超網(wǎng)絡(luò)的效率、自初始化和知識(shí)轉(zhuǎn)移的對(duì)比損失。
* 題目: Face Reconstruction with Variational Autoencoder and Face Masks
* 鏈接:
https://arxiv.org/abs/2112.02139* 作者: Rafael S. Toledo,Eric A. Antonelo
* 其他: 12 pages, 7 figures, 18th Encontro Nacional de Inteligência Artificial e Computacional (ENIAC)
* 摘要: 變分自動(dòng)編碼器 (VAE) 采用深度學(xué)習(xí)模型來(lái)學(xué)習(xí)一個(gè)連續(xù)的潛在 z 空間,該空間位于高維觀察數(shù)據(jù)集的下方。有了這個(gè),許多任務(wù)成為可能,包括人臉重建和人臉合成。在這項(xiàng)工作中,我們研究了面罩如何通過(guò)將學(xué)習(xí)限制在面罩選擇的像素上來(lái)幫助訓(xùn)練 VAE 進(jìn)行人臉重建。使用 celebA 數(shù)據(jù)集對(duì)提案進(jìn)行的評(píng)估表明,重建的圖像通過(guò)面罩得到增強(qiáng),尤其是當(dāng) SSIM 損失與 l1 或 l2 損失函數(shù)一起使用時(shí)。我們注意到架構(gòu)中包含用于面罩預(yù)測(cè)的解碼器會(huì)影響 l1 或 l2 損失函數(shù)的性能,而 SSIM 損失則不然。此外,SSIM 感知損失在所有測(cè)試的假設(shè)中產(chǎn)生了最清晰的樣本,盡管它改變了圖像的原始顏色,使得 l1 或 l2 損失與 SSIM 一起使用有助于解決這個(gè)問(wèn)題。
* 題目: Novel Local Radiomic Bayesian Classifiers for Non-Invasive Prediction of MGMT Methylation Status in Glioblastoma
* 鏈接:
https://arxiv.org/abs/2112.03259* 作者: Mihir Rao
* 摘要: 膠質(zhì)母細(xì)胞瘤是一種侵襲性腦癌,是所有癌癥中最致命的一種。 O6-甲基鳥(niǎo)嘌呤-DNA-甲基轉(zhuǎn)移酶 (MGMT) 基因在膠質(zhì)母細(xì)胞瘤腫瘤組織中的表達(dá)具有臨床重要性,因?yàn)樗鼘?duì)替莫唑胺的療效有顯著影響,替莫唑胺是膠質(zhì)母細(xì)胞瘤患者的主要化療藥物。目前,MGMT 甲基化是通過(guò)侵入性腦活檢和隨后對(duì)提取的腫瘤組織的遺傳分析來(lái)確定的。在這項(xiàng)工作中,我們提出了新的貝葉斯分類器,該分類器基于從 FLAIR 序列磁共振圖像 (MRI) 中提取的放射組學(xué)特征對(duì) MGMT 甲基化狀態(tài)進(jìn)行概率預(yù)測(cè)。我們實(shí)施局部放射組學(xué)技術(shù)來(lái)生成放射組學(xué)激活圖,并根據(jù)原始體素強(qiáng)度的統(tǒng)計(jì)特征分析 MGMT 生物標(biāo)志物的 MRI。我們展示了簡(jiǎn)單貝葉斯分類器在建模局部放射學(xué)數(shù)據(jù)而不是全局特征時(shí)提高預(yù)測(cè)性能的能力。所提出的技術(shù)提供了一種基于 MRI 的非侵入性方法來(lái)確定膠質(zhì)母細(xì)胞瘤患者的 MGMT 甲基化狀態(tài)。
* 題目: Functional Regularization for Reinforcement Learning via Learned Fourier Features
* 鏈接:
https://arxiv.org/abs/2112.03257* 作者: Alexander C. Li,Deepak Pathak
* 其他: Accepted at NeurIPS 2021. Website at this https URL
* 摘要: 我們通過(guò)將輸入嵌入到學(xué)習(xí)的傅立葉基礎(chǔ)中,提出了一種用于深度強(qiáng)化學(xué)習(xí)的簡(jiǎn)單架構(gòu),并表明它提高了基于狀態(tài)和基于圖像的 RL 的樣本效率。我們使用神經(jīng)切線核對(duì)我們的架構(gòu)進(jìn)行無(wú)限寬度分析,并從理論上表明,調(diào)整傅立葉基的初始方差等效于所學(xué)深度網(wǎng)絡(luò)的功能正則化。也就是說(shuō),這些學(xué)習(xí)到的傅立葉特征允許調(diào)整網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中不同頻率的欠擬合或過(guò)擬合程度,從而提供一種受控機(jī)制來(lái)提高 RL 優(yōu)化的穩(wěn)定性和性能。從經(jīng)驗(yàn)上講,這使我們能夠優(yōu)先學(xué)習(xí)低頻函數(shù),并通過(guò)在優(yōu)化過(guò)程中(例如在 Bellman 更新期間)降低網(wǎng)絡(luò)對(duì)噪聲的敏感性來(lái)加快學(xué)習(xí)速度。在標(biāo)準(zhǔn)的基于狀態(tài)和基于圖像的 RL 基準(zhǔn)測(cè)試中的實(shí)驗(yàn)表明,我們的架構(gòu)比基線具有明顯的優(yōu)勢(shì)。位于此 https URL 的網(wǎng)站
* 題目: CALVIN: A Benchmark for Language-conditioned Policy Learning for Long-horizon Robot Manipulation Tasks
* 鏈接:
https://arxiv.org/abs/2112.03227* 作者: Oier Mees,Lukas Hermann,Erick Rosete-Beas,Wolfram Burgard
* 其他: this http URL
* 摘要: 在環(huán)境中與人類共存的通用機(jī)器人必須學(xué)會(huì)將人類語(yǔ)言與其感知和行動(dòng)聯(lián)系起來(lái),以便在一系列日常任務(wù)中發(fā)揮作用。此外,他們需要掌握多種通用技能,從而可以通過(guò)遵循不受約束的語(yǔ)言指令來(lái)編寫(xiě)長(zhǎng)期任務(wù)。在本文中,我們介紹了 CALVIN(從語(yǔ)言和視覺(jué)中組合動(dòng)作),這是一個(gè)開(kāi)源模擬基準(zhǔn),用于學(xué)習(xí)長(zhǎng)期語(yǔ)言條件任務(wù)。我們的目標(biāo)是開(kāi)發(fā)能夠從機(jī)載傳感器長(zhǎng)期解決許多機(jī)器人操作任務(wù)的代理,并且只能通過(guò)人類語(yǔ)言進(jìn)行指定。 CALVIN 任務(wù)在序列長(zhǎng)度、動(dòng)作空間和語(yǔ)言方面比現(xiàn)有的視覺(jué)和語(yǔ)言任務(wù)數(shù)據(jù)集更復(fù)雜,并支持傳感器套件的靈活規(guī)范。我們對(duì)新的語(yǔ)言指令和新的環(huán)境和對(duì)象進(jìn)行零樣本評(píng)估。我們表明基于多上下文模仿學(xué)習(xí)的基線模型在 CALVIN 上表現(xiàn)不佳,這表明開(kāi)發(fā)創(chuàng)新代理有很大的空間,這些代理學(xué)習(xí)使用該基準(zhǔn)將人類語(yǔ)言與其世界模型聯(lián)系起來(lái)。
* 題目: Prototypical Model with Novel Information-theoretic Loss Function for Generalized Zero Shot Learning
* 鏈接:
https://arxiv.org/abs/2112.03134* 作者: Chunlin Ji,Hanchu Shen,Zhan Xiong,Feng Chen,Meiying Zhang,Huiwen Yang
* 摘要: 廣義零樣本學(xué)習(xí)(GZSL)仍然是深度學(xué)習(xí)的技術(shù)挑戰(zhàn),因?yàn)樗仨氃跊](méi)有目標(biāo)類數(shù)據(jù)的情況下識(shí)別源類和目標(biāo)類。為了在僅使用來(lái)自源類的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)保留源類和目標(biāo)類之間的語(yǔ)義關(guān)系,我們從信息論的角度解決了知識(shí)轉(zhuǎn)移和語(yǔ)義關(guān)系的量化問(wèn)題。為此,我們遵循原型模型并將關(guān)注的變量格式化為概率向量。利用所提出的概率向量表示,可以用簡(jiǎn)單的封閉形式有效地評(píng)估互信息和熵等信息度量。我們討論了使用原型模型時(shí)公共嵌入空間和距離函數(shù)的選擇。然后,我們?yōu)榇_定性 GZSL 模型提出了三種信息論損失函數(shù):一種用于連接可見(jiàn)數(shù)據(jù)和目標(biāo)類別的互信息損失;不確定性感知熵約束損失,以防止在使用可見(jiàn)數(shù)據(jù)學(xué)習(xí)目標(biāo)類嵌入時(shí)過(guò)度擬合;語(yǔ)義保留交叉熵?fù)p失以在將語(yǔ)義表示映射到公共空間時(shí)保留語(yǔ)義關(guān)系。仿真表明,作為確定性模型,我們提出的方法在 GZSL 基準(zhǔn)數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果。我們比基線模型——深度校準(zhǔn)網(wǎng)絡(luò) (DCN) 實(shí)現(xiàn)了 21%-64% 的改進(jìn),并首次證明了確定性模型的性能與生成模型一樣好。此外,我們提出的模型與生成模型兼容。模擬研究表明,通過(guò)與 f-CLSWGAN 結(jié)合,我們獲得了與高級(jí)生成模型相比的可比結(jié)果。
* 題目: Scaling Up Influence Functions
* 鏈接:
https://arxiv.org/abs/2112.03052* 作者: Andrea Schioppa,Polina Zablotskaia,David Vilar,Artem Sokolov
* 其他: Published at AAAI-22
* 摘要: 我們解決了影響函數(shù)的有效計(jì)算,以將預(yù)測(cè)跟蹤回訓(xùn)練數(shù)據(jù)。我們提出并分析了一種基于 Arnoldi 迭代加速逆 Hessian 計(jì)算的新方法。通過(guò)這種改進(jìn),據(jù)我們所知,我們實(shí)現(xiàn)了影響函數(shù)的首次成功實(shí)現(xiàn),該函數(shù)可擴(kuò)展到具有數(shù)億個(gè)參數(shù)的全尺寸(語(yǔ)言和視覺(jué))Transformer 模型。我們使用數(shù)千萬(wàn)到數(shù)億個(gè)訓(xùn)練示例來(lái)評(píng)估我們?cè)趫D像分類和序列到序列任務(wù)上的方法。我們的代碼將在此 https URL 中提供。
* 題目: Tunable Image Quality Control of 3-D Ultrasound using Switchable CycleGAN
* 鏈接:
https://arxiv.org/abs/2112.02896* 作者: Jaeyoung Huh,Shujaat Khan,Sungjin Choi,Dongkuk Shin,Eun Sun Lee,Jong Chul Ye
* 摘要: 與用于單軸平面成像的 2-D 超聲 (US) 相比,3-D US 成像系統(tǒng)可以沿著三個(gè)軸平面可視化體積。這允許全面查看解剖結(jié)構(gòu),這對(duì)于婦科 (GYN) 和產(chǎn)科 (OB) 應(yīng)用非常有用。不幸的是,與 2-D US 相比,3-D US 在分辨率上有一個(gè)固有的限制。例如,在使用 3-D 機(jī)械探頭的 3-D US 的情況下,圖像質(zhì)量沿光束方向相當(dāng),但在其他兩個(gè)軸向圖像平面中經(jīng)常觀察到圖像質(zhì)量顯著下降。為了解決這個(gè)問(wèn)題,我們?cè)谶@里提出了一種新穎的無(wú)監(jiān)督深度學(xué)習(xí)方法來(lái)提高 3-D US 圖像質(zhì)量。特別是,使用 {/em unmatched} 高質(zhì)量 2-D US 圖像作為參考,我們訓(xùn)練了最近提出的可切換 CycleGAN 架構(gòu),以便 3-D US 中的每個(gè)映射平面都可以學(xué)習(xí) 2-D US 圖像的圖像質(zhì)量.由于采用了可切換架構(gòu),我們的網(wǎng)絡(luò)還可以根據(jù)用戶偏好實(shí)時(shí)控制圖像增強(qiáng)級(jí)別,這非常適合以用戶為中心的掃描儀設(shè)置。廣泛的臨床評(píng)估實(shí)驗(yàn)證實(shí),我們的方法顯著提高了圖像質(zhì)量以及用戶友好的靈活性。
* 題目: Joint Learning of Localized Representations from Medical Images and Reports
* 鏈接:
https://arxiv.org/abs/2112.02889* 作者: Philip Müller,Georgios Kaissis,Congyu Zou,Daniel Rückert
* 其他: 14 pages, 3 figures, 2 tables
* 摘要: 對(duì)比學(xué)習(xí)已被證明可有效地對(duì)未標(biāo)記數(shù)據(jù)的圖像模型進(jìn)行預(yù)訓(xùn)練,并且在醫(yī)學(xué)圖像分類等任務(wù)中取得了有希望的結(jié)果。在預(yù)訓(xùn)練期間使用配對(duì)的文本和圖像(例如放射學(xué)報(bào)告和圖像)進(jìn)一步改善了結(jié)果。盡管如此,大多數(shù)現(xiàn)有方法都將圖像分類作為下游任務(wù),對(duì)于語(yǔ)義分割或?qū)ο髾z測(cè)等局部任務(wù)可能不是最佳選擇。因此,我們建議從視覺(jué)和文本 (LoVT) 中進(jìn)行局部表征學(xué)習(xí),據(jù)我們所知,這是第一種針對(duì)局部醫(yī)學(xué)成像任務(wù)的文本監(jiān)督預(yù)訓(xùn)練方法。我們的方法將實(shí)例級(jí)圖像報(bào)告對(duì)比學(xué)習(xí)與圖像區(qū)域和報(bào)告句子表示的局部對(duì)比學(xué)習(xí)相結(jié)合。我們?cè)谝粋€(gè)新的評(píng)估框架上評(píng)估 LoVT 和常用的預(yù)訓(xùn)練方法,該框架由來(lái)自五個(gè)公共數(shù)據(jù)集的胸部 X 射線的 18 個(gè)局部任務(wù)組成。雖然沒(méi)有單一的最佳方法,但 LoVT 在 18 項(xiàng)研究任務(wù)中的 11 項(xiàng)上表現(xiàn)最佳,使其成為本地化任務(wù)的首選方法。
* 題目: AdaSTE: An Adaptive Straight-Through Estimator to Train Binary Neural Networks
* 鏈接:
https://arxiv.org/abs/2112.02880* 作者: Huu Le,Rasmus Kj?r H?ier,Che-Tsung Lin,Christopher Zach
* 其他: 18 pages
* 摘要: 我們提出了一種新算法,用于訓(xùn)練具有二進(jìn)制權(quán)重的深度神經(jīng)網(wǎng)絡(luò) (DNN)。特別是,我們首先將訓(xùn)練二元神經(jīng)網(wǎng)絡(luò) (BiNN) 的問(wèn)題作為雙層優(yōu)化實(shí)例,然后構(gòu)建該雙層程序的靈活松弛。由此產(chǎn)生的訓(xùn)練方法與幾種現(xiàn)有的 BiNN 訓(xùn)練方法共享其算法簡(jiǎn)單性,特別是在 BinaryConnect 和后續(xù)方法中成功采用的直通梯度估計(jì)器。事實(shí)上,我們提出的方法可以解釋為原始直通估計(jì)器的自適應(yīng)變體,它有條件地(但并非總是)在誤差傳播的反向傳播中起到線性映射的作用。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,我們的新算法具有良好的性能。
* 題目: A comparison study of CNN denoisers on PRNU extraction
* 鏈接:
https://arxiv.org/abs/2112.02858* 作者: Hui Zeng,Morteza Darvish Morshedi Hosseini,Kang Deng,Anjie Peng,Miroslav Goljan
* 其他: 12 pages, 6 figures, 4 tables
* 摘要: 基于傳感器的相機(jī)識(shí)別 (SCI) 方法的性能在很大程度上依賴于估計(jì)光響應(yīng)非均勻性 (PRNU) 的降噪濾波器。鑒于提高提取的 PRNU 質(zhì)量的各種嘗試,它在低分辨率圖像和高計(jì)算需求方面的性能仍然不盡如人意。利用 PRNU 估計(jì)和圖像去噪的相似性,我們利用基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的降噪器的最新成果進(jìn)行 PRNU 提取。在本文中,在公共“德累斯頓圖像數(shù)據(jù)庫(kù)”上對(duì)此類CNN降噪器對(duì)SCI性能進(jìn)行了比較評(píng)估。我們的發(fā)現(xiàn)有兩個(gè)方面。一方面,PRNU 提取和圖像去噪都將噪聲從圖像內(nèi)容中分離出來(lái)。因此,如果經(jīng)過(guò)仔細(xì)訓(xùn)練,SCI 可以從最近的 CNN 降噪器中受益。另一方面,PRNU提取和圖像去噪的目標(biāo)和場(chǎng)景不同,一個(gè)優(yōu)化噪聲質(zhì)量,另一個(gè)優(yōu)化圖像質(zhì)量。當(dāng) CNN 降噪器用于 PRNU 估計(jì)時(shí),需要精心定制的訓(xùn)練。對(duì)訓(xùn)練數(shù)據(jù)準(zhǔn)備和損失函數(shù)設(shè)計(jì)的替代策略進(jìn)行了理論分析和實(shí)驗(yàn)評(píng)估。我們指出,用圖像-PRNU 對(duì)饋送 CNN 并用基于相關(guān)的損失函數(shù)訓(xùn)練它們會(huì)導(dǎo)致最佳的 PRNU 估計(jì)性能。為了促進(jìn)對(duì) SCI 的進(jìn)一步研究,我們還提出了一種最小損失相機(jī)指紋量化方案,使用該方案我們將指紋保存為 PNG 格式的圖像文件。此外,我們公開(kāi)了“德累斯頓圖像數(shù)據(jù)庫(kù)”中攝像機(jī)的量化指紋。
* 題目: DemoGrasp: Few-Shot Learning for Robotic Grasping with Human Demonstration
* 鏈接:
https://arxiv.org/abs/2112.02849* 作者: Pengyuan Wang,Fabian Manhardt,Luca Minciullo,Lorenzo Garattoni,Sven Meie,Nassir Navab,Benjamin Busam
* 其他: Accepted by IROS 2021
* 摘要: 成功抓取物體的能力在機(jī)器人技術(shù)中至關(guān)重要,因?yàn)樗С侄鄠€(gè)交互式下游應(yīng)用程序。為此,大多數(shù)方法要么計(jì)算感興趣對(duì)象的完整 6D 姿勢(shì),要么學(xué)習(xí)預(yù)測(cè)一組抓取點(diǎn)。雖然前一種方法還不能很好地?cái)U(kuò)展到多個(gè)對(duì)象實(shí)例或類,但后者需要大量帶注釋的數(shù)據(jù)集,并且受到它們對(duì)新幾何的泛化能力較差的阻礙。為了克服這些缺點(diǎn),我們建議通過(guò)簡(jiǎn)單而簡(jiǎn)短的人類演示來(lái)教機(jī)器人如何抓取物體。因此,我們的方法既不需要許多帶注釋的圖像,也不限于特定的幾何形狀。我們首先展示了一小段 RGB-D 圖像,顯示了人與物體的交互。然后利用該序列來(lái)構(gòu)建表示所描繪交互的相關(guān)手和對(duì)象網(wǎng)格。隨后,我們完成重建對(duì)象形狀的缺失部分,并估計(jì)重建與場(chǎng)景中可見(jiàn)對(duì)象之間的相對(duì)變換。最后,我們將物體和人手之間的相對(duì)姿勢(shì)的先驗(yàn)知識(shí)與場(chǎng)景中當(dāng)前物體姿勢(shì)的估計(jì)轉(zhuǎn)移到機(jī)器人必要的抓取指令中。豐田人類支持機(jī)器人 (HSR) 在真實(shí)和合成環(huán)境中的詳盡評(píng)估證明了我們提出的方法的適用性及其與以前的方法相比的優(yōu)勢(shì)。
* 題目: A Dataset of Stationary, Fixed-wing Aircraft on a Collision Course for Vision-Based Sense and Avoid
* 鏈接:
https://arxiv.org/abs/2112.02735* 作者: Jasmin Martin,Jenna Riseley,Jason J. Ford
* 摘要: 到 2026 年,新興的全球無(wú)人機(jī) (UAV) 服務(wù)市場(chǎng)預(yù)計(jì)將達(dá)到 584 億美元,這將促使人們做出重大努力,以不損害現(xiàn)有安全水平的方式將常規(guī)無(wú)人機(jī)操作安全地整合到國(guó)家空域中。無(wú)人機(jī)的商業(yè)用途將通過(guò)感知和避免潛在的空中碰撞威脅的能力得到加強(qiáng),但是該領(lǐng)域的研究因缺乏可用數(shù)據(jù)集而受到阻礙,因?yàn)樗鼈儍r(jià)格昂貴且技術(shù)復(fù)雜,難以捕獲。在本文中,我們提出了一個(gè)基于視覺(jué)的飛機(jī)檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集由 15 個(gè)圖像序列組成,其中包含 55,521 張固定翼飛機(jī)接近靜止、接地相機(jī)的圖像。還提供了基本事實(shí)標(biāo)簽和性能基準(zhǔn)。據(jù)我們所知,這是第一個(gè)用于研究與觀察者發(fā)生碰撞的中型固定翼飛機(jī)的公共數(shù)據(jù)集。完整數(shù)據(jù)集和真實(shí)標(biāo)簽可在此 https URL 上公開(kāi)獲取。
* 題目: Real-time Virtual Intraoperative CT for Image Guided Surgery
* 鏈接:
https://arxiv.org/abs/2112.02608* 作者: Yangming Li,Neeraja Konuthula,Ian M. Humphreys,Kris Moe,Blake Hannaford,Randall Bly
* 摘要: 抽象的。目的:本文提出了一種生成虛擬術(shù)中 CT 掃描的方案,以提高內(nèi)窺鏡鼻竇手術(shù) (ESS) 的手術(shù)完整性。方法:這項(xiàng)工作提出了三種方法,基于尖端運(yùn)動(dòng)、基于尖端軌跡和基于儀器,以及非參數(shù)平滑和高斯過(guò)程回歸,用于虛擬術(shù)中 CT 生成。結(jié)果:所提出的方法對(duì)在尸體上執(zhí)行的 ESS 進(jìn)行了研究和比較。手術(shù)結(jié)果表明,所有三種方法都將骰子相似系數(shù)提高了 > 86%,F(xiàn) 得分 > 92% 和精度 > 89.91%。發(fā)現(xiàn)基于尖端軌跡的方法具有最佳性能,在手術(shù)完整性評(píng)估中達(dá)到了 96.87% 的精度。結(jié)論:這項(xiàng)工作表明,虛擬術(shù)中 CT 掃描提高了實(shí)際手術(shù)場(chǎng)景與參考模型之間的一致性,并提高了 ESS 中的手術(shù)完整性。與實(shí)際術(shù)中 CT 掃描相比,該方案對(duì)現(xiàn)有手術(shù)方案沒(méi)有影響,除了大多數(shù) ESS 中已有的硬件外,不需要額外的硬件,克服了實(shí)際術(shù)中導(dǎo)致的高成本、重復(fù)輻射和麻醉時(shí)間延長(zhǎng)CTs,在ESS中很實(shí)用。
* 題目: Generative Modeling of Turbulence
* 鏈接:
https://arxiv.org/abs/2112.02548* 作者: Claudia Drygala,Benjamin Winhart,Francesca di Mare,Hanno Gottschalk
* 摘要: 我們提出了一種數(shù)學(xué)上有根據(jù)的方法,用于使用生成對(duì)抗網(wǎng)絡(luò) (GAN) 對(duì)湍流進(jìn)行合成建模。基于在遍歷性方面對(duì)混沌確定性系統(tǒng)的分析,我們概述了一個(gè)數(shù)學(xué)證明,即 GAN 實(shí)際上可以學(xué)習(xí)從混沌系統(tǒng)的不變測(cè)度中采樣狀態(tài)快照?;诖朔治觯覀儚穆鍌惼澪娱_(kāi)始研究混沌系統(tǒng)的層次結(jié)構(gòu),然后使用 GAN 對(duì)湍流進(jìn)行建模。作為訓(xùn)練數(shù)據(jù),我們使用從大渦模擬 (LES) 獲得的速度波動(dòng)場(chǎng)。詳細(xì)研究了兩種架構(gòu):我們使用深度卷積 GAN (DCGAN) 來(lái)合成圓柱周?chē)耐牧鳌N覀冞M(jìn)一步使用 pix2pixHD 架構(gòu)模擬低壓渦輪定子周?chē)牧鲃?dòng),用于條件 DCGAN 以定子前旋轉(zhuǎn)尾流的位置為條件。解釋了對(duì)抗訓(xùn)練的設(shè)置和使用特定 GAN 架構(gòu)的效果。因此,我們表明 GAN 在中等數(shù)量的訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,在模擬具有技術(shù)挑戰(zhàn)性的流動(dòng)問(wèn)題中的湍流方面是有效的。與經(jīng)典數(shù)值方法(尤其是 LES)相比,GAN 訓(xùn)練和推理時(shí)間明顯縮短,同時(shí)仍能提供高分辨率的湍流。
* 題目: Exploring Complicated Search Spaces with Interleaving-Free Sampling
* 鏈接:
https://arxiv.org/abs/2112.02488* 作者: Yunjie Tian,Lingxi Xie,Jiemin Fang,Jianbin Jiao,Qixiang Ye,Qi Tian
* 其他: 9 pages, 8 figures, 6 tables
* 摘要: 現(xiàn)有的神經(jīng)架構(gòu)搜索算法主要用于具有短距離連接的搜索空間。我們認(rèn)為,這種設(shè)計(jì)雖然安全且穩(wěn)定,但會(huì)阻礙搜索算法探索更復(fù)雜的場(chǎng)景。在本文中,我們?cè)诰哂虚L(zhǎng)距離連接的復(fù)雜搜索空間上構(gòu)建搜索算法,并表明現(xiàn)有的權(quán)重共享搜索算法由于/textbf{交錯(cuò)連接}的存在而大多失敗?;谟^察,我們提出了一種簡(jiǎn)單而有效的算法 /textbf{IF-NAS},我們?cè)谒阉鬟^(guò)程中執(zhí)行周期性采樣策略來(lái)構(gòu)建不同的子網(wǎng)絡(luò),避免在其中任何一個(gè)中出現(xiàn)交錯(cuò)連接。在建議的搜索空間中,IF-NAS 的性能明顯優(yōu)于隨機(jī)采樣和以前的權(quán)重共享搜索算法。 IF-NAS 還可以推廣到更容易的基于微單元的空間。我們的研究強(qiáng)調(diào)宏觀結(jié)構(gòu)的重要性,我們期待沿著這個(gè)方向進(jìn)一步努力。
* 題目: Predicting Axillary Lymph Node Metastasis in Early Breast Cancer Using Deep Learning on Primary Tumor Biopsy Slides
* 鏈接:
https://arxiv.org/abs/2112.02222* 作者: Feng Xu,Chuang Zhu,Wenqi Tang,Ying Wang,Yu Zhang,Jie Li,Hongchuan Jiang,Zhongyue Shi,Jun Liu,Mulan Jin
* 其他: Accepted by Frontiers in Oncology, for more details, please see this https URL
* 摘要: 目的:開(kāi)發(fā)并驗(yàn)證基于深度學(xué)習(xí) (DL) 的原發(fā)腫瘤活檢特征,用于預(yù)測(cè)具有臨床陰性 ALN 的早期乳腺癌 (EBC) 患者的術(shù)前腋窩淋巴結(jié) (ALN) 轉(zhuǎn)移。方法:從 2010 年 5 月至 2020 年 8 月,共有 1,058 名經(jīng)病理證實(shí)為 ALN 狀態(tài)的 EBC 患者入組。利用 DL 特征預(yù)測(cè) ALN 狀態(tài),這些特征是從兩位病理學(xué)家注釋的乳腺 CNB 標(biāo)本的數(shù)字化全幻燈片圖像 (WSI) 的癌癥區(qū)域中提取的。分析了準(zhǔn)確性、敏感性、特異性、受試者工作特征 (ROC) 曲線和 ROC 曲線下面積 (AUC) 以評(píng)估我們的模型。結(jié)果:以 VGG16_BN 作為特征提取器的性能最佳的 DL-CNB 模型在預(yù)測(cè)獨(dú)立測(cè)試隊(duì)列中的陽(yáng)性 ALN 轉(zhuǎn)移時(shí)的 AUC 為 0.816(95% 置信區(qū)間 (CI):0.758, 0.865)。此外,我們的模型結(jié)合了臨床數(shù)據(jù),稱為 DL-CNB+C,產(chǎn)生了 0.831 的最佳準(zhǔn)確度(95%CI:0.775,0.878),尤其是對(duì)于 50 歲以下的患者(AUC:0.918,95%CI: 0.825、0.971)。 DL-CNB 模型的解釋表明,最能預(yù)測(cè) ALN 轉(zhuǎn)移的頂級(jí)特征的特征在于細(xì)胞核特征,包括密度 ($p$ = 0.015)、周長(zhǎng) ($p$ = 0.009)、圓形度 ($p$ = 0.010) , 和方向 ($p$ = 0.012)。結(jié)論:我們的研究為原發(fā)性腫瘤 CNB 載玻片提供了一種新的基于 DL 的生物標(biāo)志物,以預(yù)測(cè) EBC 患者術(shù)前 ALN 的轉(zhuǎn)移狀態(tài)。
* 題目: Bridging the gap between prostate radiology and pathology through machine learning
* 鏈接:
https://arxiv.org/abs/2112.02164* 作者: Indrani Bhattacharya,David S. Lim,Han Lin Aung,Xingchen Liu,Arun Seetharaman,Christian A. Kunder,Wei Shao,Simon J. C. Soerensen,Richard E. Fan,Pejman Ghanouni,Katherine J. To'o,James D. Brooks,Geoffrey A. Sonn,Mirabela Rusu
* 其他: Indrani Bhattacharya and David S. Lim contributed equally as first authors. Geoffrey A. Sonn and Mirabela Rusu contributed equally as senior authors
* 摘要: 前列腺癌是美國(guó)男性第二大致命癌癥。雖然磁共振成像 (MRI) 越來(lái)越多地用于指導(dǎo)前列腺癌診斷的靶向活組織檢查,但由于假陽(yáng)性和假陰性的高比率以及閱讀器之間的低一致性,其效用仍然有限。在前列腺 MRI 上檢測(cè)和定位癌癥的機(jī)器學(xué)習(xí)方法可以幫助標(biāo)準(zhǔn)化放射科醫(yī)生的解釋。然而,現(xiàn)有的機(jī)器學(xué)習(xí)方法不僅在模型架構(gòu)上有所不同,而且在用于模型訓(xùn)練的地面實(shí)況標(biāo)記策略上也有所不同。在這項(xiàng)研究中,我們比較了不同的標(biāo)記策略,即病理學(xué)確認(rèn)的放射科醫(yī)師標(biāo)簽、整體組織病理學(xué)圖像上的病理學(xué)家標(biāo)簽,以及病變級(jí)和像素級(jí)數(shù)字病理學(xué)家標(biāo)簽(先前在組織病理學(xué)圖像上驗(yàn)證的深度學(xué)習(xí)算法以預(yù)測(cè)像素級(jí) Gleason 模式)在整體組織病理學(xué)圖像上。我們分析了這些標(biāo)簽對(duì)經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型性能的影響。我們的實(shí)驗(yàn)表明,(1) 放射科醫(yī)生標(biāo)簽和用它們訓(xùn)練的模型可能會(huì)遺漏癌癥,或低估癌癥程度,(2) 數(shù)字病理學(xué)家標(biāo)簽和用它們訓(xùn)練的模型與病理學(xué)家標(biāo)簽高度一致,以及 (3) 用數(shù)字病理學(xué)家訓(xùn)練的模型標(biāo)簽在具有不同疾病分布的兩個(gè)不同隊(duì)列中實(shí)現(xiàn)了前列腺癌檢測(cè)的最佳性能,而與使用的模型架構(gòu)無(wú)關(guān)。數(shù)字病理學(xué)家標(biāo)簽可以減少與人工注釋相關(guān)的挑戰(zhàn),包括勞動(dòng)、時(shí)間、讀者間和讀者內(nèi)的變異性,并且可以通過(guò)訓(xùn)練可靠的機(jī)器學(xué)習(xí)模型來(lái)檢測(cè)和定位前列腺癌,幫助縮小前列腺放射學(xué)和病理學(xué)之間的差距在 MRI 上。