小姐骚 多媒体简直感知与高效计较教训部重心实验室十篇论文被ECCV 2024托福

发布日期:2024-10-08 14:29    点击次数:172

小姐骚 多媒体简直感知与高效计较教训部重心实验室十篇论文被ECCV 2024托福

近日,欧洲计较机视觉海外会议European Conference on Computer Vision(ECCV2024)公布了论文的收录驱散,厦门大学多媒体简直感知与高效计较教训部重心实验室十篇论文被托福。ECCV是海外顶尖的计较机视觉会议之一,每两年举行一次。ECCV 2024论文总投稿数约12600篇,其中2395篇论文中选小姐骚,托福率为18%,托福论文简要先容如下:

1.AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

为处分高分辨率图像生成中的物体叠加生成问题,本文暴虐了AccDiffusion方法。AccDiffusion当先引入了块内容感知指示,这不错使每个块的去噪愈加准确,从而从根源上幸免叠加生成物体。然后,进一步暴虐了具有窗口交互的推广采样,用以增强高分辨率图像生成经由中的全局一致性。包括定性和定量驱散在内的遍及实验标明,AccDiffusion不错见效地进行无叠加高分辨率的图像生成。

图片1.png

风流少妇

该论文第一作家是信息学院东说念主工智能系2022级硕士生林志航,通信作家是纪荣嵘教化,由林明宝(新加坡Skywork AI 2050扣问院)、赵朦(腾讯)共同合作完成。

2.Enhancing Tampered Text Detection through Frequency Feature Fusion and Decomposition

文档图像删改对信息的真正性组成了严重恫吓,其潜在效果包括错误信息传播、金融诈骗和身份盗窃。天然现在的检测方法可愚弄频率信息来发现肉眼不成见的删改思路,但它们时时无法精准地整合这些信息,也无法增强对检测幽微删改至关进攻的高频因素。为了处分这些问题,本文暴虐了一种新的文档图像删改检测(DITD) 方法——特征和会与判辨集聚 (FFDN)。该方法将视觉增强模块 (VEM) 与类小波频率增强 (WFE) 相迷惑,以提高对幽微删改思路的检测本事。具体而言,VEM 增强了对幽微删改思路检测的同期保握了原始 RGB 检测本事的完好意思性。同期,WFE 将特征进一步判辨为高频和低频重量,强调细小但要津的删改细节。在 DocTamper 数据集上的严格测试证实了 FFDN 的上风,其在检测删改方面彰着优于现存的起始进方法。

图片2.png

该论文第一作家是东说念主工智能扣问院2022级硕士生陈忠淅,通信作家是林英明助理教化,由腾讯优图实验室陈燊、姚太平、丁守鸿以及厦门大学2021级博士生孙可、曹刘娟教化、纪荣嵘教化共同合作完成。

3.Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

近两年,文本到图像(Text-to-Image,T2I)扩散模子在细粒度文本指示下,展现出高质料的图像生成本事,这标明扩散模子的表征与高等语义见识高度关联。探索T2I扩散模子在短语级相识的判别式任务的潜能,有助于拓展扩散模子的多元应用。本文使用全景叙事定位(PNG)任务当作代理任务对上述问题伸开扣问。PNG是一个phrase-pixel级感知任务,需要模子对图像有很好的语义相识。当先,本文从头界说PNG为一个从定位-分割-细化的零样本问题,并暴虐DiffPNG方法。具体而言,本文暴虐了定位-分割处理器(LSP)模块,它愚弄 T2I 扩散模子中的 Cross-Attention机制来定位锚像素,并通过Self-Attention机制进行团聚得到简约的含有文本语义信息的瞻望掩码。此外,本文进一步暴虐了主语词聚焦的特征团聚器(SFFA)模块去更好地愚弄主语词在Cross-Attention机制对掩码的孝敬。终末,本文暴虐了基于SAM的掩码细化(SMR )战术,愚弄 SAM 模子的分割本事去进一步细化分割掩码。在 PNG 基准数据集上,比拟其他的 Diffusion-based 的零样本方法,DiffPNG扫尾了最好性能,解说了T2I扩散模子在短语级相识视觉内容的本事。

图片3.png

该论文第一作家是信息学院东说念主工智能系2022级硕士生杨丹妮,通信作家是孙晓帅教化,由2021级本科生董若含、博士后扣问员纪家沂、2023级博士生马祎炜、2021级硕士生王昊为、纪荣嵘教化共同合作完成。

4.Multi-branch Collaborative Learning Network for 3D Visual Grounding

3D视觉定位任务(3D Visual Grounding)由3D指向性标的检测(3DREC)与3D指向性实例分割(3DRES)这两个子任务组成,两个子任务天然最终施展神气不同,但是仍有着极大的关联和协同求解空间。现存的多任务协同方法主要依赖于一项任务的驱散来对另一项任务进行瞻望,因而抑止了两个任务之间的灵验相助。因此,本文暴虐了双分支协同集聚(MCLN),该集聚包括 3DREC 和 3DRES两个任务的零丁分支;与此同期,本文还引入了相对超点团聚 (RSA) 模块和自安妥软对皆 (ASA) 模块,来促进两个分支之间的相互协同。上述架构对两个分支的瞻望驱散进行了精准的对皆,并将更多的注眼力分派到要津位置。实验评估驱散标明,本文所暴虐的方法在 3DREC 和 3DRES 任务上都取得了起始进的性能,其中,3DREC的Acc@0.5提高了 3.27%,3DRES的mIOU 提高了5.22%。

图片4.png

该论文的共同第一作家是东说念主工智能扣问院2022级硕士钱志鹏与信息学院东说念主工智能系2023级博士马祎炜,通信作家是孙晓帅教化,由2023级硕士生林哲恺、博士后扣问员纪家沂、郑侠武副教化、纪荣嵘教化共同合作完成。

5.CamoTeacher: Dual-Rotation Consistency Learning for Semi-Supervised Camouflaged Object Detection

现存的伪装标的检测(COD)方法依赖于大鸿沟的像素级标注。关联词,由于其伪装特色,思要获取像素级的标注耗时耗力。半监督学习为处分这一问题提供了一种潜在的决议,但是径直将见效的半监督范式迁徙到COD任务上,会导致伪标签存在过多噪声,径直用带噪声的伪标签进行监督会损伤模子性能。针对这个问题,本文暴虐了一个半监督伪装标的检测模子CamoTeacher,并谋略了一种新颖的学习方法——双旋转一致性学习(DRCL)。具体来说,DRCL包括像素一致性学习(PCL)和实例一致性学习(ICL)两种学习战术。PCL通过良好评估不同旋转视图下的像素级一致性,为伪标签中的各区域分派互异化权重,从而灵验减少了像素级噪声的侵扰;ICL通过计较不同旋转视图的实例级一致性,动态援手伪标签的合座权重,能灵验地缓解实例级噪声问题。DRCL能匡助模子自安妥援手不同质料伪标签的孝敬,使模子得到充分监督的同期又幸免证明偏差。本文在四个 COD 基准数据集上进行了平淡实验,实验驱散充分考证了CamoTeacher的灵验性。

图片5.png

该论文的第一作家是信息学院东说念主工智能系2022级硕士生赖训发,通信作家是张声传助理教化,由2022级硕士生杨芷钰、曹刘娟教化,纪荣嵘教化等共同合作完成。

6.TF-FAS: Twofold-Element Fine-Grained Semantic Guidance for Generalizable Face Anti-Spoofing

泛化性东说念主脸防伪(FAS)时刻因其在未知场景中的鲁棒性备受善良。尽管一些最新方法引入了视觉-讲话模子,但仅使用粗粒度或单一元素指示,未能充分施展讲话监督的后劲,导致泛化本事有限。为此,本文暴虐了TF-FAS框架,通过双重元素细粒度语义率领来增强泛化本事。本文谋略了内容元素解耦模块(CEDM),用以全面探索与内容联系的语义元素,并监督类别特征与内容特征的解耦。此外,本文暴虐的细粒度类别元素模块(FCEM)用于探索和整合细粒度的类别元素率领,从而教训每类数据的散布建摹本事。实验驱散标明,TF-FAS在各项谈论上均优于现存起始进方法,展示了其罕见的性能和平淡的应用远景。

图片6.png

该论文共同第一作家是信息学院东说念主工智能系2022级硕士生王旭东和张克越(腾讯优图实验室),共同通信作家是腾讯优图实验室丁守鸿(腾讯优图实验室)和戴平阳高等工程师,由姚太平(腾讯优图实验室)、周千寓(上海交通大学)、纪荣嵘教化共同完成。

7.CMD: A Cross Mechanism Domain Adaptation Dataset for 3D Object Detection

在传感器快速更新迭代的布景下,跨体制域自安妥三维标的检测是新老传感器间学问迁徙的一种要津时刻妙技。针对多激光雷达体制数据集稀缺、域自安妥三维标的检测方法在跨体制任务上施展欠安的问题,本文暴虐了现在激光雷达体制笼罩最全面的真正场景多模态三维标的检测数据集,称为CMD。该数据集包含了荆棘线束的机械式激光雷达、(半)固态激光雷达、4D毫米波雷达以及相机等多种传感器,并进行了高精度(<1ms)的时分同步和标定。数据皆集涵盖了城郊区、校园、桥梁等丰富场景,为跨体制域自安妥扣问提供了全面的基准。此外,论文暴虐了一种新的域自安妥方法DIG,分别从密度、强度和几何三方面搪塞传感器体制带来的点云数据互异,显赫教训了域自安妥算法的性能。

图片7.png

该论文的共同第一作家是厦门大学21级硕士生邓锦豪和22级硕士生叶伟,通信作家是温程璐教化和李伟博士(赢彻科技),由吴海、黄勋、夏启明、方进(赢彻科技)、Xin Li教化(Texas A & M University)、王程教化共同合作完成。

8.Prompt Grouping for Rehearsal-Free Continual Learning

现存的基于指示的学习款式,如L2P、DualPrompt和CODA-Prompt等,天然在减少淡忘方面施展出色,但它们时时只更新与面前任务联系的指示,这抑止了从其他指示中获取互补信息的本事。为处分这个问题,本文引入了“示明锐度”(prompt sensitivity)的见识,用以评估每个指示关于面前学习任务的进攻性。凭证这个评分,相通任务的指示会被分组,使得组内的任务概况分享并受益于组指示。此外,本文还暴虐了一种篡改战术,通过Proxy Loss和Head Correction两个模块来增强不同任务之间的特征提真金不怕火器和分类头部的诀别本事。实验驱散标明,这种方法在多个基准测试上取得了一致的性能教训,举例在CIFAR-100、ImageNet-R和DomainNet数据集上分别提高了2.31%、3.04%和2.19%的准确率。

图片8.png

该论文的第一作家是华东师范大学计较机科学与时刻学院2022级硕士生龚仁春,通信作家是其导师谢源教化(华东师范大学),由张志忠副教化(华东师范大学),2022级博士生田旭东(华东师范大学)、曲延云教化、汪旻(商汤)、鲁学权副教化(La Trobe University)、唐永强副扣问员(中国科学院自动化)、谭鑫副扣问员等共同合作完成。

9.Multi-Memory Matching for UnsupervisedVisible-Infrared Person Re-Identification

无监督可见光-红新手东说念主重识别(USL-VI-ReID)是一项远景庞杂但极具挑战性的检索任务,其濒临的主要挑战是在不依赖任何数据标注的情况下准确生成伪标签并成就跨模态关联。现存的大多数方法都莫得充分愚弄类内的幽微离别,只愚弄单一内存来代表身份并成就跨模态关联,从而导致跨模态关联含有噪声。为了处分这一问题,著述暴虐了一个多内存匹配框架(MMM)。当先,引入了一个简便而灵验的跨模态聚类模块,通过对两种模态的样本进行聚类来生成伪标签。其次,为了关联跨模态聚类伪标签,暴虐一个多内存学习和匹配模块(MMLM),确保能善良到个体的幽微离别,并成就可靠的跨模态关联。终末,谋略了软聚类对皆亏欠(SCA),以裁减模态差距,同期通过软多对多对皆战术减弱噪声伪标签的影响。该方法在SYSU-MM01和RegDB数据集显赫优于现在起始进的无监督方法。

图片9.png

该论文第一作家是东说念主工智能扣问院2022级博士生施江鸣,通信作家是其导师曲延云教化和谢源教化(华东师范大学),由2023级硕士生尹祥博、2022级博士生陈烨赟、张亚超(清华大学深圳扣问院)、张志忠(华东师范大学)等共同合作完成。

10.Textual Grounding for Open-vocabulary Visual Information Extraction in Layout-Diversified Documents

现存的视觉文本信息抽取方法在禁闭集视觉信息提真金不怕火任务中取得了显赫见效,而在绽开词汇缔造方面的探索相对不够长远。关于个东说念主用户来说,后者在多种类型文档中臆想信息方面更为执行。现存的处分决议,包括面向定名实体识别任务(NER)的方法和基于大讲话模子(LLM)的方法,在处理无尽范围的绽开词汇key和冗忙显式版式建模方面有所欠缺。本文暴虐将分类文本token的经由转动为基于给定query定位区域任务的方法,来处分上述挑战。具体来说,本文将绽开词汇键的讲话镶嵌与相应的局部文本视觉镶嵌配对,并谋略了一个适用于文档的grounding框架。该框架迷惑了版式感知荆棘体裁习和适用于文档的两阶段预考试,显赫提高了模子对文档的相识本事。

图片10.png

该论文第一作家是北京大学2020级博士生程梦钧,由陈杰副教化(北京大学)、刘畅(清华大学)、纪荣嵘教化、郑侠武副教化和百度视觉时刻部共同合作完成。

(信息学院)小姐骚