全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

【v2rayn添加地址】arXiv每日更新-20211224(今日关键词:segmentation recognition detection)

【v2rayn添加地址】arXiv每日更新-20211224(今日关键词:segmentation recognition detection)

* 题目: BANMo: Building Animatable 3D Neural Models from Many Casual Videos* 作者: Gengshan Yang,Minh Vo,Natalia Neverova,Deva Ramanan,Andrea Vedaldi,Hanbyul Joo* 摘要: 铰接式 3D 形状重建的先前工作通常依赖于专门的传感器(例如,同步多相机系统)或预先构建的 3D 可变形模型(例如,SMAL 或 SMPL)。此类方法无法扩展到野外的不同对象集。我们提出了 BANMo,一种既不需要专用传感器也不需要预定义模板形状的方法。 BANMo 从可微分渲染框架中的许多单目休闲视频构建高保线D 模型(包括形状和动画蒙皮权重)。虽然许多视频的使用提供了更多的摄像机视图和对象清晰度的覆盖,但它们在建立具有不同背景、照明条件等的场景的对应关系方面带来了重大挑战。我们的主要见解是融合三种思想流派; (1) 利用关节骨骼和混合蒙皮的经典可变形形状模型,(2) 适合基于梯度优化的体积神经辐射场 (NeRF),以及 (3) 生成像素和关节之间对应关系的规范嵌入模型。我们引入了神经混合蒙皮模型,允许可微分和可逆的关节变形。当与规范嵌入相结合时,这些模型允许我们在视频之间建立密集的对应关系,这些对应关系可以通过循环一致性进行自我监督。在真实和合成数据集上,BANMo 显示出比之前的人类和动物作品更高保线D 重建,能够从新颖的视点和姿势渲染逼真的图像。项目网页:这个 http URL。* 题目: 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so Naïve* 作者: Lei Wang,Jun Liu,Piotr Koniusz* 摘要: 在本文中,我们提出了一个基于 3D 骨架的动作识别的少镜头学习管道,通过联合时间和相机视点对齐(JEANIE)。为了排除 3D 身体关节的查询和支持序列之间的错位,我们提出了动态时间扭曲的高级变体,它联合建模查询和支持帧之间的每个平滑路径,以同时实现时间和模拟相机视点空间中的最佳对齐。在有限的少样本训练数据下进行端到端学习。序列使用基于简单谱图卷积的时间块编码器进行编码,这是一个轻量级的线性图神经网络主干(我们还包括一个带有转换器的设置)。最后,我们提出了一种基于相似性的损失,它鼓励同一类序列的对齐,同时防止不相关序列的对齐。我们在 NTU-60、NTU-120、Kinetics-skeleton 和 UWA3D Multiview Activity II 上展示了最先进的结果。* 题目: Data-efficient learning for 3D mirror symmetry detection* 作者: Yancong Lin,Silvia-Laura Pintea,Jan van Gemert* 摘要: 我们介绍了一种受几何启发的深度学习方法,用于从单视图图像中检测 3D 镜面。我们通过将 3D 镜像几何作为归纳先验明确地添加到学习中来减少对大量训练数据的需求。我们提取语义特征,计算像素内相关性,并为每个平面构建 3D 相关性体积。相关体积表示输入在不同深度与其镜子相似的程度,使我们能够识别给定平面是镜面的可能性。随后,我们将相关体积视为采样平面的特征描述符,并将它们映射到采样平面法线所在的单位半球。最后,我们设计了多级球面卷积,以从粗到细的方式识别最佳镜面。对合成数据集和线D 镜像几何在提高数据效率和推理速度(高达 25 FPS)方面的优势。* 题目: Pose Adaptive Dual Mixup for Few-Shot Single-View 3D Reconstruction* 作者: Ta-Ying Cheng,Hsuan-Ru Yang,Niki Trigoni,Hwann-Tzong Chen,Tyng-Luh Liu* 其他: To appear in the Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI), February 2022* 摘要: 我们提出了一种姿态自适应小样本学习程序和一种两阶段数据插值正则化,称为姿态自适应双混合 (PADMix),用于单图像 3D 重建。虽然通过插入特征标签对的增强在分类任务中是有效的,但它们在形状预测方面可能达不到要求,这可能是由于当渲染视点未知时两个图像和体积的插值产品之间的不一致。 PADMix 通过两组顺序执行的混合程序来解决这个问题。我们首先执行输入混合,结合姿势自适应学习程序,有助于学习 2D 特征提取和姿势自适应潜在编码。 stagewise 训练允许我们建立在姿势不变表示的基础上,以在特征和真实数据量之间的一一对应关系下执行后续的潜在混合。 PADMix 在 ShapeNet 数据集上的小样本设置方面明显优于以前的文献,并在更具挑战性的现实世界 Pix3D 数据集上设置了新的基准。

* 题目: Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video Object Segmentation Easier* 链接:arxiv.org/abs/2112.12402* 作者: Youngjo Lee,Hongje Seong,Euntai Kim* 其他: Accepted to AAAI 2022* 摘要: 无监督视频对象分割 (UVOS) 是一种逐像素二值标记问题,其目的是在不使用前景对象的地面实况 (GT) 掩码的情况下将视频中的前景对象与背景分离。以前的UVOS模型大多使用第一帧或整个视频作为参考帧来指定前景对象的遮罩。我们的问题是为什么应该选择第一帧作为参考帧,或者为什么应该使用整个视频来指定掩码。我们相信我们可以选择更好的参考帧来实现比仅使用第一帧或整个视频作为参考帧更好的 UVOS 性能。在我们的论文中,我们提出了 Easy Frame Selector (EFS)。 EFS 使我们能够选择一个“简单”的参考系,使后续的 VOS 变得容易,从而提高 VOS 性能。此外,我们提出了一个名为迭代掩码预测(IMP)的新框架。在该框架中,我们重复对给定视频应用 EFS,并从视频中选择一个比前一次迭代“更容易”的参考帧,从而逐步提高 VOS 性能。 IMP 由 EFS、双向掩模预测 (BMP) 和时间信息更新 (TIU) 组成。从提议的框架中,我们在三个 UVOS 基准测试集上实现了最先进的性能:DAVIS16、FBMS 和 SegTrack-V2。

* 题目: TagLab: A human-centric AI system for interactive semantic segmentation* 链接:arxiv.org/abs/2112.12702* 作者: Gaia Pavoni,Massimiliano Corsini,Federico Ponchio,Alessandro Muntoni,Paolo Cignoni* 其他: Accepted at Human Centered AI workshop at NeurIPS 2021, this https URL* 摘要: 高度特定语义类和复杂形状的全自动语义分割可能无法满足科学家要求的准确度标准。在这种情况下,以人为中心的 AI 解决方案能够在保持人工对复杂任务的控制的同时为操作员提供帮助,是在保持高精度水平的同时加快图像标记速度的良好折衷。 TagLab 是一款开源 AI 辅助软件,用于标注大型正射影像,利用不同程度的自动化;它通过辅助工具从头开始加速图像注释,创建自定义的全自动语义分割模型,最后,允许快速编辑自动预测。由于正射影像分析适用于多个科学学科,因此 TagLab 的设计具有灵活的标签管道。我们在两个不同的场景中报告了我们的结果,海洋生态和建筑遗产。* 题目: FourierMask: Instance Segmentation using Fourier Mapping in Implicit Neural Networks* 链接:arxiv.org/abs/2112.12535* 作者: Hamd ul Moqeet Riaz,Nuri Benbarka,Timon Hoeffer,Andreas Zell* 摘要: 我们提出了 FourierMask,它采用傅立叶级数结合隐式神经表示来生成实例分割掩码。我们将傅立叶映射 (FM) 应用于坐标位置,并将映射的特征用作隐式表示(基于坐标的多层感知器 (MLP))的输入。 FourierMask 学习预测特定实例的 FM 系数,因此使 FM 适应特定对象。这允许将 FourierMask 推广到从自然图像中预测实例分割掩码。由于隐函数在输入坐标域中是连续的,我们说明通过对输入像素坐标进行二次采样,我们可以在推理过程中生成更高分辨率的掩码。此外,我们在 FourierMask 的不确定预测上训练渲染器 MLP (FourierRend),并说明它显着提高了掩码的质量。 FourierMask 在 MS COCO 数据集上显示出与相同输出分辨率的基线 Mask R-CNN 相比具有竞争力的结果,并在更高的分辨率上超过它。* 题目: A Random Point Initialization Approach to Image Segmentation with Variational Level-sets* 链接:arxiv.org/abs/2112.12355* 作者: J.N. Mueller,J.N. Corcoran* 其他: 17 pages, 27 figures* 摘要: 图像分割是许多图像处理和计算机视觉任务中必不可少的组成部分。图像分割的主要目标是简化图像以便于分析,有两种广泛的方法可以实现这一点:基于边缘的方法,提取特定已知对象的边界,以及基于区域的方法,将图像划分为多个区域是统计同质的。一种更突出的边缘查找方法,称为水平集方法,在图像平面中使用梯度下降演化零级轮廓,直到轮廓收敛到对象边界。虽然经典的水平集方法及其变体在分割真实图像方面已被证明是成功的,但它们容易陷入图像平面的嘈杂区域而没有图像的先验知识,并且它们无法提供对象外边界位置以外的细节。我们提出了对变分水平集图像分割方法的修改,该方法可以通过利用随机点初始化来快速检测对象边界。我们通过将我们的方法在真实图像上的性能与著名的 Canny 方法的性能进行比较来证明我们的方法的有效性。* 题目: Maximum Entropy on Erroneous Predictions (MEEP): Improving model calibration for medical image segmentation* 链接:arxiv.org/abs/2112.12218* 作者: Agostina Larrazabal,Cesar Martinez,Jose Dolz,Enzo Ferrante* 摘要: 现代深度神经网络在医学图像分割任务中取得了显着进展。然而,最近观察到它们往往会产生过度自信的估计,即使在高度不确定的情况下,也会导致校准不良和不可靠的模型。在这项工作中,我们引入了最大熵错误预测(MEEP),这是一种分割网络的训练策略,它选择性地惩罚过度自信的预测,只关注错误分类的像素。特别是,我们设计了一个正则化项,鼓励错误预测的高熵后验,增加复杂场景中的网络不确定性。我们的方法与神经架构无关,不会增加模型复杂性,并且可以与多个分割损失函数耦合。我们在两个具有挑战性的医学图像分割任务中对所提出的策略进行了基准测试:大脑磁共振图像 (MRI) 中的白质高信号病变和心脏 MRI 中的心房分割。实验结果表明,将 MEEP 与标准分割损失相结合不仅可以改善模型校准,还可以提高分割质量。* 题目: Omni-Seg: A Single Dynamic Network for Multi-label Renal Pathology Image Segmentation using Partially Labeled Data* 链接:arxiv.org/abs/2112.12665* 作者: Ruining Deng,Quan Liu,Can Cui,Zuhayr Asad,Haichun Yang,Yuankai Huo* 摘要: 千兆像素病理图像的计算机辅助定量分析为精准医学提供了一条新途径。这些创新主要集中在癌症病理学(即肿瘤分割和表征)上。在非癌症病理学中,可以要求学习算法同时检查更全面的组织类型,作为多标签设置。现有技术通常需要训练多个分割网络,以匹配异质组织类型(例如,肾小球簇、肾小球单位、近端小管、远端小管、管周毛细血管和动脉)的特定领域知识。在本文中,我们提出了一种动态单分割网络 (Omni-Seg),该网络使用部分标记的图像(即,每个训练图像仅标记一种组织类型)来学习分割多种组织类型,用于肾脏病理学。通过学习来自六种组织类型的约 150,000 张逐块病理图像,与之前的多网络和多头设计相比,所提出的 Omni-Seg 网络实现了更高的分割精度和更少的资源消耗。在测试阶段,所提出的方法仅使用“部分标记”的训练图像获得“完全标记”的组织分割结果。源代码可在此 https URL 处获得。

* 题目: Learning Hierarchical Attention for Weakly-supervised Chest X-Ray Abnormality Localization and Diagnosis* 链接:arxiv.org/abs/2112.12349* 作者: Xi Ouyang,Srikrishna Karanam,Ziyan Wu,Terrence Chen,Jiayu Huo,Xiang Sean Zhou,Qian Wang,Jie-Zhi Cheng* 摘要: 我们考虑了临床应用的异常定位问题。虽然深度学习推动了医学成像的最新进展,但许多临床挑战并未得到充分解决,限制了其更广泛的应用。虽然最近的方法报告了很高的诊断准确性,但由于普遍缺乏算法决策推理和可解释性,医生担心将这些算法结果用于诊断决策目的。解决这个问题的一种潜在方法是进一步训练这些模型以定位异常,而不仅仅是对它们进行分类。然而,准确地做到这一点将需要临床专家进行大量的疾病定位注释,对于大多数应用来说,完成这项任务的成本高得令人望而却步。在这项工作中,我们通过一种新的注意力驱动弱监督算法解决这些问题迈出了一步,该算法包括分层注意力挖掘框架,该框架以整体方式统一基于激活和梯度的视觉注意力。我们的关键算法创新包括显式顺序注意约束的设计,以弱监督的方式进行有原则的模型训练,同时还通过定位线索促进视觉注意驱动模型解释的生成。在两个大型胸部 X 射线数据集(NIH ChestX-ray14 和 CheXpert)上,我们展示了相对于当前最先进技术的显着定位性能改进,同时还实现了具有竞争力的分类性能。我们的代码可在此 https URL 上找到。* 题目: Fine-grained Multi-Modal Self-Supervised Learning* 链接:arxiv.org/abs/2112.12182* 作者: Duo Wang,Salah Karout* 其他: Accepted at BMVC 2021* 摘要: 视频中的多模态自监督学习已被证明可以提高模型在各种下游任务上的性能。然而,由于未经整理的数据中存在噪声,这种自监督的预训练需要大批量和大量计算资源。这部分是由于流行的训练方案是在粗粒度设置上训练的,其中表示整个视频剪辑或自然语言句子的向量用于计算相似度。这种方案使得训练噪声作为视频剪辑的一部分可以与其他模态输入(例如文本描述)完全无关。在本文中,我们提出了一种细粒度的多模态自监督训练方案,该方案计算更精细尺度的嵌入(例如单个特征图嵌入和短语嵌入)之间的相似性,并使用注意机制来减少噪声对损失函数中的权重。我们表明,通过提出的预训练方案,我们可以训练更小的模型,具有更小的批量和更少的计算资源,以实现与最先进技术相当的下游任务性能,包括动作识别和文本-图像检索。* 题目: Human Activity Recognition on wrist-worn accelerometers using self-supervised neural networks* 链接:arxiv.org/abs/2112.12272* 作者: Niranjan Sridhar,Lance Myers* 摘要: 日常生活活动能力是整体健康的重要指标,但在临床上很难测量。使用腕戴加速度计的自动化和精确的人体活动识别(HAR)能够实现对日常生活活动能力的实用且经济高效的远程监控。开发高质量HAR的主要障碍是缺乏大的标记数据集,以及将在小的精选数据集上训练的模型应用于现实生活中的连续异构数据流时的性能损失。在这项工作中,我们设计了一个自我监督的学习范例,以创建一个稳健的加速度计数据表示,可以概括跨设备和主题。我们证明,这种表示可以分离日常生活的活动,并使用很少的标签实现强大的HAR精度(在多个基准数据集上)。我们还提出了一种分割算法,该算法可以在连续的真实数据上识别显著活动的片段并提高HAR精度。

* 题目: NinjaDesc: Content-Concealing Visual Descriptors via Adversarial Learning* 链接:arxiv.org/abs/2112.12785* 作者: Tony Ng,Hyo Jin Kim,Vincent Lee,Daniel Detone,Tsun-Yi Yang,Tianwei Shen,Eddy Ilg,Vassileios Balntas,Krystian Mikolajczyk,Chris Sweeney* 摘要: 根据最近对视觉描述符中涉及隐私的场景揭示的分析,我们开发了隐藏输入图像内容的描述符。特别是,我们提出了一种对抗性学习框架,用于训练视觉描述符,防止图像重建,同时保持匹配精度。我们让特征编码网络和图像重建网络相互竞争,使得特征编码器试图用其生成的描述符阻碍图像重建,而重建器试图从描述符中恢复输入图像。实验结果表明,使用我们的方法获得的视觉描述符显着降低了图像重建质量,而对对应匹配和相机定位性能的影响最小。* 题目: Cross Modal Retrieval with Querybank Normalisation* 链接:arxiv.org/abs/2112.12777* 作者: Simion-Vlad Bogolin,Ioana Croitoru,Hailin Jin,Yang Liu,Samuel Albanie* 摘要: 受益于大规模训练数据集、神经架构设计和高效推理的进步,联合嵌入已成为解决跨模态检索的主要方法。在这项工作中,我们首先表明,尽管最先进的联合嵌入很有效,但仍严重受到长期存在的中心问题的影响,其中少量画廊嵌入形成了许多查询的最近邻居。从 NLP 文献中汲取灵感,我们制定了一个简单但有效的框架,称为 Querybank Normalization (QB-Norm),它重新规范化查询相似性以解释嵌入空间中的中心。 QB-Norm 无需再培训即可提高检索性能。与之前的工作不同,我们表明 QB-Norm 无需并发访问任何测试集查询即可有效工作。在 QB-Norm 框架内,我们还提出了一种新的相似性归一化方法,即动态倒置 Softmax,它比现有方法更加稳健。我们在一系列跨模态检索模型和基准测试中展示了 QB-Norm,它始终如一地增强了超越现有技术的强大基线。此 https URL 提供代码。* 题目: SLIP: Self-supervision meets Language-Image Pre-training* 链接:arxiv.org/abs/2112.12750* 作者: Norman Mu,Alexander Kirillov,David Wagner,Saining Xie* 其他: Code: this https URL* 摘要: 最近的工作表明,在具有挑战性的视觉识别任务上,自我监督的预训练可以改善监督学习。 CLIP 是一种令人兴奋的语言监督学习新方法,在各种基准测试中都表现出令人鼓舞的表现。在这项工作中,我们探索自监督学习是否可以帮助使用语言监督进行视觉表示学习。我们介绍了 SLIP,这是一种结合自监督学习和 CLIP 预训练的多任务学习框架。在使用 Vision Transformers 进行预训练后,我们彻底评估了表示质量,并在三种不同的设置下将性能与 CLIP 和自监督学习进行了比较:零镜头传输、线性分类和端到端微调。在 ImageNet 和一系列附加数据集上,我们发现 SLIP 大大提高了准确性。我们通过对不同模型大小、训练计划和预训练数据集的实验进一步验证了我们的结果。我们的研究结果表明,SLIP 拥有两全其美的优势:比自我监督(+8.1% 线性准确率)和语言监督(+5.2% 零样本准确率)更好的性能。* 题目: Assessing the Impact of Attention and Self-Attention Mechanisms on the Classification of Skin Lesions* 链接:arxiv.org/abs/2112.12748* 作者: Rafael Pedro,Arlindo L. Oliveira* 摘要: 注意机制引起了研究界的极大兴趣,因为它们有望显着提高神经网络架构的性能。然而,在任何特定问题中,我们仍然缺乏一种原则性的方法来选择导致有保证的改进的特定机制和超参数。最近,自注意力被提出并广泛应用于类似变压器的架构中,从而在一些应用中取得了重大突破。在这项工作中,我们关注两种形式的注意力机制:注意力模块和自我注意力。注意模块用于重新加权每层输入张量的特征。不同的模块有不同的方式在全连接层或卷积层中执行这种重新加权。研究的注意力模型是完全模块化的,在这项工作中,它们将与流行的 ResNet 架构一起使用。 Self-Attention 最初是在自然语言处理领域提出的,它可以将输入序列中的所有项目关联起来。 Self-Attention 在计算机视觉中变得越来越流行,它有时与卷积层相结合,尽管最近的一些架构完全取消了卷积。在这项工作中,我们研究并客观比较了特定计算机视觉任务中的许多不同注意力机制,即广泛使用的皮肤癌 MNIST 数据集中的样本分类。结果表明,注意力模块有时确实提高了卷积神经网络架构的性能,但这种改进虽然显着且具有统计显着性,但在不同设置中并不一致。另一方面,使用自注意力机制获得的结果显示出一致且显着的改进,即使在参数数量减少的架构中也能获得最佳结果。* 题目: Digital Editions as Distant Supervision for Layout Analysis of Printed Books* 链接:arxiv.org/abs/2112.12703* 作者: Alejandro H. Toselli,Si Wu,David A. Smith* 其他: 15 pages, 2 figures. International Conference on Document Analysis and Recognition. Springer, Cham, 2021* 摘要: 档案工作者、文本学者和历史学家经常制作历史文件的数字版本。使用文本编码倡议和 EpiDoc 等标记方案,这些数字版本通常记录文档的语义区域(例如注释和图形)和物理特征(例如分页和换行符)以及转录其文本内容。我们描述了利用这种语义标记作为训练和评估布局分析模型的远程监督的方法。在 Deutsches Textarchiv (DTA) 的 50 万页上对多个模型架构进行的实验中,我们发现这些区域级评估方法与像素级和单词级指标之间存在高度相关性。我们讨论了通过自我训练提高准确性的可能性,以及在 DTA 上训练的模型推广到其他历史印刷书籍的能力。* 题目: Comparison and Analysis of Image-to-Image Generative Adversarial Networks: A Survey* 链接:arxiv.org/abs/2112.12625* 作者: Sagar Saxena,Mohammad Nayeem Teli* 其他: 22 pages, 22 figures, Preprint, Under review at IJCV* 摘要: 生成对抗网络 (GAN) 最近引入了执行图像到图像转换的有效方法。这些模型可以应用并推广到图像到图像转换的各种领域,而无需更改任何参数。在本文中,我们调查和分析了八种图像到图像生成对抗网络:Pix2Px、CycleGAN、CoGAN、StarGAN、MUNIT、StarGAN2、DA-GAN 和 Self Attention GAN。这些模型中的每一个都展示了最先进的结果,并引入了构建图像到图像 GAN 的新技术。除了对模型的调查之外,我们还调查了他们接受训练的 18 个数据集和他们评估的 9 个指标。最后,我们在一组通用指标和数据集上展示了其中 6 个模型的受控实验结果。结果喜忧参半,表明在某些数据集、任务和指标上,某些模型的表现优于其他模型。本文的最后一部分讨论了这些结果并确定了未来的研究领域。随着研究人员不断创新新的 Image-to-Image GAN,他们对现有方法、数据集和指标有一个很好的理解是很重要的。本文提供了一个全面的概述和讨论,以帮助建立这个基础。* 题目: Manifold Learning Benefits GANs* 链接:arxiv.org/abs/2112.12618* 作者: Yao Ni,Piotr Koniusz,Richard Hartley,Richard Nock* 其他: 30 pages full version* 摘要: 在本文中,我们通过将流形学习步骤纳入鉴别器来改进生成对抗网络。我们考虑局部约束的线性和基于子空间的流形,以及局部约束的非线性流形。在我们的设计中,流形学习和编码步骤与鉴别器层交织在一起,目的是将中间特征表示吸引到流形上。我们自适应地平衡了特征表示与其流形视图之间的差异,这代表了流形去噪和流形细化之间的权衡。我们得出的结论是,由于密度和平滑度不均匀,局部约束非线性流形优于线性流形。我们展示了对最近不同的最先进基线的实质性改进。* 题目: PandaSet: Advanced Sensor Suite Dataset for Autonomous Driving* 链接:arxiv.org/abs/2112.12610* 作者: Pengchuan Xiao,Zhenlei Shao,Steven Hao,Zishuo Zhang,Xiaolin Chai,Judy Jiao,Zesong Li,Jian Wu,Kai Sun,Kun Jiang,Yunlong Wang,Diange Yang* 其他: This paper has been published on ITSC2021, please check the website of the PandaSet for more information: this https URL* 摘要: 自动驾驶技术的加速发展对获取大量高质量数据提出了更高的要求。具有代表性的、标记的、真实世界的数据是训练深度学习网络的燃料,对于改进自动驾驶感知算法至关重要。在本文中,我们介绍了 PandaSet,这是第一个由完整、高精度自动驾驶汽车传感器套件生成的数据集,并具有免费商业许可证。数据集是使用一台 360° 机械旋转 LiDAR、一台前置远程 LiDAR 和 6 个摄像头收集的。该数据集包含100多个场景,每个场景时长8秒,并提供28种用于物体分类的标签和37种用于语义分割的标签。我们为仅 LiDAR 的 3D 对象检测、LiDAR-camera 融合 3D 对象检测和 LiDAR 点云分割提供基线。有关 PandaSet 和开发套件的更多详细信息,请参阅此 https URL。* 题目: Towards Universal GAN Image Detection* 链接:arxiv.org/abs/2112.12606* 作者: Davide Cozzolino,Diego Gragnaniello,Giovanni Poggi,Luisa Verdoliva* 摘要: 虚假图像的质量不断提高和广泛传播,催生了对可靠取证工具的追求。最近已经提出了许多 GAN 图像检测器。然而,在现实世界的场景中,它们中的大多数表现出有限的鲁棒性和泛化能力。此外,它们通常依赖于测试时不可用的辅助信息,也就是说,它们不是通用的。我们研究了这些问题,并基于有限的子采样架构和合适的对比学习范式提出了一种新的 GAN 图像检测器。在具有挑战性的条件下进行的实验证明,所提出的方法是实现通用 GAN 图像检测的第一步,同时确保对常见图像缺陷的良好鲁棒性,以及对未知架构的良好泛化。* 题目: NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis* 链接:arxiv.org/abs/2112.12577* 作者: Zuria Bauer,Zuoyue Li,Sergio Orts-Escolano,Miguel Cazorla,Marc Pollefeys,Martin R. Oswald* 其他: 8 pages (main paper), 9 pages (supplementary material), 14 figures, 4 tables* 摘要: 基于新视图合成的最新进展,我们建议将其应用于改进单目深度估计。特别是,我们提出了一种分为三个主要步骤的新训练方法。首先,单目深度网络的预测结果被扭曲到一个额外的视点。其次,我们应用了一个额外的图像合成网络,它可以校正和提高扭曲的 RGB 图像的质量。通过最小化像素级 RGB 重建误差,该网络的输出需要与地面实况视图尽可能相似。第三,我们将相同的单目深度估计重新应用于合成的第二个视点,并确保深度预测与相关的地面实况深度一致。实验结果证明,我们的方法在 KITTI 和 NYU-Depth-v2 数据集上使用轻量级和简单的 vanilla U-Net 架构实现了最先进的或相当的性能。* 题目: Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features with Attribute Augmentation* 链接:arxiv.org/abs/2112.12573* 作者: Xiaojie Zhao,Yuming Shen,Shidong Wang,Haofeng Zhang* 其他: Accepted by AAAI2022* 摘要: 深度生成模型的最新进展概述了零样本学习 (ZSL) 领域的前景。大多数生成 ZSL 方法使用类别语义属性和高斯噪声来生成视觉特征。在生成看不见的样本后,这一系列方法有效地将 ZSL 问题转换为监督分类方案。然而,现有模型使用单一语义属性,其中包含类别的完整属性信息。生成的数据也携带了完整的属性信息,但在现实中,视觉样本通常只有有限的属性。因此,从属性生成的数据可能具有不完整的语义。基于这一事实,我们提出了一个新颖的框架,通过综合不同的特征来提升 ZSL。该方法使用增强的语义属性来训练生成模型,从而模拟视觉特征的真实分布。我们在四个基准数据集上评估了所提出的模型,观察到相对于最先进技术的显着性能改进。* 题目: Attentive Multi-View Deep Subspace Clustering Net* 链接:arxiv.org/abs/2112.12506* 作者: Run-kun Lu,Jian-wei Liu,Xin Zuo* 摘要: 在本文中,我们提出了一种新颖的注意力多视图深子空间网络 (AMVDSN),它深入探索了来自多个视图的潜在一致和特定于视图的信息,并通过考虑每个视图的注意机制获得的动态贡献来融合它们。与大多数多视图子空间学习方法不同,它们直接在原始数据上重建数据点,或者在学习深或浅空间表示时只考虑一致性或互补性,我们提出的方法试图找到一个联合潜在表示,明确考虑共识和视图。多个视图之间的特定信息,然后对学习的联合潜在表示进行子空间聚类。此外,不同的视图对表示学习的贡献不同,因此我们引入了注意力机制来为每个视图导出动态权重,这比以前的融合方法在多视图子空间聚类领域。所提出的算法直观,并且由于神经网络框架仅使用随机梯度下降(SGD)即可轻松优化,与传统的子空间聚类方法相比,它还提供了强大的非线性表征能力。七个真实世界数据集的实验结果证明了我们提出的算法对一些最先进的子空间学习方法的有效性。* 题目: FedFR: Joint Optimization Federated Framework for Generic and Personalized Face Recognition* 链接:arxiv.org/abs/2112.12496* 作者: Chih-Ting Liu,Chien-Yi Wang,Shao-Yi Chien,Shang-Hong Lai* 其他: This paper was accepted by AAAI 2022 Conference on Artificial Intelligence* 摘要: 当前最先进的基于深度学习的人脸识别 (FR) 模型需要大量人脸身份进行集中训练。然而,由于隐私意识的增强,禁止访问用户设备上的人脸图像以不断改进人脸识别模型。联邦学习(FL)是一种解决隐私问题的技术,它可以协同优化模型,而无需在客户端之间共享数据。在这项工作中,我们提出了一个基于 FL 的框架,称为 FedFR,以隐私感知的方式改进通用人脸表示。此外,该框架通过提出的解耦特征定制模块为相应的客户端联合优化个性化模型。特定于客户端的个性化模型可以满足优化本地设备注册身份的人脸识别体验的需求。据我们所知,我们是第一个在 FL 设置中探索个性化人脸识别的人。在具有不同 FL 场景的几个通用和个性化人脸识别基准测试中,所提出的框架经验证优于先前的方法。源代码和我们在 FL 设置下提出的个性化 FR 基准测试可在此 https URL 获得。* 题目: Your Face Mirrors Your Deepest Beliefs-Predicting Personality and Morals through Facial Emotion Recognition* 链接:arxiv.org/abs/2112.12455* 作者: P. A. Gloor,A. Fronzetti Colladon,E. Altuntas,C. Cetinkaya,M. F. Kaiser,L. Ripperger,T. Schaefer* 摘要: 我们真的能“读懂眼睛”吗?此外,人工智能可以帮助我们完成这项任务吗?本文通过引入一个机器学习系统来回答这两个问题,该系统根据人的脸预测个人的性格特征。它通过面部情绪识别 (FER) 跟踪个人面部的情绪反应,同时观看 15 个不同类型的短视频。为了校准系统,我们邀请了 85 人观看视频,同时通过他们的面部表情分析他们的情绪反应。同时,这些人还进行了四项经过充分验证的人格特征和道德价值观调查:修订后的 NEO FFI 人格量表、Haidt 道德基础测试、Schwartz 个人价值观体系和特定领域的风险承担量表( DOSPERT)。我们发现,一个人的个性特征和道德价值观可以通过他们对视频的情绪反应来预测,如他们脸上所显示的那样,使用梯度提升树的准确率高达 86%。我们还发现,不同的视频可以更好地预测不同的个性特征,换句话说,没有单一的视频可以准确预测所有的个性特征,而是对不同视频混合的响应,才能进行准确的预测。* 题目: InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition* 链接:arxiv.org/abs/2112.12409* 作者: Andreea Glavan,Estefania Talavera* 摘要: 室内场景识别是一个不断发展的领域,在行为理解、机器人定位和老年人监控等方面具有巨大潜力。在这项研究中,我们使用从社交媒体收集的多模态学习和视频数据,从新颖的角度处理场景识别任务。社交媒体视频的可访问性和多样性可以为现代场景识别技术和应用提供真实的数据。我们提出了一种基于转录语音与文本和视觉特征融合的模型,该模型用于对名为 InstaIndoor 的室内场景社交媒体视频新数据集进行分类。我们的模型实现了高达 70% 的准确率和 0.7 F1-Score。此外,我们还通过对 YouTube-8M 室内场景子集进行基准测试来强调我们方法的潜力,它实现了 74% 的准确率和 0.74 F1-Score。我们希望这项工作的贡献为室内场景识别这一具有挑战性的领域的新研究铺平道路。* 题目: DD-NeRF: Double-Diffusion Neural Radiance Field as a Generalizable Implicit Body Representation* 链接:arxiv.org/abs/2112.12390* 作者: Guangming Yao,Hongzhi Wu,Yi Yuan,Kun Zhou* 其他: 8 pages, 4 figures* 摘要: 我们提出了 DD-NeRF,这是一种新颖的可泛化隐式场,用于从任意输入视图表示人体几何形状和外观。核心贡献是双重扩散机制,它利用稀疏卷积神经网络构建两个代表不同层次人体的体积:粗体体积利用裸体可变形网格提供大规模几何引导,以及细节特征量从局部图像特征中学习复杂的几何形状。我们还使用变压器网络来聚合视图中的图像特征和原始像素,以计算最终的高保真辐射场。在各种数据集上的实验表明,所提出的方法在几何重建和新视图合成质量方面都优于以前的工作。* 题目: DILF-EN framework for Class-Incremental Learning* 链接:arxiv.org/abs/2112.12385* 作者: Mohammed Asad Karim,Indu Joshi,Pratik Mazumder,Pravendra Singh* 其他: Under Review* 摘要: 深度学习模型在类增量学习设置中接受新阶段引入的类的训练时,会遭受灾难性的遗忘旧阶段的类。在这项工作中,我们表明灾难性遗忘对模型预测的影响随着同一图像方向的变化而变化,这是一个新发现。基于此,我们提出了一种新颖的数据集成方法,该方法结合了对图像不同方向的预测,以帮助模型保留有关先前看到的类别的更多信息,从而减少遗忘对模型预测的影响。但是,如果模型是使用传统技术训练的,我们就不能直接使用数据集成方法。因此,我们还提出了一种新颖的双增量学习框架,该框架涉及联合训练具有两个增量学习目标的网络,即类增量学习目标和我们提出的数据增量学习目标。在双增量学习框架中,每个图像属于两个类,即图像类(用于类增量学习)和方向类(用于数据增量学习)。在类增量学习中,每个新阶段都会引入一组新的类,模型无法访问旧阶段的完整训练数据。在我们提出的数据增量学习中,定向类在所有阶段都保持不变,并且类增量学习中新阶段引入的数据作为这些定向类的新训练数据。我们凭经验证明双增量学习框架对数据集成方法至关重要。我们将我们提出的方法应用于最先进的类增量学习方法,并凭经验表明我们的框架显着提高了这些方法的性能。* 题目: Dual Path Structural Contrastive Embeddings for Learning Novel Objects* 链接:arxiv.org/abs/2112.12359* 作者: Bingbin Li,Elvis Han Cui,Yanan Li,Donghui Wang,Weng Wong* 摘要: 从极少数标记样本中学习新类别在机器学习领域引起了越来越多的关注。最近对基于元学习或基于迁移学习的范式的研究表明,在良好的特征空间上获取信息可以成为在少拍任务上获得良好性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式将学习特征表示和分类器的任务分离,并且仅通过典型的迁移学习训练策略从基类中学习特征嵌入架构。为了保持跨基类和新类的泛化能力以及每个类内的辨别能力,我们提出了一种双路径特征学习方案,有效地结合了结构相似性和对比特征构建。通过这种方式,可以很好地平衡类内对齐和类间一致性,从而提高性能。在三个流行基准上的实验表明,当与基于简单原型的分类器结合使用时,我们的方法仍然可以在归纳或转导推理设置中针对标准和广义的小样本问题取得可喜的结果。* 题目: Revisiting Transformation Invariant Geometric Deep Learning: Are Initial Representations All You Need?* 链接:arxiv.org/abs/2112.12345* 作者: Ziwei Zhang,Xin Wang,Zeyang Zhang,Peng Cui,Wenwu Zhu* 其他: 11 pages* 摘要: 几何深度学习v2rayn代理失败,即设计神经网络来处理无处不在的几何数据,如点云和图形,在过去十年取得了巨大的成功。一个关键的归纳偏差是模型可以保持对各种变换(如平移、旋转和缩放)的不变性。现有的图神经网络 (GNN) 方法只能保持排列不变性,无法保证相对于其他变换的不变性。除了 GNN,其他工作设计了复杂的变换不变层,这些层计算成本高且难以扩展。为了解决这个问题,我们重新审视了为什么现有的神经网络在处理几何数据时不能保持变换不变性。我们的研究结果表明,变换不变性和距离保持初始表示足以实现变换不变性,而不需要复杂的神经层设计。受这些发现的启发,我们提出了变换不变神经网络 (TinvNN),这是一种用于几何数据的简单而通用的框架。具体来说,我们通过在将表示输入神经网络之前修改多维缩放来实现变换不变和保持距离的初始点表示。我们证明了 TinvNN 可以严格保证变换不变性,具有足够的通用性和灵活性,可以与现有的神经网络相结合。点云分析和组合优化的大量实验结果证明了我们提出的方法的有效性和普遍适用性。基于实验结果,我们主张将 TinvNN 视为进一步研究变换不变几何深度学习的新起点和必不可少的基线。* 题目: More is Better: A Novel Multi-view Framework for Domain Generalization* 链接:arxiv.org/abs/2112.12329* 作者: Jian Zhang,Lei Qi,Yinghuan Shi,Yang Gao* 摘要: 为了将在源域中训练的模型泛化到不可见的目标域,域泛化 (DG) 最近引起了很多关注。 DG 的关键问题是如何防止对观察到的源域过度拟合,因为在训练期间目标域不可用。我们调查过拟合不仅会导致对看不见的目标域的泛化能力较差,还会导致测试阶段的预测不稳定。在本文中,我们观察到在训练阶段对多个任务进行采样并在测试阶段生成增强图像在很大程度上有利于泛化性能。因此,通过将任务和图像视为不同的视图,我们提出了一种新颖的多视图 DG 框架。具体来说,在训练阶段,为了增强泛化能力,我们开发了一种多视图正则化元学习算法,该算法在更新模型期间采用多个任务来产生合适的优化方向。在测试阶段,为了缓解不稳定的预测,我们利用多个增强图像产生多视图预测,通过融合测试图像的不同视图的结果显着提高了模型的可靠性。在三个基准数据集上进行的大量实验验证了我们的方法优于几种最先进的方法。* 题目: Robust and Precise Facial Landmark Detection by Self-Calibrated Pose Attention Network* 链接:arxiv.org/abs/2112.12328* 作者: Jun Wan,Hui Xi,Jie Zhou,Zhihui Lai,Witold Pedrycz,Xu Wang,Hang Sun* 其他: Accept by IEEE Transactions on Cybernetics, December 2021* 摘要: 当前的全监督面部标志检测方法发展迅速,并取得了显着的性能。然而,由于不准确的面部形状约束和标记的训练样本不足,他们在处理大姿势下的面部和严重遮挡时仍然会受到影响。在本文中,我们提出了一个半监督框架,即自校准姿态注意网络 (SPAN),以在具有挑战性的场景中实现更稳健和精确的面部标志检测。具体而言,提出了边界感知地标强度 (BALI) 场,通过融合边界和地标强度场信息来对更有效的面部形状约束进行建模。此外,自校准姿势注意 (SCPA) 模型旨在提供自学目标函数,通过引入自校准机制和姿势注意掩码,在没有标签信息的情况下强制执行中间监督。我们表明,通过将 BALI 场和 SCPA 模型集成到一个新的自校准姿势注意网络中,可以学习更多的面部先验知识,并且我们的方法对大姿势和重度遮挡的人脸的检测精度和鲁棒性得到了提高。从具有挑战性的基准数据集获得的实验结果表明,我们的方法优于文献中最先进的方法。* 题目: Leveraging Synthetic Data in Object Detection on Unmanned Aerial Vehicles* 链接:arxiv.org/abs/2112.12252* 作者: Benjamin Kiefer,David Ott,Andreas Zell* 其他: The first two authors contributed equally. Github repository will be made public soon* 摘要: 获取数据以在无人驾驶飞行器 (UAV) 上训练基于深度学习的目标检测器既昂贵又耗时,在特定环境中甚至可能被法律禁止。另一方面,合成数据访问起来又快又便宜。在这项工作中,我们探索了合成数据在各种应用环境中的无人机目标检测中的潜在用途。为此,我们扩展了开源框架 DeepGTAV 以适​​用于无人机场景。我们捕获了多个领域中的各种大规模高分辨率合成数据集,通过分析多个模型的多种训练策略来展示它们在无人机的现实世界物体检测中的用途。此外,我们分析了几种不同的数据生成和采样参数,为进一步的科学研究提供可操作的工程建议v2rayng共享热点。 DeepGTAV 框架可在此 https URL 获得。* 题目: MC-DGCNN: A Novel DNN Architecture for Multi-Category Point Set Classification* 链接:arxiv.org/abs/2112.12219* 作者: Majid Farhadloo,Carl Molnar,Gaoxiang Luo,Yan Li,Shashi Shekhar,Rachel L. Maus,Svetomir N. Markovic,Raymond Moore,Alexey Leontovich* 摘要: 点集分类旨在建立一个表征学习模型,以区分点集数据的空间和分类配置。这个问题在社会上很重要,因为在许多应用领域,如免疫学和微生物生态学。这个问题具有挑战性,因为不同类别的点之间的相互作用并不总是相等的。因此,表征学习模型必须有选择地学习最相关的多类别关系。相关工作有限(1)在学习不同多类别关系的重要性方面,特别是对于高阶交互,以及(2)除了简单地测量相对距离或应用前馈之外,没有充分利用点的空间分布神经网络坐标。为了克服这些限制,我们利用动态图卷积神经网络 (DGCNN) 架构来设计一种新颖的多类别 DGCNN (MC-DGCNN),为多类别点集分类提供位置表示和点对注意层。 MC-DGCNN 能够识别每个点对的分类重要性并将其扩展到 N 路空间关系,同时仍保留 DGCNN 的所有属性和优点(例如,可微性)。实验结果表明,所提出的架构在计算上是高效的,并且在现实世界的数据集上明显优于当前的深度学习架构。* 题目: Improved 2D Keypoint Detection in Out-of-Balance and Fall Situations — combining input rotations and a kinematic model* 链接:arxiv.org/abs/2112.12193* 作者: Michael Zwölfer,Dieter Heinrich,Kurt Schindelwig,Bastian Wandt,Helge Rhodin,Joerg Spoerri,Werner Nachbauer* 其他: extended abstract, 4 pages, 3 figures, 2 tables* 摘要: 损伤分析可能是基于深度学习的人体姿态估计最有益的应用之一。为了促进对该主题的进一步研究,我们提供了一个针对高山滑雪的伤害特定二维数据集,共包含 533 张图像。我们进一步提出了一个后处理程序,它将旋转信息与简单的运动学模型相结合。关于 PCK@0.2 指标,我们可以将跌倒情况下的检测结果提高多达 21%。* 题目: Recur, Attend or Convolve? Frame Dependency Modeling Matters for Cross-Domain Robustness in Action Recognition* 链接:arxiv.org/abs/2112.12175* 作者: Sofia Broomé,Ernest Pokropek,Boyu Li,Hedvig Kjellström* 摘要: 今天的大多数动作识别模型都是高度参数化的,并在具有主要空间不同类别的数据集上进行评估。先前针对单个图像的结果表明,对于各种计算机视觉任务,2D 卷积神经网络 (CNN) 倾向于偏向纹理而不是形状(Geirhos 等人,2019 年),从而降低了泛化能力。综上所述,这引起了人们的怀疑,即大型视频模型学习虚假相关性,而不是随着时间的推移跟踪相关形状并从它们的运动中推断出可概括的语义。随着时间的推移学习视觉模式时,避免参数爆炸的一种自然方法是利用跨时间轴的递归。在本文中,我们分别实证研究了循环、基于注意力和卷积视频模型的跨域鲁棒性v2rayn添加地址,以研究这种鲁棒性是否受帧依赖建模的影响。我们新颖的时间形状数据集被提议作为一个轻量级数据集,以评估对单个帧中未显示的时间形状进行泛化的能力。我们发现,在控制性能和层结构时,循环模型在 Temporal Shape 数据集上显示出比基于卷积和注意力的模型更好的域外泛化能力。此外,我们的实验表明,基于卷积和注意力的模型在 Diving48 上比循环模型表现出更多的纹理偏差。* 题目: AI-based Reconstruction for Fast MRI — A Systematic Review and Meta-analysis* 链接:arxiv.org/abs/2112.12744* 作者: Yutong Chen,Carola-Bibiane Schönlieb,Pietro Liò,Tim Leiner,Pier Luigi Dragotti,Ge Wang,Daniel Rueckert,David Firmin,Guang Yang* 其他: 42 pages, 5 figures, Proceedings of the IEEE* 摘要: 压缩传感 (CS) 在加速磁共振成像 (MRI) 采集过程中发挥着关键作用。随着人工智能的复兴,深度神经网络和 CS 算法正在被整合,以重新定义快速 MRI 的艺术状态。过去几年见证了专用于快速 MRI 的基于深度学习的 CS 技术的复杂性、多样性和性能的显着增长。在这项元分析中,我们系统地回顾了用于快速 MRI 的基于深度学习的 CS 技术,描述了关键模型设计,突出了突破,并讨论了有前景的方向。我们还引入了综合分析框架和分类系统,以评估深度学习在基于 CS 的 MRI 加速中的关键作用。* 题目: InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal Artifact Reduction in CT Images* 链接:arxiv.org/abs/2112.12660* 作者: Hong Wang,Yuexiang Li,Haimiao Zhang,Deyu Meng,Yefeng Zheng* 摘要: 在计算机断层扫描 (CT) 成像过程中,患者体内的金属植入物总是会产生有害的伪影,这会对重建 CT 图像的视觉质量产生不利影响,并对后续的临床诊断产生负面影响。对于金属工件减少(MAR)任务,当前基于深度学习的方法已经取得了可喜的性能。然而,它们中的大多数具有两个主要的共同局限性:1)CT物理成像几何约束没有全面纳入深层网络结构; 2)整个框架对于特定MAR任务的可解释性较弱;因此,很难评估每个网络模块的作用。为了缓解这些问题,在本文中,我们构建了一个新的可解释双域网络,称为 InDuDoNet+,其中精细嵌入了 CT 成像过程。具体来说,我们推导出了联合空间和氡域重建模型,并提出了一种仅使用简单算子来解决它的优化算法。通过将所提出算法中涉及的迭代步骤展开到相应的网络模块中,我们可以轻松构建具有清晰可解释性的 InDuDoNet+。此外,我们分析了不同组织之间的 CT 值,并将先验观察合并到我们的 InDuDoNet+ 的先验网络中,这显着提高了其泛化性能。综合数据和临床数据的综合实验证实了所提出的方法的优越性以及超越当前最先进 (SOTA) MAR 方法的优越泛化性能。代码位于 url{this https URL}。* 题目: Towards Disturbance-Free Visual Mobile Manipulation* 链接:arxiv.org/abs/2112.12612* 作者: Tianwei Ni,Kiana Ehsani,Luca Weihs,Jordi Salvador* 摘要: Embodied AI 在模拟中的大量机器人任务(包括视觉导航和操作)中显示出可喜的结果。先前的工作通常追求最短路径的高成功率,而在很大程度上忽略了交互过程中碰撞引起的问题。这种缺乏优先级是可以理解的:在模拟环境中,破坏虚拟对象没有固有的成本。结果,尽管最终成功,训练有素的代理经常与物体发生灾难性的碰撞。在碰撞成本较高的机器人社区中,避免碰撞是一个长期存在且至关重要的话题,以确保机器人可以安全地部署在现实世界中。在这项工作中,我们朝着用于视觉移动操作的无碰撞/无干扰的嵌入式 AI 代理迈出了第一步,促进了在真实机器人中的安全部署。我们开发了一种新的干扰避免方法,其核心是干扰预测的辅助任务。当与干扰惩罚相结合时,我们的辅助任务通过将干扰知识蒸馏到代理中,大大提高了样本效率和最终性能。我们在 ManipulaTHOR 上的实验表明,在测试具有新物体的场景时,我们的方法将成功率从 61.7% 提高到 85.6%,将无干扰成功率从原始基线%。广泛的消融研究显示了我们流水线方法的价值。项目站点位于此 https URL* 题目: Predição da Idade Cerebral a partir de Imagens de Ressonância Magnética utilizando Redes Neurais Convolucionais* 链接:arxiv.org/abs/2112.12609* 作者: Victor H. R. Oliveira,Augusto Antunes,Alexandre S. Soares,Arthur D. Reys,Robson Z. Júnior,Saulo D. S. Pedro,Danilo Silva* 其他: 3 pages, 3 figures, in Portuguese, accepted at XVIII Congresso Brasileiro de Informática em Saúde (CBIS 2021)* 摘要: 在这项工作中,研究了根据磁共振图像进行脑年龄预测的深度学习技术,旨在帮助识别自然衰老过程的生物标志物。生物标志物的鉴定可用于检测早期神经退行性过程,以及预测与年龄相关或与年龄无关的认知衰退。在这项工作中实施和比较了两种技术:应用于体积图像的 3D 卷积神经网络和应用于轴平面切片的 2D 卷积神经网络,随后融合了各个预测。最好的结果是由二维模型获得的,其平均绝对误差为 3.83 年。* 题目: INTRPRT: A Systematic Review of and Guidelines for Designing and Validating Transparent AI in Medical Image Analysis* 链接:arxiv.org/abs/2112.12596* 作者: Haomin Chen,Catalina Gomez,Chien-Ming Huang,Mathias Unberath* 摘要: 机器学习 (ML) 中的透明度,试图揭示复杂模型的工作机制。透明机器学习有望在目标用户中推进以人为本的人工智能的人因工程目标。从以人为中心的设计角度来看,透明度不是机器学习模型的属性,而是一种可供性,即算法和用户之间的关系;因此,与用户进行迭代原型设计和评估对于获得足够透明的解决方案至关重要。然而,由于最终用户的可用性和访问权限有限,在医疗保健和医学图像分析中遵循以人为本的设计原则具有挑战性。为了研究医学图像分析中透明 ML 的状态,我们对文献进行了系统回顾。我们的审查揭示了用于医学图像分析应用程序的透明 ML 的设计和验证中的多个严重缺陷。我们发现,迄今为止的大多数研究都将透明度作为模型本身的一个属性,类似于任务性能,在开发和评估过程中都没有考虑最终用户。此外,缺乏用户研究,以及对透明度声明的零星验证,使当代对用于医学图像分析的透明 ML 的研究面临用户无法理解的风险,因此与临床无关。为了在即将到来的研究中缓解这些缺点,同时承认医疗保健中以人为本的设计面临的挑战,我们引入了 INTRPRT 指南,这是医学图像分析中透明 ML 系统的系统设计指令。 INTRPRT 指南建议将形成性用户研究作为透明模型设计的第一步,以了解用户需求和领域需求。遵循此过程会产生支持设计选择的证据,并最终增加算法提供透明度的可能性。* 题目: On the relationship between calibrated predictors and unbiased volume estimation* 链接:arxiv.org/abs/2112.12560* 作者: Teodora Popordanoska,Jeroen Bertels,Dirk Vandermeulen,Frederik Maes,Matthew B. Blaschko* 其他: Published at MICCAI 2021* 摘要: 机器学习驱动的医学图像分割已经成为医学图像分析的标准。然而,深度学习模型容易做出过于自信的预测。这导致医学成像和更广泛的机器学习社区重新关注校准预测。校准预测是对标签概率的估计,其对应于以置信度为条件的标签的真实期望值。这种校准的预测在一系列医学成像应用中具有实用性,包括不确定性下的手术计划和主动学习系统。同时,对于许多医疗应用来说,准确的体积测量往往是真正重要的。这项工作研究了模型校准和体积估计之间的关系。我们从数学和经验上证明,如果每个图像都校准了预测器,我们可以通过对图像的每个像素/体素的概率分数取一个期望值来获得正确的体积。此外,我们证明了校准分类器的凸组合保留了体积估计,但不保留校准。因此,我们得出结论,有一个校准的预测器是获得体积无偏估计的充分条件,但不是必要条件。我们在BraTS 2018上的胶质瘤体积估计任务和ISLES 2018数据集上的缺血性卒中病灶体积估计任务的18种不同(校准)训练策略的集合上经验地验证了我们的理论发现。* 题目: PyCIL: A Python Toolbox for Class-Incremental Learning* 链接:arxiv.org/abs/2112.12533* 作者: Da-Wei Zhou,Fu-Yun Wang,Han-Jia Ye,De-Chuan Zhan* 其他: Technical report. Code is available at this https URL* 摘要: 传统的机器学习系统是在封闭世界环境下部署的,在离线训练过程之前需要整个训练数据。然而,现实世界中的应用程序经常面临新类的到来,模型应该不断地合并它们。学习范式被称为班级增量学习(CIL)。我们提出了一个Python工具箱,它实现了类增量学习的几个关键算法,以减轻机器学习社区中研究人员的负担。工具箱包含了许多CIL创始作品的实现,如EWC和iCaRL,但也提供了当前最先进的算法,可用于进行新的基础研究。这个工具箱名为Python类的PyCIL增量学习,可以在这个https网址上找到。* 题目: Neuroevolution deep learning architecture search for estimation of river surface elevation from photogrammetric Digital Surface Models* 链接:arxiv.org/abs/2112.12510* 作者: Radosław Szostak,Marcin Pietroń,Mirosław Zimnoch,Przemysław Wachniew,Paweł Ćwiąkała,Edyta Puniach* 其他: extended version of NeurIPS 2021 Workshop paper – ML4PhysicalSciences* 摘要: 鉴于与全球变暖和日益增长的水需求相关的极端水文事件日益频繁,发展新的地表水观测方法至关重要。使用无人机摄影测量获得的正射影像和数字表面模型可用于确定河流的水面高程(WSE)。然而,由于摄影测量算法的局限性导致DSMs上的水面扰动,这一任务是困难的。在本研究中,机器学习被用来从受干扰的摄影测量数据中提取WSE值。水文和摄影测量专家为此专门准备了一个全新的数据集。新方法是实现高时空分辨率水面测量自动化的重要一步。这些数据可用于验证和校准水文、水力和水动力模型,使水文预测更加准确,特别是预测洪水或干旱等极端和危险事件。据我们所知,这是第一种为此目的创建数据集的方法,深度学习模型用于此任务。此外,神经进化算法被设置为探索不同的体系结构以找到局部最优模型,并且执行非梯度搜索以微调模型参数。与从摄影测量DSMs确定WSE的人工方法相比,所获得的结果具有更好的精度。* 题目: Adaptive Modeling Against Adversarial Attacks* 链接:arxiv.org/abs/2112.12431* 作者: Zhiwen Yan,Teck Khim Ng* 其他: 10 pages, 3 figures* 摘要: 对抗训练,即利用对抗数据训练深度学习模型的过程,是深度学习模型最成功的对抗防御方法之一。我们已经发现,如果我们在推理阶段微调这个模型以适应带有额外信息的对抗输入,对抗训练模型对白盒攻击的鲁棒性可以进一步提高。我们引入了一种算法,利用现有的训练数据,在原始输出类和“邻居”类之间的推理阶段“后训练”模型。使用我们的算法,预训练的Fast-FGSM CIFAR10分类器基模型对白盒投影梯度攻击(PGD)的准确率可以从46.8%显著提高到64.5%。* 题目: KFWC: A Knowledge-Driven Deep Learning Model for Fine-grained Classification of Wet-AMD* 链接:arxiv.org/abs/2112.12386* 作者: Haihong E,Jiawen He,Tianyi Hu,Lifei Wang,Lifei Yuan,Ruru Zhang,Meina Song* 摘要: 年龄相关性黄斑变性(AMD)。湿性AMD有两个相似的亚型,新生血管性AMD和息肉状脉络膜血管。然而,由于数据收集的困难和图像之间的相似性,大多数研究只实现了湿AMD的粗粒度分类,而没有实现湿AMD亚型的细粒度分类。为了解决这个问题,本文提出了一个知识驱动的细粒度湿AMD分类模型(KFWC),对数据不足的细粒度疾病进行分类。通过将输入图像的10个病变迹象的先验知识引入KFWC,我们旨在通过多标签分类预训练来加速KFWC,以定位细粒度疾病分类任务中的决定性图像特征,从而实现更好的分类。同时,KFWC还可以提供良好的可解释性,有效缓解湿AMD细粒度疾病分类领域的数据收集和标注压力。实验证明了KFWC算法的有效性,该算法在AU-ROC评分中达到99.71%,与数据驱动的w/o Knowledge和眼科医生相比有相当大的改进,比最强基线%。

* 题目: A Practical Data-Free Approach to One-shot Federated Learning with Heterogeneity* 链接:arxiv.org/abs/2112.12371* 作者: Jie Zhang,Chen Chen,Bo Li,Lingjuan Lyu,Shuang Wu,Jianghe Xu,Shouhong Ding,Chao Wu* 摘要: 一次性联合学习(FL)最近成为一种有前途的方法,它允许中央服务器在一轮通信中学习一个模型。尽管通信成本低,但现有的一次性FL方法大多不切实际或面临固有的限制,例如,需要公共数据集,客户端的模型是同质的,需要上传额外的数据/模型信息。为了克服这些问题,我们提出了一种更实用的无数据方法,称为FedSyn,用于具有异构性的一次性FL框架。我们的FedSyn通过数据生成阶段和模型提炼阶段来训练全局模型。据我们所知,FedSyn是第一个可以实际应用于各种现实应用的方法,因为它具有以下优点:(1) FedSyn不需要在客户端和服务器之间传输额外的信息(模型参数除外);(2) FedSyn不需要任何辅助数据集进行训练;(3) FedSyn在FL中首先考虑了模型和统计的异构性,即客户端的数据是非iid的,不同的客户端可能有不同的模型架构。在各种真实数据集上的实验证明了我们的FedSyn的优越性。例如,当数据是非iid时,FedSyn在CIFAR10数据集上的性能比最佳基线%。

THE END
喜欢就支持一下吧
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称