CVPR 2019 :百度17篇论文入选,AI巨头都在关注什么?(附下载)

作者:博鱼体育官网入口发布时间:2023-05-06 00:40

本文摘要:授权自AI科技大本营(ID:rgznai100)本文共6400字,建议阅读10+分钟。本文整理了百度入选CVPR的17篇论文的内容及应用场景。 盘算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域盘算机视觉偏向的重要学术集会,CVPR每年都市吸引全球最顶尖的学术机构和公司的研究人员投稿。CVPR官网显示,今年有凌驾5165篇的大会论文投稿,最终录取1299篇,录取率约为25%。

博鱼体育app官方入口

授权自AI科技大本营(ID:rgznai100)本文共6400字,建议阅读10+分钟。本文整理了百度入选CVPR的17篇论文的内容及应用场景。

盘算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域盘算机视觉偏向的重要学术集会,CVPR每年都市吸引全球最顶尖的学术机构和公司的研究人员投稿。CVPR官网显示,今年有凌驾5165篇的大会论文投稿,最终录取1299篇,录取率约为25%。据相识,去年的CVPR 2018共有979篇论文被主会收录,任命率约为29%。

相比2018,今年的竞争越发猛烈。今年百度公司有17篇论文被CVPR吸收,内容涵盖了语义支解、网络剪枝、ReID、GAN等诸多偏向,而且许多技术的落地场景都涉及无人驾驶。1月,我们曾为大家先容百度被AAAI 2019吸收的15篇论文。

现在我们就来带大家看下百度入选CVPR 2019的17篇论文。后台私信回复关键词“百度”,获取本文所有论文1)Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation论文作者:Yawei Luo; Liang Zheng; Tao Guan; Junqing Yu; Yi Yang论文先容:在虚拟图像集(源域)上训练出的语义支解网络,往往在真实图像集(目的域)上体现不佳。网络支解性能下降是由于两个域间存在较大差异,而深度模型泛化能力不足。

传统方法实验通过全局对齐源域和目的域间特征漫衍的来解决此问题,而该类方法往往忽略了特征间的局部语义一致性。本文首次联合了团结训练和反抗训练来处置惩罚此问题。差别于传统方法,本文凭据每一个特征的语义对齐水平,自适应的调整特征对齐的力度。该方法解决了传统方法中特征语义纷歧致问题和负迁移的问题。

实验效果证明我们的方法能大大提高网络在目的域图像上的支解精度。应用场景:自动驾驶。

本方法将电脑合成图像训练出的网络直接泛化到现实数据集上,大大淘汰了自动驾驶领域中街景数据收罗和数据标注的事情量。论文地址:https://arxiv.org/abs/1809.094782)Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration论文作者:Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang论文先容:在本文中,我们分析了关于网络剪枝的“小范数-低重要性”的尺度。以前的事情使用“小范数-低重要性”的尺度来修剪在卷积神经网络中具有较小范数值的滤波器,但出它的有效性取决于两个并不总是满足的要求:滤波器的范数的尺度差应该很大; 滤波器的最小范数应该很小。

为相识决这个问题,我们提出了一种新的滤波器修剪方法,即通过"几何平均数"举行滤波器剪枝,以便在不思量这两个要求的情况下对模型举行压缩,我们称之为FPGM。与之前的方法差别,FPGM通已往掉冗余的滤波器来压缩CNN模型,而不是去掉那些范数小的过滤器。我们在图像分类任务上的两个数据集上,验证了FPGM的有用性。

在Cifar-10数据集上,FPGM在ResNet-110上的盘算量降低了52%以上,相对准确度提高了2.69%。此外,在ILSVRC-2012数据集上,FPGM还在ResNet-101上淘汰了凌驾42%的盘算量。

应用场景:本文提出的方法能够有效提升神经网络压缩率。可以将压缩后的网络部署到便携式设备,好比手机、摄像机等,加速处置惩罚速度。论文地址:https://arxiv.org/abs/1811.00250GItHub地址:https://github.com/he-y/filter-pruning-geometric-median3)Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation论文作者:Hao Zhu; Xinxin Zuo; Sen Wang; Xun Cao; Ruigang Yang论文先容:本文提出了一个新的框架,可以凭据单个图像恢复详细的人体形状。

由于诸如人体形状、身体姿势和视角的变化等因素,因而这是一项具有挑战性的任务。现有方法通常实验使用缺少外貌细节的基于参数的模板来恢复人体形状。

因此,所获得的身体形状似乎没有衣服。在本文中,我们提出了一种新颖的基于学习的框架,它联合了参数模型的鲁棒性和自由3D变形的灵活性。我们使用深度神经网络在条理网格变形(HMD)框架中使用身体枢纽、轮廓和每像素着色信息的约束来细化3D形状。

我们能够恢复除皮肤模型之外的详细人体形状。实验证明,我们的方法优于先前的最先进方法,在2D IoU数和3D怀抱距离方面实现了更好的准确性。论文地址:https://arxiv.org/abs/1904.10506v1GItHub地址:https://github.com/zhuhao-nju/hmd.git4)GA-Net: Guided Aggregation Net for End-to-end Stereo Matching论文作者:Feihu Zhang; Victor Adrian Prisacariu; Yang Ruigang; Philip Torr论文先容:在立体匹配任务中,为了准确预计差异,匹配成本聚合在传统方法和深度神经网络模型中都是至关重要的。

我们提出了两个新的神经网络层,划分用于捕捉局部和整个图像的成底细关性。第一个是半全局聚合层,它是半全局匹配的可微近似;第二个是局部引导聚合层,它遵循传统的成本过滤计谋来细化薄结构。这两层可以用来取代广泛使用的3D卷积层,该层由于具有立方盘算/存储器庞大性而盘算成本高且消耗存储器。在实验中,我们讲明,具有双层引导聚合块的网络很轻易地凌驾了具有19个3D卷积层的最先进的GC-Net。

我们还训练了深度引导聚合网络(GA-Net),它比场景流数据集和KITTI基准测试中的最新方法具有更好的准确性。论文地址:https://arxiv.org/abs/1904.06587GitHub地址:https://github.com/feihuzhang/GANet5)Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification论文作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang论文先容:本论文旨在解决行人再识别中的跨数据集问题:使用有标注的源数据集和无标注的目的数据集学习一个在目的数据集具有很好的鲁棒性的模型。主流的研究方法主要通过降低源域和目的域之间的特征漫衍的差异。

然而,这些方法忽略了目的域的域间变化,这些变化中包罗了影响目的域测试性能的重要因素。在本文的事情中,我们全面的探讨了目的域中的域间变化,并基于三种潜在的域内稳定性(样例稳定性,相机稳定性和领域稳定性)提出了一个新的模型泛化方法。为了实现这个方法,我们在模型训练历程中引入了一个样例影象模块用以存储目的数据在训练历程中的中间特征。

该样例影象模块可以使我们快速的盘算目的域中局部训练样本和全局样本的相似性,同时有效的在模型训练中加入提出的三个稳定性限制。实验证明本文提出的三个稳定性性质对提升领域适应的性能是不行或缺的。同时,我们的方法在三个行人再识此外目的域中的准确率大大的凌驾了当前现有的方法。

应用场景:本文提出的方法能够有效提升行人再识别模型在跨场景下的泛化能力。使得我们可以在现有的标注数据情况下,以无监视的方式提升模型在新的场景下的性能。论文地址:https://arxiv.org/abs/1904.01990GitHub地址:https://github.com/zhunzhong07/ECN6)Searching for A Robust Neural Architecture in Four GPU Hours论文作者:Xuanyi Dong, Yi Yang论文先容:本论文旨在解决神经网络搜索算法消耗GPU资源过大的问题。

现在许多神经网络搜索算法在小数据集CIFAR上,都需要消耗成百上千的GPU/TPU。为了提高神经网络的搜索效率,我们提出了一种使用可微网络结构采样器的基于梯度的搜索方法。

我们的方法将整个搜索空间用一个有向无环图来表现,这个图包罗了成百万多个子图,每一个子图都代表了一种网络结构。针对这个有向无环图,我们设计了一个可微的采样器,使用Gumbel-Softmax技术将离散的采样历程酿成可微可导的;在训练历程中,通过验证集上的目的损失函数来优化这个采样器,使得采样器最终能过获得一个性能较好的网络结构。

在实验中,我们在一个GPU上,通过几个小时的搜索时间,就可以在CIFAR上找到一个高性能的网络结构。应用场景:本文提出的方法能够有效地在较短时间使用少量GPU搜索出鲁棒的网络结构,可以广泛地应用在大部门任务里,搜索出对更小更快精度更高的网络模型。

GitHub地址:https://github.com/D-X-Y/GDAS7)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-image Synthesis论文作者:Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang论文先容:本论文旨在提升基于文本生成的图片的真实性。当前的方法都是先生成比力粗拙的初始图像,然后再优化图像从而生成高分辨率的真实图像。

博鱼体育官网入口

然而,现在大多数方法仍存在两个问题:当前方法的效果很大法式上取决于初始图像的质量。如果初始图像质量不高,则第二阶段优化很难将图像优化到令人满足的水平。

每个单词对于差别的图片内容都有差别的信息量,但当前方法在两个阶段中仍然保持了相同的单词重要性。在本文事情中,我们提出动态影象生成反抗网络(DM-GAN)来生成高质量的图片。我们提出了一个动态影象模块来优化粗拙的初始图像,纵然初始图像生成不良,它也可以生成高质量的图像。

详细来说,动态影象模块包罗一个凭据初始图像选择重要文本信息的影象写入门和一个自适应融合图片特征和文本信息的反馈门。我们在COCO和CUB数据集上评估了我们的模型。实验效果讲明,我们的方法在FID和IS指标以及真实性上都凌驾了当前方法。

应用场景:文本提出的方法可以显著提升基于文本生成图片的真实性,我们可以实现文章自动配图等功效,可以大大降低创作者的配图成本。论文地址:https://arxiv.org/abs/1904.013108)Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation论文作者:Fengda Zhu, Linchao Zhu, Yi Yang论文先容:在室内3D导航中,情况中的机械人凭据指令移动到目的点。可是在物理世界中部署用于导航的机械人,需要大量的培训数据来学习有效的计谋。

为机械人训练获得足够的真实情况数据是价格昂贵的,因此我们提出通过合成数据渲染情况随后将计谋迁移到真实情况中。虽然合成情况有利于来促进现实世界中的导航训练,但真实情况与合成情况有两个方面差别。首先,两种情况的视觉表现具有显着的差异。

其次,两个情况的衡宇计划有很大差别。因此,需要在强化模型中调整两种类型的信息,即视觉表现和计谋行为。视觉表征和计谋行为的学习历程是互惠的。

我们提出团结调整视觉体现和计谋行为,以实现情况和计谋的相互影响。详细来说,我们的方法接纳了用于视觉表征转移的反抗特征适应模型和用于计谋行为模拟的模拟计谋。实验效果讲明,我们的方法在没有任何分外的人类注释的情况下优于基础模型高达21.73%。应用场景:本文提出的视觉特征适应模型和计谋模拟模型可以有效将机械人在虚拟情况中学习到的计谋和特征迁移到实际场景中,有利于导航机械人,无人车等需要大量数据训练的应用在缺乏庞大场景的真实数据时,通过渲染情况获得更好的计谋。

论文地址:https://arxiv.org/abs/1904.038959)Contrastive Adaptation Network for Unsupervised Domain Adaptation论文作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G. Hauptmann论文先容:无监视域适应旨在使用带标签源域数据和无标签目的域数据,获得在目的域数据上的优良的预测性能。以往的方法在消除域差异的历程中没有充实使用种别信息,导致对齐错误,影响泛化性能。

为相识决这些问题,这篇文章提出了新的域差异怀抱指标 “对比域差异” 来描画类内和类间域差异,而且提出 “对比适应网络” 来优化这个指标。我们设计了新的类感知采样方法,接纳交替更新的方式端到端地优化我们的网络。

我们在两个尺度数据集上取得了比现有的方法更好的性能。应用场景:可以提高单一场景训练模型在缺乏标签的新场景下的识别性能,如使用人工合成带标签数据集,在实际场景图片上举行识别等任务。论文地址:https://arxiv.org/abs/1901.0097610)ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving论文作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang亮点先容:本文提出了现在已知自动驾驶领域最大规模的三维车辆姿态数据集,共包罗5000+高分辨率图像(3384*2710)、6万+车辆的三维姿态信息及对应的车辆二维语义关键点信息。图像中每辆车使用工业级高精度的三维车辆模型举行三维与二维的匹配获取车辆姿态。

本数据集的规模是现在自动驾驶领域相关数据集的20倍左右,如PASCAL3D+,KITTI等;基于此数据集,本文提出了差别的方法举行车辆三维姿态预计,包罗基于关键点的方法和非关键点的方法;本文提出了完整的车辆三维信息评估方法,包罗车辆的形状和姿态信息,相比现在自动驾驶领域相关数据集的评估尺度,本文的评估越发全面。落地场景:自动驾驶领域,基于单张图像的车辆姿态预计。

论文地址:https://arxiv.org/abs/1811.1222211)UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos论文作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu亮点先容:只通过双目摄像头的视频,通过深度学习,就能学习到双目深度视觉,光流和相机姿态。落地场景:可以辅助支持自动驾驶双目视觉模型,从而更好的从激光的离散深度变换到浓密深度。

论文地址:https://arxiv.org/abs/1810.0365412)Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes论文作者:Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding亮点先容:受限于神经网络感受野巨细约束和简朴的文字困绕盒表达(好比矩形框或四边形),以往的文字检测器在长词和任意形状的文字场景容易失败。本文提出了一个新的文字检测器框架,针对性的解决了这两个问题。新的文字检测器框架由三部门组成,直接回归器(Direct Regressor, DR)、迭代改善模块(Iterative Refinement Module, IRM)和文字形状表达模块(Shape Expression Module, SEM)。

DR输出四边形表达的文字检测候选;IRM基于四边形对应的特征块逐步感知和改善完整的四边形文字困绕盒以解决长词检测问题;SEM模块则通过回归完整四边形候选框内的文字实例几何信息,来重建越发精准的上下极点线对称的多边形文字表现。IRM和SEM作为可学习的和可插入的模块,能够团结DR一起举行端到端的训练。在包罗多偏向、长词、任意弯曲和多语种场景的五个具有权威性的公然数据荟萃(ICDAR2017-RCTW, SCUT-CTW1500, Total-Text, ICDAR2015 and ICDAR17-MLT)上,我们提出的新检测器和所有已公然论文中的纯检测方法作对比指标都到达了最好的效果(SOTA)。

论文地址:https://arxiv.org/abs/1904.0653513)STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing论文作者:Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, Shilei Wen亮点先容:提出了STGAN方法用于图片/视频的端到端属性转换。对传统方法提出了两点革新:在自编码网络结构中引入选择性属性编辑单元强化了属性编辑的效果;提出了基于属性更改的训练机制。在celebA数据集上转换效果全方位好于已有方法。落地场景:视频拍摄特效、物料样式生成。

论文地址:https://arxiv.org/abs/1904.09709GitHub地址:https://github.com/csmliu/STGAN14)Attentive Feedback Network for Boundary-Aware Salient Object Detection论文作者:Mengyang Feng, Huchuan Lu, and Errui Ding论文先容:最近基于深度学习的显著目的检测方法在完全卷积神经网络(FCN)的基础上实现了可喜的性能。然而,他们中的大多数都遭受了界限挑战。

现在最先进的方法接纳特征聚合技术,而且可以准确地找出其中的显著目的,可是它们经常无法将具有精致界限的整个工具支解出来,尤其是那些凸起的窄条纹。因此,基于FCN的模型仍有很大的革新空间。

博鱼体育

在本文中,我们设计了注意反馈模块(AFM),以更好地探索工具的结构。我们还接纳界限增强损失(BEL)进一步学习精致界限。我们提出的深度模型在目的界限上获得了令人满足的效果,并在5个广泛测试的显著目的检测基准上实现了最先进的性能。该网络接纳完全卷积方式,以26 FPS的速度运行,不需要任何后期处置惩罚。

论文地址:https://github.com/ArcherFMY/AFNet15)A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision论文作者:Runmin Wu, Mengyang Feng, Wenlong Guan, Dong Wang, Huchuan Lu, Errui Ding论文先容:只管迩来深度学习技术在显著目的检测方面取得了很大希望,但由于目的的内部庞大性以及卷积和池化操作中的步幅导致的禁绝确界限,预测的显著图仍然存在不完整的预测。为了缓解这些问题,我们建议通过使用显著目的检测,以及前景轮廓检测和边缘检测的监视来训练显著性检测网络。首先,我们以交织的方式使用显著目的检测和前景轮廓检测任务来生成具有匀称高光的显著图。其次,前景轮廓和边缘检测任务同时相互引导,从而导致准确的前景轮廓预测并淘汰边缘预测的局部噪声。

此外,我们开发了一种新颖的相互学习模块(MLM),它作为我们方法的构建模块。每个MLM由多个以相互学习方式训练的网络分支组成,性能自得大大提高。我们对七个具有挑战性的数据集举行的大量实验讲明,我们所提出的方法在显著目的检测和边缘检测方面都能到达最好的效果。

GitHub地址:https://github.com/JosephineRabbit/MLMSNet16)L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving论文作者:Weixin Lu, Yao Zhou, Guowei Wan, Shenhua Hou, Shiyu Song亮点先容:自定位模块是无人车系统的基础模块之一,一个成熟的L4级别无人车定位系统需要提供厘米级定位精度的输出效果。百度提出了一种基于学习的点云定位技术,差别于传统的人工设计的庞大算法,该技术对传统的定位方法举行拆解,使用深度学习网络来取代传统的各个环节和步骤,并在一个包罗多种场景路况和大尺度时间跨度的数据集上验证了算法效果,实现了厘米级的定位精度。该方案是全球规模内,业界首次通过使用直接作用于激光点云的深度学习网络来解决自动驾驶的自定位问题。数据集包罗了都会门路、园区门路和高速等多种富有挑战的路况场景,数据总里程达380km,即将在百度Apollo平台开放。

落地场景:百度无人车论文地址:https://songshiyu01.github.io/publication/cvpr2019_localization/17)Improving Transferability of Adversarial Examples with Input Diversity论文作者:Cihang Xie; Yuyin Zhou; Song Bai; Zhishuai Zhang; Jianyu Wang; Zhou Ren; Alan Yuille论文先容:只管CNN已经在种种视觉任务上取得了很是好的体现,但它们很容易受到反抗性示例的影响,这些示例是通过在清晰的图像中加入人类不易察觉的扰动而经心制作的。然而,大多数现有的反抗性攻击在具有挑战性的黑盒设置下只能获得相对较低的乐成率,因为攻击者不相识模型结构和参数。为此,我们建议通过建立差别的输入模式来提高反抗性示例的可迁移性。

我们的方法不是仅使用原始图像来生成反抗性示例,而是在每次迭代时将随机变换应用于输入图像。ImageNet上的大量实验讲明,我们所提出的攻击方法生成的反抗性示例可以比现有基线更好地迁移到差别的网络。

通过评估我们针对NIPS 2017反抗性竞争中的顶级防御解决方案和官方基线的方法,增强型攻击的平均乐成率到达73.0%,在NIPS竞争中的前1次攻击提交率大幅提高6.6%。我们希望我们提出的攻击计谋可以作为评估网络反抗的稳健性和未来差别防御方法的有效性的强大基准基线。

论文地址:https://arxiv.org/abs/1803.06978GitHub地址:https://github.com/cihangxie/DI-2-FGSM后台私信回复关键词“百度”,获取本文所有论文编辑:黄继彦校对:林亦霖— 完 —关注清华-青岛数据科学研究院官方微信民众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。


本文关键词:博鱼体育官网入口,CVPR,2019,百度,17篇,论文,入选,巨头,都在,关注

本文来源:博鱼体育-www.bjyoxr.com