今天给各位分享随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖的知识,其中也会对2篇论文获一等奖、3篇论文获二等奖、7篇论文获三等奖进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于2篇论文获一等奖、3篇论文获二等奖、7篇论文获三等奖、随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖的信息别忘了在本站进行查找喔。
本文导读目录:
2、随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖
【9月5日】四篇(将)开源论文代码分享 #人物交互# RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection 浙江大学&阿里&剑桥大学&新加坡国立大学 人物交互(HOI)检测任务的目标是对与环境互动的人类进行细粒度的视觉解析,从而实现广泛的应用。之前的工作已经证明了有效的架构设计和相关线索的整合对更准确的HOI检测的好处。然而,为这项任务设计一个适当的预训练策略,现有的方法仍然没有得到充分的探索。 为此,文章中提出 Relational Language-Image Pre-training(RLIP),这是一种利用实体和关系描述的对比性预训练策略。为了有效利用这种预训练,做出以下三个技术贡献:(1)一个新的平行实体检测和顺序关系推理(ParSe)架构,在整体优化的预训练过程中能够使用实体和关系描述;(2)一个合成数据生成框架,标签序列扩展,扩大了每个 minibatch 中可用的语言数据规模;(3)考虑模糊性的机制,关系质量标签和关系伪标签,以减轻预训练数据中模糊/噪音样本的影响。 通过广泛的实验,证明了这些贡献的好处,并统称为 RLIP-ParSe,用于提高 zero-shot, few-shot 和微调HOI检测性能,以及提高从噪声标注学习的鲁棒性。 将开源:https://github.com/JacobYuan7/RLIP 论文:https://arxiv.org/abs/2209.01814 #细粒度图像分类# SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained Image Categorization 知山大学 在过去的几年里,基于深度卷积神经网络(CNN)的图像识别已经取得了重大进展。这主要是由于这类网络在从纹理和形状中挖掘辨别物体姿势和部位信息方面的强大能力。这通常不适合细粒度视觉分类(FGVC),因为它由于遮挡、变形、光照等原因表现出高的类内和低的类间变异。因此,描述全局结构信息的表达式特征表示是描述一个物体/场景的关键。 为此,本文提出一种方法,通过聚合最相关图像区域的上下文感知特征,以及它们在区分细粒度类别中的重要性,有效地捕捉到细微的变化,避免了边界箱和/或可区分部分的标注。 该方法受到自注意和图神经网络(GNNs)方法的最新进展的启发,包括一个简单而有效的关系感知特征转换,以及使用上下文感知的注意机制对其进行完善,以在端到端学习过程中提高转换后的特征的可辨别性。在八个基准数据集上进行了评估,这些数据集包括细粒度的物体和人与物体之间的互动,并在识别精度上大大超过了最先进的方法。 将开源:https://github.com/ArdhenduBehera/SR-GNN 论文:https://arxiv.org/abs/2209.02109 #目标检测# Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images 北京理工大学&特拉华大学 本文提出 task-wise sampling convolutions(TS-Conv)用于任意对象的检测。TS-Conv 从各自的敏感区域自适应地取样 task-wise 特征,并将这些特征映射在一起,以指导动态标签分配,从而进行更好的预测。具体来说,TS-Conv 中定位卷积的采样位置由与空间坐标相关的定向边界盒(OBB)预测监督。而分类卷积的采样位置和卷积核被设计为可根据不同的方向进行自适应调整,以提高特征的方向鲁棒性。此外,还开发了一个动态任务感知标签分配(DTLA)策略,以选择最佳的候选位置,并根据从TS-Conv获得的任务感知分数的排名动态分配标签。 在几个公共数据集上进行的广泛实验,涵盖了多个场景、多模态图像和多类物体,证明了所提出的TS-Conv的有效性、可扩展性和卓越性能。 将开源:https://github.com/Shank2358 论文:https://arxiv.org/abs/2209.02200 #视频目标检测# PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards Video Object Detection 上海交通大学 近年来,作为视频目标检测,出现了应用上下文框架来提升目标检测性能的趋势。现有的方法通常是一气呵成地聚合特征,以增强特征。然而,这些方法通常缺乏来自相邻帧的空间信息,并且存在特征聚合不足的问题。 为此,作者采用一种渐进的方式来引入时间信息和空间信息以实现综合增强。时间信息是由 temporal feature aggregation model(TFAM)引入的,通过在背景帧和目标帧(即要检测的帧)之间进行关注机制。同时,采用Spatial Transition Awareness Model(STAM)来传达每个上下文帧和目标帧之间的位置转换信息。 PTSEFormer 建立在基于 TransFormer 的检测器DETR的基础上,也遵循端到端的方式,以避免沉重的后处理程序,同时在ImageNet VID数据集上实现88.1%的mAP。 已开源:https://github.com/Hon-Wong/PTSEFormer 论文:https://arxiv.org/abs/2209.02242 #场景文本合成# A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data 东京大学 DecompST,是一个使用公共基准准备的真实世界数据集,有三种类型的标注:四边形级别的BBoxes,笔画级别的文本掩码,以及文本删除的图像。利用DecompST数据集,提出了一个图像合成引擎,包括一个text location proposal network(TLPNet)和 text appearance adaptation network (TAANet)。TLPNet首先预测适合嵌入文本的区域。然后,TAANet根据背景情况,自适应地改变文本实例的几何形状和颜色。 综合实验验证了所提出的方法对于生成场景文本检测器的预训练数据的有效性。 将开源:https://github.com/iiclab/DecompST 论文:https://arxiv.org/abs/2209.02397 #知识蒸馏# ViTKD: Practical Guidelines for ViT feature knowledge distillation 清华大学深圳国际研究生院&IDEA&北京航空航天大学 卷积神经网络(CNN)的知识蒸馏(KD)作为提高小模型性能的一种方式被广泛研究。最近,Vision Transformer(ViT)在许多计算机视觉任务上取得了巨大的成功,ViT的KD也是人们所期望的。然而,除了基于输出逻辑的KD,其他基于特征的CNN的KD方法由于结构上的巨大差距而不能直接应用于ViT。在本文中,作者探索了基于特征的蒸馏方法用于ViT。基于ViT中特征图的性质,设计一系列的对照实验,并得出了ViT的特征蒸馏的三个实用指南。基于这三条准则,提出了基于特征的ViTKD方法,该方法给学生带来了持续的、可观的改进。 在 ImageNet-1k 上,将DeiT-Tiny从74.42%提高到76.06%,DeiT-Small从80.55%提高到81.95%,DeiT-Base从81.76%提高到83.46%。此外,ViTKD和基于Logit的KD方法是互补的,可以直接一起应用。这种结合可以进一步提高学生的成绩。具体来说,学生DeiT-Tiny、Small和Base分别达到77.78%、83.59%和85.41%。 已开源:https://github.com/yzd-v/cls_KD 论文:https://arxiv.org/abs/2209.02432 #行人检索# UPAR: Unified Pedestrian Attribute Recognition and Person Retrieval 卡尔斯鲁厄理工学院&Fraunhofer IOSB&Fraunhofer Center for Machine Learning 识别软生物特征的行人属性在视频监控和时尚检索中至关重要。最近的工作在单一数据集上显示出优异结果。然而,由于目前的数据集存在强烈的偏差和不同的属性,这些方法在不同的属性分布、视角、不同的光照和低分辨率下的泛化能力仍然很少被理解。 为了填补这一空白并支持系统的调查,作者提出 UPAR,Unified Person Attribute Recognition 数据集。它是基于四个著名的人物属性识别数据集:PA100K、PETA、RAPv2和Market1501。并通过提供3300个额外的标注来统一这些数据集,在12个属性类别中统一40个重要的二元属性。因此, 首次实现了对可通用的行人属性识别以及基于属性的人员检索的研究。由于图像分布、行人姿势、比例和遮挡的巨大差异,现有的方法在准确性和效率方面都受到很大的挑战。此外,在全面分析正则化方法的基础上,为PAR和基于属性的人员检索制定了强有力的基线。 所设计模型在PA100k、PETA、RAPv2、Market1501-Attributes和UPAR的跨领域和专业化设置中取得了最先进的性能。作者表示相信UPAR和强大的基线将为人工智能界做出贡献,并促进对大规模、可推广的属性识别系统的研究。 将开源 论文:https://arxiv.org/abs/2209.02522 #多任务学习##ICIP 2022# Sequential Cross Attention Based Multi-task Learning 梨花女子大学 在视觉场景理解的多任务学习(MTL)中,以最小的干扰在多个任务之间转移有用的信息是至关重要的。在本文中,作者提出一个新的架构,通过将注意力机制应用于任务的多尺度特征,有效地转移信息特征。由于将注意力模块直接应用于规模和任务方面的所有可能的特征需要很高的复杂性,作者提出对任务和规模按顺序应用注意力模块。首先应用跨任务注意模块(CTAM)来促进同一规模的多个任务特征之间的相关信息交流。然后,跨尺度注意模块(CSAM)将来自同一任务中不同分辨率的特征图的有用信息聚合起来。同时,试图通过特征提取网络中的自注意模块来捕捉长距离的依赖关系。大量的实验表明,所提出方法在NYUD-v2和PASCAL-Context数据集上取得了最先进的性能。 将开源:https://github.com/kimsunkyung/SCA-MTL 论文:https://arxiv.org/abs/2209.02518 #对抗学习# Bag of Tricks for FGSM Adversarial Training 加利福尼亚大学圣克鲁兹分校 用 Fast Gradient Sign Method(FGSM)生成的样本进行对抗性训练(AT),也被称为 FGSM-AT,是一种计算简单的训练鲁棒网络的方法。然而,在其训练过程中,在【Fast is better than free: Revisiting adversarial training】中发现了一种 "灾难性过拟合 "的不稳定模式,即在一个训练步骤中,鲁棒的准确性突然下降到零。现有的方法使用梯度正则器或随机初始化技巧来减轻这个问题,但它们要么需要高计算成本,要么导致较低的鲁棒性精度。 本次任务中,作者表示提供了第一项研究,从三个角度彻底检查了一系列的技巧:数据初始化、网络结构和优化,以克服FGSM-AT中灾难性的过拟合问题。并发现简单的技巧,1、掩盖部分像素(即使没有随机性),2、设置一个大的卷积跨度和平滑的激活函数,3、规范化第一个卷积层的权重,可以有效解决过拟合问题。 在一系列网络结构上的广泛结果验证了每个技巧的有效性,同时也研究了各种技巧的组合。例如,在CIFAR-10上用PreActResNet-18训练,该方法对PGD-50攻击者的准确率达到49.8%,对AutoAttack的准确率达到46.4%,表明纯FGSM-AT能够实现鲁棒性学习者。 将开源:https://github.com/UCSC-VLAA/Bag-of-Tricks-for-FGSM-AT 论文:https://arxiv.org/abs/2209.02684 #三维重建# Deep Learning Assisted Optimization for 3D Reconstruction from Single 2D Line Drawings Manycore Tech Inc&南京航空航天大学&加利福尼亚大学伯克利分校&浙江大学 本篇文章对从单线图自动重建三维物体这一长期存在的问题进行了重新思考。以前基于优化的方法可以生成紧凑而准确的三维模型,但其成功率在很大程度上取决于以下能力:(1)识别足够多的真实几何约束集,(2)为数值优化选择一个好的初始值。鉴于这些挑战,作者提出训练深度神经网络来检测三维物体中几何实体(即边缘)之间的成对关系,并预测顶点的初始深度值。并在一个大型的CAD模型数据集上的实验表明,通过在几何约束解决管道中利用深度学习,基于优化的三维重建的成功率可以得到显著提高。 将开源:https://github.com/manycore-research/cstr 论文:https://arxiv.org/abs/2209.02692 近日,根据随州市科协通报,随州市烟草专卖局(公司)12篇论文在“襄十随神”城市群自然科学论文评选中获奖。 在获奖的12篇论文中,4篇在首届“襄十随神”城市群自然科学论文评选中获奖,8篇在第二届“襄十随神”城市群自然科学论文评选中获奖。其中,2篇论文获一等奖、3篇论文获二等奖、7篇论文获三等奖。(办公室 王玲) 转自:中国网 【版权及免责声明】凡本网所属版权作品,转载时须获得授权并注明来源“中国产业经济信息网”,违者本网将保留追究其相关法律责任的权力。凡转载文章及企业宣传资讯,仅代表作者个人观点,不代表本网观点和立场。版权事宜请联系:010-65363056。 延伸阅读 #视频超分辨率# 百度 与单幅图像超分辨率(SISR)任务不同,视频超分辨率(VSR)任务的关键是充分利用各帧的互补信息来重建高分辨率序列。由于不同帧的图像具有不同的运动和场景,准确地对准多帧并有效地融合不同的帧一直是VSR任务的关键研究工作。 为了利用相邻帧的丰富互补信息,本文提出一个多阶段的VSR深度架构,PP-MSVSR,其中包括局部融合模块、辅助损失和重新对齐模块,以逐步细化增强结果。具体来说,为了加强特征传播中各帧特征的融合,在第一阶段设计一个局部融合模块,在特征传播前进行局部特征融合。此外,在第二阶段引入一个辅助损失,使传播模块得到的特征保留了更多与HR空间相关的信息,并在第三阶段引入一个重新对齐模块,以充分利用前一阶段的特征信息。 大量的实验证明,PP-MSVSR 在 Vid4 数据集上取得了很好的表现,仅用1.45M的参数就达到了28.13dB的PSNR。而PP-MSVSR-L在REDS4数据集上以相当大的参数超过了所有先进的方法。 已开源:https://github.com/PaddlePaddle/PaddleGAN 论文:https://arxiv.org/abs/2112.02828 #手部网格重建# 快手&百度&东南大学 文中提出一个单视角手部网格重建的框架,它可以同时实现高重建精度、快速推理速度和时间上的一致性。具体来说,对于二维编码,提出了轻便而有效的堆叠结构。关于三维解码,提供了一个高效的图算子,depth-separable spiral convolution(深度可分的螺旋卷积)。 此外,提出一个新的特征提升模块,以弥补二维和三维表示之间的差距。该模块从基于地图的位置回归(MapReg)模块开始,整合了热图编码和位置回归范式的优点,以提高二维精度和时间一致性。此外,MapReg之后是姿势集合和姿势-顶点提升方法,这些方法将二维姿势编码转化为三维顶点的语义特征。 总之,MobRecon,包括可负担的计算成本和微型模型大小,在苹果A14 CPU上达到83FPS的高推理速度。在FreiHAND、RHD和HO3Dv2等流行数据集上的大量实验表明,MobRecon在重建精度和时间一致性方面取得了卓越的表现。 已开源:https://github.com/SeanChenxy/HandMesh 论文:https://arxiv.org/abs/2112.02753 #3D点云##目标跟踪##Transformer# 南洋理工大学&商汤 PTTR,一个用于3D点云单一目标跟踪的新型框架,它包含一个 Relation-Aware Sampling 策略来解决点的稀疏性,一个用于特征匹配的新型 Point Relation Transformer,以及一个轻量级的 Prediction Refinement 模块。PTTR不仅获得了新的最先进性能,而且还实现了更高的效率。还基于Waymo开放数据集生成了一个大规模的SOT追踪数据集,以促进对3D追踪方法进行更全面的评估。 作者表示希望所提出方法和Waymo SOT数据集能够帮助激励进一步的研究。 将开源:https://github.com/Jasonkks/PTTR 论文:https://arxiv.org/abs/2112.02857 #3D网格# 芝加哥大学&以色列特拉维夫大学 本文开发了用于编辑三维物体风格的直观控件。Text2Mesh,通过预测符合目标文本提示的颜色和局部几何细节来实现3D网格的风格。考虑使用一个固定的网格输入(内容)和一个学习的神经网络(称之为神经风格场网络)来对一个三维物体进行分解表示。 为了修改风格,通过利用CLIP的表现力,获得文本提示(描述风格)和风格化的网格之间的相似度分数。Text2Mesh既不需要预先训练的生成模型,也不需要专门的3D网格数据集。它可以处理具有任意属相的低质量的网格(非网格,边界等),并且不需要UV参数化。作者展示了该技术在各种三维网格上合成无数种风格的能力。 已开源:https://github.com/threedle/text2mesh 论文:https://arxiv.org/abs/2112.03221 #人员重识别##Transformer##AAAI2022# 北大 本文提出一个用于被遮挡人员重识别任务的解决方法,该方法是基于Transformer的姿态引导的特征分解,利用姿态信息来明确分解语义成分,并提出 Pose-guided Push Loss,以更好地消除被遮挡噪声的干扰。以及在五个流行的数据集上进行了实验,包括 Occluded-Duke, Occluded-REID,Market-1501,DukeMTMC-reID和MSMT17,结果证明了所提方法的有效性。 已开源:https://github.com/WangTaoAs/PFD_Net 论文:https://arxiv.org/abs/2112.02466 #人脸表征学习# 厦门大学&微软亚洲研究&微软云 本文研究了预训练模型在人脸分析任务中的迁移性能。作者设计一种叫做 FaRL 的预训练方法,利用图像文本对比学习以及遮蔽图像建模来学习更普遍的面部表示。表明,通过 FaRL 学习的人脸表征可以很好地迁移到下游人脸分析任务中,包括人脸解析、人脸对齐和人脸属性识别。 与以前的预训练模型相比,模型FaRL实现了卓越的迁移性能。此外,所提出的模型在人脸解析和人脸对齐方面超过了最先进的方法。 将开源:https://github.com/microsoft/FaRL 论文:https://arxiv.org/abs/2112.03109 #超分辨率##图像融合# 江南大学 文章提出一种新型的基于物理模型的无数据集自监督学习框架,自监督离散学习(SDL),并提出一种名为深度 Retinex 融合(DRF)的新方法,该方法将SDL框架、生成网络和Retinex理论应用于红外和可见光图像超分辨率融合。同时,设计了生成式双路径融合网络 ZipperNet 和自适应融合损失函数 Retinex loss,以有效实现高质量融合。 DRF(基于SDL)的核心思想由两部分组成:一部分是使用生成网络从物理模型中分离出的组件;另一部分是基于物理关系设计的损失函数,在训练阶段用损失函数组合生成的组件。此外,为了验证所提出的DRF的有效性,在三个不同的红外和可见光数据集上与六种最先进的方法进行了定性和定量的比较。 将开源:https://github.com/GuYuanjie/Deep-Retinex-fusion 论文:https://arxiv.org/abs/2112.02869 #视频目标分割##AAAI 2022# 华中科技大学&微软亚洲研究院 Error propagation 是在线半监督视频目标分割中一个普遍但关键的问题。本次工作的目标是通过一个具有高可靠性的纠正机制来抑制错误的传播。关键的见解是将校正从传统的掩码传播过程中分离出来,并提供可靠的线索。作者引入两个调制器,传播调制器和校正调制器,分别根据 local temporal correlations 和可靠的参照物对目标帧嵌入进行通道式的重新校正。 具体来说,作者用一个级联传播校正方案来组装调制器。可以避免用传播调制器覆盖可靠校正调制器的效果。尽管带有 ground truth 标签的参考框架提供了可靠的线索,但它可能与目标框架有很大的不同,并引入不确定或不完整的关联。 作者通过将可靠的特征斑块补充到一个维持的池子中来增强参考线索,从而为调制器提供更全面和更有表现力的物体表征。此外,还设计了一个可靠性过滤器来检索可靠的斑块,并在随后的帧中传递它们。 所提出模型在YouTube-VOS18/19和DAVIS17-Val/Test基准上实现了最先进的性能。广泛的实验表明,修正机制通过充分利用可靠的引导提供了相当大的性能增益。 已开源:https://github.com/JerryX1110/RPCMVOS 论文:https://arxiv.org/abs/2112.02853 #细粒度# 北邮&萨里大学 文中通过一个半监督学习环境来处理细粒度的视觉分类问题。主要贡献是如何最好地利用 Out-of-Distribution 数据进行训练。解决方案是利用细粒度类别的底层树状结构来建立一个基于关系的共同标签空间。并进一步引入 triplet 一致性正则化来帮助in-distribution 和 out-of-distribution 对齐。以及在半监督的FGVC基准数据集上评估了提议的方法,并报告了最先进的结果。 将开源:https://github.com/PRIS-CV/RelMatch 论文:https://arxiv.org/abs/2112.02825 #AAAI2022# 浙江大学 文中提出 texture reformer,一个快速和通用的基于神经的框架,用于在用户指定的指导下进行交互式纹理迁移。挑战在于三个方面:任务的多样性,指导图的简单性,以及执行效率。 为了应对上述挑战,方案的关键想法是使用一种新的前馈式多视图和多阶段合成程序,包括全局视图结构对齐阶段,局部视图纹理细化阶段,以及整体效果增强阶段,以粗到细的方式合成具有连贯结构和精细纹理细节的高质量结果。 此外,还引入一种新的免学习的特定视图纹理改造(VSTR)操作,采用新的语义图引导策略,以实现更准确的语义引导和结构保留的纹理迁移。 在各种应用场景中的实验结果证明了所提出框架的有效性和优越性。与最先进的交互式纹理传输算法相比,它不仅能取得更高质量的结果,更值得注意的是,它的速度也快了2-5个数量级。 将开源:https://github.com/EndyWon/Texture-Reformer 论文:https://arxiv.org/abs/2112.02788随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于2篇论文获一等奖、3篇论文获二等奖、7篇论文获三等奖、随州市烟草专卖局(公司)多篇论文在“襄十随神”城市群自然科学论文评选中获奖的信息别忘了在本站进行查找喔。
未经允许不得转载! 作者:谁是谁的谁,转载或复制请以超链接形式并注明出处。
原文地址:http://www.juliyx.com/post/7992.html发布于:2025-12-21


