您当前位置:

萍乡市玖航汽车销售有限公司 > 新闻动态 > 公司动态

国家科技奖 让机器理解动态视觉数据能力更强复旦姜育刚团队获国家自然xk星空体育科学二等奖

发布时间:2024-06-24 浏览次数:

  星空体育下载星空体育下载星空体育下载让机器会看并且能看懂。复旦大学计算机科学技术学院姜育刚教授、吴祖煊副教授、薛向阳教授与大数据学院付彦伟教授等共同完成的项目《多元协同的视觉计算理论与方法》获得国家自然科学奖二等奖。

  简言之,在姜育刚团队的理论和方法加持下,不论是过去的统计机器学习方法还是卷积神经网络,乃至最新的多模态大模型,人工智能在看到不论是图片还是视频动态视觉数据时,都有着更好的理解能力。

  运用我们的方法可以大幅提升视觉计算的性能,让机器人更好地感知环境,是当下火热的‘具身智能’的核心技术,还可以让自动生成的图像、视频内容质量更高,为设计师提供更多创作灵感。姜育刚告诉记者。

  当下,以图像和视频为主的视觉数据占据互联网流量90%以上。而视觉计算则是对海量图像、视频等视觉数据进行智能分析,提取物体、场景、运动、交互等重要信息,赋予机器看的能力。这是人工智能领域的核心研究方向,也是社会治安防控、网络内容安全等国家战略应用的重大需求。

  最近十几年来全球科学界对视觉计算的研究已取得较大进展,中国在视觉计算领域处于第一梯队xk星空体育,包括复旦大学在内的国内高校在视觉计算的研究和应用上取得了显著进展。但是,复杂动态视觉数据的理解仍极具挑战。如何建立多元协同的视觉计算理论与方法,是长期困扰学术界的难题,更被图灵奖得主Y. Lecun认为是根本挑战。

  就以视频数据为例,因为较之二维的图片数据,视频数据有了时间维度,蕴含丰富的时序、声音、文本等信息,这些多模态信息交织在一起,增加了理解的难度。姜育刚在接受记者采访时解释称,视觉计算的多元复杂性,首先体现在视觉数据的采集视角变化多样,简言之,同一目标在不同视角下的二维图像数据就可能有较大差异,这也导致当前视觉计算方法难以建立不同视角数据之间的有效关联。同时,视觉数据中的物体、场景等静态特征和运动、时序、声音等动态特征之间的关联如何通过算法来建立关联?如何通过寻找不同视觉语义间的关联规律提升识别性能?这些都是视觉计算中的重要难题。

  姜育刚团队通过长期攻关揭示了视觉计算中数据层、特征层、语义层的多元复杂特性,也就是不同数据视角、高维特征、语义类别间关联耦合关系,提出了适应各层特性并逐层解耦的协同建模方法,形成了贯穿数据处理、特征融合、语义识别全过程的多元协同视觉计算理论体系。

  姜育刚团队主要从事的是动态视觉数据,特别是视频数据的理解。视频数据量特别大,对其分析处理相比于图像需要的计算资源也比较多,使用传统的CPU进行计算比较慢。我们是最早一批尝试用GPU对视频数据进行处理的团队。姜育刚告诉记者,大约是10多年前开始从事这一研究,那时并没有特别成熟的开源框架,我们通过不断测试调优,最终方才实现高效的视频理解。

  这些研究成果显著提升了视觉计算性能,得到了国内外学者的广泛认可,引发了大量跟踪研究,带动了相关学科领域研究与应用的新发展。项目成果被评价为具有开创性,是最好的、最先进的等。团队提出的方法和模型在多个数据集上都取得了最好的性能,跟之前的方法相比也有显著的提升。

  从2008年至今,团队在面向全球的公开评测中都取得了领先成绩。比如,在美国国家标准与技术研究院主办的TRECVID视觉语义识别国际评测中,团队在2008年、2010年获第一名;在欧洲MediaEval评测中,团队在2014年、2015年蝉联暴力场景视觉语义识别任务第一名;在2019年谷歌公司YouTube-8M短视频视觉语义识别挑战赛中,获全球第二、亚洲第一的成绩;在刚刚结束的国际计算机视觉与模式识别大会CVPR上,团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。

  团队所完成算法目前也已进入实际应用,基于这一理论成果研制的系统多次服务国家重大需求,在关键应用中体现了其优异性能。

  以高铁关键设施的故障检测为例。铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况。基于视觉计算的理论成果,姜育刚团队与铁道科学研究院基础设施检测研究所联合攻关,成功解决了轨道扣件等高铁设施的故障检测难题。这一系统已实际应用多年,多次成功发现并排除了重大安全隐患。大幅提升了缺陷检测精度。

  企业应用场景中的痛点问题也通过这一方法得以解决。团队与华为的核心业务部门联合研发了融合视觉与语言的多模态检索技术,可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、视频,相关成果已在华为的旗舰手机中得到应用。

  同时,团队也致力于大规模数据集的构建与开放共享,与美国哥伦比亚大学、中佛罗里达大学、谷歌公司等研究团队联合构建的数据集,如FCVID、CCV、THUMOS,涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务,被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  老外涌入中国大街:ChinaTravel火爆外网,免签政策提升10倍入境

  欧洲杯-哈弗茨中框菲尔克鲁格绝平 德国1-1瑞士第1出线绝平自讨苦吃!坑惨西班牙,葡萄牙受影响,英格兰笑翻了

  Minecraft 新版本中的英文,令人忍俊不禁...【MC英语 1.21】

  与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏

联系地址:江西省萍乡市芦溪县芦溪镇新田村213号

联系电话:400-123-4567

E-mail:baidu@Ldgbcv.com

服务热线:13800000000

扫一扫,关注我们

Copyright © 2012-2024 萍乡市玖航汽车销售有限公司 版权所有HTML地图 XML地图txt地图 | 赣ICP备2023005358号-5

赣ICP备2023005358号-5