这篇论文的一作为上海交大博士李永露曾在CVPR2020连中三篇论文2022-03-11 17:01:36 来源:IT之家 阅读量:11826
导读:看图看片,对现在的AI来说早已不是什么难事不过让AI分析视频中的人类动作时,传统基于目标检测的方法会碰到一个挑战:静态物体的模式与行为动作的模式有很大不同,现有...
看图看片,对现在的 AI 来说早已不是什么难事不过让 AI 分析视频中的人类动作时,传统基于目标检测的方法会碰到一个挑战:静态物体的模式与行为动作的模式有很大不同,现有系统效果很不理想 现在,来自上海交大的卢策吾团队基于这一思路,将整个任务分为了两个阶段:先将像素映射到一个基元活动组成的过度空间,然后再用可解释的逻辑规则对检测到的基元做推断。 左:传统方法,右:新方法 新方法让 AI 真正看懂剧里的卷福手在举杯 ,右边的人在伸手掏东西 : 对于游戏中的多人场景也能准确分辨每一个角色的当前动作: 甚至连速度飞快的自行车运动员都能完美跟随: 能够像这样真正理解视频的 AI,就能在医疗健康护理,指引,警戒等机器人领域应用这篇论文的一作为上海交大博士李永露,曾在 CVPR 2020 连中三篇论文目前相关代码已开源 知识驱动的行为理解 要让 AI 学习人类,首先要看看人类是怎么识别活动的比如说,要分辨走路和跑步,我们肯定会优先关注腿部的运动状态再比如,要分辨一个人是否是在喝水,那么他的手是否在握杯,随后头又是否接触杯子,这些动作就成为了一个判断标准这些原子性的,或者说共通的动作就可以被看作是一种基元 我们正是将一个个的基元组合推理出整体的动作,这就是就是人类的活动感知那么 AI 是否也能基于发现这种基元的能力,将其进行组合,并编程为某个具有组合概括性的语义呢因此,卢策吾团队便提出了一种知识驱动的人类行为知识引擎,HAKE 这是一个两阶段的系统:
整体来说,上述两个阶段也可以分为两个任务首先是建立一个包括了丰富的活动—基元标签的知识库,作为推理的燃料在于 702 位参与者合作之后,HAKE 目前已有 35.7 万的图像 / 帧,67.3 万的人像,22 万的物体基元,以及 2640 万的 PaSta 基元 其次,是构建逻辑规则库和推理引擎在检测到基元后,研究团队使用深度学习来提取视觉和语言表征,并以此来表示基元然后,再用可解释的符号推理按照逻辑规则为基元编程,捕获因果的原始活动关系 结果,HAKE,在 HICO—DET 上大大提升了以前的实例级方法,特别是在稀有集上,比 TIN 提高了 9.74mAP,HAKE 的上限 GT—HAKE 也优于最先进的方法在 AVA 上,HAKE 也提高了相当多的活动的检测性能,特别是 20 个稀有的活动 一作李永露为上海交通大学的博士生,此前他曾在中国科学院自动化研究所工作在 CVPR 2020 他连中三篇论文,也都是围绕知识驱动的行为理解方面的工作 论文: 开源链接: 。声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。 下一篇:返回列表
推荐产品
经典回顾
|
||
网站地图 备案号:京ICP备19048932号-2 中国最专业的房产家居、装修建材行业资讯网络平台 本站部分资源来自网友上传,如果无意之中侵犯了您的版权,请联系本站,本站将在3个工作日内删除。 |