摘夺行为识别桂冠后，依图AI要征服更多“星辰大海” - 安防知识网

尽管行为识别难度异常之大，但人们总是想尽一切办法征服每一个“星辰与大海”。依图科技就是这个代表。

　　科技改变生活，而生活同时也在促使科学进步。

　　人工智能的广泛应用，促使各行各业都已充分感受到因技术发展而滋生的各种福利，如智能化家居体验、人脸通行、人脸布控、人脸寻亲等等。而随着人们对人工智能技术接受度的不断提升，用户新的需求也不断涌现。

　　以人为中心的AI为例，人脸识别技术和人体识别技术帮助人们精准的解答了“我是谁”这个问题，人体追踪和大数据分析技术帮助人们解答了“我从哪里来”这个问题，而针对“我做过什么, 以及正在做什么”则是一个尚未很好解答的问题。而这一需求，推动了行为识别这一更为智能的人工智能技术的发展！

　　行为识别到底有多难？

　　如果把人脸识别比作医院的“普外门诊”的话，行为识别尤其是人类的行为识别，其复杂度和识别难度不亚于“心血管内科+神经内科”。

　　行为识别是指以人为基础单位，只分析人的行为，关注单人的动作以及多人的动作（例如：一起走路、奔跑、打架等）。与人脸识别的特征提取不同，行为识别并没有所谓的眼睛、鼻子、嘴、下巴等六大关键点，其特征提取的是人的特定行为。由于由于人类活动范围广泛，某一特定行为的表现方式千差万别，其复杂度要比人脸识别特征提取难得多。

　　其次，人们从20世纪60年代就开始关注并研究人脸识别算法，在问题定义和算法框架上都趋于成熟，在训练数据层面也不乏MS-Celeb-1M这种百万级公开数据集以供算法训练。但由于行为识别的问题难度远高于人脸识别技术，其真正得到关注并发展时间较短，无论是在问题定义还是算法框架上，都不及人脸技术成熟，数据集由于是视频动作, 采集和标注也更加困难, 限制了数据集的规模。这些都使得行为识别算法困难重重、亟待解决的难题之一。

　　以及外界因素干扰问题。我们已经知道，人脸识别的精准度会受到光照明暗程度、姿态以及背景等外界因素的影响，而行为识别也亦是如此。摄像头拍摄质量(清晰、抖动、模糊、扭曲)不一样, 场景布局差异大(商场、走廊、马路、大厅、餐厅、公园等), 场景光线(室内、室外、晴天、阴天)差异大，摄像头角度差(俯拍、平拍、斜排)异大、人体框大小差异大(远近)、人之间(人与物之间)经常发生相互遮挡等等都会为行为识别结果造成影响。

　　此外，针对人体的行为识别，由简单到复杂可以分为如下情况：上下楼梯、一个人走路、骑车、打架、一个人站着、一个人坐着、排队、摔倒、弯腰捡东西、边坐着边和别人说话、聚集、一个人跑、两个人一起跑、一起散步……光从这点我们就能看出，行为识别需要捕获并进行分析的，不只是一个特定行为，例如：区分走动和跑动，区分是否发生了聚集，这几个人是否是同行，怎样才是打架……其难度之大超乎想象。

　　场景复杂多变、动作差异化大这些对行为识别和分析都有着巨大的挑战，需要捕捉连续动作和长时间动作，也就需要算法对行为本身有更精准的分析推理能力，甚至还能通过既定的场景推算未曾见过的场景。

　　技术攻关，依图行为识别重大突破

　　尽管行为识别难度异常之大，但人们总是想尽一切办法征服每一个“星辰与大海”。依图科技就是这个代表。

　　作为一家全球领先的人工智能公司，在权威机构ACM MM’20 Grand Challenge主办的“大规模复杂场景人体视频解析”挑战赛中，依图科技以大幅领先的成绩拿下了“Track-4:行为识别”的第一名。而在此之前，依图科技已经蝉联全球权威人脸识别竞赛冠军、先后刷新国际声纹识别权威竞赛（VoxSRC）纪录、行人重识别（ReID）三大权威数据集。在接连或者AI技术大多个第一之后，依图科技背后的技术创新和对行为识别难题的攻克开始备受关注。

　　根据介绍，该赛事是最接近真实场景的大规模挑战赛。竞赛内容以真实视频场景为主,包含:不同画质、不同场景(室内外)、不同光源(季节\室内外), 不同视角(俯拍\平拍)等视频、视频中行为识别是本届比赛中的重点项目，目的是考察算法在复杂场景下对行为（包含多人追踪、人体姿态、行为识别）的解析能力，同时还保留了的人体检测与姿态估计、检测追踪、姿态追踪等行为识别的上游任务。在此次挑战赛中，包括 Amazon、腾讯、大华科技、中山大学等上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)解析。

　　学术界通常用frame mAP (f-mAP@avg)来作为行为识别的评价指标，f-mAP@avg代表的含义是以关键帧为单位，评判行为的位置与分类是否准确；与学术界对行为识别的考察指标不同，此次竞赛的评价标准是wf-mAP@avg，这意味着更注重对难度较大的拥挤场景的考察，以及比较少见的动作的识别，同时对于人体框的定位的精确性要求也更高。比赛中，依图算法的指标达到了wf-mAP@avg 0.26，将以往学术界中的基准算法提升了近3倍。且据依图科技官方介绍，此次依图科技行为识别技术主要有以下四大亮点：

　　1、算法性能：有了极为突破性的提升，是所有参赛队伍中的最优。

　　相较于人脸这种算法流程、算法框架已经相对确定，并且发展比较成熟的领域而言，行为尤其是人的行为识别，还处于一种学术界还在探索的阶段。主办方给出了2018年 CVPR上的算法解决方案，对应的指标是: 0.0688(越高越好)；依图在参赛中实现了学术界上2020年最好的已有解决方案（指标是: 0.12），而最终通过依图的算法,指标是 0.26，足足提升了1倍以上,相较于以往学术界最优算法，是极为突破性的提升。

　　2、创新性地将算法与场景结合，进行深度算法优化

　　结合场景分析——创新性的从视频中自动提取到了丰富准确的场景信息(如: 马路、楼梯、桌椅等信息),结合先进的行人检测、行人重识别算法，全面实现了人与人、人与场景、人与物之间在视频中的关系，这些详细的结构化信息为准确的行为识别提供了可靠的依据，准确性上是所有参赛队伍中最好的。

　　基于在智能城市行业长期积累，依图科技借助在智能城市场景下的长期算法积淀,和对行业场景的深入理解,，进行了深度算法优化（传统方法属于通用算法, 没有对此类场景下的行为进行过特定优化）；针对需求优化算法，对特定的这14类任务进行算法上的优化。

　　3、算法效率高

　　不同于其他参赛队伍，依图的行为识别模块没有使用复杂的多模型融合策略，仅适用单模型就超过了其他队伍多模型融合的结果，具备极高的识别效率。

　　依图算法借助强大的背景提取和分割算法，将行为的解析与场景结合，大大的降低了问题难度，使得即便是单个模型也可以取得远超多模型融合的效果。

　　此外，需要提及的是，由于本届为第一届行为识别相关类挑战赛，参赛队伍在赛前也无法了解识别的类别、数据集的大小和识别的具体需求。而依图科技在短短一个多月的时间内，设计出最优的算法,，并在众多实力强劲的队伍中达到世界第一，可想而知，技术能力极其高超。

　　未来可期，依图行为识别大有可为！

　　人脸识别成熟和发展，正在构造一个前所未有的“刷脸时代”。那随着更多“星辰与大海”的攻克，行为识别技术又将构造一个怎样的智能新世界呢？

　　想象一下，未来在智慧城市的大体系中，运用行为识别技术或可以检测特定场合下的异常行为事件（抢劫、打架、纠纷、倒地）并及时预警、在家中老人倒地时让及时预警并第一时间告知监护人、检测工人是否在遵循操作流程生产作业（开车打电话、施工顺序出错、快递扔件等）以及在一个视频中对内容进行精准理解，并为其贴上更合适的标签……

　　结合依图高性能的AI芯片和世界领先的行为识别算法，未来行为识别技术将实现上述所有的想象场景，并将解锁更多的智能应用场景，如智能城市、安全生产、智慧养老、智慧校园、智慧娱乐等等。在提升城市AI智能水平、减轻人工成本的同时, 为提升城市智能密度、确保安全生产、智慧金融等保驾护航。

　　行为识别大有可为，而依图科技未来还将带来更多的惊喜。

　　新基建趋势下，各行各业加快数字化，提升各类工作的智能水平成为刚需。作为目前国内唯一具有提供超大规模、复杂环境下亿级规模城市的智能化运营管理技术能力的人工智能公司，依图科技在硬核的技术实力和隐私保障上的不断努力已形成一套“组合拳”，也即将加速解锁更多的智能应用。

　　未来，值得期待！