阿里AI再刷记录 AI有了对真实视觉世界的理解与推断能力

【天极网家电频道】近日，在第二届视觉对话竞赛 Visual Dialogue Challenge 中，阿里AI击败了微软、首尔大学等十支参赛队伍，拔得了此次比赛的头筹。这是阿里巴巴达摩院城市大脑实验室联合阿里巴巴-南洋理工大学联合学院(JRI)等单位取得的又一项世界级技术突破。

说起 Visual Dialogue Challenge，这是目前视觉对话领域最权威的竞赛之一，由美国佐治亚理工大学、Facebook 人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议 CVPR 发起。

视觉对话挑战的是AI对图像的理解，并根据对话的上下文进行分析来推断其中的主题以及指代关系。比如说，人们看到一张可乐的照片，可以轻松描述出物体的名称、颜色以及形态等多种信息，但对于AI而言，却并不是件容易事。

据悉，此次大赛是在VisDial v1.0 数据集上进行，该数据集基于收集的约10K张类似 COCO 图片的会话，将整个数据集大小扩展到约 130 万个会话 QA对。

在第一次大赛中，最先进的AI技术与人类之间，仍存在着10%的NDCG差距。而此次，阿里不仅以74.57%准确率拔得了头筹，更达到了比肩人类准确率(64.27%)的新纪录。

第一届 Visual Dialogue Challenge大赛结果

阿里AI的突破在于提出了“递归探索对话模型”，综合集成了图像识别、关系推理与自然语言理解三大能力，它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式，能够有效识别图片里的实体以及它们之间的关系，推理出图片所描述的事件内容，并通过对上下文进行有效建模，理解人类提出的问题及真实意图，给出自然准确的回复。

左为AI、右为人类

从上图中我们看到，当人类在多轮对话中，提问男性雨伞颜色、女性雨伞颜色以及图片中含有几个人时，AI能够准确识别出图像上的信息，并给出堪比人类回答的答案。

可以说，人工智能发展至今，自然语言处理以及机器视觉这两大分支已取得了很大的突破，而未来这两项技术也将会被应用到更广阔的场景当中去。比如在一些人类难以涉足的现场展开救援工作、零部件的检测、以及信息无障碍等领域，都将发挥出奇效。

阿里AI再刷记录 AI有了对真实视觉世界的理解与推断能力

热门标签