阿里AI再刷记录 AI有了对真实视觉世界的理解与推断能力
- +1 你赞过了
【天极网家电频道】近日,在第二届视觉对话竞赛 Visual Dialogue Challenge 中,阿里AI击败了微软、首尔大学等十支参赛队伍,拔得了此次比赛的头筹。这是阿里巴巴达摩院城市大脑实验室联合阿里巴巴-南洋理工大学联合学院(JRI)等单位取得的又一项世界级技术突破。
说起 Visual Dialogue Challenge,这是目前视觉对话领域最权威的竞赛之一,由美国佐治亚理工大学、Facebook 人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议 CVPR 发起。
视觉对话挑战的是AI对图像的理解,并根据对话的上下文进行分析来推断其中的主题以及指代关系。比如说,人们看到一张可乐的照片,可以轻松描述出物体的名称、颜色以及形态等多种信息,但对于AI而言,却并不是件容易事。
据悉,此次大赛是在VisDial v1.0 数据集上进行,该数据集基于收集的约10K张类似 COCO 图片的会话,将整个数据集大小扩展到约 130 万个会话 QA对。
在第一次大赛中,最先进的AI技术与人类之间,仍存在着10%的NDCG差距。而此次,阿里不仅以74.57%准确率拔得了头筹,更达到了比肩人类准确率(64.27%)的新纪录。
第一届 Visual Dialogue Challenge大赛结果
阿里AI的突破在于提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。
左为AI、右为人类
从上图中我们看到,当人类在多轮对话中,提问男性雨伞颜色、女性雨伞颜色以及图片中含有几个人时,AI能够准确识别出图像上的信息,并给出堪比人类回答的答案。
可以说,人工智能发展至今,自然语言处理以及机器视觉这两大分支已取得了很大的突破,而未来这两项技术也将会被应用到更广阔的场景当中去。比如在一些人类难以涉足的现场展开救援工作、零部件的检测、以及信息无障碍等领域,都将发挥出奇效。
最新资讯
热门视频
新品评测