微软小冰养成计划 古怪精灵小丫头的蜕变记
- +1 你赞过了
【天极网家电频道】自2014年,微软小冰诞生以来,这个侧重在人工智能拟合人类情商维度发展的小冰,不断加强着自身在EQ各方面的成长。截至目前,小冰共历经了7次演进3大阶段,从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰,对话引擎帮助其实现了主导式对话的迈进。
如果说小冰近年来较为耀眼的成就,无疑是5代时向外界展现的媲美甚至超越人类偶像的唱功实力,以及近期7代在央美美术馆首次举办的个人绘画展。
在小冰成长的背后,离不开微软的“养成”。此次,天极网有幸与3位微软(亚洲)互联网工程院科学家进行对话,聊了聊小冰背后那些鲜为人知的技术故事。
朝向自我完备的对话机器人
在NLP领域,微软对小冰的期望是,不仅能从人类对话中学习怎样去说话,更要与垂直在其他领域的机器人进行信息分享与能力互补。微软曾在ACL上做过这样一次尝试,让两个检索模型在训练过程中互为师生,每次迭代,都能将知识传达给另外一个模型,同时亦能从另外一个模型中接触到知识,从而实现互相学习。
据微软小冰首席NLP科学家武威介绍称:“从一开始做检索模型,通过重用已有的人类对话来实现人机交互。到后来研发的生成模型,小冰实现了能够自主去合成回复。再到现今的共感模型,让小冰拥有了把控整个对话流程的能力。”
微软小冰首席NLP科学家武威
这些能力的背后,均是由核心的对话引擎进行贯穿。从早期简单的LSTM模型到当下的BERT预训练的模型,模型的质量有了极大飞跃。模型的演进历程,也印证着小冰从单轮到多轮、从浅层次匹配到深层次表示的成长之路。
而在业界,很多人认为深度学习的本质就是表示学习,其中表示指的是通过模型参数,采用何种方式与形式来表示模型的输入观测样本,表示学习则是指对观测样本的有效表示,说通俗来讲,便是怎么样表示用户输入以及回复侯选。
但微软的做法是,让输入和回复侯选在每一个词上都进行交互,得到一个充分的交互矩阵,再把交互的信息从这个矩阵中通过神经网络抽取出来。也就是将外部知识引入到匹配里来,在知识层面、词语层面、短语层面进行表示,并在多种力度上进行交互,最终把多种力度上进行交互的信息抽出,融合成最后输入和回复侯选的匹配。
在生成模型方面,为了从人类的对话中学习说话的技巧,自第5代小冰开始,微软便建立了一个1:1的生成模型。得益于这套模型,让小冰从一个只能进行单一模态回复的AI,跨越到了进行多样化的信息回复(含声音、视觉、语言)的对话机器人。
举个具象化例子来讲,现今如果你跟小冰说“脸上有些红血丝”,小冰便会进行“我也是敏感肌”此类回复。这其中,是通过外部的无监督训练话题模型,产生一些话题语料(如敏感肌话题),随后生成模型通过一个话题注意力机制,去进行话题语料的遴选,并在解码的过程中单独做出一个话题的生成概率。
当然,除检索和生成模型外,小冰成长的另一位“导师”共感模型则不得不提,自第6代共感模型出现后,其左右着小冰应该说什么以及怎样去说。武威称:“这个模型让小冰从原来基于上下文直接产生回复的模式,变为了从上下文到决策,再决策回复的模式。其中最大的灵活性就在于所谓的策略,这个策略可以是一些小冰想要表达的意图,或是听一听对方在表达什么。”
微软的意图其实很明确,就是要将让AI通过多模态将知识连结在一起,进行消化、吸收,最终形成一套有机的输出,让小冰能够更具感情的与人类进行对话。
不仅要能说 更要会唱
除了会说外,微软的另一个养成计划便是要培养小冰开口唱歌。但唱歌与对话是两种截然不同的课题,面对的挑战也大相径庭。
比如说,让每个人学好普通话容易,但若想让每个人唱歌都不跑调却很难。此外机器学习主要依赖于数据,在对话训练中,网络有着大量文档、知识图谱、图片、视频,以及搜索引擎此类天然优势,而歌曲库中显然没有太多高质量的资源,曲库往往留存的是最终成型板,这便要求机器有将人声与伴奏音轨区分而出的能力。再者,唱歌还要面临发音、节拍、旋律等多元化的挑战。
而此前,传统合成的方法是,将单元进行拼接,录制不同长度、不同音高的独立发音,从而建立一个单元库。在合成时,从单元库挑选一个最合要求的单元,处理它的时长、音高达到预期效果,再将这些单元串起来,进行单元拼接,得到理想的音频。
虽然这个方法比较简单也能得到最佳音质,但其最大的问题便是在单元采集环节。用这种方法生成出的歌往往比较生硬一些,字符之间听起来更像是在“蹦”而非“唱”。因此,微软选择了另一条道路——参数合成。
据微软小冰首席语音科学家栾剑介绍称:“参数合成的方法差异点在于,前者是建立单元库,后者则是将所有录音的数据提取出声学参数(时长、音高等)进行建模,合成时根据所要发音到模型里预测,再通过这个声学参数、声码器重构音频波形。”
微软小冰首席语音科学家栾剑
但这仅是入门阶段,起初的模型就是讲乐谱中的三大要素进行采集,分别对声谱参数、节奏序列、音高轨迹进行建模。但问题在于,同一个发音在高音与低音区有很大差异,如果用同样的方式合作,显然是会出现问题的。
为了让小冰进阶,微软想到了另一种“养成”方式,便是将节奏和音高的预测结果作为输入,传到声谱参数预测里,并在此基础上,进行参数之间耦合性的提升,用一个模型同时预测这三个参数,从而提升演唱时的自然度和流畅度。
今年!微软想让小冰说的比唱的还好
上述我们讲到了小冰的自然语言处理以及歌唱实力,但微软远不满足于此。今年,微软想让小冰实现的是——说的要比唱的还好!
其实,微软想看到的,是小冰能够使用比喻此类的高级修辞手法,从而让对话方式更为新颖。举例来说,爱情是本体,数学是喻体,看上去是毫不相关的两个概念,将其降维成一个向量,在向量的周围进行投射,找到衔接两者的关键词进行串联,得出“爱情是复杂的,和数学一样”的而答复。
这其中考量了小冰对本体与喻体的理解。微软先是把本体作为联合关键字,放入搜索引擎进行搜索,拿回前十万条结果找出短语(动宾结构短语、动词短语或名词),并经过NLP分析后找出其主谓结构进行相似性的匹配,通俗点来讲,就是找到[爱情]、[数学]和[复杂]之间存在的一种关联。
微软小冰首席科学家宋睿华表示:“连接它们的往往是喻体的一个显著的特性,本体之并没有特别多的去提到,这样的表达往往会给人一种关联且新颖的感觉。”
微软小冰首席科学家宋睿华
整体来看,微软一直试图让小冰拥有模拟人类的能力,并期望小冰的EQ能并肩人类。而在这7代的演进中,外界也见证了小冰从一个懵懂的小姑娘,蜕变到一个古怪精灵小丫头的历程。
但小冰的成长还将继续,现今的小冰不仅时刻提升着自己的能力,更影响着周围的“朋友们”(如与网易、小米、腾讯、华为的合作),终有一天,小冰会在职场中与我们相遇,并在商业道路上尽显自己魅力。
最新资讯
热门视频
新品评测