日前百度AI公众号发布了《2019·AI人机交互趋势研究》一文,智库团队第一时间联系智库专家进行深度解读,同时从其他维度补充了这份报告,并进行了简要的归纳、梳理和扩充。
一、背景
从80年代开始的近四十年时间内,我们已经跨越了四个技术时代,分别是:
PC时代
互联网时代
移动互联网时代
AI时代
我们现在所处的AI时代,也正是AI技术发展历史上的第三次浪潮。早在2016年微软开发者大会上,微软CEO Satya Nadella就提出了“对话即平台”(Conversation As A Platform)概念,阐述了相比传统的使用键盘鼠标,使用自然语言和机器进行交互的方式,是AI时代最自然的入口,也带动了自然语言交互产品的蓬勃发展。
而自然语言交互产品的最核心技术就是自然语言处理。相比计算机视觉、语音识别、语音合成等感知技术,自然语言处理所取得的进展仍然达不到“自然”交互的要求。微软亚洲研究院副院长周明博士也曾提到“语言智能是人工智能皇冠上的明珠”。因此,各大厂商为了抢占AI时代的入口,纷纷推出了自己的自然语言交互产品,也进一步促进了对自然语言处理、知识图谱、深度学习的研究和落地,产生了大量的阶段性成果。
总体来看,自然语言交互产品在取得进步的同时,离人类所期望的真实交互体验还相差甚远,这不仅仅是单一技术的问题,而是在一个系统工程中,如何提升认知智能的开放性难题。本文借鉴百度报告,梳理了自然语言交互产品的形态、功能、应用场景、技术、数据以及相关人才的基本情况和未来趋势。
二、产品形态
1. 现状:
a)纯软件产品。是指借助其他平台(例如手机微信)进行交互的产品,大多数是为了辅助用户解决特定问题,或进行闲聊陪伴。例如,个人助理产品Siri,Cortana,智能客服小i机器人,闲聊产品微软小冰,微信琥珀,助手类产品例如阿里小蜜等。
b) 软硬件结合产品。是指基于特定硬件开发的交互产品,例如,聊天机器人产品公子小白、天猫精灵、小爱同学、亚马逊Echo等,带触摸屏的聊天机器人小度在家、腾讯叮当智能屏音箱等,以及可以移动或做特定动作的优必选悟空机器人、日本软银的Pepper等。
2. 趋势:
目前市场上大多数产品仅能进行语音交互,并且功能较为局限,不具备认知能力。聊天机器人的下一代范式是虚拟生命,用人工智能技术模拟生命的主要特征,以多形态和多模态进行交互,具备强大的感知和认知能力,并进一步实现自我认知和自我进化。
简单来说,虚拟生命是具备认知功能的多模态聊天机器人。百度的报告中也提到,触控、语音、手势、人脸会成为多模态融合的主流通道。例如狗尾草智能科技2017年推出的世界上首个虚拟生命产品“琥珀·虚颜”,不仅具备语言交互能力,还具备视觉、听觉、动作、姿态等能力。
在虚拟生命赛道上,目前除了狗尾草智能科技的琥珀·虚颜系列产品之外,还有日本LINE子公司Gatebox Inc.于2018年推出的Gatebox。
由于涉及多模态识别和认知技术,在融合过程中的响应速度、识别率、以及综合各种信息的算法判断方面还需要进一步提升。
三、产品功能
1. 现状:
a) 闲聊,大部分自然语言交互产品均具备闲聊功能,主要包括客观的话题讨论和主观的情感表达。微软小冰是目前效果较好的中文闲聊交互产品之一。
b) 问答,大部分具备儿童教育功能的自然语言交互产品都支持问答,比如说百科知识问答、课本问答等。代表性产品包括公子小白、小米音箱等。主要实现方式是通过建立相关知识库,通过自然语言处理技术进行问答交互。
c) 对话,部分自然语言交互产品,尤其是个人助理类产品,支持基于特定任务和目的的对话,对话流程一般是多轮,例如为用户预订机票、预订咖啡等。在2018年谷歌开发者大会上,谷歌语音助手也让用户体验了预约餐厅、预约理发店等功能。
2. 趋势:
a) 支持更复杂的问答交互。例如类似“姚明女儿的国籍是什么”的问题,需要通过构建知识图谱,并进行多源融合,从而支持推理和联想。同时,对于常识问答也需逐步支持。
b) 更加自然的主动交互。牵扯到对用户信息的主动认知,在多模态交互中记忆用户的信息并构建用户知识图谱,根据特定场景,触发主动交互及推荐。
c) 自我认知。百度报告中也提到智能体开始拥有明确的人设。人设意味着智能体需要拥有不同性格。例如在“琥珀·虚颜”这款产品中,琥珀这个IP有着自己的生活轴和心情,通过和用户的交互,不断改变自己的状态。
在认知交互的发展中,需要注意的一个问题是信息统一和一致,我们经常在和自然语言交互产品的对话中,发现其自我矛盾的回答(比如年龄不一致)。因此,构建特定知识图谱(IP图谱、用户图谱、百科图谱、领域图谱等)对于解决此类问题非常有帮助。
四、应用场景
1. 现状:
a) 在2B端,自然语言交互产品的应用非常广泛,在医疗领域可以作为医生的诊疗辅助,在金融领域可以提供多方面的自然语言问答,让机器人客服更加友好,在车载领域可以解放驾驶员双手,使用语音进行车内设备控制。
b) 在2C端,大量的娱乐化产品、儿童教育产品和情感陪伴产品,跨越从儿童到青年到老年看护的不同需求。结合物联网和语音交互,智能家居互连也得到了广泛的认同和发展。
c) 在2G端,自然语言交互产品应用于政务领域可以解决政策梳理、智能搜索等问题,在安全领域可以结合大数据,发现潜在的安全隐患。
2. 趋势:
多设备融合及信息互联是未来的一个趋势,例如在车载领域,车载语音交互产品不仅仅可以理解用户当前的驾车需求(例如目的地,停车场等),还会根据用户的个人信息,进行更精准的推荐(例如餐馆、宾馆等)。另外,体验感方面的提升,也进一步推动了AI智能客服的发展,尤其是在银行、政府办事机构等大量客服人员集中的场景下,有广阔的空间。
五、技术
1. 现状:
a) 感知智能。随着深度学习的迅猛发展,包括人脸识别、语音识别、声纹识别、情绪识别等多项技术都突破了人类最好的效果。
b) 检索型交互。大多数自然语言交互产品采用了检索型交互,此项技术的核心在于问答数据库的建立和更加精准的检索方法。相比传统的基于字或者词的检索方法,词嵌入方法可以匹配出语义相关的句子,因此得到越来越多的青睐。
c) 深度学习和自然语言处理。在深度学习的支持下,自然语言处理也取得了长足的进步,例如在语言模型方面,在BERT出现后的半年左右,GPT-2进一步刷新了大量任务的基线标准。
2. 趋势:
a) 认知智能。知识图谱是实现从感知到认知跨越的基石之一。知识图谱的落地还较为困难,需要进一步的研究和发展。
b) 生成模型需要进一步发展。生成模型目前的效果并不是很好,而且很难支持多轮问答。如何结合上下文进行多轮交互,是目前理论界研究的重要方向之一。
c) 多模态技术。百度报告中也提出,生理信号检测、手势识别等,还需要进一步发展和落地。尤其是在多源数据融合中,在工程实践上需要大量的工作。
六、数据
1. 现状:大数据时代提供了海量的数据,自然语言交互产品可以基于这些数据进行更丰富的对话,但问题在于,领域内数据的搜集代价较高,免费的互联网数据通常质量参差不齐,因此,在产品中做到良好的交互体验,需要对数据进行大量的预处理。
2. 趋势:从数据到信息到知识的路径还在继续,针对领域的小数据需要更加精确,而对人类知识的梳理和整合也是非常有必要的事情。
七、人才
1. 现状:打造一款自然语言交互产品需要来自不同领域的人才,目前从事这个行业的技术人员背景,包括自然语言处理,数据库和大数据,知识图谱,机器学习等。在落地层面,还需要大量的工程人员配合,同时,产品端也需要具有技术能力的产品经理。
2. 趋势:知识图谱工程师、AI产品经理等职位都是近年来新兴的岗位。对于知识图谱工程师,除了内部培养之外,校招可以关注数据库、大数据方向的学生。而AI产品经理,一方面可以寻找具备良好产品感的技术人员,另一方面可以挖掘传统互联网产品经理中对技术有一定理解的人员。
--------------------------------------------------
[声明]本站系本网编辑转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本站文章版权归原作者所有,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。