上世纪八十年代,苹果公司推出了世界上第一台将用户界面与鼠标结合起来的个人电脑,随后微软发布Windows 1.0操作系统,由于非专业用户不再需要使用代码和指令与机器交互,从而极大降低了使用门槛,促使个人电脑业务在全球迅速得到普及。上世纪九十年代,以雅虎、谷歌等为代表的互联网企业走向舞台中央,其开发的搜索引擎技术打破信息孤岛,成为用户使用电脑的全新接口,使得个体非常便捷地触达全球各类资源,极大拓展了交互的边界。本世纪初,智能手机的普及开启移动互联时代的到来,让人机交互进一步突破了物理空间的限制,交互质量和体验得到极大改善。以上三次交互方式的变革,每次都触发了万亿的市场规模和全新用户需求,成为智能科技推动经济进步的重要浪潮。
面向更加拟人化、自然化、数字化的人机交互需求,跨媒体共情智能人机对话系统正在引发新一轮的交互方式变革。提起人机对话这个词,可能稍显陌生,但说起人机对话技术的应用,其实已经走进我们的生活。比如手机语音助手、车载对话机器人、对话导览机器人、智能语音音响、智慧客服等,在使得用户交互更加便捷的同时,也为企业节约了大量的人工成本。国务院发布的《新一代人工智能发展规划》中指出,面向国家重大战略需求,多媒体信息理解的人机对话系统是需要突破的关键共性技术。中国人工智能学会发布的《中国自然语言处理白皮书》中指出,人机对话是自然语言处理技术最为典型的应用之一。中国工程院院士李德毅认为,机器人具备语音交互的能力是行业高质量发展的关键。作为业界的代表,科大讯飞董事长刘庆峰认为,语音将成为最重要的人机交互方式。
训练一个能与个体进行自然交互的对话系统绝非易事,因为对话场景的类别无法穷尽,对话生成的可能性也是无限的,对话系统面对的用户口音、背景都不尽相同,这种巨大的不确定性以及如何让机器拥有常识,都为技术的泛化能力带来了巨大的挑战,之江实验室的科研人员和工程师正在尝试攻克这些难题。
大规模数据集是深度学习模型训练的基础,中国科学院院士张钹指出,大数据对人机对话模型水平提升有重要意义。目前之江实验室探索构建了世界上规模最大的多模态对话数据集,以及1800分钟面向中文安抚对话的语音合成数据集,2000分钟针对“语音-文本-图像”三个模态的情感识别数据集,数据的绝对量增长有力地促进了深度学习工具和技术的发展。在多轮对话生成方面,之江实验室攻克了多轮情感对话难题,基于预训练语言模型、主题自适应增强模型、检索与生成双驱动策略,使长时间对话情况下主题识别率达到85%以上、回复满意度达到75%以上,使用测试集数据平均对话轮次达到10轮,使用实际场景的广泛主题测试数据的平均对话轮次达到5轮以上。
与此同时,为了实现更有温度的人机交互,之江实验室针对拟人化对话生成中的共情交互瓶颈,自主研发了深度语境理解的拟人化对话生成技术。该技术基于个性化的多维对话情境表征输入,结合对话主题内容、用户情感状态等多维信息进行深度对话语境理解,同时突破基于情感交互策略的多模型回复生成、回复文本排序及情感语音合成等技术,使得机器与人的交互不再冰冷,更加友好而智慧。
在疫情期间,对话交互这种无接触的交互方式得到了较大的推广,除了在市长热线与防疫咨询平台的应用以外,其在电梯操控、无人超市等公共场所的应用,在一定程度上减少了传染病接触带来的交叉感染,有助于提升公共卫生防护水平。同时,智能人机交互系统还可以广泛应用于城市大脑统一服务平台、AI心理医生、老年陪护、智能家居、智能车载、智慧高铁、随身设备等领域,有助于显著提升智慧城市、智慧交通、智慧公共服务等领域的运行效率和管理水平,对降低对外依存度、提升自主可控能力,以及对培育未来产业和孕育新经济增长点具有重要意义。(文/李太豪 裴冠雄)