AI大咖说 | 一文读懂机器人的“理解能力”
转载 2020-12-31 10:07 优必选科技 来源:优必选科技想让机器人“听懂人话”,需要必备哪些技能?【AI大咖说】第八期,走进优必选自然语言处理技术!
“我们把香蕉给猴子,因为它们饿了。”
“我们把香蕉给猴子,因为它们熟透了。”
这两句话,你读得懂是什么意思吗?然而对机器人来说,就没那么简单了。如果AI不能清晰了解猴子和香蕉的属性,就会导致无法区分。正如语音识别帮助机器人“听”,视觉技术帮助机器人“看”,想要做到机器人“听懂人话”,就需要自然语言处理(Natural Language Processing,NLP)来解决。一起来看看机器人是如何“善解人意”的:
AI因斯坦·琨带你走进机器人的NLP运用▲
机器人语音交互技术概述
语音交互是机器人最重要的交互入口之一,机器人对于人类语义的理解尤为关键。如下图所示,人类语音通过ASR(语音识别)把音频变成文本,文本经过NLU(语义理解)、DM(对话管理)以及NLG(语言生成),语言生成后再通过TTS(语音合成),完成人机对话。
NLP概述与发展
自然语言是人类智慧的结晶,机器人对语义的理解和分析能力、对自然语言的生成能力、对知识的学习能力,是AI最核心且最具挑战的技术之一。我们先来看一下NLP发展的几个阶段:
· 第一阶段:2000年之前,主要基于规则和概率统计的方法,50年代提出图灵测试概念来判断机器是否会思考,然而到目前为止,还没有出现被一致认可的通过图灵测试的对话系统。
· 第二阶段:2013年,神经网络兴起,极大提升NLP的各项能力。
· 第三阶段:基于seq2seq模型的NLP和注意力机制,文本生成和机器翻译方面获得较大进展。
· 第四阶段:2018年以来,大型预训练模型发展,NLP领域突破捷报频频,也就是现在所处的阶段。
NLP技术则分为核心应用和基础技术。它的应用非常广泛,包括情感、信息、问答、机器翻译、自动文摘、阅读理解以及文本分类等。
自然语言处理技术的核心应用
基础技术包括自动分词、词性标注、命名实体识别以及句法分析。
· 自动分词
中文分词是自然语言处理领域基础的模块,由此前的基于规则和基于概率统计,发展到今天的基于深度学习。比如“武汉市长|江大桥”还是“武汉市|长江大桥”的划分,就是通过统计模型把词分配好。
悟空机器人分词断句后,理解并执行任务
· 词性标注
在中文分词之后,预测每个词的汉语词性也是中文自然语言处理的基础模块。通常词性标注的粒度很细,如动词、副动词、趋向动词、不及物动词等。
词性分析决定句子用哪一个“de”
· 命名实体识别
识别文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
命名实体识别是一个从句中挑出实体类型的过程
· 句法分析
用于确定句子的语法结构或词汇之间的依存关系(主谓宾、定状补等句法关系),包括句法结构分析、依存关系分析。
NLP的句法关系分析
优必选科技NLP研究与开发
那么,机器人如何利用NLP完成各个场景交互呢?NLP算法又是怎样捕获多轮对话中的上下文信息?AI的写作与创作运用了什么原理?目前,优必选科技NLP的研究主要分为以下几个方向:
· 任务型对话
任务型对话分为用户自定义技能和内置技能。自定义技能提供平台让用户录入语料,一键训练后生效;内置技能则提供20余个技能让用户勾选,比如天气、闹钟。
对话的核心是在多轮对话语境中进行有效识别,这时候我们就需要深度算法。在复杂的多轮对话语境中,算法基于预训练模型BERT,能够提升泛化能力;同时多轮历史会话信息作为神经网络的一部分,能够提升上下文理解能力;算法在同一个神经网络中识别意图、词槽,再通过数据增强等策略来提升模型对低资源应用场景的适用性。
NLP平台训练流程
深度学习的优点在于对上下文的精准理解,对平台精准度提升也非常有效,但是它的网络比较复杂,需要较好的设备。如果想要节省成本的算法,我们还有一个快速算法:
1.只对语料模板进行训练,千百倍减少训练时间;
2.模型体积较小,所需的硬件成本较低;
3.在特定功能性场景下的准确率也较高。
· 开放式闲聊
闲聊分为匹配式闲聊与生成式闲聊。匹配式闲聊具有Q&A库,Q&A库如果足够大,能达到较好的闲聊效果;生成式闲聊不需要匹配,将根据问题生成答案。
两项闲聊技术各有优缺点,匹配式闲聊是可控的,通过语料编撰、增加、删除等方式,可以在语料库建立时把敏感词删除。生成式闲聊的对话有一定的不可控性,比如语料不干净,就会生成不太健康的内容,同时还会存在语义、语法等问题。
闲聊技术流程图
闲聊技术可以说是NLP永恒的难题,算法求的是概率,往往缺乏现实的逻辑推理,而机器不知冷暖,单凭文字无法捕获丰富的情感,这时候就需要借助视觉、语音识别、声纹信息等技术进行判断。
· 文本生成
优必选科技的NLP算法不止赋予机器人与人对话的能力,还赋予机器人的写作能力,吟诗作赋、舞文弄墨不在话下。看看输入“我是只小猪欢乐多”,生成的古诗结果竟然还押韵,这是怎么做到的?
通过采用GPT模型,首先定义格式(五言绝句、七言绝句、词牌等),用分隔符分开,把带上标点符号的诗词给到模型,通过语言模型训练后,就具备生成能力。生成后进行预处理,并定义诗词的类型,把诗词的内容拼接起来,把文本向量化输入到GPT里,一个字、一个字地生成答案。
· 知识图谱
在知识图谱方面,主要分为节点、属性和关系。在下图中,节点表示每个人,比如周杰伦;属性是他的出生、成就、身高等;关系连接各节点,比如周杰伦通过“夫妻”关系可以链接到昆凌。
由关系连接各节点构成庞大的知识网络,具有单向或双向的关系。
知识图谱技术目前主要用于知识问答,以此丰富闲聊交互体验。它的问答涉及预处理、实体识别、实体链接、关系抽取、手写识别、答案生成以及排序、敏感词过滤等等。优必选科技的知识图谱应用主要在于探索知识图谱与开放式对话等方面的融合技术,提高对话系统的多样性、逻辑性、可解释性等。
利用知识图谱技术完成的人机对话
NLP在机器人上的应用
精准的语义理解有助于机器人适应人类的生活与工作环境,优必选科技NLP在机器人上的应用,可以在多种环境下代替人类,在服务、医疗、教育等领域具有广泛应用场景,包括机器人问答、无人轮值客服、交通枢纽问询、无人贩售等等。
· 无人咖啡馆
在无人咖啡馆中,智能服务机器人Cruzr(克鲁泽)担当“智慧零售店长”,可以结合上下文语境,完成主动迎宾、产品介绍与推荐、点单、付款的全流程体验。
· 导诊咨询
疫情期间,咨询测温机器人Cruzr(克鲁泽)在深圳、北京、成都等地的医院、企业、展馆上岗,提供多类防疫知识咨询及问答,免接触式语音互动助力减轻人员工作压力、降低感染风险。
Cruzr(克鲁泽)在深圳三院提供疫情宣导咨询服务
· uCode
uCode是优必选科技打造的AI编程创作平台,当编程需要语音识别“走几步”时,用户在实际使用的时候也有可能说成“走几步吧”或“请走几步”,通过NLP文本模糊匹配功能,就能解决这个问题,提升uCode的教学能力。
未来研究方向
人机对话往往涉及诸多场景,无法依托单个通用模型覆盖所有场景,如何实现对万千对话场景的定制,同时满足机器人在各个领域的交互需求,对NLP领域提出了新的挑战。
未来,优必选科技将紧跟前沿技术,致力提升交互体验;同时提升平台的能力,增加语料自动扩展的功能;在智能对话中,尤其是开放式对话中,建立知识图谱等知识体系,探索知识融合对话的技术,为对话增智。
网友评论0条评论
相关资讯
更多- 合肥搬易通MiMA人上型三向堆垛车,为汽车零部件产业仓储升级保驾护航
- 新质三一 全球领航丨三一机器人邀您相约2024上海宝马展
- “双十一”背后的物流创新引擎:科尔摩根AMS助力郑州机场货运智慧升级
- 案例集 | 优化仓储管理,未来机器人助力食品饮料行业提升自动化
- 全球首发丨磅旗首款全自动化OHT上下料产品,以深度数字化、全自动赋能无人工厂
- 双11余温未散,双12备战正酣:木蚁无人叉车助力物流公司高效迎战
- 卓一智能叉车在CeMAT ASIA (2024)展示物流领域的先锋力量
- 千里同行,向“智”而行!中力第九届双十一完美收官!
- 大道至"减",快仓为提高用户ROI持续创新
- 镭神智能激光雷达全场景系统解决方案赋能低空经济新时代