认知智能的下一种可能

 新闻资讯     |      2020-01-03 19:34

在认知智能领域,人工智能技术如何才能取得进一步的突破?科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018世界人工智能峰会上分享了关于认知智能最新进展及下一步方向的思考:若想在认知智能上走得更远,不能只停留在文字层面,更需要关注的是语言之下智慧本质。

在计算智能方面,机器早已远远超过人类。而在感知智能方面,机器也已达到可媲美人类的水平。科大讯飞在语音识别错误率上每年相对下降30%以上。在2018年CHiME-5国际多通道语音分离和识别大赛上,当面对大量噪声干扰、语音交叠的更难语音识别任务时,科大讯飞再次获得第一名。

基于语音识别、语音合成、语义理解、图像识别等技术,深耕人工智能19年的科大讯飞作为“中国智造”的影响力持续扩大。不仅首个认知智能国家重点实验室已经在讯飞落户,科大讯飞还在人工智能+脑科学等诸多前瞻科研领域展开了探索。

9月20日,AI WORLD 2018世界人工智能峰会重磅发布AI领域年度大奖——AI Era创新大奖,评选出2018年度对AI领域作出重大贡献,切实推动AI进步和发展的人物、企业和产品。科大讯飞凭借领先世界的智能语音技术成功登榜「中国AI领军企业TOP10」,科大讯飞创始人、董事长刘庆峰也被评选为「华人AI人物TOP10」。

此外,本次峰会同时也颁发了「AI产品影响力TOP10」,讯飞翻译机2.0成功入围。目前,讯飞翻译机2.0具备中文与33种语言即时互译、离线翻译、拍照翻译、方言翻译等功能,英文翻译水准达到大学六级水平。

科大讯飞已经在感知智能以及认知智能领域中的自然语言处理技术上领先世界,科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018世界人工智能峰会上说:“机器的自然语言理解能力已经超过人类的平均水平,这是认知智能的重大突破。”

然而当谈到AI企业该如何彻底地迈上人工智能的最高台阶——认知智能时,胡国平表示:“在强调知识、推理能力的认知智能方面,机器与人类仍有差距。”自然语言处理技术的确是认知智能的重要技术基石,但即便是自然语言处理技术在特定领域已经超过人类,AI在认知智能层面依旧面临艰巨挑战。

“现在多数产业在认知智能上面的做法大多停留在纯文字层面,然而语言只是人类智慧的载体和表层,如果只纯粹在文字层面做认知智能,可能会有着极矮的天花板”,针对这一问题,胡国平在本次峰会上分享了认知智能下一步方向,“若想在认知智能路上走得更远,需要关注的是语言之下智慧本质”。

下面是科大讯飞高级副总裁、研究院院长胡国平在AI WORLD 2018世界人工智能峰会上的演讲。《认知智能最新进展及下一步思考》的主要内容:

胡国平:人工智能现在大家都习惯把它分为三个台阶,计算智能、感知智能和认知智能。计算智能方面,机器已经远远超过人类,而在感知智能方面,机器也可与人类媲美,而认知智能则强调知识、推理等相关的技能,能理解、会思考,这些方面机器与人之间依然存在差距。

关于感知智能,这里有两个例子。首先是语音识别,包括科大讯飞在内的很多公司都把语言识别做得非常厉害。在过去的六年里,科大讯飞语言识别每年错误率相对下降30%,换言之,語音识别率从2012年的85%左右一路飙升到现在的97-98%。

语音合成亦是如此,科大讯飞语音合成自然度现在已经超过一般自然人的说话水平,今年1月,语音合成技术已宁波装饰经在中央电视台《创新中国》纪录片中正式上岗应用:将已故播音员李易老师的声音合成之后再现荧屏。

而认知智能涉及到语义理解、知识表达、联想推理、智能问答等问题,大部分技术专家都认为认知智能相比感知智能是更难的任务,而且是至关重要的任务。认知智能方面最典型的任务就是阅读理解:目前机器的阅读理解在精确匹配指标上已经超过人类的水平,机器的阅读理解指标达到82.48,人类平均水平则是82.3,这也是认知智能重大的突破。

当机器具有阅读能力后,科大讯飞训练机器人阅读医学书籍,2017年,科大讯飞“智医助理”机器人参加了国家临床执业医师综合笔试测试,并以456的高分通过该考试,成为全球首台通过人类行业准入考试的人工智能机器人。

此外,现在不仅认知智能国家重点实验室已经在讯飞落户,科大讯飞还在人工智能+脑科学等诸多前瞻科研领域展开了探索。

人工智能跟脑科学有非常多结合的地方,我下面要分享的内容则是关于认知智能下一步方向的思考。

先举几个例子,我们认为认知智能现在的做法属于纯文字层面,甚至是把文字当作符号的层面。我们看这些例子,例如父爱如山,我们知道父爱如山是指重的意思不是陡峭的意思。这里就存在着一个我们认为很重要的概念——语言的Grounding的问题。

平头哥——所有人知道云栖大会上发布的平头哥,如果你不了解这个词汇肯定会去查,如果查到是这样一段文字的描述,你可能无法真正形成对这样一个词汇的真实理解或者在大脑中的真实印象。于是你需要一张图片,甚至可能会去看一下它跟毒蛇搏斗的视频,才能形成对平头哥的概念、印象、知识。我们把这个叫作语言的Grounding,你必须要有这样的能力才能理解这个世界。人类的智能是基于多模态的,不是纯粹语言符号能够闭环自洽的,我们认为语宁波家装公司言只是人类智慧的载体和表层,如果只在文字符号层面做认知智能,可能会有着极矮的天花板。

再举一个例子,苹果大还是鸡蛋大?你绝对不会去估算苹果10公分的长度,鸡蛋5公分的长度,苹果比鸡蛋大。而是在脑袋中苹果有一个印象,鸡蛋有一个印象,自然而然基于多模态甚至物理的印象就直接能够判断出来。我们认为语言只是智能的表层和载体,更多的智能在语言之下,这是对语言之下智慧本质的一些思考。

生活在城市中的乌鸦为了吃到坚果,懂得利用马路上的汽车把坚果碾碎并在红灯让车停下来的时候,安全地吃到坚果,在这样一个观察和运用的过程中,乌鸦体现了自己的智慧,而这个过程中却 没有任何语言。我们认为语言之下智慧的本质还有一个通式,这个通式定义为对物体在三维空间加一维时间坐标下对序列的感知、记忆和预测的能力。在三维空间里,无论是人还是乌鸦,都在观察的过程中掌握了物体移动或者变化的规律。

人类也是这样的学习过程,在这个过程中实现了对物体、空间和时间的感知,并且把它们融合到一起,最终形成了智慧。

比如说一根火柴被点燃之后,也许没有书上写出这个火柴点燃之后是什么样,但是所有人都很清楚这根火柴点燃之后燃烧的形状,因为在你的脑中已经有过对它的记忆。如果火柴点一张纸,纸会被点着,这是你在记忆上掌握的知识。人类在所有和环境互动的过程中其实都自然而然的产生了很多的记忆,这些记忆形成了智慧,我们在预测的时候使用了这些智慧,也就有了潜意识。

科技馆有无源的自来水,悬空的水龙头不停往下流水。孩子们一开始都会对这个现象感到很惊讶,因为他们在正常环境的训练里已经认识到:水龙头后面应该有根管子才对。这其实也是序列记忆和预测运用在人们实际生活中的例子。脑科学研究者认为,学习和记忆是大脑工作的基本机理。我们也认为,序列的记忆和相应的预测能力也是人类大脑工作很重要的模式。

我们有一个猜想:最复杂的人类大脑本身的智慧也存在大道至简的通式,即多模态序列的记忆建模和预测的能力。这是有很大可能性的,虽然人类大脑中还有包括多巴胺、逻辑思考等更多的能力或功能,生活中很多的能力其实是靠多模态序列记忆和预测来实现知识积累和智慧应用的。

我们也在思考,如果让我们的AI看了一亿个视频,视频内容是车水马龙的道路之后,它到底能不能预测下一秒的路面会是什么情况?事实上,我并不清楚。这是验证刚才所说的通式比较理想的任务。我们希望一个机器看了很多的视频之后,能够基于深度学习继续不断地预测下去。这类任务的好处是什么?它一定程度上解决了有监督训练数据的问题:在所有的序列预测任务里,答案一定程度上是现成的,基于之前时刻的路况去预测下一时刻的路面情况,其实它的标注答案绝大部分就在当前的画面里。也许可以利用深度学习端到端的模式,加上一些抽象的能力,去实现这样一个序列任务上的建模和预测。

在未来科大讯飞希望用更有效的方法去训练机器的建模和预测能力,探寻智慧的本质,从而获取智慧本质的通式。例如,让机器拥有路况的预测能力,把摄像头换成驾驶员视角的高拍仪或者行车记录仪,也许我们在无人驾驶或者很多其它场合下的应用不止基于当前时刻的情况来做预测,而是基于一秒钟甚至更长时段内的路况来预测,无人驾驶会因此变得更智能、更安全。

当“Thanks”这个词出现在屏幕的时候,其实你的序列预测能够判断出来我的演讲已经结束了、我会说谢谢;我会走下台阶,在我的序列预测中,你们应该会鼓掌。