求破
微创新提出者金错刀曾说:“找到价值锚,在一厘米宽的地方,做到一公里深。”依循这一产品逻辑,思必驰正在不断“求破”,通过产品的快速迭代来实现用户体验的优化。
在语音识别这一技术上,业内巨头均声称语音识别准确率达到97%,这个是理想状态下达到的水平。张岩坦言:“事实上,在技术上,各家的差距不会太大。甚至有些数据,与巨头相比,思必驰的识别率会更好。”
据了解,思必驰设立了上海交大语音实验室,负责前沿的技术研发,拥有唯一的成果转化使用权。公司拥有剑桥源生语音技术团队和近两百名研发人员,是在国内拥有人机对话技术,国际上极少数拥有自主产权、中英文综合语音技术的公司之一。
然而,问题是识别技术差距不大,思必驰怎样才能进一步改善用户体验?张岩称,语音识别的真正意义是应用到实际的场景中,因此思必驰深耕垂直场景下的自然语言交互技术,至今已拥有数十年的技术积淀。张岩认为不同场景下有不同的技术侧重点,语音技术在不断进步,只做到“语音识别”是远远不够的,未来应该是“语音交互”的世界。于是,张岩和团队不断寻找思必驰语音技术上所存在的“一厘米”不足,并针对此做到“一公里”的深度优化。思必驰
为了解决上述情景中的问题,思必驰自主研发了AEC适应化回声消除,该技术可以达到将非指令人的声音进行消除。“比如机器本身在放音乐的时候,你要跟它说话,它会听不到,AEC技术可以把机器自己发出的声音进行消除。就像降噪耳机一样,把外面的噪声消除。你可以随时打断它,进行交互。思必驰”据了解,这也是思必驰于业内首发的可打断、可纠正、基于上下文理解的自然语言多轮交互技术。
那么,如何让机器分辨出你的声音并排除其他干扰呢?“这个问题主要可以拿‘麦克风阵列’来举例说明。”为了解释这一核心技术,张岩再次画了一张图阐述:“当用户与产品进行交互的时候,麦克风阵列中的每个麦克风同时拾音,思必驰独有的算法降噪和语音增强技术以及阵列排布,能够有效定位用户位置,误差在±10°以内,有效辨别噪音和消除回声,环形6麦阵列的5米远场交互能力高达92%以上。”据了解,这一技术被称为亚马逊echo核心功能的“中国版”技术。“人工智能是未来的发展趋势,借助深度学习,思必驰可以改善人与机器沟通的问题。”张岩说。
探索
2016年,“互联网女皇”玛丽·米克尔(Marry Meeker)曾公开表示语音应是最有效的计算输入形式。张岩深以为然。张岩勾画了一副图,在他的笔下,计算机发展史就缩影这张坐标图上。“从一开始的CLI(COMMAND LINE INTERFACE,DOS命令),到GUI(GRAPHICAL USER INTERFACE,图形化界面),再到现在和未来的VUI(VOICE USER INTERFACE,自然语言交互界面),这是一个从简单过渡到复杂输入的演变。语音的发展会经历一个逐步智能化的过程,随着运行能力的增强,未来可以做到像真人一样具有听懂别人说话的理解能力。”
张岩认为,在未来,语音交互将会进入到生活的方方面面。“比如,你可以对着你的智能音箱说你中午想吃什么,然后就会有人送外卖过来。”为了实现和本地业务的连接,思必驰已经与大众点评等O2O应用进行了连接,以便让用户可以用语音的方式来完成生活服务。“这一项目我们从去年就开始进行,今年我们会加大力度去开拓。”
一个未来世界的面貌跃然纸上:在这里,人们用语音来预约行程,向机器人下达指令,在云端中所有的智能硬件的数据将会打通,而这些数据将会通过语音进行调用……也就是说,未来的语音交互将会迎来巨大的变革。这个过程或许要等20、30年,也或许它并不会朝着这个方向发展。为了让这个想象的画面能够落地,张岩带领着公司团队正在跨出自己的一小步。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49746-2.html
真的好想好想接近你桃子
美国在叙利亚的拙败后的又一出恶作剧