首页 > 经典案例 > 政府部门

4+1环形五麦克风阵列开创语音交互新格局 - 全文

发布时间:2023-09-16 11:33:43   来源:江南体育官网

  的起源是在1956年Dart Month会议上,是一种能够和人一样进行感知、人质、决策、执行的人工程序,如今人工正在成为时代的趋势,逐渐进入真正爆发的前夜。目前在计算智能和感知智能方面都已经赶上甚至超过人类,Alphago战胜李世石就是一个很好的例子,而认知智能则是当下人工智能的重点挑战。

  为此,科大讯飞在3月30号在深圳阿基米互联网公社举办“讯飞核心技术开发日——麦入云端,引领智能交互新主义”沙龙活动,分享了对AI的理解和为此而做出的努力,并带来了完整的智能硬件语音交互解决方案和开放平台核心交互技术。

  科大讯飞开放平台副总经理马汉君表示,人工智能分成三个阶段,分别是计算智能、感知智能以及认知智能。目前计算智能已超越了人类的一种模式,从最开始的的计算已经代表了计算的能力;感知智能,机器人正在快速的接近人类,美国在研究机器狗、谷歌无人汽车也证明这点;认知智能,这才是当前人工智能的挑战,就是如何让机器对知识的一种学习和理解。

  同时指出,在去年讯飞发布了AIUI,这是一个为智能硬件量身定做的智能交互方案,重新定义了万物互联时代人机语音交互标准,具备了远场降噪、方言识别、语音纠错、多轮对话等功能,通过统一接口、开放的服务扩展、灵活的能力搭配实现人机交互与产品体验的结合。科大讯飞希望和合作伙伴一起,用人工智能改变世界。

  在人工智能领域,科大讯飞带来打破远场语音交互瓶颈的最新利器——环形五麦克风阵列。科大讯飞云平台事业部产品经理张良春表示,五麦麦克风阵列是常说的四加一环形,在这种范围内是在人声识别有非常好的要求,其远场拾音距离可达5米、支持360全平面拾音角度、支持连续唤醒、回声消除、语音打断。

  张良春指出,使用科大讯飞的麦克风阵列模块能够在一定程度上帮助开发者迅速开发产品,非常大地节省产品研究开发周期,也提供包括单麦、双麦、四麦线性、环形五麦和环形七麦等软核方案,特别是环形七麦方案支持7米拾音距离、360°声源定位、±10°声源定位精度,阵列录入的音频信噪比更高。同时,硬件方案搭配科大讯飞开放平台的语音唤醒闭环优化服务、语音识别、语义理解深度定制、身份鉴别、自然语音合成等功能,可以让开发者的产品如同黑暗中的萤火虫那么鲜明和出众。

  这个是五麦克风阵列的一些产品模式,主要是把语音数据变控,以及音频处理都放在一个硬件上。有五个麦克风同时收录了5个音频,同时送入硬件模块中,可以对信息做处理,机器也需要给它供电。张良春谈到,这个模块的优点就是快速集成,可以快速的形成产品,就一个字快,在正常的条件下有优点,也有一些不足之处。它的不足之处肯定就是成本有点偏高,只适合小批量的开发来使用。

  在五麦克风阵列软核的方案上,有两个方面值得重视。一个是音频收集,由音频收集到音频汇聚到处理,每个结点讯飞都会为提供对应产品,帮助用户来更好的集成软件;另一个是音频汇聚,基本上音频处理的CPO或者IPO在处理音频只能处理移动云,还需要有一个音频汇聚的电路进行处理。

  据悉,4+1环形五麦克风阵列,是凭借全志R16平台强大的智能语音解决能力,专为机器人等可移动、能灵活转身、有全角度拾音需求的智能硬件产品而设计。

  作为科大讯飞4+1环形五麦克风阵列的智能语音基础平台,全志R16采用了极具性价比的四核A7架构处理器,具有强大的运算性能和丰富的接口;支持基于Linux的开源系统Tina™, (Tina™是全志科技全力打造的专门用于全志智能硬件平台的系统软件品牌);支持AirPlay、DLNA、Qplay、Airkiss、Smart Link等多种网络应用协议;提供独特的算法、IP包,使开发的人能专注于其自有应用和商品市场运营,降低产品研究开发成本,并缩短开发周期。

  针对智能音箱、智能相框、智能机器人等智能硬件产品,全志R16平台可提供完整的解决方案和丰富的产业链资源,帮助开发者快速实现产品量产上市。科大讯飞研究院王海坤博士表示,“噪声、混响、干扰和回声是声学信号处理要解决的问题,麦克风阵列最大的作用是声源点位、抑制背景噪声、信号提取和分离,是解决以上问题的最佳手段,科大讯飞的回声消除技术达到了国际顶尖水平,各项声学处理技术指标都是国际领先,通过这一系列的技术,讯飞麦克风阵列实现了优异的声学信号处理,确保了良好的使用者真实的体验。”

  麦克风如同远场识别的心脏和引擎,有了远场识别技术的远距离、高识别率支撑,在一定的范围内,用户都能够通过语音识别轻松操控智能硬件设备,而真正的完成普及化可能还需要一段过程。对此科大讯飞云平台事业部智能硬件商务总监汤熙谈到,科大讯飞除了技术上的支持+商务本地化服务外,还提供包括资本服务、宣传服务、渠道服务等多种服务,将会不断把核心技术做好、产品打磨好、把本地支持做好,与合作伙伴一起前行。并表示,科大讯飞将依靠自身强大的人工智能科研实力与高品质的产品,更具创造性地去改变世界,让人们的生活更加美好。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  的其中一种应用类型,是内部电路经过优化和选型处理,符合危险区域和爆炸性环境要求(矿井,加油站,危险气体化工厂等),可以安全地在气体危险环境中使用。标准的测量

  森海塞尔推出中型空间解决方案TeamConnect Ceiling Medium – TCC M天花

  产品 TeamConnect Ceiling Solutions – 天花

  。微加工喷墨喷嘴可能是第一个,然而,自 1990 年代以来,MEMS 技术创造了各种传感器和其他机电设施,包括

  、耳机插孔、瞬态开关、电池及其它电路都能安装在一个钥匙扣大小的盒子内,附带

  的首要标准。2.4G是全球通用的,不会受频道所限制,然而缺点也是很明显,那就是信号干扰多。2.4G应用广泛,如蓝牙,WIFI都是使用2.4G传输

  通道顺序测试     对着 MIC 收音孔,任意 MIC 开始,逆时针依次对收音孔轻轻敲击,查看 录音音频,正确的示例音频如图 :   此项只针对

  )都通过柔性膜片感应声波。在声波压力下,膜片会发生位移。现在市场上大部分MEMS

  可嵌入在桌子中,具有自由伸缩的独特功能。 Clockaudio ARM专为实现再现高质量

  消回声和消噪声手机的结构设计手机消回声对结构的要求一般的手机系统为了消除回声都需要将

  的三大痛点谈起,介绍了讯飞在这样一些问题的看法以及解决之道。“咬耳朵”不是智能

  可别小看这些结构和数量,不同的组合都对硬件产品来说有着千差万别的效果。比如双

  的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。目前国内主流家电厂商应用

  同时,声智科技与赛灵思合作,基于Spartan-6系列FPGA芯片,相继推出了L型

  可用于创建一种方向响应(也称为束波),可滤除不需要的噪音,同时处理来自更理想方向的声音。

  配置,能够更好的降低原材料用量,解决小尺寸设计问题 从可穿戴设备到智能照明,

  的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,提升远场拾音质量、保证识别效果。

  )组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,

  信号处理算法慢慢的变成为一个新的研究热点。而到了声控时代,这项技术的重要性显得很突出。

  技术在AI时代的出镜率慢慢的升高,以及以亚马逊ECHO为代表的智能音箱等远场

  市场的火热逐渐辐射到产业链的供应商,其中最直接受益就是作为声音的传感设备——

  厂家的销量翻倍增长。在此之前,由于受制于智能手机和平板电脑的上涨的速度下滑,楼氏、歌尔和瑞声的股票相继在2016年中旬左右创下了低谷。

  ”,主要由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的

  的功能相同,但各自和系统其余部分之间的连接却不一样。本应用笔记将会介绍这些区别,并根据一个简单的基于MEMS

  ,载波调制为2.4GHz的方式,慢慢的变成了主流,但是这样的形式的成本明显偏高。我们提出使用

  说话人实时定位系 统,称为SR-SLOMA。该系统将实时声纹识别技术和

  识别情能降低的问题。介绍基于延迟一累加方法(传统波束法),自适应波束法及基于后置自适

  以基于声达时间差(TDOA)的定位技术为基础,在噪声和混响同时存在的环境下,对基于

  的声源定位办法来进行了系统研究。在传统LMS自适应算法的基础上,提出了一种基于