重庆互联网,19年企业互联网解决经验,专业网站开发、移动端开发、微信端开发、小程序开发!
重庆网络推广公司

腾讯小微(2)— 音频处理

作者:重庆互联网小徐 发布时间:2024-04-11 浏览:19780 赞(1950 收藏 评论(0)

小微支持多种唤醒和静音检测模式,设备可以灵活切换云端和本地的静音检测功能。同时支持唤醒连说(One-Shot)模式,支持用户可以在说出唤醒词之后不作停顿,立刻说出后续需求,简化了交互流程。对于硬件端无法准确拆分唤醒词和语音请求的场景,小微支持云端去除唤醒词模式。

模式1,普通语音请求

wakeup1

模式2,云端校验唤醒词和One-shot模式

wakeup2

1、本地唤醒

一般唤醒受到多方面因素的影响,比如设备端麦克风阵列、降噪、回声消除效果等。目前通用的唤醒模块还无法保证极高的唤醒成功率,同时较低的误唤醒率。 小微提供经过认证的唤醒合作伙伴,来协助完成唤醒能力的集成。具体可通过邮件咨询相关商务合作。 xiaowei_bd@tencent.com

2、云端误唤醒过滤

小微提供云端误唤醒过滤功能,即设备本地唤醒后,上传用户query音频给到小微云端二次检验,判断是否为有效唤醒,降低误唤醒概率。即模式2中的唤醒失败case。

3、唤醒连说(One-Shot)

One-Shot功能采用本地+云端混合引擎模式,得以实现用户唤醒词+Query请求连续说出后,也能正常相应识别。这种模式下,设备端需要上传通过拼接后的唤醒音频+唤醒后音频。如:

  • 断开说:“小微小微,天气怎么样?”(说完小微小微后触发模式2唤醒成功没有连着说的case,此时设备端再发起一轮模式1的普通请求即可)

  • 连续说(One-Shot):“小微小微天气怎么样?”(模式2直接收到结果的case)

4、静音检测VAD

小微提供了云端VAD能力,同时也支持设备使用自己本地的VAD。例如,设备端通过按键进行push to talk的对话方式,当松开按键后,触发本地VAD即可。一般的,我们建议使用云端VAD,而非本地的VAD模型,这样准确性更高。

语音识别(ASR)

小微目前只支持识别16位16KHz单声道的pcm音频数据,在识别的时候,不会对声音进行其他处理,所以需要设备端在硬件和软件层自行进行降噪和回声消除。为了加快响应速度,我们需要将语音流式的上传到小微后台进行识别,之后后台会返回识别的中间结果。

语音合成输出(TTS)

目前小微只支持带有“小微”特色的固定音色。通过SDK或设备APP的方式向后台发起请求,在黄反通过后,以临时URL的形式返回。


重庆互联网项目从2004年开始为各行各业提供互联网发展解决方案,专业从事网站、小程序、微信公众号、APP、电商平台、系统等互联网平台开发,帮助企业实现从传统行业到互联网的完美转型。截止目前,重庆互联网合作的企业遍布全国各地,19年的开发经验和完善的售后服务体系获得合作客户的高度认可!

关注重庆互联网官方公众号,即可获取粉丝专享福利!

重庆互联网公众号二维码.jpg

网友留言评论
我要评论
评论

欢迎广大用户为此页面进行评价,评价成功将获得积分奖励!

  • 赞(0
    踩(0
重庆网站定制建设
  • 重庆网站建设平台
  • 重庆网站优化公司
  • 重庆网络推广公司哪家好
  • 重庆APP制作公司
版权所有 ©2004-2024 重庆市渝中区圣灵科技信息有限公司 渝ICP备16004600号-14 渝公网安备50010802001420号 电子营业执照
重庆公众号制作哪家好
二维码
联系客服 重庆商城网站建设