Android平台语音识别服务对比分析
一、Google
1、主要功能
提供中英文等多国语言的识别。
2、主要优缺点
主要优点:
语音识别引擎庞大,识别精度很高,适用于文本语音识别。提供多国语言的语音识别。任何平台都可以进行访问,容易使用。
主要缺点:
国内可能访问不太稳定,对中文的识别率相对讯飞可能稍差。
3、使用方法
Android在Android 2.2及后续版本本身提供了可以使用的API接口,使用方式相对简单,但是其不足是需要依赖于类似于VoiceSearch.apk这样的应用,这里面主要完成了音频录音,信号检测,信号降噪等的处理。
当然,从理论上来说,基于Android开源的特性,我们也可以拿到VoiceSearch.apk的源代码,然后加以分析和改造,将相关代码集成到我们的应用中,从而达到不依赖于第三方APK而实现语音识别。当然,此种方法理论可行,但是可能有些麻烦。
4、协议条款
Android这边可以免费使用,不存在什么条款和限制。
5、代表产品
使用也比较广泛,比如UCWEB就是采用以依赖第三方APK的方式使用的。
二、科大讯飞
1、主要功能
实现基于HTTP协议的语音应用服务器,支持语音合成、语音听写、语音识别、声纹识别等服务。
提供基于移动平台和PC上的语音客户端子系统,内部集成音频处理和音频编解码模块,提供关于语音合成、语音听写、语音识别和声纹识别完善的API。
只需要申请成为开发者,便可以下载相关的SDK和开发文档。
2、主要优缺点
主要优点:
支持平台丰富,各个平台上都有相应的详细SDK文档
语音识别引擎较庞大,对中文的识别精度很高。
主要缺点:
识别引擎位于服务器端,须远程访问,识别速度较慢。
对语言支持不如Google,目前仅支持中文听写。
当软件用户达到百万次后,需要开始收费。
3、使用方法
(1)以控件方式提供开发者使用,此种做法主要是UI不能自己定制,但是使用比较简单,也不需要依赖第三方APK应用。
(2)将底层库提供给开发者使用,此种做法开发者可以自定义UI,界面风格上会相对灵活。但是以这种方式使用的话具体细节需要和讯飞走商务流程去谈。
4、协议条款
具体见讯飞官网。需要注意的就是申请正式的APPID后可以日使用量达到2W次。当用户达到百万次后,需要开始收费。
5、代表产品
国内广泛适用。
三、云知声
1、主要功能
云知声语音云让计算机“听懂”人类的语音,将语音中包含的文字信息识别出来。云知声语音云支持大词汇量连续语音在线识别,支持应用通过API直接调用公有云服务。
2、主要优缺点
鉴于目前国内科大讯飞占据语音识别的主流地位,云知声相对使用较少,优缺点不是太明确。
3、使用方法
(1)以控件的方式提供开发者使用
(2)以底层API的方式提供开发者使用,需要走商务流程。
4、协议条款
具体见云知声官网。需要注意的是云知声使用相对限制比较松,而且对使用量也没有限制,直接申请即可。
5、代表产品
搜狗输入法,触宝输入法,微信语音插件。。。
综合:根据分析和网上资料来看,对于中文识别,讯飞在识别率和使用量等方面,占有优势。当然,讯飞语音提供给开发者使用的限制也相对较多,这是其相对开发者使用来说的不足之处。但是鉴于目前我们的用户规模较小,暂时选择使用讯飞语音作为我们的语音服务提供商是可以的,故倾向于在62111929语音输入部分选用讯飞语音引擎。