码迷,mamicode.com
首页 > 其他好文 > 详细

廉价的语音技术

时间:2014-06-18 18:14:04      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:http   com   art   html      算法   

语音和图像、视频一样,是人与人之间沟通的交流方式。

语音信号处理是一门综合性的学科,它与语音学、心理学、数字信号处理、计算机科学、模式识别等有着密切联系。

语音技术一般可以分为三大类:

 

1.人与人之间的通信:语音增强、语音编码、语音通信、VOIP等  

简单的说,以网络为载体,实现人与人之间的语音通信,涉及到语音前端去噪,增强,语音压缩编码等。

 

     语音增强、语音去噪等, 主要解决的是前端问题,单纯的语音、音频处理技术主要应用在嵌入式方向。

     语音编码,做标准的很少,单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化,一般很少能涉及到算法的优化。

      VOIP、语音通信主要对网络协议等需求更多一些,VOIP和传统移动语音通信相比,主要体现在价格上的优势,通话质量上和传统相比还是有一定差距。 现在移动运营商的收益也在逐渐减       低,当价格上有所调整时,VOIP估计也很难生存了。

这一类岗位主要集中在芯片类、通信类、语音类、嵌入式、少数互联网公司:高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

 

2.语音合成:

简单的说,机器说话给人听,代替人把相关的信息绘声绘色的念出来。

 

3.语音识别和理解:

简单的说,人说话,机器能够听懂,能够按照人说的内容和指示,代替人完成相关的操作。相关的还有说话人识别、情感识别、语种识别、语音测评、语义理解等。

 

行业现状:

传统的语音公司:Nuance、科大讯飞、捷通华声等。

传统的软件类公司:微软、IBM等。

互联网公司:云知声、百度等。

 

一方面语音识别是最难的语音技术,它包含了许多个模块技术,门槛很高,这一类的人才更加稀少。

首先,必须要准备好大量的语音库,做好训练和识别。

其次,就算你只深入到语音识别的某一项技术,首先必须搭建一整套识别流程来检测实验的效果。

再者,基本上各个模块都能影响到识别率,所以也必须要熟悉这些模块。

最后,还有更难的技术还在等着你,中文分词、语言模型的训练和建立、以及后期的自然语言处理、语义识别、云端服务等。

 

另一方面,目前语音识别盈利模式还不是很明朗,所以也决定了投入这一块的人力也很稀缺。

早期做这一块的微软和IBM基本上也不靠这个盈利,Nuance的赢利点主要在车载、医疗转录等,最后也是与苹果合作,做了款SIRI,火了一把。

国内的科大讯飞,在识别方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依靠传统业务如普通话测评、英语测评、呼叫中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声正在朝着平台开放的路径去开拓产品,将语音技术融入到互联网当中。

总而言之,语音技术做好真的很难,它也真的很廉价,它将何去何从?

廉价的语音技术,布布扣,bubuko.com

廉价的语音技术

标签:http   com   art   html      算法   

原文地址:http://www.cnblogs.com/welen/p/3790953.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!