涉江采芙蓉——语音视频采集详解（源码赠送）

时间：2015-10-14 23:33:40 阅读：247 评论：0 收藏：0 [点我收藏+]

标签：

对于OMCS而言，采集是第一个环节。所谓“巧妇难为无米之炊”，首先我们要从多媒体设备上拿到第一手材料。对于音频而言，就是要从麦克风、声卡等设备获取到音频信号；对于视频而言，就是要从显示器、摄像头等设备获取到图像信息。如何获取到这些信息呢？于是我们需要采集。

所谓采集又可以拆分成采样和集聚两个步骤来理解。这就好比“曹聪称象”，先将大的总体分解成一个个样本，再将分解得到的样本整合起来，其思想无非就是用样本来模拟总体。

（1）对于视频而言，采集的过程就如同下图所示

技术分享

我们知道，视频总是连续的，但是我们可以将其分解为一张张的图片，即图片帧，到时候我们再将得到的这些图片按照相应的时序来播放就可以基本还原成原来的视频了。

在这里，有几个重要的量是我们需要关注的。

a.分辨率

首先我们要关注每一个样本的大小，因为样本的大小意味着其所包含的数据量的多少，而一个数据量大的样本比一个数据量小的样本更能够反映总体。就拿图中的例子来说，我们对一只鸽子的起飞过程进行连续的拍照，但是我们用高像素来拍和用低像素来拍，到时候连续翻看的时候，效果肯定是不一样的。因为每个图像帧的数据量的大小将影响到所得视频的清晰度。而这个图像帧的大小是用一个什么量来表示的呢？这个量就是分辨率。图像的分辨率越高，所包含的像素点就越多，所包含的数据量就越大，就越能够反映原始图像的本来面貌。

b.帧频

其次，原始的视频是连续的，我们采集得到的图像都是离散的。那么这个离散的程度肯定也会影响到所得视频的效果。如果图片的离散程度过大，那么所得视频看起来就会显得一卡一卡，而如果离散的程度足够小，那么所得视频就会显得流畅自然。所以样本之间的离散程度，影响到的是视频的流畅性。而这个离散程度是用什么量来表示的呢？这个量就是帧频。帧频对于采集而言就是每秒采集到多少帧图像，自然，帧频越大，画面就越流畅。

（2）对于音频而言，采集的过程也可以用类似地用下图来说明

技术分享

类似于视频的采集，音频的采集也需要将连续的总体分解成离散的样本，然后再“曹聪称象”，组装成整体。

同样，音频采集中也有几个重要的量需要我们关注。

a.采样深度

类似于视频采集，我们需要关注每一个样本的数据量的大小。对于音频采集而言，样本的数据量的大小由什么来表示呢？我们用采样深度来表示，所谓采样深度又可称为采样位数，即每次采样声音数据的比特数。同样，采样深度的大小也会影响到所得音频的清晰度。如果采样位数过低，所得到的音频听起来就会含混不清。

b.采样率

类似于视频采集，我们也需要关注样本之间的离散程度。对于音频采集而言，这个离散程度我们用采样率来表示，即每秒钟采集的样本的个数。采样频率的大小会影响到所得音频的流畅程度。如果采样频率过低，则声音听起来就会有卡顿。

总结：

无论是视频采集还是音频采集，说到底都是样本采集，而我们采集的目的，无非就是想用样本来模拟总体，至于这个模拟效果的好坏由两个因素来决定，一是每个样本的数据量的大小，二是样本之间的密集程度。即，样本数据量越大，样本之间的密度越大，就越能够代表总体，就越能够反映出总体的本来面貌。所以，我们可以给出这样一个总公式——

样本反映总体的效果 = 单个样本数据量的大小 X 样本之间的密集程度

然后，对于视频采集和音频采集而言，可以给出如下两个子公式——

1.所得视频的效果 = 分辨率 X 帧频

2.所得音频的效果 = 采样深度 X 采样率

附：采集示例Demo（含录制）

参考：《浅谈网络语音技术》

网络语音视频技术浅议（附多个demo源码下载）

网络语音视频技术浅议（二）—— 实时性与流畅性如何保障?

涉江采芙蓉——语音视频采集详解（源码赠送）

标签：

原文地址：http://www.cnblogs.com/woyipiaolingjiu/p/4878910.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行