| 关于语音文件的格式化 |
关于语音文件的概念已经在前面说明过了,不过对于语音文件有多少个格式化您是否知道呢?
首先列举几项具有代表性的内容∶
- WAV形式
- Microsoft公司同IBM公司对其制定了规格,使其成为Windows标准的Format
- 扩展名一般为.wav
- 因为是Windows标准,所以在Windows Media Player上可以再生
- AU形式
- 是UNIX里最为普通的语音格式化中的一种
- 扩展名一般为.au
关于格式化在此将作更为详细的说明
- 在语音识别板的说明书及Mediawire的说明书中都有关于对语音格式化的记载。
- 在Dialogic语音识别板的说明书
- 24Kb/s ADPCM @ 6kHz sampling
- 32Kb/s ADPCM @ 8kHz sampling
- 48Kb/s 兪-law PCM @ 6kHz sampling
- 64Kb/s 兪-law PCM @ 8kHz sampling
- 在有的中间件说明书中
- PCM 8KHz 8比特 mono.
- PCM 8KHz 16比特 mono.
- 的情况。不明白带有什么记号的东西的并列,是在说些什么。其实我也一样在刚开始时并不明白,所以对其进行了调查。和睡魔一边斗争一边···因为做的非常艰苦,所以借此机会在此说明一下。
- 在此之前,先说一下在Dialogic语音识别板和中间件上,因为表现的方式不同所以将Dialogic和中间件到相符为止进行统一。
- 把Dialogic最初的一行进行举例说明
- 24Kb/s ADPCM @ 6kHz sampling
- 在这里没有量子化bit数
- 量子化bit数 数据量÷抽样率=量子化bit数
- 所谓数据量是指左边的24KB/s
- 抽样率是指6kHz
- 如果按前面的算式进行计算的话,就是24÷6=4,量子化bit数是4
- 如果把这个方法转换到中间件上,就成为ADPCM 6kHz 4bit Monaural
最后关于Monaural
- 最后关于Monaural,因为在语音识别板上不处理Stereo所以采用Monaural
- 把Dialogic的表现转换为中间件的表现时,
- Dialogic
- ADPCM 6kHz 4比特 Monaural
- ADPCM 8kHz 4比特 Monaural
- 兪-law PCM 6kHz 8比特 Monaural
- 兪-law PCM 8kHz 8比特 Monaural
- 中间件
- PCM 8KHz 8比特 Monaural
- PCM 8KHz 16比特 Monaural
- 的形成。这样的话就取得了表现的统一。那么现在就立刻对其进行说明。
首先,进行排列的说明的话,
- 变换方式 抽样率周波数 量子化比特数 Monaural
- 虽然明白了排列的意思但是并不十分清楚每一个的具体意思。从现在开始我将公开我所调查的结果。
- 变换方式
- 将语音转换成数据化DATA
- 在一定的时间里作声音的数值化(取样调查)记录
- PCM (Pulse Code Modulation)
- 因为对在数据化DATA上录制的语音无法进行任何加工,所以无论是在原理上还是在音质上都具有优势。
- DPCM(Adaptive Differential Pulse Code Modulation)
- [适应的差分 PCM]的略
- 是把语音转换成数据化DATA的一种方法
- 在每一定的时间里把语音进行数据化的方法和PCM的方法是完全一样的。利用声音的不断连续变化,紧接着对数据化的数据差进行记录以减少数据量。单纯使用PCM的话需要16比特的数据,而我们可以在质量不降低的情况下压缩成12比特。
- μ-law
- 在ITU-T上被规格化的语音符号是压缩的一种
- 在这个μ-law方式里14比特的线型数据压缩成8比特
- 所谓的线型数据是没有压缩的
- 抽样率周波数(sampling frequency)
- 在1秒间多次显示出从模拟信号转换成数字信号(AD转换)的数据
- 单位[Hz] (赫兹)
- 经常采用语音文件
- 正确记录及再现一个语音,首先要在那个语音频率的2倍程度上进行采样调查。
- 从CD上采用的抽样率周波数是44.1kHz,不过是为了避免高频语音再现的困难,对在DVD-Audio和SACD等下一代规格上的抽样率周波数进行了提高。
- 量子化比特
- 我们将模拟转换成数据的情况以及使用的比特数称为量子化。
- 数据化DATA的质量是由1秒钟几次数据化(抽样率周波数)以及数据的比特数(量子化比特数)而决定的。
- 音乐CD(CD-DA)利用PCM方式,抽样率周波数44.1kHz(1秒钟44100的数据化),量子化16比特(用0~65535的65536等级表现语音数据)
- Monaural
- 用单一系统录音或用再生的方式
- 关于数据表现已作了说明。不过在这里,有关制作语音文件的具体方法也说明一下。我将麦克风接在电脑上,然后用Windows的音响系统进行录音,在打开录音的属性的话就会明白语音文件的形式。可以在Windows的录音上进行作成和确认以及在大部分的语音识别板的再现能够成立。那么用以下的方式进行保存将会准确无误。
- PCM 8KHz 8比特 Monaural
- PCM 8KHz 16比特 Monaural
- 说了这么多,实际上标准比什么都简单。以上,因为我也不是有关部门音响方面的专家,所以与其有关的知识就先告一段落。利用以上的知识在使用 CTI 时应该是不存在任何问题的。
最后
- 在对抽样率周波数进行调查时,突然间想到应试一试对频率也调查一下。
- 频率
- 声音是由振动而产生,又根据空气等媒体而不断传入耳内
- 频率是指在1秒钟之内进行了几次振荡,用Hz(赫兹)来表示
- 1赫兹是指在1秒钟之内进行了1次振荡
- 如果振荡100回就是100赫兹。振荡1.000回就是1千赫兹(kHz)
- 用语言是比较难以表明振荡,现对其举例说明
- 「请试着想象一下把秤锤吊在发条(弹簧)前端,在作上下摆动时,以一定的速度向横(侧)进行运动时的情景。」发条会伸长或缩短对吗,吊在下面的秤锤也会在作运动。在向横(侧)进行运动时,秤锤变动的轨道(痕迹)看起来好象波浪一样。这个上下摆动从最高点落向最低点然后再回到最高点的过程为一个来回。根据「这个重复往返几回」来决定频率。如果多即为高的声音,少即为低的声音。
|
| TOP |
|
| Home | CTI | Bayonne | Dialogic | Download | What's New | Profile | Address |
Voice Communication 株式会社
211-0004 日本国神奈川县川崎市中原区新丸子东2-907
TEL: +81-044-455-0038 FAX:
+81-044-455-0029
联系我们 voicecn@voice-com.net |
最新更新日:
|
|
| (c) Copyright 2003 VCN, Inc. All right reserved |
|
 |
《Linux新活用方法的发现》
此报告有以下内容提要、此报告免费奉送。资料请求
■开始
■为什么是Linux+Bayonne
■关于本公司所提供CTI
构筑服务
■能够实现成本销减吗?
■有什么好的办法吗?
■苦劳
■本公司所提供的
■课题
■联系我们 |
HOME |