16.数字音频

“数字音频”一词与“数字视频”一词相比,它是一种处理和显示移动图像的技术,而音频则与声音有关。数字音频是一种技术,用于捕获、记录、编辑、编码和复制声音,这些声音通常由脉冲编码调制(PCM)进行编码。FFmpeg支持许多音频格式,包括AAC、MP3、Vorbis、WAV、WMA等。FFmpeg中所有的音频格式都在第二章中列出。

关于数字音频的介绍

由耳朵感知的声音可分为音调和噪音,音调是由不规则振动产生的常规物质振动和噪音产生的。 机械振动以鼓膜感知的压力波的形式传递到听觉系统,并转换为神经信号。

16.数字音频 - 图1

音频量化和采样

由于人类听觉系统的生理限制,压力波的连续值可以用有限的一系列值代替,这些值可以作为数字存储在计算机文件中。 计算机使用二进制数字,所以常见的音频位深度(音频分辨率)是两个幂:

16.数字音频 - 图2

位深度 值计算 描述
8 bit 2^8 =256 用于电话,旧设备
12 bit 2^12 =4,096 DV(数字视频)的标准,用于数码相机等
14 bit 2^14 =16,384 用于NICAM压缩,电视立体声,等等
16 bit 2^16 =65,536 标准音频CD和DAT(数字音频磁带),是当今最常见的
20 bit 2^20 =1,048,576 附加标准的超级音频CD和DVD音频
24 bit 2^24 =16,777,216 标准的超级音频CD和DVD音频
32 bit 2^32 =4,294,967,296 专业设备,蓝光技术

16.数字音频 - 图3

模拟音频信号(大组数值)通过在每个时间单位创建一组较小的采样数字化,常见采样频率(采样率)在表中描述:

16.数字音频 - 图4

8000 Hz 用于电话、无线网络和麦克风等
11025 Hz 用于低质量PCM和MPEG音频等
16000 Hz 电话宽带(2倍8000 Hz),用于VOIP设备等
22050 Hz 用于低质量PCM和MPEG音频等
32000 Hz 用于DAT, NICAM,迷你DV相机,无线麦克风等
44100 Hz 音频CD标准,用于MPEG-1, PAL电视等
48000 Hz 专业使用标准费率,为消费者提供DV、DVD、数字电视等
96000 Hz 标准的DVD-音频,蓝光光盘,HD DVD等
192000 Hz 用于DVD-音频,蓝光光盘,HD DVD,专业设备
352800 Hz 数字极端定义,用于超级音频光盘

音频文件格式

量化和采样音频被保存在不同的媒体文件格式,下一个表描述特定的文件格式,仅用于音频(MP3格式支持也包括图像):

16.数字音频 - 图5

未压缩的 无损压缩 有损压缩
ALAC AIFF (PCM) AAC
AU ALS AC-3
BWF ATRAC AMR
PCM (raw, without header) FLAC MP2, MP3
WAV (PCM) WavPack Musepack
WMA Speex
Vorbis (OGG)

声音合成

声音是由在固定位置振动的物体的振动而产生的,规则的振动被称为音调,可以用不同振幅和频率的正弦和余弦波来表示。

16.数字音频 - 图6

用一个表达式sin(tone_height2PI*t)来创建一定高度的连续色调,在Hz中,tone_height为给定频率,PI是一个数学常量,t是在秒内指定时间的变量。为了用数学表达式创建声音,我们可以使用音频源aevalsrc,它的输出可以作为音频文件保存。输出声音可以包含多个通道,每个通道由一个带有三个可能变量的表达式指定,详细信息在表中:

16.数字音频 - 图7

描述 创建一个由一个(mono)、两个(立体声)或更多表达式指定的音频信号
语法 aevalsrc=exprs[::options] exprs:是一个冒号分隔的表达式列表,每个新表达式都指定了新通道 options:键=值对的冒号分隔列表
表达式exprs中可用变量的描述
n 评估样本的数量,从0开始
t 以秒为单位的时间,从0开始
s 采样率
可用选项的描述
c or channel_layout 通道布局,通道数量必须等于表达式的数量
d or duration max。持续时间,如果没有指定,或者是负数,音频将生成直到程序停止
n or nb_samples 每个通道每个输出帧的样本数量,默认为1024个样本
s or sample_rate 采样率,默认值为44100 Hz

根据音符A4的音调标准,下一个表格包含从C1到B8的音调频率,频率为440 Hz。 人声范围从E2(男低音)到C6(女高音)。

16.数字音频 - 图8

为了产生音符A4,音高的调优标准,我们可以将tone_height设置为440 Hz:

  1. ffmpeg -f lavfi -i aevalsrc=sin(440*2*PI*t) -t 10 noteA4.mp3

我的测试命令是:

  1. ffmpeg -f lavfi -i aevalsrc=sin\(440*2*PI*t\) -t 10 /Users/zhangfangtao/Desktop/001.mp3

*显示结果生成一个10秒钟的音频文件。

立体声和更复杂的声音

要使用aevalsrc音频源创建多声道声音,我们为每个声道指定一个定义表达式,声道由冒号分隔,然后在双冒号后指定其定位。 表格中描述了可以使用-layout选项显示的可用通道布局:

16.数字音频 - 图9

例如,在左边的通道中创建C4音调,在右边的C5音调中,我们可以使用命令:

  1. ffplay -f lavfi -i aevalsrc=sin(261.63*2*PI*t):cos(523.25*2*PI*t)::c=FL+FR

我的电脑上上面的命令会报错,我使用的测试命令如下;

  1. ffplay -f lavfi -i aevalsrc=sin\(261.63*2*PI*t\)|cos\(523.25*2*PI*t\)::c=FL+FR

减轻压力的双耳音调

立体声的特殊类型是双耳音(节拍) - 两个频率差约30Hz或更小的音,两个音的频率必须低于1000Hz。 使用立体声耳机收听双耳音可以为听众带来积极的影响,如减轻压力,提高学习能力和对大脑功能产生的其他积极影响,但结果因使用的频率基准和频率差异而有所不同。 要在基频为500 Hz时以10 Hz的差异创建双耳节拍,我们会指定具有略微不同声道的立体声:

  1. ffplay -f lavfi -i aevalsrc=sin(495*2*PI*t):sin(505*2*PI*t)::c=FL+FR

我的测试命令:

  1. ffplay -f lavfi -i aevalsrc=sin\(495*2*PI*t\)|sin\(505*2*PI*t\)::c=FL+FR

音量设置

声音音量应该仔细调整,以保护我们的耳朵和ffmpeg提供2种方法。第一个使用-vol选项,它接受从0到256的整数值,其中256是最大值,例如:

  1. ffmpeg -i sound.wav -vol 180 sound_middle_loud.wav

我的测试命令

  1. ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -vol 128 /Users/zhangfangtao/Desktop/DYZDJ3.mp3

另一种方法是使用表中描述的卷过滤器:

16.数字音频 - 图10

描述 将输入音频卷更改为指定的值
语法 volume=vol
vol的描述参数
vol 参数vol是一个表达式,其值可以通过以下两种方式来指定: 1.作为一个小数,那么output_volume = vol input_volume 2.作为一个十进制数与dB后缀,然后output_volume = 10 ^(卷/ 20) input_volume

例如,将音量降低到三分之二,我们可以使用以下命令:

  1. ffmpeg -i music.wav -af volume=2/3 quiet_music.wav

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -af volume=1/3 /Users/zhangfangtao/Desktop/DYZDJ4.mp3

为了增加10分贝的音量,我们可以使用以下命令:

  1. ffmpeg -i sound.aac -af volume=10dB louder_sound.aac

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -af volume=20dB /Users/zhangfangtao/Desktop/DYZDJ5.mp3

多个声音混合到一个输出

为了混合不同长度的声音并指定一个过渡段,我们可以使用amix过滤器。

16.数字音频 - 图11

描述 音频混频器,从多个音频输入中创建一个指定持续时间的输出,输入中断持续时间——可以指定输入之间的转换时间
语法 amix=inputs=ins[:duration=dur[:dropout_transition=dt]]
参数描述
inputs 输入的数量,默认值是2。
duration 指定如何确定流的结束,可用选项为(下面对应着序列号是0~2): 1.最长持续时间最长的输入,默认值 2.最短时间的最短输入 3.第一次输入的持续时长
dropout_transition 当输入流结束时,用于进行卷重正化的转换时,默认值为2

例如,下一个命令将4个输入音频文件混合到一个,它的持续时间与最长输入的持续时间相同,而特定声音输入之间的转换是5秒:

  1. ffmpeg -i sound1.wav -i sound2.wav -i sound3.wav -i sound4.wav ^ -filter_complex amix=inputs=4:dropout_transition=5 sounds.wav

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -filter_complex amix=inputs=2:dropout_transition=5 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 结果是生成了一个新的音乐文件,时长是这两个里面最长的那个时间,而且,里面的声音也是时长比较长的那个音乐的声音,音乐信息确实前者的。

*下面的是添加了一些添加了结束时间的参数,具体的命令如下:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/DYZDJ.mp3 -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -filter_complex amix=inputs=2:duration=0:dropout_transition=5 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 结果表明:duration可选范围是0,1,2,不过只有当我把参数结果设置成0的时候才会生成一个有最长时长的音频文件,其他的参数类型情况下生成的音乐长度都是0.

将立体声调至单声道,环绕立体声

要将立体声声音缩混为单声道声音,我们可以使用表格中所述的平移滤波器:

16.数字音频 - 图12

描述 根据输入的通道布局混合具有特定增益级别的通道,接着是一组通道定义。 典型用途是将立体声改为单声道,将5 + 1声道改为立体声等。声像滤波器还可以重新映射音频流的声道。
语法 pan=layout:channel_def[:channel_def[:channel_def…]]
主要参数
layout 输出通道布局或通道数
channel_def 通道定义的形式:ch_name = [gain ] in_name [+ [gain ] in_name …]
通道定义参数
ch_name 通道定义,通道名称(FL, FR,等等)或通道数(c0, c1,等等)
gain 通道的乘法系数,值1保持体积不变
in_name 输入通道使用,指定与ch_name相同的方式,不要混合命名和编号的输入通道

下面的几个例子将立体音响与单声道的声音联系在一起:

  • 左右通道和相同的音量混合在一起。
  1. ffmpeg -i stereo.wav -af pan=1:c0=0.5*c0+0.5*c1 mono.wav

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -af pan=1|c0=0.5*c0+0.5*c1 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 结果是,生成了一个0kb的音乐文件,原因是这个歌曲是单声道的,没有设置的意义

或者使用下面简单的方式:

  1. ffmpeg -i stereo.wav -af pan=mono mono.wav
  2. ffmpeg -i stereo.wav -af pan=1 mono.wav

*左通道与更大的音量混合,而不是正确的通道

  1. ffmpeg -i stereo.wav -af pan=1:c0=0.6*c0+0.4*c1 mono.wav
  • 右通道与比左通道更大的音量混合
  1. ffmpeg -i stereo.wav -af pan=1:c0=0.7*c0+0.3*c1 mono.wav

一个简单的方法,没有过滤器,如何将多通道音频与超过2个通道混合使用,使用-ac[:stream_specifier]选项,该选项包含一个整数参数,该参数指定输出通道的数量:

  1. ffmpeg -i 5_1_surround_sound.wav -ac 2 stereo.wav

为了指定其他的参数,比如一个特定通道的增益,我们使用pan过滤器。下一个例子自动减少到立体声,3,4,5或7频道的多通道音频:

  1. ffmpeg -i surround.wav -af pan=stereo:^ FL<FL+0.5*FC+0.6*BL+0.6*SL:FR<FR+0.5*FC+0.6*BR+0.6*SR stereo.wav

简单的音频分析仪

每个输入音频帧的详细信息由一个ashowinfo过滤器提供,该过滤器输出10个不同的参数,每一个音频帧,并在表中描述。

16.数字音频 - 图13

描述 显示每个输入音频帧的一行,其中包含组织到键=值对的参数信息
语法 -af ashowinfo
描述生成的参数
n 帧的序号,从0开始
pts 表示时间戳的输入框,表示为若干时间单位
pts_time 输入框的表示时间戳,表示为若干秒
pos 输入流中的帧位置,值-1表示该参数不可用或没有意义(例如合成音频)
fmt 样本格式名称
chlayout 通道布局(mono,立体声等)
nb_samples 当前帧中每个通道的采样数
rate 音频帧采样率
checksum 输入帧中所有飞机的Adler-32校验和的十六进制值
plane_checksum 每个输入帧平面的Adler-32校验和的十六进制值,在形式中表示[c0 c1 c2 c3 c5 c6 c7]

因为ashowinfo输出可以很长,所以应该用-report选项保存到文件中。

  1. ffmpeg -report -i audio.wav -af ashowinfo -f null /dev/null

在44100 Hz中编码10秒的立体声音频的结果,s16在图片中说明:

16.数字音频 - 图14

我的测试命令:

  1. ffmpeg -report -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -af ashowinfo -f null /Users/zhangfangtao/Desktop/null
  • 效果图:

16.数字音频 - 图15

调整耳机听音

为了增加输入音频文件的立体声效果,我们可以使用表格中描述的耳垢过滤器:

16.数字音频 - 图16

描述 将立体图像的位置从内部(耳机的标准)改变到外部和听众的前方(比如扬声器)。它使用CD音频(44,1 kHz频率),它插入特殊的提示
语法 -af earwax

例如,在.mp3文件音乐中扩大音频的立体声效果,我们可以使用以下命令:

  1. ffmpeg -i music.mp3 -af earwax -q 1 music_headphones.mp3

我的测试命令如下:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -af earwax -q 1 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 结果就是生成了一个立体声效果更加显著的音乐。。。。听起来确实很明显

使用-map_channel选项进行音频修改

-map_channel选项可以更改各种音频参数,其语法为:

  1. -map_channel [in_file_id.stream_spec.channel_id|-1][:out_file_id.stream_spec]
  • 如果out_file_idstream_spec参数没有设置,音频通道被映射到所有音频流上
  • 如果使用“-1”而不是in_file_id.stream_specchannel_id,映射是一个静音通道
  • -map_channel选项的顺序决定了输出流中通道的顺序,输出通道的布局是从映射的通道数计算出来的(如果使用了一个-map_channel选项,如果使用了两个-map_channel选项,等等)
  • 如果输入和输出通道布局不匹配(例如两个“-map_channel”选项和“-ac 6”),与-map_channel组合使用的-ac选项将使通道增益级别得到更新

在立体声输入中切换音频通道

若要在立体声音频文件中以正确的通道交换左通道,我们可以使用以下命令:

  1. ffmpeg -i stereo.mp3 -map_channel 0.0.1 -map_channel 0.0.0 ch_switch.mp3

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -map 0:0 -map_channel 0.0.0:0.0 -map_channel 0.0.1:0.1 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 结果:生成了一个新的mp3音乐,左右声道换了,听不出来

将立体声声音分割成两个不同的流

将立体声输入的2个通道分成2个不同的流,编码为1个输出文件,我们使用命令(MP3只能包含1个音频流,因此输出格式必须是AAC、OGG、WAV等):

  1. ffmpeg -i stereo.mp3 -map 0:0 -map 0:0 -map_channel 0.0.0:0.0 ^ -map_channel 0.0.1:0.1 output.aac

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -map 0:0 -map 0:0 -map_channel 0.0.0:0.0 -map_channel 0.0.1:0.1 /Users/zhangfangtao/Desktop/NWDSL2.aac
  • 结果生成了一个新的aac文件,不过新的文件播放起来,像是一种慢放。。。。那种声音。。。销魂。。。

从立体声输入中调出一个频道

要从输入中关闭特定的通道,我们可以使用-map_channel选项的-1值。例如,为了使第一个通道从立体声声音中静音,我们可以使用以下命令:

  1. ffmpeg -i stereo12.mp3 -map_channel -1 -map_channel 0.0.1 mono2.mp3

我的测试命令:

  1. ffmpeg -i /Users/zhangfangtao/Desktop/NWDSL.mp3 -map_channel -1 -map_channel 0.0.1 /Users/zhangfangtao/Desktop/NWDSL2.mp3
  • 显示的结果是:生成了一个只有右声道的音乐文件。

将两个音频流合并到一个多通道流

要将2个音频流连接到1个多通道流,我们可以使用一个有1个可选参数输入的amerge过滤器,该参数值设置输入文件的数量,默认值为2。所有输入文件都必须使用相同的采样率和文件格式进行编码。例如,将2个文件中的2个mono声音合并到一个单一的立体声流中,我们可以使用这个命令(总持续时间等于较短输入的持续时间):

  1. ffmpeg -i mono1.mp3 -af amovie=mono2.mp3[2];[in][2]amerge stereo.mp3

音频流转发与缓冲buffet order控制。

两个音频输入的流同步可以由astreamsync过滤器控制,它有一个参数,可以由一个可选的表达式和多个变量来设置值。表达式的默认值是t2-t1(如下所示),这意味着总是以较小的时间戳转发流。

16.数字音频 - 图17

描述 转发两个音频流并控制转发缓冲区的顺序
语法 astreamsync[=expr] 如果expr < 0,则将第一个流转发,否则将转发第二个流
在表达式中可以使用的变量
b1, b2 到现在流1和流2的缓冲区的数量
s1, s2 到目前为止,在第1条和第2条上转发的样品数量
t1, t2 stream1和stream2的当前时间戳