音频术语

本术语库收录了与音频相关的术语,其中包括广泛使用的通用术语和 Android 专用术语。有关术语的规范定义,请参阅中心 Android 平台术语库

通用术语

与音频相关的通用术语的含义都采用其约定俗成的解释。

数字音频

数字音频术语涉及使用以数字格式编码的音频信号处理声音。如需了解详情,请参阅数字音频

AC3
杜比音频编解码器。如需了解详情,请参阅杜比数字
声学
对声音的机械属性的研究,例如变频器(音响设备、麦克风等)在设备中的物理位置如何影响听者感知到的音频质量。
衰减
小于或等于 1.0 的乘法因数,应用于音频信号以降低信号强度。与“增益”相对。
音响发烧友
追求极致音乐欣赏体验的人,尤其是愿意为音质而在其他方面(花费、组件大小和房间设计等)做出巨大让步的人。如需了解详情,请参阅音响发烧友
AVB
用于通过以太网实时传输数字音频的标准。如需了解详情,请参阅音视频桥
每样本位数或位深
每个样本的信息位数。
声道
单个音频信息流,通常与一个录音位置或播放位置相对应。
缩混
减少声道的数量,例如从立体声到单声道或从 5.1 到立体声。缩混通过减少声道、混合声道或更高级的信号处理技术来实现。如果简单地混合声道而不进行衰减或加以限制,则可能会出现溢出或削波的情况。与“扩混”相对。
DSD
直接数字流。基于脉冲密度调制的专有音频编码技术。脉冲编码调制 (PCM) 可将波形编码为多位的个体音频样本序列,而 DSD 可以非常高的采样率将波形编码为位序列(不涉及样本这一概念)。PCM 和 DSD 均代表按独立序列划分的多个声道。由于我们很难将传统的数字信号处理 (DSP) 算法应用于 DSD,因此 DSD 更适用于内容分发,而不适合用作内在数据表示方式以进行处理。DSD 用于超音频 CD (SACD) 以及针对 USB 的 DSD over PCM (DoP)。如需了解详情,请参阅直接流数字
闪避
当另一个音频流变得活跃时,暂时降低当前音频流的音量。例如,如果播放音乐时收到一条通知,则音乐会在通知播放时闪避。与“静音”相对。
FIFO
先进先出。用于实现数据队列先进先出的硬件模块或软件数据结构。谈到音频时,存储在队列中的数据通常是音频帧。FIFO 可通过环形缓冲区来实现。
某个时间点上的样本集,每个声道取一个样本。
每缓冲区帧数
同时从一个模块传递到另一个模块的帧数。音频 HAL 接口会使用每缓冲区帧数这一概念。
增益
大于或等于 1.0 的乘法因数,应用于音频信号以提高信号强度。与“衰减”相对。
HD 音频
高清晰度音频。高解析度音频的同义词(但与 Intel 高清晰度音频不同)。
头戴式耳机
戴在耳朵上的扬声器,不带麦克风。 与“耳麦”相对。
耳机
带麦克风的耳机。 与“头戴式耳机”相对。
Hz
采样率或帧速率的单位。
高解析度音频
与 CD(立体声 16 位 PCM,44.1 kHz)相比,位深和采样率更高的一种音频数据表示方式,且支持无损数据压缩。相当于 HD 音频。 如需了解详情,请参阅高解析度音频
交错
一种多声道数字音频表示方式,用于交替声道数据。例如,交错格式的立体声数字音频表现为左声道、右声道、左声道、右声道,依此类推。
延时
信号通过系统时的延迟时间。
无损
可在编码和解码的过程中保持位精度的无损数据压缩算法;使用这种算法时,如果对之前编码的数据进行解码,得到的结果与原始数据相当。无损音频内容分发格式的示例包括 CDWAV 中的 PCM 以及 FLAC。 制作过程可能会导致位深或采样率相较于母版有所下降;可保持母版的解析度和位精确度的分发格式属于高解析度音频的范畴。
有损
尝试在编码和解码的过程中保留最重要媒体特征的有损数据压缩算法;使用这种算法时,如果对之前编码的数据进行解码,得到的结果与原始数据看似相似,但并不完全相同。 使用有损音频压缩算法的格式包括 MP3 和 AAC 等。由于模拟值属于连续的域,而数字值是离散的,因此就振幅而言,ADC 和 DAC 属于有损转换。另请参阅“透明度”。
单声道
一个声道。
多声道
请参阅“环绕声”。严格来说,“立体声”指多个声道,可以视为多声道;不过,由于这种用法容易产生混淆,因而不在此使用。
静音
暂时强制将音量降为 0;独立于通常使用的音量控件。
溢出
未能在一定的时间内接受提供的数据而导致的可听见的短时脉冲波干扰。如需了解详情,请参阅缓冲区欠载。 与“欠载”相对。
平移
将一个信号移至立体声或多声道音场中的相应位置。
PCM
脉冲编码调制。最常见的低级别数字音频编码形式。以有规律的间隔(称为采样率)对音频信号取样,然后根据位深将其量化为特定范围内的离散值。例如,对于 16 位 PCM,样本值是介于 -32768 到 +32767 之间的整数值。
斜坡
逐渐提高或降低特定音频参数(如音量或某种音效的强度)的级别。音量斜坡一般用于暂停和继续播放音乐,以免听见的过渡过于生硬。
样本
代表某个时间点上一个声道的音频值的数字。
采样率或帧率
每秒帧数。“帧率”这一用法更为准确,但业内习惯使用“采样率”来表示帧率。
可听化
使用声音表达反馈或信息,例如触摸音效和键盘音效。
SPL
声压级,一种相对的声音压力测量值。
立体声
两个声道。
立体声展宽
应用于立体声信号的一种音效,能使另一立体声信号听起来更饱满丰富。该音效也可应用于单声道信号;在单声道信号中,它属于扩混。
环绕声
增强听众感知声音位置(不仅仅是立体声的左右声道)的能力的技术。
透明度
有损数据压缩的理想效果。如果人类主体从感觉上无法区分原始音频和压缩结果,则称该有损数据转换是透明的。如需了解详情,请参阅透明度
欠载
未能在一定的时间内提供所需数据而导致的可听见的短时脉冲波干扰。如需了解详情,请参阅缓冲区欠载。 与“溢出”相对。
扩混
增加声道的数量,例如从单声道到立体声或从立体声到环绕声。扩混通过复制、平移或更高级的信号处理技术来实现。与“缩混”相对。
USAC
低比特率应用的音频编解码器。如需了解详情,请参阅统一语音和音频编码
虚拟音效
尝试使音频声道空间化的音效,例如,尝试模拟更多扬声器,或给人一种声音来自某个位置的错觉。
音量
响度,音频信号的主观强度。

设备间互连

设备间互连技术用于将各设备的音频和视频组件连接起来,用户可通过外部连接器从视觉上直观感受到这些技术。HAL 实现人员和最终用户应了解以下术语。

蓝牙
近距离无线技术。要详细了解与音频相关的蓝牙规范蓝牙协议,请参阅 A2DP 了解音乐方面的信息,参阅 SCO 了解电话方面的信息;另外还可以参阅音频/视频远程控制规范 (AVRCP)
DisplayPort
视频电子标准协会 (VESA) 制订的数字显示接口。
加密狗
加密狗是一种小工具,特指可直接插入到其他设备上的小工具。
FireWire
请参阅 IEEE 1394。
HDMI
高清晰度多媒体接口。用于传输音频和视频数据。移动设备上会使用微型 HDMI(D 型)或 MHL 连接器。
IEEE 1394
IEEE 1394(也称为 FireWire)是一种用于实时低延迟应用(如音频)的串行总线。
Intel HDA
Intel 高清晰度音频(请不要与泛指的“高清晰度音频”或“高解析度音频”混淆)。一种前面板连接器规范。如需了解详情,请参阅 Intel 高清晰度音频
接口
接口可将信号从一种表现形式转换为另一种。常见的接口包括 USB 音频接口和 MIDI 接口。
线路电平
线路电平是指在不同音频组件(而非变频器)之间传输的模拟音频信号的强度。
MHL
移动高清连接技术。一种移动音频/视频接口,通常通过 micro-USB 连接器进行数据传输。
手机连接器
连接设备和有线头戴式耳机、耳机或线路电平放大器的小型或超小型组件。
SlimPort
micro-USB 转 HDMI 的适配器。
S/PDIF
Sony/Philips 数字接口格式。用于未压缩的 PCM 和 IEC 61937 的互连。如需了解详情,请参阅 S/PDIF。 S/PDIF 是 AES3 的消费级版本。
Thunderbolt
与 USB 和 HDMI 竞争的一种多媒体接口,用于连接高端外围设备。如需了解详情,请参阅 Thunderbolt
TOSLINK
TOSLINK 是一种配合“S/PDIF”使用的光纤音频数据线。
USB
通用串行总线。如需了解详情,请参阅 USB

设备内互连

设备内互连技术用于将一台设备内的不同音频组件连接起来,如果不拆开设备,则无法看到这些技术。HAL 实现人员可能需要了解以下术语,但最终用户不需要。要详细了解设备内互连,请参阅下列文章:

ALSA 系统芯片 (ASoC) 中,以上各项统称为数字音频接口 (DAI)。

音频信号路径

音频信号路径术语涉及音频数据从应用传输到换能器(反之亦然)的信号路径。

ADC
模拟转数字转换器。用于将模拟信号(在时间和振幅上保持连续的信号)转换为数字信号(在时间和振幅上离散的信号)的模块。从概念上讲,一个 ADC 包含一个周期性采样保持器,后跟一个量化器(尽管并不一定需要采用这种方式)。ADC 前面通常有一个低通滤波器,用来滤除通过目标采样率无法呈现的所有高频分量。如需了解详情,请参阅模拟转数字转换器
AP
应用处理器。移动设备上的主要通用计算系统。
编解码器
编码器和解码器。用于将音频信号从一种表现形式编码和/或解码成另一种表现形式(通常是从模拟信号到 PCM 或从 PCM 到模拟信号)。严格来讲,编解码器同时指编码和解码模块,但也可仅泛指其中一个。如需了解详情,请参阅音频编解码器
DAC
数字转模拟转换器。用于将数字信号(在时间和振幅上离散的信号)转换为模拟信号(在时间和振幅上保持连续的信号)的模块。DAC 后面通常有一个低通滤波器,用来滤除由数字量化引入的高频分量。如需了解详情,请参阅数字转模拟转换器
DSP
数字信号处理器。可选组件,通常位于应用处理器之后(用于输出)或之前(用于输入)。主要用途是减轻应用处理器的负担,并以较低的功耗提供信号处理功能。
PDM
脉冲密度调制。用于按数字信号表示模拟信号的调制形式,其中相对密度 1s 和 0s 表示信号电平。通常用于数字转模拟转换器。如需了解详情,请参阅脉冲密度调制
PWM
脉冲宽度调制。用于按数字信号表示模拟信号的调制形式,其中数字脉冲的相对宽度表示信号电平。通常用于模拟转数字转换器。如需了解详情,请参阅脉冲宽度调制
变频器
将现实世界物理量中的变量转换为电信号。在音频中,物理量是声压,而换能器是扬声器和麦克风。如需了解详情,请参阅换能器

采样率转换

采样率转换术语涉及从一种采样率转换为另一种采样率的过程。

降采样
重新采样,其中接收器采样率 < 信号源采样率。
奈奎斯特频率
可由离散信号以指定采样率的一半表示的最大频率分量。例如,由于人类的听力范围可达到近 20 kHz,因此数字音频信号的采样率必须至少有 40 kHz 才能代表该范围。在实践中,44.1 kHz 和 48 kHz 的采样率比较常用,对应的奈奎斯特频率分别为 22.05 kHz 和 24 kHz。如需了解详情,请参阅奈奎斯特频率听力范围
重采样器
采样率转换器的同义词。
重新采样
转换采样率的过程。
采样率转换器
执行重新采样的模块。
接收器
重采样器的输出端。
信源
重采样器的输入端。
升采样
重新采样,其中接收器采样率 > 信源采样率。

电话

AEC
回声消除功能是一种用于减少信号回声的方法。 如需了解详情,请参阅回声抑制和消除
ANC
主动噪声控制是一种通过主动产生与不需要的次要信号相反的信号来提高主信号质量的方法。如需了解详情,请参阅主动噪音控制
拨号器
提供电话界面的应用。
HCO
Hearing Carry-Over 是一种 TTY 模式,在这种模式下,消息以短信形式发送,并以语音形式接收。
侧音
从本地麦克风到本地耳机的听觉反馈。如需了解详情,请参阅侧音
TDD
失聪者专用电信设备是专供有听力障碍或语音障碍的人使用的一种电传打字机 (TTY)。
TTY
电传打字机。经常与 TDD 互换使用。
UE
用户设备。消费类手机设备。
UMTS
通用移动通讯系统。一种移动网络系统。
VCO
Voice Carry-Over 是一种 TTY 模式,在这种模式下,消息以音频形式发送,并以短信形式接收。

Android 专用术语

Android 专用术语包括仅在 Android 音频框架中使用的术语,以及在 Android 中具有特殊意义的通用术语。

ALSA
高级 Linux 声音体系。Linux 的音频框架,对其他系统也有影响。如需了解通用定义,请参阅 ALSA。 在 Android 中,ALSA 指的是内核音频框架和驱动程序,而不是用户模式 API。另请参阅“tinyalsa”。
音频设备
以 HAL 实现为基础的音频 I/O 端点。
AudioEffect
用于输出(处理后)音效与输入(处理前)音效的 API 和实现框架。该 API 在 android.media.audiofx.AudioEffect 中作出了定义。
AudioFlinger
Android 声音服务器实现。AudioFlinger 在 mediaserver 进程中运行。如需了解通用定义,请参阅声音服务器
音频焦点
跨多个独立应用管理音频交互的 API 集。如需了解详情,请参阅管理音频焦点以及 android.media.AudioManager 的焦点相关方法和常量。
AudioMixer
AudioFlinger 中的模块,负责合并多个音轨以及应用衰减(音量)和音效。如需了解通用定义,请参阅混音(录制的音乐)(将混合器当做一个硬件设备或软件应用而非系统中的软件模块)。
音频政策
负责所有需要先做出政策决策的操作的服务,例如打开新的 I/O 音频流、更改后重新路由,以及音频流音量管理。
AudioRecord
用于从麦克风等音频输入设备接收数据的主要低级别客户端 API。相应数据通常为 PCM 格式。该 API 在 android.media.audiofx 中作出了定义。
AudioResampler
AudioFlinger 中的模块,负责采样率转换
音频来源
一个常量枚举,用于为捕获音频输入指明目标使用情形。如需了解详情,请参阅音频来源。对于 21 级及以上级别的 API,建议使用音频属性
AudioTrack
用于向音响设备等音频输出设备发送数据的主要低级别客户端 API。相应数据通常为 PCM 格式。该 API 在 android.media.audiofx 中作出了定义。
audio_utils
提供 PCM 格式转换、WAV 文件 I/O 以及非阻塞 FIFO 等功能的音频实用程序库,很大程度上独立于 Android 平台。
客户端
通常指一个应用或应用客户端。不过,AudioFlinger 客户端可以是一个在 mediaserver 系统进程中运行的线程,例如,播放由 MediaPlayer 对象解码的媒体内容时。
HAL
硬件抽象层。HAL 在 Android 中是通用术语;涉及音频时,它是介于 AudioFlinger 和内核设备驱动程序之间的一个层,具有一个 C 语言编写的 API(取代了 C++ libaudio)。
FastCapture
AudioFlinger 中的线程。经配置,它会向延迟时间较短的 fast track 发送音频数据,并驱动输入设备的运行,以缩短延迟时间。
FastMixer
AudioFlinger 中的线程。经配置,它会从延迟时间较短的 fast track 接收并混合音频数据,同时驱动主要输出设备的运行,以缩短延迟时间。
fast track
部分设备和路由中延迟时间较短但功能较少的 AudioTrack 或 AudioRecord 客户端。
MediaPlayer
比 AudioTrack 级别更高的客户端 API。用于播放已编码的内容或包含多媒体音频和视频轨道的内容。
media.log
仅在定制 build 中提供的 AudioFlinger 调试功能。用于在环形缓冲区中记录音频事件,然后可以根据需要倒回去撤消这些事件。
mediaserver
Android 系统进程,包含 AudioFlinger 等与媒体相关的服务。
NBAIO
非阻塞音频输入/输出。AudioFlinger 端口的抽象表示。此术语有一定的歧义,因为部分 NBAIO API 实现支持阻塞。NBAIO 的主要实现适用于不同的管道类型。
常规混音器
AudioFlinger 中的线程,可用于大部分功能完善的 AudioTrack 客户端。 它能直接驱动输出设备的运行,或通过管道将其子混音输入 FastMixer。
OpenSL ES
Khronos 集团推行的音频 API 标准。API 级别为 9 或更高级别的 Android 版本都支持原生音频 API(基于 OpenSL ES 1.0.1 的子集)。
pro audio
功能标志 android.hardware.audio.pro 的缩写。 相关要求请参见 Android CDD 的 5.10 专业音频部分。功能 android.hardware.audio.pro 中的“pro”是指可预测的实时性能级别,而非目标用户。
实时

实时计算系统可保证在指定的时间段内对相关事件做出响应。设备实现支持实时计算是满足上述 android.hardware.audio.pro 功能要求的必要但非充分的前提条件。

除音频领域之外,实时性能还在其他领域得到了广泛应用,例如游戏、图形、相机、视频、传感器处理、虚拟实境 (VR) 和增强现实 (AR)。

静音模式
可由用户设置的功能,用于将手机振铃器和通知设为静音而不影响媒体内容播放(音乐、视频和游戏)或闹钟。
SoundPool
比 AudioTrack 级别更高的客户端 API。可播放通过采样得到的音频片段。用于触发界面反馈、游戏音效等。该 API 在 android.media.SoundPool 中作出了定义。
Stagefright
请参阅媒体
StateQueue
AudioFlinger 中的模块,负责同步线程之间的状态。NBAIO 用于传递数据,而 StateQueue 用于传递控制信息。
策略
具有类似行为的音频流类型构成的组。用于音频政策服务。
音频流类型
表示音频输出使用情形的枚举。音频政策的实现会根据音频流类型以及其他参数来确定音量和路由决策。如需查看音频流类型的列表,请参阅 android.media.AudioManager
tee sink
请参阅音频调试
tinyalsa
ALSA 内核之上采用 BSD 许可的小型用户模式 API。建议用于 HAL 实现。
ToneGenerator
比 AudioTrack 级别更高的客户端 API。用于播放双音多频 (DTMF) 信号。如需了解详情,请参阅双音多频信号android.media.ToneGenerator 处的 API 定义。
轨道
音频流。由 AudioTrack 或 AudioRecord API 控制。
音量衰减曲线
对于给定输出,音量衰减曲线指从通用音量指数到特定衰减因数的设备专属映射。
音量指数
表示某个音频流的目标相对音量的整数(没有单位)。android.media.AudioManager 的音量相关 API 在运行时采用音量指数(而非绝对的衰减因数)。