音视频

时间:2024-03-11 22:03:48编辑:奇事君

音视频之视频相关概念介绍

从事音视频开发中,视频涉及的东西比较多,尤其是编码这块,本篇介绍下视频的相关概念。

我们看到的视频其实是图像在高速变化,由于视觉的暂留效应,所以看起来就是连续的了。

我们知道有RGB 3原色,用这三种颜色可以组合成各种其他颜色。还有一种表示方法,叫YUV,也就是把颜色分成亮度和色度,这样的好处是人对于亮度信号是比较敏感的,只要有亮度信号,色度信号缺少点也看不出差异,这样就可以大大优化编码的信号。
而YUV和RGB又可以相互转换,在传输的时候使用YUV,在显示的时候使用RGB。
而对于YUV,又有几种不同的比例。

图像信息在传输的时候,如果没有编码,那么视频数据占用的带宽会非常大。举一个例子,采用4:2:0格式,亮度信号是13.5MHZ,色度是6.75MHZ,这个频率算是很低的了,这样码率就是:

如果是1080p场景,那码率就更大了。因此就需要编码。

在编码的时候,有帧内编码和帧间编码区分。帧内编码就是对一帧图像进行编码,去除冗余信息。而帧间编码就是利用运动补偿去除冗余信息,在视频场景中,连续图像帧的重复度还是很大的,这样可以把图像进行分块,然后预估块的运行信息,这样只需要把位移信息编码传输就可以了。

在视频编码中,会把图像分成不同类型的帧,主要有I,P,B帧。
I帧:这是帧内编码帧,I帧不需要参考其他帧,解码后就是一幅完整的图像。
P帧:前向预测编码帧,需要参考前面已经编码的帧来去除冗余信息完整自己的编码,也就是可以简单理解成,在解码的时候,自己是无法独立解码成一张图片的,需要参考前面已经解码的帧才可以。
B帧:双向预测内插编码帧,需要参考前面和后面的帧来完成自己的编码。也就是在解码的时候,不仅需要参考前面已经解码的帧,还需要参考后面解码的帧才可以解码成一张完整的图像。

IDR(Instantaneous Decoding Refresh)也是一种I帧,不过收到IDR帧,就表示之后的帧不会再参考IDR以前的帧了。而普通的I帧之后则有可能参考I帧之前的图像帧。

GOP(Group of Pictures)图像组,表示图像帧只会参考本组内的图像帧,而不会参考其他组的图像帧。

DTS(decodeing time stamp),用于视频的编码。PTS(presentation time stamp),用于视频解码阶段的输出。按照常理来看,这两个时间戳应该是一致的,可是由于有B帧,这样编码和显示就会出现不一致性的场景。


音视频基础

录制是播放的一个逆过程。 红光(R) 绿光(G) 蓝光(B) 每个像素用8bit表示 可表示的色彩:256*256*256=16,777,216 Y:表示明亮度(Luminance或Luma),也称灰阶值 U和v:表示色度(Chroninance或Chroma) 用途:主要用于视频信号的压缩、传输和存储,以及向后兼容老式黑白电视机。 YUV存储格式有两大类:planar和packed planer:先存储所有像素点的Y,紧接着存储所有像素点的U,最后存储所有像素点V packed:每个像素点的Y,U,V是连续交叉存储的 常见YUV存储格式: YUV 4:4:4采样,每一个Y对应一组UV分量 YUV:4:2:2采样,每两个Y共用一组UV分量 YUV:4:2:0采样,每四个Y共用一组UV分量 RGB与YVU比较: 平均1.5个字节组成一个像素的YVU与3个字节组成的一个像素RGB,压缩比为2 视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。 视频帧率:fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。 视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。 I帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完成的图像; 特性: P帧(Predicted frames):根据本帧与相邻的前一帧(I帧或P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。 B帧(Bi-directional predicted frames):B帧图像采用双向时间预测,可以大大提高压缩倍数。 常见视频编解码器: 声音是一种由物体振动引发的物理现象。 声音按频率可作如下划分: PCM脉冲编码调制: PCM(Pulse code Modulation)脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。 采样频率: 根据奈奎斯特(Nyguist)采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。 人耳能听到的声音频率范围是[20Hz-20KHz],所以采样频率一般为44.1KHZ,这样就能保证声音到达20KHz也能被数字化,从而使得经过数字化处理后,人耳听到的声音质量不会被降低。 常见的采样频率: 采样量化:采样值的精度取决于它用多少位来表示,这就是量化。如16bit,可以表示65536个量化精度。 常见的采样精度(采样深度):每个“采样点”的大小,常用的大小为8bit,16bit,24bit。 通道数:单声道,双声道,四声道,5.1声道。 比特率:每秒传输的bit数,单位为:bps(Bit per second),是间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 X 采样精度 X 通道数。 码率:压缩后的音频数据的比特率。 常见的码率: 注意不能从低往高转 相对的码率越大,压缩效率越低,音质越好,压缩后数据越大。 码率 = 音频文件大小/时长 帧:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。 帧长有两个含义: 交错模式:数据音频信号存储的方式。数据以连续帧的方式存放,假设为双声道,即交叉记录左声道样本和右声道样本。 LRLRLR...的方式 非交错模式:首先记录一帧的左声道样本再记录其右声道的样本。LLL...RRR的方式。 编码压缩原理:数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频信号中不能被人耳感知道的信号,它们对确定声音的音色,音调等信息没有任何帮助。 冗余信号成分:去除人耳不能感知的频率(20Hz~20KHz之外的信号),频谱隐蔽效应和时域隐蔽效应。 音频编码器: 音视频封装格式: 封装格式(容器)就是将已经编码压缩好的视频流、音频流以及字幕按照一定的方案放到一个文件中,便于播放软件播放。封装格式不一样,后缀名也就不一样 常见音视频封装格式: 常用AAC+H264封装 音视频同步概念: DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。 PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧数据。 音视频同步方式: Audio Master:同步视频到音频 Video Master:同步音频到视频 External ClocK Master:同步音频和视频到外部时钟

音视频是什么意思

音视频是指两个或两个以上不同地方的个人或群体,通过传输线路及多媒体设备,将声音、影像及文件资料互传,实现即时且互动的沟通,以实现会议目的的系统设备。

多媒体技术就是通过计算机对语言文字、数据、音频、视频等各种信息进行存储和管理,使用户能够通过多种感官跟计算机进行实时信息交流的技术。多媒体技术所展示、承载的内容实际上都是计算机技术的产物。

所谓的媒体就是指承载和传输某种信息或物质的载体。可分为五大类:感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。在计算机领域里,媒体主要是传输和存储信息的载体,传输的信息包括语言文字、数据、视频、音频等等;存储的载体包括硬盘、软盘、磁带、磁盘、光盘等等。多媒体是把各种媒体的功能进行科学地整合,联手为用户提供多种形式的信息展现,得到的信息更加直观生动。


什么是音视频?

音视频是分开解释的:
音频是正常人耳能听到的,相应于正弦声波的任何频率。正常人耳的音频范围一般约为16Hz~16kHz。
视频泛指将一系列静态影像以电信号方式加以捕捉,纪录,处理,储存,传送,与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频。


上一篇:硕鼠官网

下一篇:电压表的原理