开发视频会议系统:使用GPU解码渲染视频

gpu · 浏览次数 : 10

小编点评

随着视频会议系统的普及,GPU解码渲染技术在视频会议中的应用变得至关重要。相较于传统的CPU解码渲染方式,GPU解码渲染能够显著提高视频处理速度,降低系统卡顿的风险。 显卡作为视频解码渲染的关键组件,其性能参数对于决定视频解码渲染能力至关重要。目前市面上的主流显卡分为三类:Intel集显、NVIDIA N卡和AMD A卡。不同类型的显卡采用不同的程序访问接口和技术,因此在选择显卡时需根据具体需求和兼容性进行权衡。 在视频会议系统中,为了保证流畅的视频传输和高质量的画质,通常会要求同时显示多个参会人员的视频画面以及某人分享的屏幕。这就需要显卡具备强大的解码和渲染能力,以应对高分辨率视频图像带来的挑战。因此,视频会议系统普遍采用GPU来解码渲染视频,以实现更高的性能和更佳的用户体验。 通过对比测试,我们可以发现,开启GPU解码渲染功能后,CPU的占用率显著降低,而GPU的利用率则大幅上升,说明显卡能够更好地处理高分辨率视频图像的解码和渲染任务。因此,在开发视频会议系统时,选择具备强大GPU解码渲染能力的显卡是非常必要的。 综上所述,GPU解码渲染技术在视频会议系统中的重要性不言而喻。它不仅能够提高系统的处理速度和视频质量,还能够为用户带来更加流畅、清晰的视频会议体验。

正文

      现在,使用视频会议系统远程协同办公、沟通交流,已经非常普遍了。如果我们要开发自己的视频会议系统,那么,GPU解码渲染技术是不可缺少的。

      在视频会议系统中,经常需要同时观看会议中多个参会人员的视频图像,另外,还可能需要同时观看某人分享的屏幕。

      随着大家对会议中视频图像的要求越来越高,所以在适配会议中,起步分辨率就是1280*720。而1920*1080已经是标配,2K分辨率也不算太高。

      但是,对程序而言,高分辨率的视频图像的编码、解码、渲染都是消耗性能的大户。

一.为什么必须使用GPU解码渲染视频?

      在视频会议中,同时看多路高清视频图像是基础的硬指标。每一路视频图像都是需要解码和渲染的,如果解码和渲染的工作都交给CPU来做(即所谓的“软解” CPU-based Software Decoding),那么CPU的负载就会立马飙升,严重时会CPU跑满而导致系统卡死。

      何况,CPU并不擅长做图像处理的工作。对于H264/H265视频,解码和渲染都是GPU专业技能,所以,在视频会议中,我们要尽可能地使用GPU也就是显卡来解码渲染视频(即所谓的“硬解”,也称“硬件加速” GPU-accelerated Hardware Decoding)。

二. 显卡与GPU解码、渲染

      显卡,一般肯定都是支持GPU渲染的,然而,并不是所有的显卡都支持GPU解码视频。对于指定的显卡,我们查看其性能参数,就可以知道其是否支持H264/H265视频解码,且能支持解码的视频最高分辨率是多少。

      目前市面上主流的显卡主要有三种:Intel的集显(也叫核显)、NVIDIA的N卡、以及AMD的A卡。

      在程序中想要使用GPU来解码渲染视频,首先要看这台电脑配备的显卡是哪种,然后再使用该显卡对应的程序接口去访问它。

      下面是每种显卡所使用的程序访问接口/技术。

      

      我们可以先这样简单地理解显卡,即 显卡 = GPU + 显存。而GPU是操作不了内存的,内存是由CPU操作的,GPU只能对显存进行操作。

      GPU要解码H264/H265视频图像,先要将其拷贝到显存中,再由GPU解码,解码后得到的图像数据(一般是YUV格式)也是位于显存中,此时,直接将该数据提交给GPU去渲染,性能就非常高效了。

      之前,我们尝试过一种方案:解码由GPU来做,然后渲染由CPU做。即我们把GPU解码得到的YUV数据拷贝回内存,再交由CPU去渲染,但是这样效率就大打折扣了。

      因为当视频图像的分辨率很高时,解码得到的YUV数据就非常大,这时将其从显存拷贝回内存,就需要消耗大量的CPU。

      经过我们测试,这样的方案很鸡肋,还不如直接使用CPU解码渲染来得方便省事。

      当然,最佳方案是解码和渲染全部交由GPU来执行。如果有些显卡不支持GPU解码,那么,就只能由CPU解码,GPU来渲染了。

三.对比测试

     我们使用 OMCS入门Demo 来做测试(OMCS 支持使用集显、N卡、A卡解码渲染视频),分别在开启和关闭GPU解码渲染功能时,看看CPU和GPU的占用情况。

     首先将摄像头分辨率设置成1920*1080,帧频设为30fps,如下代码所示:

     multimediaManager.CameraVideoSize = new Size(1920, 1080);
     multimediaManager.MaxCameraFrameRate = 30;

     然后,我们可以通过设置 GpuEnabled4Decode 属性来控制是否开启GPU解码渲染:

     multimediaManager.Advanced.GpuEnabled4Decode = true; //是否开启GPU解码渲染

     OMCS入门Demo按照上面修改后,重新编译客户端。接下来就可以开始我们的测试工作了。

     先在我同事的电脑上启动Demo客户端,登录aa01账号。然后,在我的电脑上启动客户端后,登录aa02账号,然后,aa02去连接aa01的摄像头,这样,aa02就可以看到aa01的视频图像了。

     

     此时,我电脑上的demo客户端aa02在收到了来自aa01视频图像帧(H264)后,会将其解码,然后再在UI上渲染出来。

1. 使用CPU解码渲染视频

     我们先关闭GPU解码渲染功能:

     multimediaManager.Advanced.GpuEnabled4Decode = false; //关闭GPU解码渲染

     测试时看看CPU的占用情况:

     

     可以看到,Demo客户端进程CPU占用率为8%,而GPU的占用为0,表示没有使用GPU。

     我这台电脑的CPU型号是 AMD Ryzen 7 4700G with Radeon Graphics,算是很不错的,如果是次一点的CPU,解码渲染一路1080p的视频,CPU能跑到20%了。

2. 使用GPU解码渲染视频

     接下来,我们开启GPU解码渲染功能:

     multimediaManager.Advanced.GpuEnabled4Decode = true; //开启GPU解码渲染

     在看看CPU的占用情况:

     

     对比非常明显,现在CPU的利用率降到了0,而GPU利用率接近7%。

     这样看来,测试的这台电脑的显卡,可以同时解码渲染13~14路1920*1080的全高清视频,如果是1280*720的高清视频,应该可以同时解码渲染20多路了,这样,对于一般的视频会议系统来说,是绰绰有余了。

     通过上面的介绍,你应该已经明白了,为什么视频会议系统中必须使用GPU来解码渲染视频了吧。

      

 

与开发视频会议系统:使用GPU解码渲染视频相似的内容:

开发视频会议系统:使用GPU解码渲染视频

现在,使用视频会议系统远程协同办公、沟通交流,已经非常普遍了。如果我们要开发自己的视频会议系统,那么,GPU解码渲染技术是不可缺少的。这是为什么了?

构建基于深度学习神经网络协同过滤模型(NCF)的视频推荐系统(Python3.10/Tensorflow2.11)

毋庸讳言,和传统架构(BS开发/CS开发)相比,人工智能技术确实有一定的基础门槛,它注定不是大众化,普适化的东西。但也不能否认,人工智能技术也具备像传统架构一样“套路化”的流程,也就是说,我们大可不必自己手动构建基于神经网络的机器学习系统,直接使用深度学习框架反而更加简单,深度学习可以帮助我们自动地从原始数据中提取特征,不需要手动选择和提取特征。

FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧

​《FFmpeg开发实战:从零基础到短视频上线》一书的“2.1.1 音视频编码的发展历程”介绍了H.26x系列的视频编码标准,其中H.264至今仍在广泛使用,无论视频文件还是网络直播,H.264标准都占据着可观的市场份额。 之所以H.264取得了巨大的成功,是因为它提出了一个新概念,把标准框架划分为

云小课|GaussDB(DWS)数据存储尽在掌控,冷热数据切换自如

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要: GaussDB(DWS)支持根据业务系统的不同使用需求,对膨胀的数据进行冷热分级管理,将数据按照时间分为热数据、冷数

AIGC的阿克琉斯之踵

摘要:现在,越来越多的企业和个人使用AIGC生成文章、图片、音乐甚至视频等内容,AIGC已经成为一种必备的工具。在游戏和原画师行业,甚至已经出现了第一批因为AI而失业的人。 本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之二:AIGC的阿克琉斯之踵》,作者:ModelAr

FFmpeg开发笔记(三十九)给Visual Studio的C++工程集成FFmpeg

​《FFmpeg开发实战:从零基础到短视频上线》一书的“第11章 FFmpeg的桌面开发”介绍了如何在Windows环境对Qt结合FFmpeg实现桌面程序,那么Windows系统通过Visual Studio开发桌面程序也是很常见的,下面就介绍如何在Visual Studio的C++工程中集成FFm

手把手教你从安装CentOS7.4镜像开始,搭建IoT视频监控系统

摘要:在CentOS7.4服务器版本的环境下安装nginx服务器、配置文件服务器、流媒体服务器。 本文分享自华为云社区《华为云ECS服务器安装CentOS7.4镜像,部署GINX服务器、搭建物联网视频监控系统》,作者:DS小龙哥。 在CentOS7.4服务器版本的环境下安装nginx服务器、配置文件

云小课|GaussDB如何进行性能调优

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:GaussDB性能调优过程需要综合考虑多方面因素,因此,调优人员应对系统软件架构、软硬件配置、数据库配置参数、并发控制

云小课|创建DDS只读节点,轻松应对业务高峰

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:为了扩展主节点的读请求能力,DDS提供具备独立连接地址的只读节点,适合独立系统直连访问,以缓解大量读请求给主节点造成的

k8s容器互联-flannel host-gw原理篇

k8s容器互联-flannel host-gw原理篇 容器系列文章 容器系列视频 简析host-gw 前面分析了flannel vxlan模式进行容器跨主机通信的原理,但是vxlan模式需要对数据包进行额外的封包解包处理,带来的开销较大。 所以flannel提供了另外一种纯3层转发的通信模式,叫做h