NVIDIA GPU的快速JPEG编解码器我们在NVIDIA CUDA技术上创建了快速JPEG编解码器。 由Fastvideo开发的CUDA JPEG编解码器与现有最快的商业解决方案相比,是严格遵守标准和令人震惊的编码和解码速度的融合。 这是基准JPEG的完整、面向性能的实现。 由于基线JPEG算法的完全并行实现,我们在GPU上获得了超快的JPEG压缩和解压缩。 与适用于多核Cpu的最佳商用多线程JPEG编解码器相比,我们的CUDA JPEG编解码器是最快的。 它也比硬件加速的JPEG编解码器更快。 ![]() CUDA JPEG编解码器的快速JPEG图像压缩功能
为什么CUDA上的JPEG可以这么快?我们已经成功地使JPEG算法的各个阶段并行,包括熵编码和解码。 人们普遍认为RLE和Huffman算法只能是串行的。 在我们的解决方案中,RLE和Huffman算法不再是瓶颈,它们是完全并行的。 现在我们不卸载从GPU到CPU的任何内容,以使JPEG编解码器更快。 CUDA JPEG编解码器非常快,它正在GPU上工作。 有很多关于CUDA上JPEG压缩的科学论文,作者试图加速dct模块。 在CUDA上并行计算的想法立即导致该任务,但这只是JPEG算法cuda加速的整个解决方案的一小部分。 并行计算可以应用于JPEG编码器和JPEG解码器的所有阶段。 图像分区到大量的8×8或16×16块是加速GPU上JPEG编解码器的关键功能。 JPEG算法中最困难的部分是熵编解码器,我们也在GPU上完成了这项任务。 我们在CUDA上的快速JPEG解决方案正在GPU上工作,我们已经加速了JPEG算法的所有组成部分。 这实际上是cuda图像处理加速的主要思想:我们必须为管道中的每个算法创建基于CUDA的版本。 我们所有的软件都是按照这种方法实现的。 就CUDA上JPEG算法的精度而言,我们在浮点中实现了颜色变换、2D DCT和量化,然后对结果进行四舍五入,以提高与传统方法相比的精度。 我们的性能结果比CPU上的libjpeg-turbo和turbojpeg的基准测试快得多。 即使我们考虑到主机到设备和设备到主机的传输,CUDA JPEG编解码器的性能仍然会比libjpeg-turbo高得多。 NVIDIA GeForce RTX4090上的最新基准测试我们还在最新的NVIDIA GeForce RTX4090上测量了JPEG编码性能,用于现代机器视觉相机的高分辨率图像。 JPEG压缩(图像分辨率5328×4508,24位,子采样4:2:0,质量90)可以在0.65毫秒内完成,相当于性能~117GB/s。假设PCIe-4.0x16接口的实际带宽约为24GB/s。这几乎快5倍。 快速JPEG编解码器的选项我们还将快速JPEG编解码器包含在我们的主要产品-Fastvideo图像/视频处理SDK中。 该SDK包括暗帧减法,阴影校正,白平衡,去马赛克,去噪,色彩校正,色调映射,HDR,图像过滤,1D LUT,伽玛,色彩管理,3D LUT,调色,直方图,游行,调整大小,裁剪,旋转,重映射,整 快速JPEG编解码器的许可我们将Fast JPEG编解码器和Fastvideo图像/视频处理SDK的其他组件许可给软件开发人员,相机制造商和经销商,互联网提供商,系统集成商等。 我们的SDK被广泛应用于成像应用. 演示SDK,文档,许可信息和报价可根据要求提供. 我们还根据商定的规范提供定制软件设计. 如果您需要在gpu上为您的图像处理应用程序获得显着的加速,请不要犹豫与我们联系。 |