与#cuda#相关的内容 - PmDaddy

全部分类数据库前端云计算

cuda性能优化-2.访存优化

在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写.

CUDA C编程权威指南：1-基于CUDA的异构并行计算

什么是CUDA？CUDA（Compute Unified Device Architecture,统一计算设备架构）是NVIDIA（英伟达）提出的并行计算架构，结合了CPU和GPU的优点，主要用来处理密集型及并行计算。什么是异构计算？这里的异构主要指的是主机端的CPU和设备端的GPU，CPU更擅长逻

CUDA C编程权威指南：1.1-CUDA基础知识点梳理

主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.CUDA 解析：2007年，NVIDIA推出CUDA（Compute Unified Device Architecture，统一计算设

CUDA C编程权威指南：1.2-CUDA基础知识点梳理

主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.闭扫描和开扫描对于一个二元运算符和一个元输入数组。如果返回输出数组为，那么是闭扫描；如果返回输出数组为，那么是开扫描。串行闭扫描算法，

CUDA C编程权威指南：1.3-CUDA基础知识点梳理

主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.CUDA数组解析：CUDA数组是使用cudaMallocArray()、cudaMalloc3DArray()分配的，使用cudaFr

CUDA C编程权威指南：2.2-给核函数计时

本文主要通过例子介绍了如何给核函数计时的思路和实现。实现例子代码参考文献[7]，只需要把相应章节对应的CMakeLists.txt文件拷贝到CMake项目根目录下面即可运行。 1.用CPU计时器计时(sumArraysOnGPU-timer.cu)[7] 在主函数中用CPU计时器测试向量加法的核函数

CUDA C编程权威指南：2.1-CUDA编程模型

本文主要通过例子介绍了CUDA异构编程模型，需要说明的是Grid、Block和Thread都是逻辑结构，不是物理结构。实现例子代码参考文献[2]，只需要把相应章节对应的CMakeLists.txt文件拷贝到CMake项目根目录下面即可运行。 1.Grid、Block和Thread间的关系 GPU中最

深度学习框架火焰图pprof和CUDA Nsys配置指南

注：如下是在做深度学习框架开发时，用到的火焰图pprof和 CUDA Nsys 配置指南，可能对大家有一些帮助，就此分享。一些是基于飞桨的Docker镜像配置的。一、环境 & 工具配置 0. 开发机配置 # 1.构建镜像, 记得映射端口，可以多映射几个；记得挂载ssd目录，因为数据都在ssd盘上

编译mmdetection3d时，无root权限下为虚拟环境单独创建CUDA版本

在跑一些深度学习代码的时候，如果需要使用mmdetection3d框架，下载的pytorch的cudatoolkit最好需要和本机的cuda版本是一样的，即输入nvcc -V命令后显示的版本一样。但是如果是在学校里，一般是服务器管理员装的cuda驱动是啥版本，cudatoolkit就是啥版本，且非

闻其声而知雅意,基于Pytorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

前文回溯，之前一篇：含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)，利用AI技术将文本合成语音，现在反过来，利用开源库Whisper再将语音转回文字，所谓闻其声而知雅意。 Whisper 是一个开源的语音识别库，它是由Facebook AI

用于双目重建中的GPU编程：julia-cuda

julia是2010年开始面世的语言，作为一个10后，Julia必然有前辈们没有的特点。本文着重介绍julia的项目背景、效率问题，如何使用for训练的方式、julia-cuda的实现方式。

【jetson nano】yolov5环境配置tensorrt部署加速

安装pytorch Nano上预装的Jetpack版本为4.6.1，Python为3.6.9，CUDA环境为10.2。在PyTorch for Jetson中可以下载不同版本的torch，torch<=1.10.0。 1 安装torch1.8.0 # substitute the link URL

解决Python使用GPU

本文简单介绍了使用Python解决使用GPU的方法，并给出了TensorFlow和PyTorch示例；本文还介绍了TensorFlow GPU的安装版本介绍，以及介绍了安装CUDA的详细教程。

Docker部署深度学习模型

Docker部署深度学习模型基础概念 Docker Docker是一个打包、分发和运行应用程序的平台，允许将你的应用程序和应用程序所依赖的整个环境打包在一起。比如我有一个目标检测的项目，我想分享给朋友，那么他首先需要在自己的电脑上配置好显卡驱动、CUDA、CuDNN，在拿到我的项目后，还需要安装各

Llama2-Chinese项目：5-推理加速

随着大模型参数规模的不断增长，在有限的算力资源下，提升模型的推理速度逐渐变为一个重要的研究方向。常用的推理加速框架包含lmdeploy、FasterTransformer和vLLM等。一.lmdeploy推理部署 lmdeploy由上海人工智能实验室开发，推理使用C++/CUDA，对外提供pyth

Pytorch：单卡多进程并行训练

在深度学习的项目中，我们进行单机多进程编程时一般不直接使用multiprocessing模块，而是使用其替代品torch.multiprocessing模块。它支持完全相同的操作，但对其进行了扩展。Python的multiprocessing模块可使用fork、spawn、forkserver三种方法来创建进程。但有一点需要注意的是，CUDA运行时不支持使用fork，我们可以使用spawn或for

首页
上一页
1
下一页
尾页

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化