在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写.
julia是2010年开始面世的语言,作为一个10后,Julia必然有前辈们没有的特点。本文着重介绍julia的项目背景、效率问题,如何使用for训练的方式、julia-cuda的实现方式。
本文简单介绍了使用Python解决使用GPU的方法,并给出了TensorFlow和PyTorch示例;本文还介绍了TensorFlow GPU的安装版本介绍,以及介绍了安装CUDA的详细教程。