搜索资源列表
notepadPPcuda_config
- notepad++中cuda代码的高亮显示配置文件 喜欢轻量级编辑器的GPU代码开发者可能会用到,notepad++7.3.3上经过实测-the config file for cuda in the editor notepad++
dijkstra_cuda
- 采用cuda对dijkstra算法进行并行实现,性能提升7倍多。- U91C7 u75286 u5B09 u5B09 u7
matrix_mul_cuda_2.cu
- 矩阵相乘的cuda实现 矩阵分块且使用shared memory-parallel version of matrix multiply
cudaMallocAndMemcpy
- 在主机和设备之间复制--从“cudaMallocAndMemcpy”模板开始。 第1部分:为设备上的指标 d_a 和 d_b 分配内存。 第2部分:将主机上的h_a复制到设备上的 d_a。 第3部分:将设备从 d_a复制到 d_b。 第4部分:将设备上的 d_b 复制回主机上的 h_a。 第5部分:在主机上释放 d_a 和 d_b。 额外部分:用cudaMallocHost代替malloc来分配h_a。(Copy between host and device -- start
myFirstKernel
- 启动内核--从“myFirstKernel”模板开始。 Part1:使用指针d_a为内核的结果分配设备内存。 Part2:使用1-D的1-D网格来配置和启动内核 线程块。 Part3:让每个线程设置一个d_a的元素,如下所示: idx = blockIdx.x * blockDim.x + threadIdx.x d_a [idx] = 1000 * blockIdx.x + threadIdx.x Part4:将d_a中的结果复制回主机指针h_a。 Part5:验证结果是否正
reverseArray_singleblock
- 反向阵列(单块)-- 给定指针d_a中的输入数组{a0,a1,...,an-1},将反向数组{an-1,an-2,...,a0}存储在指针d_b中 A: 从“reverseArray_singleblock”模板开始 B: 只有一个线程块启动,以反转一个大小的数组 N = numThreads = 256个元素 C: 第1部分(共1个):所有你需要做的是实现内核的“reverseArrayBlock()” D:每个线程将单个元件移动到相反的位置, 从d_a指标读取输入,
reverseArray_multiblock
- 反向阵列(multiblock): 给定指针d_a中的输入数组{a0,a1,...,an-1},将反向数组{an-1,an-2,...,a0}存储在指针d_b中 A: 从“reverseArray_multiblock”模板开始 B:多个256线程块启动,要颠倒大小为N,N / 256块的数组 第1部分:计算要启动的块数 第2部分:实现内核reverseArrayBlock 请注意,现在您必须同时进行计算 块内的相反位置 反向偏移到块的开始(Reverse array
polar_BP_decoder.cu
- 本代码是基于GPU的polar码BP并行译码,主要完成基于GPU的并行译码功能,开发语言为CUDA C。(BP parallel decoding of polar codes based on GPU)
蒙特卡洛光子实验
- 基于WINDOWS平台下,VC,英特尔显卡的蒙特卡洛光子实验。(Based on the WINDOWS platform, VC, Intel graphics video Monte Carlo photon experiment.)
01_查询GPU设备
- cuda代码查询设备信息,基础实用的小例子代码(the code of cuda for querying the device)
kernel
- 1,使用VS创建一个工程 2,复制文件代码 3、使用内核cuda函数使用内核cuda函数调试专用(Use kernel CUDA function to use kernel CUDA function to debug special-purpose)
4_GPUIntro
- GPU 基本介绍 包括GPU与GPGPU的兴起,GPU加速与高性能计算,Nvidia CUDA简介。(The Basic Introduction of GPU)