资源列表
matrix_mul_cuda_2.cu
- 矩阵相乘的cuda实现 矩阵分块且使用shared memory-parallel version of matrix multiply
chapter16
- Hadoop实战源码第16章cpp语言程序流程。-Hadoop code chapter16
Source3
- 采用改进的三维Hasin准则,考虑基体和纤维损伤,以及复合材料分层损伤- U91C7 u7539 u659 u8F09 u7F4 u7R4 u7354 u03 U6599 u5206 u5C42 u635F u4F24
duo
- 代码主要实现了单线程、多线程求π的计算方法,在集群上运行,比较时间。-The code mainly implements the single-thread, multithreaded method of calculating π, runs on the cluster, compares the time.
MPIpaixu
- 实现MPI下的一个奇偶交换排序,odd_even_sort.c 中已经包括排序的一个顺序实现。不断重复上述两种操作,直到数组中没有任何数可以交换。在并行环境中实现上述过程。
mpi-bitonic-sort-master
- Bitonic order implementation code with mpi usage
startParaller
- 并行运算,matlab函数,开始并行运算程序,很好用(Parallel operation, matlab function, start parallel computing program, very easy to use)
DAC
- digital to analog converter
cuda+mpi
- 并行计算中矩阵相乘的mpi和cuda两种方法,已完成检验,有结果输出(In parallel computing, two methods of matrix multiplication, MPI and CUDA, have been tested and output with results)
Hands-on CUDA codes
- 用于CUDA方案的程序码说明,提供的练习有: cudaMallocAndMemcpy myFirstKernel reverseArray_singleblock reverseArray_multiblock reverseArray_multiblock_fast(Skeletons and solutions for hands-on CUDA codes, they are listed as the followings: cudaMallocAndMemcpy myFi
cudaMallocAndMemcpy
- 在主机和设备之间复制--从“cudaMallocAndMemcpy”模板开始。 第1部分:为设备上的指标 d_a 和 d_b 分配内存。 第2部分:将主机上的h_a复制到设备上的 d_a。 第3部分:将设备从 d_a复制到 d_b。 第4部分:将设备上的 d_b 复制回主机上的 h_a。 第5部分:在主机上释放 d_a 和 d_b。 额外部分:用cudaMallocHost代替malloc来分配h_a。(Copy between host and device -- start
myFirstKernel
- 启动内核--从“myFirstKernel”模板开始。 Part1:使用指针d_a为内核的结果分配设备内存。 Part2:使用1-D的1-D网格来配置和启动内核 线程块。 Part3:让每个线程设置一个d_a的元素,如下所示: idx = blockIdx.x * blockDim.x + threadIdx.x d_a [idx] = 1000 * blockIdx.x + threadIdx.x Part4:将d_a中的结果复制回主机指针h_a。 Part5:验证结果是否正