搜索资源列表
Cache_FIFO
- 模拟内存高速缓存技术C源码,主要是FIFO形式。-simulated high-speed cache memory technology C source code, is the main form of FIFO.
bandwidthTest
- 对基于最新一代通用GPU--Geforce8800显存带宽的测试样例,对于通用计算而言,带宽的性能是至关重要的。-based on the latest generation of common GPU -- Geforce8800 memory bandwidth of the test sample. For general calculation, the performance bandwidth is essential.
simpleTexture
- 基于GPU的通用计算,利用显存的cache是提高算法效率的重要方面,该例子是在CUDA环境下如何读取纹理的程序。-based GPU generic terms, the use of video memory cache is to improve the efficiency of the algorithm, The example is the CUDA environment how to read texture procedures.
cuda-memcheck-handbook-4.0cn
- CUDA调试工具cuda-gdb,包含一个可以在CUDA中检测和调试内存错误的内存检查特性。该文档描述了这个名为cuda-memcheck的工具与它的功能。 NVIDIA用它强大的cuda-gdb硬件调试器简化了CUDA程序错误的调试。然而,每个程序员总会遇到难以检测到的内存相关错误,并花大量时间去调试。当处理上千条线程时,内存相关的错误的数量会明显增加。cuda-memcheck就是设计用来检测你的CUDA程序中这种内存存取错误的工具。-CUDA debugging tool cud
cputhermometer_srouce
- 监控系统的源代码,包括获取硬盘,CPU,内存使用率等等内容。-The source code control system, including access to the hard disk, CPU, memory usage and much more.
matrixMul
- GPU CUDA的经典算法,基于shared memory进行矩阵的相乘运算-GPU CUDA classical algorithm, based on shared memory for matrix multiplication by
spark98
- 卡内基梅隆大学开发的并行计算程序,包括内存和消息的处理-Carnegie Mellon University to develop the parallel computing processes, including memory and information processing
Mars_v2
- GPU实现的MapReduce framework,对于学习并行编程和cuda平台的编程方面有着极好的参考价值,里面附带论文。用户要求有NViDIA显卡,并且安装cuda编程环境。-We design and implement Mars, a MapReduce framework, on graphics processors (GPUs). MapReduce is a distributed programming framework originally proposed by
omp_matrix_multiply
- C代码。共享式存储多线程并行计算矩阵相乘代码。适合于SMP结构和多核。-C code. Shared memory multi-threaded parallel computing code matrices. Fit in the structure and multi-core SMP.
lib_trhead_pool
- c封装的线程池库,并且包含简单高效的内存池.代码接口逻辑清晰,且高效稳定-c package thread pool library, and includes a simple and efficient memory pool. code interface logic, clarity, and the highly efficient and stable ...
scalapack-1.8.0
- ScaLapack是一个并行计算软件包,适用于分布存储的MIMD并行机.ScaLapack提供若干线性代数来解功能,具有高效、可移植。可伸缩、高可靠性的优点,利用它的求解库可以开发出基于线性代数运算的并行应用程序.文章对ScaLapack的结构、功能、数据布局等方面进行了讨论。 -A library of high-performance linear algebra routines for distributed-memory message-passing MIMD computers
MPI_Parallel_Programming
- 书中第一部分简单介绍了并行程序设计的基本知识;然后在第二部分介绍基本的MPI并行程序设计方法,它虽然基本,但是却非常重要,因为通过这部分介绍的功能,可以实现几乎所有的通信功能;第三部分是在第二部分的基础上,介绍高级、复杂的MPI并行程序设计,使用高级的MPI调用可以提高并行程序的通用性和移植性,对提高并行程序的开发效率、可读性以及并行程序的执行效率等都有好处;最后一部分介绍MPI的最新扩展MPI-2,着重对动态进程管理、远程存储访问和并行I/O进行了讲解。-The book first sect
MPI
- MPI分布内存并行程序开发,联想内部资料,联想高性能服务器事业部著。-MPI distributed memory parallel program development, internal data Lenovo, Lenovo Group with high-performance server.
openmp
- This document specifies a collection of compiler directives, library functions, and environment variables that can be used to specify shared-memory parallelism in C and C++ programs. The functionality described in this document is collectively
Automatic-parallel-compiled
- 这是一篇很有价值的博士论文,对于并行化编译器中并行程序自动生成和性能优化技术进行了较深入的研究。 并行化的最终日标是生成符合日标机体系结构特点的高效并行程序,因此如何产生高效并行代码是并行化编译研究的一项重要内容。 这篇文章以并行化编译器KAP为研究背景,以分布内存结构为目标,研究了并行化过程中的通信优化和消息、传递类型并行程序自动生成问题;以共享内存结构为目标,研究了并行化产生的openMP程序的编译优化问题。通过测试确定了影响openMP程序性能的主要因素,从并行化生成OpenMP并
matrix-multiplication-based-OpenMp-
- 基于C语言的,在共享内存的并行机上使用OpenMP并行环境实现矩阵乘法-C-based, shared memory parallelism using OpenMP on a parallel machine environment to achieve the matrix multiplication
Distributed-Shared-Memory
- 分布式共享内存的在Cluster上的实现-An implementation of distributed shared memory on clusters of workstations, connected via and IP-based network.
cudaMallocAndMemcpy
- 在主机和设备之间复制--从“cudaMallocAndMemcpy”模板开始。 第1部分:为设备上的指标 d_a 和 d_b 分配内存。 第2部分:将主机上的h_a复制到设备上的 d_a。 第3部分:将设备从 d_a复制到 d_b。 第4部分:将设备上的 d_b 复制回主机上的 h_a。 第5部分:在主机上释放 d_a 和 d_b。 额外部分:用cudaMallocHost代替malloc来分配h_a。(Copy between host and device -- start
cuda memory management
- cuda内存管理 很有用的一个教程 希望有帮助(cuda memory management)
Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers
- HPL is a software package that solves a (random) dense linear system in double precision (64 bits) arithmetic on distributed-memory computers. It can thus be regarded as a portable as well as freely available implementation of the High Performance Co