-
配384个CUDA核心 开普勒构架GT650M测试
2012年3月22日NVIDIA正式发布新一代GeForce 600系列显卡,这其中不仅包括了采用最新开普勒构架的GTX680台式机显卡,而且还推出了开普勒构架的GeForce GT600M系列显卡,不过从之前一些关于GT630M和GT635M的测试结果来看,就是上一代的马甲产品啊,怎么会是开普勒呢?
评测 2012-03-26
-
CUDA编程接口:共享存储器实现矩阵相乘
共享存储器使用__shared__限定词分配。正如在前面的文章提到的,共享存储器应当比全局存储器更快,详细内容将在后续文章中介绍。任何用访问共享存储器取代访问全局存储器的机会应当被发掘,如下面的矩阵相乘例子展示的那样。 下面的代码是矩阵相乘的一个直接的实现,没有利用到共享存储器。
技术 2011-12-12
-
Ubuntu环境下的CUDA编程(四)
近来测试了矩阵(规模为2048*2048)乘法在不同参数下两个算法分别使用的时间:第一个算法为没有使用shared memory的直接相乘,每个thread负责矩阵C的一个元素的计算;第二个算法为使用了shared memory的分块算法,每个block就是一个小的矩阵分块。
技术 2011-09-06
-
使用CUDA进行k Nearest Neighbor搜索
kNN(k Nearest Neighbor)是常用的群集算法(Cluster Algorithm)用于空间搜索。目前最快的kNN方法莫过于KDTree的版本,不过基本上都是CPU的比如ANN C++ Library。对于GPU来说,实现加速结构比较复杂,因为没有栈所以无法递归,而且执行资源有限,不能像CPU一样舒舒服服的顺序执行。
技术 2011-07-04
-
ubuntu 10.10下安装与配置CUDA 4.0
谨以此文想给那些被Linux搞得折翼的小盆友们,当然还有我自己……首先下载驱动,toolkit 还有SDK……安装前确认这些文件都是可执行的,如果不是运行以下命令:sudo chmod a+x [文件名]然后是安装驱动的问题,估计很多人十分头疼……
技术 2011-04-28
-
独立才能至强 ENGT220 CUDA应用解析
视频功能的日渐丰富是当今计算机发展的主流趋势,这些软件通过GPU 的提升可以明显的得到更快
厂商动态 2010-08-30
-
CUDA Thread Block:transpose
在 Heresy 寫的前兩篇 sample 程式(VectorAdd、DeviceInfo)裡,都是很簡單的程式;像 VectorAdd 裡,也是刻意把 vector size 設小,避掉 thread 數目超過 block 限制的問題,以避免要用到複數個 block。但是實際上,應該都是會超過 thread block 的大小限制的(畢竟 G80 的 block 大小只有到 512…)~
技术 2009-11-27
-
谁主沉浮 OpenCL与CUDA架构深入解析
最近,Khronos公布了OpenCL(Open Computing Language)的第一个测试版本,一经发布便在通用计算领域掀起来轩然大波!OpenCL是由苹果公司发起,业界众多著名厂商共同制作的面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境。便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。
技术 2009-11-26
-
NVIDIA可能让AMD显卡也支持CUDA
资讯 2009-07-01
-
年末将出CUDA加速的Fortran编译器
资讯 2009-06-26