极品飞车18飞跃点卡怎么撤,对号点又怎么撤。

热门搜索:
游戏里由phyx驱动的选项,a卡能打钩么?是不是全部要在cpu计算,如果cpu够强劲,选择a卡是不是好一些呢?
& 映泰TA970XE助力混搭 A卡N卡并行成功
映泰TA970XE助力混搭 A卡N卡并行成功 09:55&&&&【新疆IT网 原创】 &&&&&
【新疆乌鲁木齐 行情 纵横竞技】CUDA?是一种由推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。 开发人员现在可以使用C语言来为CUDA?架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA?的上以超高性能运行。 将来还会支持其它语言,包括FORTRAN以及C++。
而AMD在兼并之后成了和nVIDIA的双料对手。但是CUDA和phyX这两项技术让AMD还是很眼红的。而今天,我们就在AMD平台上让A卡做主角,跑一次真正的&混交&,让A卡也能玩到CUDA和phyX!
首先介绍一下平台!AMD 推土机 FX-4100处理器的原生四核通过之前的测试证明对是有一定优势的,身价又几乎和i3持平,因此是值得一试的。而搭载主板还能有不错的超频成绩。
主板采用标准板型设计,拥有良好的扩展空间。主板基于AMD 970 + SB950芯片组,支持AMD Bulldozer处理器。供电提供了多达5相设计,支持FX-4100 FX6100。映泰一贯出色设计,为处理器超频提供良好的硬件基础。
XE 主板采用5相供电设计,每相采用一上两下Mos管搭配方案,单相回路可以支持的电流更大,温度也更低,可以支持TDP高达145W的处理器。
部分,映泰提供4个DIMM内存插槽,支持双通道 1866(OC)/66MHz 内存。磁盘接口方面因为采用SB950南桥,主板提供5个原生SATA 6Gb/s接口,支持RAID0,1,5,10 和JBOD功能。
扩展部分,主板提供了2条 PCI-E x16 2.0插槽,支持交火技术(16X+4X),同时还提供了2条PCI-E x1和2条PCI插槽,可以满足用户的扩展需求。
映泰主板IO面板接口提供了6个USB2.0接口,2个USB3.0,支持光纤以及同轴音频输出,并支持8声道音频环绕。针对一些高端用户,主板还提供了IEEE1394和E-SATA接口。
全A平台的搭建,显卡依旧是AMD HD6790,千元内规格较高的一款卡!先插上它,FX4100并未超频,没超频就已经3.6GHz,如需要还带睿频,虽然只能提升200MHz,但有总比木有强!
平台的待机功耗117W,可见6790和FX4100也不是很耗电,节能做的不错。
CUDA-Z就像我们常用的GPU-Z,但是具体参数就变成了针对CUDA应用方面的信息,支持CUDA信息查询,还可以测试CUDA的速度。新版本加入对Double性能测试,需要GT200或以上显卡才支持此项测试。但是很明显,没有N卡在场的话软件都懒得开启!HOHO
于是&&iGAME GTX560Ti出马了!这款金属版拥有均热板+双管的散热系统,进一步优化散热的同时还降低了显卡的体积,而OC按钮的加入将核心频率变的更自由。
混搭平台出现,由于TA970XE默认仅支持双卡交火,故此它的两条PCI-E的间距不大,使得两个卡显得拥挤,不过还好并未造成冲突。6790的风扇虽然距离560很近,却依旧能够正常的运转起来。
N卡驱动是较新的295.73,看看,虽然GPU-Z的CUDA选项未开启,但是CUDA-Z却开启了!不但开启了,速度还很可观,可见此时,GTX560Ti的GPU已经在默默工作了,功耗也上到了190W。
PhysX是NVIDIA的另一个强项,物理运算引擎的作用,简而言之,就是令虚拟世界中的物体运动符合真实世界的物理定律,以使游戏更加富有真实感。物理模拟计算需要非常强大的整数和浮点计算能力。更为重要的是,物理处理具有高度的并行性,需要多线程计算,演算非常复杂,需要消耗很多资源。PhysX可以由计算,但其程序本身在设计上还可以调用独立的浮点处理器(例如GPU和PPU)来计算,也正因为如此,它可以轻松完成像流体力学模拟那样的大计算量的物理模拟计算。PhysX物理引擎可以在包括Windows,Linux,Xbox360,Playstation3,Mac,等在内的全平台上运行。但是&&它也是默认只认N卡!很悲剧的6790,PhysX确实是无能为力。即使是混搭双卡,不破解也是无效的。
一家以色列公司开发的Hybrid-PhysX-mod-1.05ff小程序却送给了A卡一个大礼!此程序后简单的就能打开就打开了,只需点一下&apply&即可,出现done字样即成功,再次开启GPU-Z,哈哈!蛋糕到手了!
先看看HDTi未破解时的成绩,怎一个惨字了得,仅获得E级和平均8.6帧的卡通慢动作效果!结果真是很可悲。
再看一下破解PhysX后的,差距是很大的,提升也是很明显的,提高了三倍,得到D级,平均27帧,画面的流畅度自不必说了。
小结:从CUDA到PhysX,NVIDIA可以说给我们带来的是更好的GPU性能,但是想得到这些你需要选N卡,不过如果你已经装了A卡也没事,只要你会用TA970XE,再淘一块GT200以上的N卡就能实现哦!
[型号] 映泰 TA970XE主板
[参考] 699元
[质保条列] 三年全免费保修
[推荐商家] 乌鲁木齐市纵横电子科技有限公司
[联系电话]
[联系地址] 乌鲁木齐市百花村电脑城三楼3-29
该商家更多产品报价:.cn/
&相关阅读:
·玩游戏再也不卡了 联想Y410P火爆热卖中
&&·装机主流卡 七彩虹iGame750烈焰战神U
&&·送8G内存卡 诺基亚638南宁促销价780元
&&·送16G内存卡 诺基亚XL 4G版仅售890元
&&·送16G内存卡 三星G5108q南宁售1700元
给文章打分 5分为满分(共0人参与)
:&&&&&&&&&&
频道热词:&&&&&&
全国行情主板热点
排行 文章标题
TOP10周热门主板排行榜
商家报价:
583用户点评
商家报价:
458用户点评
商家报价:
458用户点评
商家报价:
商家报价:
463用户点评
商家报价:
583用户点评
商家报价:
458用户点评
商家报价:
211用户点评
商家报价:
73用户点评
商家报价:
146用户点评
商家报价:¥369-¥568
上市时间: 2014年05月
产品数: 2
商家报价:¥2499-¥4199
上市时间: 2014年09月
产品数: 5
商家报价:¥499-¥599
上市时间: 2014年11月
产品数: 5
商家报价:¥599-¥849
上市时间: 2014年11月
产品数: 5
商家报价:¥549-¥649
上市时间: 2014年10月
产品数: 2
商家报价:¥899-¥999
上市时间: 2014年09月
产品数: 2
商家报价:¥959
上市时间: 2014年10月
产品数: 2
商家报价:¥449-¥699
上市时间: 2014年09月
产品数: 2
商家报价:¥309-¥349
上市时间: 2014年08月
产品数: 2首页 &  NVIDIA夺面双雄 GT200全球同步首测
NVIDIA夺面双雄 GT200全球同步首测
作者:佚名&&时间:日
前言
  1995年5月,NVIDIA第一代产品NV1推出。
  1999年8月,世界上第一款GPU—GeForce 256诞生。
  2002年11月,NVIDIA首款DiretX 9芯片NV30推出。
  2004年4月,NVIDIA第一款DiretX 9.0C芯片面世。
  2006年11月,世界上首款支持DirectX 10新品G80与世人见面。
  日北京时间晚9点,NVIDIA最新GT200横空出世……
  ……
  G80开创了一个属于NVIDIA的DX10显卡时代。经过两年多的积淀,NVIDIA在今天正式全球发布了第二代统一计算架构的图形产品GT200,这是在Geforce 8/9系列基础上的又一次革新性的统一架构设计,它的发布宣告了一个CUDA桌面应用的时代正式到来,本文就将带着各位读者一起来解析这款2008年最重量级的GPU产品!
文章:孤竹の子、zZ、宁道奇、Metal、烈火
评测:zZ
索引
第一部分:开篇
第二部分:CUDA架构与视觉计算的方向
  CUDA的概念及API实现方式
  并行处理器与CPU的设计上的差异
第三部分:GT200并行计算架构
  共享缓存机制
  
STMT架构
  CUDA加速应用实例
  分布式计算:Folding@home
   视频转码
  PhysX物理运算
第四部分:GT200图形计算架构
  图形计算架构  
Medusa Tech Demo解析
  几何着色器与流处理器  
寄存器数量翻倍
  像素纹理比例改良  
ROP单元改良
显存位宽升级512bit  
加入动态功耗管理
第五部分:GTX280图形架构及硬件产品介绍
  GTX280/260规格差异
  GTX280
P651版型介绍
  GT200核心面积高达546mm2
  显存、供电部分  
外置NVIO芯片
  巨型双槽散热器
  首发厂商:XFX GTX 280
  首发厂商:耕昇GTX 280/260
第六部分:测试平台介绍
第七部分:GT200性能测试
  GPU视频转码测试
  3Dmark Vantage
  LightMark 2007
  孤岛危机
  刺客信条
  虚幻竞技场3
  生化奇兵
  战争机器
  失落星球:极限状态
  狂野西部
  鱼雷艇:海上骑士
  冲突世界
  雷神战争
  功耗对比测试
第七部分:后话
  测试总结
  编辑点评GTX 280
超越自我 GT200目标1.5倍G80性能
  无可否认,G80确实是一颗优秀的显示芯片,无论是其革命性的DirectX 10架构,还是其至今处于顶峰的旗舰性能,亦或是其衍生产品的高清解码能力,都促成了G80的经典地位。但是,在G80发布之后的两年中,我们似乎看到的是整个GPU行业不前,G92与G80同根同源,只能看作是G80核心的改良版本,性能提升根本无法达到我们的预期,而在性能上,G80核心的GeForce 8800Ultra至今仍旧是单核心显卡中性能的王者。G80虽然优秀,但是是否优秀到可以让这个被誉为超越”摩尔定律“的行业就此停滞不前?
  就像很多人抱怨一样,G80之后显卡界没有一款值得兴奋的产品,有人将这归结于AMD-ATI产品性能不济,没有竞争自然就没有发展,失去对手的NVIDIA自然也就放慢GPU的研发速度,然而事实却并不是有些人想象的那样……
  如果经常关注IT的发展动向,你会发现NVIDIA这个名字除了经常与AMD-ATI出现在一起之外,更多的时候则是与Intel联系在一起,本来作为合作伙伴这也无可厚非,但是我看到更多的则是针锋相对。也许在两年前,GPU还甘心做PC中仅次于CPU的第二大处理芯片,但是随着显卡所能实现的功能越来越多,GPU正在向PC中第一重要芯片的方向努力,GPU的作用越来越明显,甚至将主导PC的发展。GPU的不断壮大自然会威胁到CPU,那么战场自然就转移到Intel与NVIDIA——两个领域中王者之间。
  2007年初,Intel宣布回归独立显卡领域,预计在2009年出样“Larrabee”,同时进一步强调CPU才是PC的主导;而NVIDIA则继续的改变消费者对传统PC构架的认识,使消费者认同GPU的作用大于CPU,另一方面也全面部署GPU的通用计算的研发工作。而今天我们终于迎来了时隔两年之后的NVIDIA革命性产品——GT200。
FB Bandwidth
Texture Fill
PCI Express
  GT200是在没有对手可以超越的情况下诞生的,NVIDIA给G80的下一代旗舰产品定下的设计目标是:超越上代G80性能50%以上,在极限高清分辨率下保证动态3D即时渲染、同时满足高性能虚拟计算和专业计算的需求。因此我们看到的GTX 200系列GPU,核心内部拥有更多的处理核心数量和管线规模。同时在G80一代基础上,GT200在很多细节方面做出了改进,诸如纹理处理、几何单元、Dual issue,Stream out流输出,全面提升核心线程的执行效率和并行处理能力。
  GT200有两种不同的应用架构,一个是并行计算架构,另一个是图形计算架构,为什么会设计两种架构呢?让我们追根溯源,从GPU的发展谈起:
GPU发展之路:从CPU手中夺权开始
  显卡最初的作用是在CPU的控制下,将主机送来的显示数据转换为视频和同步信号送给显示器,最后再由显示器输出各种各样的图像。早期的显卡并不能承担所有图像处理的工作,它只是起到了一种“桥梁”的作用。 显卡可以对CPU发送过来的数字信号进行转换,使它成为显示器所能够识别的模拟信号。
  随着技术的进步,特别是图形操作系统的出现,人们便在显卡上集成一个可以快速处理图像数据的图形图像处理芯片, 于是这图形处理的重担便落到了显卡的身上,让显卡专门负责图形处理任务,这样CPU的任务就大大减轻了,如此分工合作,也大大提高了计算机的整体性能。 2D图形加速卡是早期显卡的一种简称,因为那时显卡只具备处理2D图形的能力。当电脑要要处理3D图形时,其数据计算和处理仍须由CPU完成。
IBM 电脑5150集成第一块显卡
   1981年,IBM推出个人电脑时顺便推出了单色显卡和彩色绘图卡两种显卡,主要进行文数字和图形方面的数据处理。在经历了漫长的2D时代发展之后,Matrox在1993年推出了历史上第一款准3D显卡Millenium?I,2001年微软发布的DirectX 8正式摒弃T&L(坐标转换和光源),以“Shader(着色器)”概念引起显卡界的革命后,DirectX 9.0/B/C粉墨登场,DirectX 10 API发布之后,G80携统一流处理单元架构面试,彻底终结了Pixel Shader和Vertex Shader的时代。
  在GeForce4 MX 时代NVIDIA就加入了硬件解码MPEG-II的功能,从而实现了播放DVD时较低的CPU占用率,后来随着PureVideo技术的推出,在高清电影方面也实现了GPU的硬件加速,G80之后,NVIDIA还加入对Google Earth、图片预览、Adobe Reade预览等等软件加速功能。
  从最初的桥梁作用,到之后无论是图像数据处理,还是2D、3D游戏的加速,其实显卡一直都是在做着解放CPU的工作,也许有些人认为显卡就是为游戏而生,然而实际上,这个最重要的功能也是从CPU手中夺得的,只是经过近20多年的发展,人们已经习惯于把游戏功能和显卡划等号。
谁能主导未来 GPGPU和CUDA差异比较
GPGPU和CUDA实现上的差别
  如果只是显卡从游戏手中夺得了游戏功能也就算了,最近几年的高清视之战也是GPU从CPU手中夺取本来该由CPU处理的工作,而近几年随着通用计算处理器GPGPU(General-Purpose computing on Graphics Processing Units)的提出,在科学和专业领域、医学等领域以颇有建树,CPU的地位更是进一步被GPU所蚕食,民用领域中,实际上我们所说的高清硬件解码也是GPGPU计算的一个初级形态。
  大家也都知道,目前针对GPU实现通用并行计算的CUDA解决方案与GPGPU两者实现有何区别呢?这里笔者陈述一下自己的理解。
  GPGPU和CUDA实现最的差异就在对GPU通用计算的理解层次不同。GPGPU仍旧把GPU当作一块显卡,它使用DirectX和OpenGL这样的图形API实现计算目的,正因为如此,它需要编程人员了解图形AIP和硬件的细节。这样编程模型也限制了随机读取显存和线程协调方式。而CUDA的通用并行计算实现则更彻底,打破了图形API的限制,编程人员不会感觉到和以往在CPU编程的区别。
  比如在图形API中,API框架限制了在预先制定好的内存单元输出32位浮点(渲染目标格式是RGBA*8),这限制了很多新的算法不适合使用图形API来实现。图形API强制用户把数据存储为纹理格式,它需要把长数组打包为2D纹理格式。这对于通用计算不但繁琐,而且必须加入额外的寻址算法,这都会增加额外的开销。
  与此相对应,CUDA使用C的一个扩展来进行并行计算,它允许编程人员使用C编程,不需要把问题转化为图形处理元素来处理,任何能用C编程的程序员能够理所当然的掌握CUDA编程。CUDA对地址单元和存储数量没有任何限制,同时也支持数据存储为标准数组形式,同时能够对任意显存地址进行访问。
  由于GPGPU开发程序需要程序员详细了解专业的图形语言等,因此一直都无法大规模普及,而解决这一问题的关键就是NVIDIA的CUDA。
关于CUDA:
  CUDA是NVIDIA针对GPU的C语言开发环境开发的通用计算平台标准,全称是Compute Unified Device
Architecture统一计算设备架构。CUDA可以充分应用GeForce 8/9系列 GPU
流处理单元的浮点运算能力,解决复杂的科学运算问题,诸如地质勘探,生物学,流体力学,金融建模等等。根据NVIDIA的测试,8800显卡在CUDA架构中的峰值运算能力可达520GFlops,因此如果构建SLI双卡系统,可以达到1TFlops(即每秒运算1万亿次)的强大运算能力。
CUDA如何调用GPU众多线程
  在了解了通用计算架构的概念和开发语言环境后,我们下面来具体谈一谈CUDA的运行方式:CUDA包含3个主要的组件,可以高效执行并行程序的GPU,一个可访问GPU上并行计算资源的编译器,以及一个计算专用的CUDA驱动。
  CUDA的执行过程,首先要分析现有的程序或者算法哪些代码段存在瓶颈,并且适合做并行执行。接着,这些函数将重定向到GPU,用CUDA的扩展C去重新定义并行数据结构和操作。程序被NVIDIA的CUDA编译器重新编译,产生供CPU和GPU共同执行的代码。当程序执行时,CPU自行代码的串行部分,而GPU则执行包含大量计算的CUDA代码。GPU执行的代码部分也可以被称为“kernel”部分,它定义了加载在数据组上的若干操作。
  GPU收到“kernel”代码后,对数据组中的每一个元素创建一个实例,这些kernel实例就被称为线程。一个线程包含它自己的程序计数器,寄存器和状态。对于一个大型的数据组,比如图片或者数据处理,会产生上百万的个线程。
  线程在GPU中是以32个为一个“warps”组的形式执行的。Waps被线程调度部分分配到流处理器组SM中执行。一个SM包含8个处理器核心,每一个核心称为流处理器单元SP,或线程处理器,具备每线程一个指令的执行能力。因此,执行完毕一个32线程的Warp,SM单元需要4个处理时钟周期。
  不过我们要认识到,SM本身也是高度多线程化设计的,支持同时执行32warps。在每一个时钟内,硬件接收、选取哪一个warp执行,从一个warp切换到下一个之间不会有任何性能上的损耗。我们再来看看CPU宣称的同时执行32个程序并且无损切换运行环境的真实情况,实际上大多数CPU核心同时支持一个程序段,当程序进行进场或者退场切换时,往往会产生上百的时钟延迟。
  举个最简单的例子,我们手头有个最简单不过的计算,两个包含1000个元素的数组相加。如果是CPU做这件事情,顺其自然是进行不断的循环操作,把两个数组中的对应元素相加产生新的数组元素,对于本例来说,必须进行1000次循环操作。而GPU如何执行这个操作呢,GPU定义一个数组的加操作,并且为数组中的每一个数据元素生成一个加法的程序的实例,对于上面的1000个元素的数组也就需要发布1000个加法线程。对于今天拥有240个内核的主角GTX280来说,只要5个时钟周期就可以完成。
  通说上述的分析,我们不难看出CUDA的本质思想,CUDA程序定义了一个程序的并行关系,然后GPU接收到这些信息后硬件发布线程。而编程者就能从繁琐的线程的创建、管理和撤出设计中解放出来。同时CUDA还允许程序编译一次后在拥有不同核心数量的GPU上执行。
  2007年2月,NVIDIA就发布了CUDA软件开发包及C语言编译器的0.8版本,G80系列GPU可以完整的支援CUDA架构,不过其问世后仍旧只针对非常适合大运算量的科学应用,诸如地质勘探,生物学,流体力学,金融建模等专业领域,离民用级运算还有一段路要走。CUDA1.1版本之后,桌面级显卡驱动中也集成了CUDA驱动,GeForce 8/9系列显卡均可支持CUDA软件。
 CUDA的出现,使得GPU变得不再是一块简单的3D图形处理器,这种全新架构的计算方式,威胁的最大对手将会是X86架构!
CUDA要革谁的命?X86处理器很紧张
  日是X86诞生的30周年,在PC领域“X86无处不在”,30年沉淀庞大的软件群支持几乎使X86不可能被超越,这其中也包括Intel自己,历时10余年耗资巨大安腾IA-64架构的建树也远无法与X86架构相提并论,几年前辈炒得火热的X86-64技术也只是X86架构的升级版本。
  CUDA架构又是凭什么抗衡似乎无所不能X86架构?这就与前文NVIDIA所提出的在PC中GPU作用大于CPU谈起,因为所谓的CUDA架构对抗X86架构,实际就是GPU与CPU作用与功能之间的对决,下面我们来来看一下GPU与CPU设计方向上的差异。
  随着GPU设计完全可编程化后,“GPU通用计算”的概念开始浮出水面,读者在理解这一技术为我们未来电脑使用带来的巨大变革之前,我们先来看看GPU和CPU设计的思路的天然差别——GPU的设计更注重运算能力和吞吐能力,而CPU关注的重点则在减少延迟使它的流水线时刻处在忙碌状态(提高缓存的命中率和分支预测准确度),最终CPU和GPU实现产品硅片上不同功能晶体管所占面积的比重就很能说明问题,CPU把80%的晶体管用来实现片上缓存,20%用来实现真正的运算部分;而GPU用在计算上的晶体管数量占到全部的80%。随着GPU通用计算概念的诞生,自身设计也在进行一定的调整。我们可以将两者的主要区别归纳一下:
设计目标:
CPU:设计是尽可能快的执行一串指令,
GPU:的设计则是尽快执行多并行的代码串;
晶体管占用量:
CPU:住要的晶体管用在指令排序缓存、保留栈、分支预测等硬件实现,还有大容量on-die缓存。这些设计都是为了加速执行单线程的能力。
GPU:晶体管主要都投放在处理器阵列、多线程硬件、共享缓存以及多内存控制器上,这些设计不是专门为提升一个特别线程的速度,而是使得整个GPU能够支持数万线程同时运行,促进线程间的通讯,以及持续的高显存带宽。
Cache的作用:
CPU的cache设计通过减少访存延迟来提高性能。而GPU使用cache(或者软件管理的共享存储器)来增强带宽性能。
如何控制延迟:
CPU通过更大的cache和硬件分支预测来控制访存延迟。这一方面会占用大量的die面积,同时也是能耗大户。GPU通过一次载入上千线程来控制延迟,如果哪一个线程需要等待从显存载入数据,GPU马上无延迟的切换到另一个线程替换。
多线程能力:
到目前为止,我们能买到的桌面CPU每个核心的最多支持2个线程,CUDA支持下的GPU每个SM能够同时支持1024的线程。两者在切换线程时的时钟消耗差异巨大,CPU通常有数百个时钟,而GPU一般只需几个线程,几乎达到无损。
SIMD VS SIMT:
CPU使用SIMD(单指令多数据)单元进行矢量计算。GPU使用SIMT(单指令多线程)进行标量线程运算。SIMT不需要编程人员把数据重组成矢量形式,而且允许线程的任意分支行为。
内存控制:
现在CPU和GPU之间的访存吞吐也存在巨大差异,CPU一般使用 64bit内存控制器,或是分离到北桥或是集成,而CUDA支持的GPU最多支持GPU的八个内存控制器,实现带宽是CPU的10倍!
  那么GPU和CPU各自设计特点决定自身的应用优势又在哪里呢?CPU的设计构架更擅长有分支和随机访存的串行计算,GPU则在大规模并行的浮点运算中有优势突出。如此说来可能还是有些抽象,因为现实世界的软件也从来不会按照简单的串并行来区分这些,实际上,也几乎没有软件能纯粹地划归为串行或者并行实现的。绝大多数软件会根据所需混合使用串并行运算。真要把我们平常使用的软件归归类,那么像编译器、字处理软件、Web浏览器,email客户端可以看作典型的串行实现的软件;而像视频回放、视频编码、图片处理、科学计算、物理模拟以及3D图形处理(无论是光线跟踪还是现在主流的光栅化处理)都是典型的并行应用。
夺面双雄第一面:GT200并行计算架构
    可以说,NVIDIA在开发GT200时更多的考虑是如何将其并行计算能力发挥到极致,下面以Geforce GTX 280为例来分析一下GT200的并行计算架构(Parallel Computing Arthitecture)。GT200庞大的核心Shader阵列和新增的功能单元,更多是出于提升并行计算的能力和效率而设计的。
  
  GT200并行计算模型包括一个庞大的TPC线程阵列,共有10组,每组TPC阵列拥有一个基于硬件的线程管理器(thread Scheduler)、材质纹理缓存(Texture caches)、L2纹理缓存、显存界面单元(Memory Interface units),纹理缓存通过“Atomic”单元来自动调整和控制对显存的读写访问操作。控制Combine内存访问,为实现更高效和更高带宽的内存读写操作。“”Atomic单元的功能是提供内存定址和减少并行,和并行数据结构管理。
 和传统CPU当中片上缓存占据大部分芯片面积不同,GeForce GTX 200 GPU当中,大部分芯片面积都用来进行图形和计算处理。粗略的统计显示,CPU芯片当中只有20%的晶体管专门用来进行逻辑计算,而GPU芯片当中有80%的晶体管都用来进行逻辑计算。
每个SM单元共享16k缓存
  GT200内部的每个TPC均集成3个TPA,NVIDIA在每个TPA均加入了16KB本地共享缓存。TPA单元中的线程处理核心不仅可以与同TPA中的其他处理器交换数据,与其他TPA单元中的线程处理也可以通过共享内存交换数据,不需进行读取、写入操作,也不用占用外部LI缓存,完全做到数据共享,这种架构设计会大大提升线程并行的效率,加速计算的速度,并且对各种类型的计算都有显著的加速效果,其实这种设计也是在将计算延迟降到最低。
  一个TPC单元,在每三个SM模块阵列中拥有16k片上共享缓存,位于SM中的每个流处理核心与其它核心共享数据,而不需要去访问外部的显存部分。
  线程处理器中包含3个部分,运算单元(包括浮点与整数运算)、寄存器,运算单元负责数据的浮点、整数及二进制位(bit)内存操作、,逻辑操作运算,寄存器组则相当于缓存的功能,负责数据的存储。
  通过240个线程计算器与1300MHz的线程处理器频率,GeForce GTX 280可提供933 gigaflops的浮点运算能力,比G80的浮点能力翻了一番,对比目前顶级的酷睿2处理器则可以提供的30~50 gigaflops能力,高出了几十倍。另外我们需要注意的是,之前在比较GPU与CPU处理能力的时候总是忽略的整数性能的比较,这是因为之前用于GPU与CPU不同的程序,而如果GPU要真正通过CUDA架构涉及桌面级的主流程序运算,整数能力也就变得至关重要,因为3D以为的程序通常考验的是处理器的整数能力。不过无须担心,因为GeForce GTX 280的整数能力同样是目前顶级CPU的几十倍。
让线程满负荷高效工作 SIMT架构解析
  除了线程数提升到G80的2.5倍以外,SIMT(Single instruction-multiple thread)单指令多线程架构的引入,也保证了GeForce GTX 280的每个线程处理器可以全负荷工作。
  GeForce GTX 280的TPC线程阵列使用的是MIMD多指令多数据的处理方式,而具体到TPA则是采用了SIMT。MIMD比SIMD(单指令多数据)更进一步强调了晶体管的执行效率,但是缺点是更加难控制,解决好了指令和数据的控制问题,MIMD就能真正的发挥威力,那么MIMD就是最高效和理想状态的体系结构。
  而关于GeForce GTX 280能否解决好指令和数据控制问题我们根本就不需要担心,因为在G80时期NVIDIA的线程管理器设计功底就已经有目共睹,G80可以128个SP完胜R600的320PSU,线程管理器GigaThread就功不可没。
  而在TPA中采用SIMT架构则更加完善GPU的整体执行效率。SIMT是由SIMD单指令多数据的处理方式中改进而来的,这种设计既能保证处理的效能,同时又兼顾了硬件的可编程性。
  SIMT使用的是标量指令,这点与G80相同,不必再设置矢量指令的宽度,因此它们可以全速处理固定长度的矢量指令。相反的如果输入的指令长度更小,那么SIMT处理的速度也要比MIMD和SIMD要慢。因此SIMT可以确保每一个处理核心总是能够全负荷工作。从程序员的视角来看,SIMT也可以为每一个线程设定自己独立的处理路径,在对矢量指令的管理中,硬件可以自动进行分支,而不必分支管理器进行干预。
可执行多达3w的线程数量
  其实单纯的比较这些浮点与整数的运算数值并没有太多意义,举个简单的例子,如果只论浮点预算能力,G80是无法与R600与RV770相比较的,但是我们知道G80核心的GeForce 8800 GTX所能提供的运算能力越是R600及RV770所无法企及的,这是因为NVIDIA在设计产品的时候不仅考虑到ALU的理论浮点运算能力(Flops),ALU的运算效率也同样是NVIDIA关注的重点。
  从前文的GeForce GTX 280线程处理器分析中我们可以发现,GeForce GTX 280更像是一颗传统CPU的核心设计,整数和浮点运算,内存操作运算,逻辑操作等设计,GeForce GTX 280的每一个线程处理器是一个带有多重管线阶层的硬件级多线程处理器,硬件级别的线程调度确保所有的处理核心都100%满负荷运转。如果比较特殊的线程在等待访问显存,那么GeForce GTX 280的硬件级别的调度控制就可以马上顺序切换到后面的线程,让其他线程可以对显存进行不间断的访问,从而实现零等待的高效显存访问机制。
SM per TPC
Thread per SM
Total Threads per Chip
Geforce 8/9
Geforce GTX 200
  在TPA中的多重指令处理单元可以同时创建、管理、调度和执行32组并行的指令,在GPU中是以32个为一个“warps”组的形式执行的。Waps被线程调度部分分配到流处理器组SM中执行。一个SM包含8个处理器核心,每一个核心成为流处理器单元SP,或线程处理器,具备每线程一个指令的执行能力。因此,执行完毕一个32线程的Warp,SM单元需要4个处理时钟周期。
  GeForce GTX 280具备32 Warps/SM的处理能力,而上代GeForce 8、9中仅仅具备24 Warps/SM的处理能力。G80可以处理的线程数是12,288个,GeForce GTX 280拥有10组TPC单元,每个TPC单元具备3个TPA单元,而每个TPA中可以运行1024个线程,那么GeForce GTX 280的最大线程数量可以达到30720个(1024线程/TPA x 3TPA/TPC x 10T
PCs=30720)。
双精度支持
  其实双精度浮点运算在民用领域涉及的并不多,主要集中在科学计算等领域应用,不过既然GeForce GTX 200作为并行架构处理器出现,那么支持双精度运算也就无可厚非了。
  GeForce GTX 200 GPU架构当中,TPA核心内建一个双精度64bit浮点算术单元,达成全部30个双精度64bit处理核心。GeForce GTX 200中的专用流处理核心可以得到全速的双精度乘法运算(MAD),并且乘法运算使用线程处理器中的MAD单元,每个线程处理器可以进行三个浮点运算,将原始的顶点单元属性值,进行像素属性值的转换。
  每个双精度单元可以执行1个fused累加,这种累加是1个双精度MAD指令,它完全遵循IEEE754R浮点标准。GeForce GTX 200 GPU当中全部10个TPC的双精度整体效能等于8核心Xeon
CPU的效能,大约90gigaflops,而GeForce GTX 200的能够提供近乎1 Teraflop的单精度IEEE 754标准浮点运算能力。
CUDA实例—Folding@home分布式计算
  基于CUDA的商业计算离普通消费者似乎远了一些,在这次GT200首发之日,NVIDIA给我们带来了一个GPU通过CUDA实现分布式计算的应用实例。
  分布式计算是这几年来兴起的一门计算机科学,网格计算、云计算等概念都与其有类似的地方。它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,利用互联网上的计算机的 CPU的闲置处理能力来解决大型计算问题的一种计算科学。
  Folding@home是一个研究研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算工程。使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引近期对由折叠引起的疾病的一系列研究。
Folding@home目前进行中的研究:
  ● 阿兹海默症
  ●癌症
  ●亨廷顿病
  ●成骨不全症
  ●帕金森氏症
  ●核糖体与抗生素
  自日起,在世界范围内已经有超过一百万颗CPU参与了本项目!感兴趣的朋友可以去/folding/去看看。Folding@home支持多种处理器和平台运算,包括CPU,GPU及PS3,在GPU支持方面可以支持所有的ATI显卡运行,此前并没有支持NVIDIA的GPU运算。随着Forceware 177.34驱动发布,NVIDIA也给我们带来了Folding@home CUDA客户端,能支持GT200以及Gefroce 8/9系列GPU进行分布式计算。NVIDIA测试数据得到GeForce GTX 280 运算初速为500 mol/day,而HD3870只有170mol/day,PS3速度为100mol/day,而CPU仅仅为4mol/day,GT200的速度分别是RV670的3倍和PS3的5倍,是CPU的160多倍。
  Folding@home小组领导、斯坦福大学助理教授Vijay Pande称,即使全球NVIDIA CUDA显卡用户中只有1%参与到这一项目中来,也能让Folding@home迅速成为全球最强大的高性能计算系统,处理能力可达60-80PFLops。
CUDA走进桌面应用 GPU视频转码比CPU快18X
  使用过Premiere、After Effect等软件的用户都知道,视频编、转码其实是一个非常耗时间的过程,而目前的绝大多数的软件还是依赖于CPU,进行编码、转码计算时不仅需要占用大量的时间,而且对整个PC的资源也占用非常之大,如同在没有PureVideo HD之前我们观看高清电影一样,在转码期间我们几乎无法再对电脑进行任何的其他程序操作。
  BadaBOOM Media Converter是Elemental Technologies公司联合NVIDIA开发的一款基于CUDA平台的转码软件,这个软件可以将MPEG/MPEG-II格式的影片转换成H.264编码VOB格式,在Apple风靡全球的的Iphone/Ipod等便携式设备播放。
实时转码的速度起码要达到每秒24fps以上
  一个时长2小时的高清片源,在BadaBOOM Media Converter上采用GeForce GTX 280进行视频编码仅需要35分钟,达到了Super Real-Time(超实时转码)的速度,要比目前顶级的4核处理器快18倍。同时我们还可以使用电脑处理其他任务,在这转码完成的这段时间,将不再是无任何意义的枯燥等待!
   目前我们的测试版本还只能支持到GT200系列,6月17日,也就是CUDA 2.0版正式发布的时候,BadaBOOM Media Converter正式版也会实时推出,同时也会加入对GeForce 8/9系列GPU的支持!
CUDA PhysX物理加速
  在即将发布的CUDA 2.0另外一个应用是PhysX物理加速,为抗衡Intel早前并购物理加速引擎开发公司Havok所得的技术
,NVIDIA今年收购了物理加速卡厂商AGEIA,取得其 PhysX物理加速技术。经过数月开发后,NVIDIA已经完成了新版PhysX软件开发,使用GPU作为运算核心,并将在6月17日发布。
独立PhyX PPU已经成为历史
  在收购AGEIA之后,NVIDIA宣布PhysX物理加速芯片将不再继续开发,取而代之的是建立在CUDA 2.0的新版PhysX驱动,GeForce 8/9,以及现在的GeForce GTX 200都将支持PhysX物理加速能力,其性能将达到单纯使用处理器加速的十几倍。
  所有目前已使用PhysX技术的游戏都支持新版驱动程序,如果装有支持CUDA平台的显卡,游戏将自动选取显卡进行物理加速运算,否则仍会使用性能较慢的CPU进行运算。此外,PhysX并不只使用于游戏市场,同时亦会运用
CUDA通用运算领域上,应用更广。
  游戏中实现物理加速绝非易事,它是一种对计算性能要求极高的环境,以一整套独特的物理学算法集为基础,需要同时运行大量的数学和逻辑运算。由于游戏物理学具有高度并行和互动的特性,因此GPU架构自然比CPU更加适合这种计算工作,物理运算需要十分强大的整数及浮点运算能力,而这正是GPU的强项,前文已经分析过,目前GPU的浮点及整数能力均是CPU的几十倍。
  NVIDIA
PhysX是一种功能强大的物理加速引擎,可在顶级PC和游戏中实现实时的物理学计算。PhysX软件被广泛应用于150多个游戏中,开发人员超越25000人,软件注册用户数量已超过10,000名。索尼的Playstation
3、微软的Xbox 360、任天堂的Wii以及个人计算机均支持PhysX,PC中支持多核CPU,GPU,PPU,并且是唯一CPU和CPU+GPU物理解决方案。
  此外,PhysX设计用途是利用具备数百个内核的强大处理器来进行硬件加速。加上GPU超强的并行处理能力,PhysX将使物理加速处理能力呈指数倍增长并将游戏体验提升至一个全新的水平,在游戏中呈现丰富多彩、身临其境的物理学游戏环境。其中特色如下:
爆炸引起的烟尘和随之产生的碎片
复杂、连贯的几何学计算使人物的动作和互动更加逼真
其视觉效果令人叹为观止的全新武器
布纹的编织和撕裂效果非常自然
运动物体周围烟雾翻腾
  目前采用NVIDIA
PhysX的开发者数量正在呈几何式增长,在通过CUDA实现GeForce运行PhysX的第一个月中,超过12个AAA级游戏开发商签约采用GeForce PhysX,这比AGEIA在两年内签约的项目还要多,因为物理+图形计算一体化解决方案更受开发者的钟爱。
  到现在为止,已经有超过150款游戏采用PhysX物理引擎,包括我们熟知的虚幻竞技场3,即将发布的支持Geforce PhysX的游戏;《Backbreaker》By Natural Motion,《Bionic Commando》by GRIN,《Borderlands》by Gearbox Software,《Shadow Harvest》by Black Lion,《Space Siegek》by
GPG,《Mirrors Edge》by DICE,《MStar》by Nurien,《APB》By Realtime Worlds。
  在合适的机会收购AGEIA,将本质上等同于多线程的密集运算的物理加速技术整合到CUDA 2.0中,可以看出NVIDIA的远见卓识,物理运算最终是要为3D游戏而服务的,下页开始进入GT200的图形架构分析。
夺面双雄另一面:GT200图形处理架构
GT200图形计算架构模型
  GeForce GTX 280的最小运算单元为Thread Processor(线程处理器),在图形运算中就是标量流处理器,8个线程处理器组成线程处理阵列(Thread Processor Array, 简称TPA),而3个TPA则组成了一个Thread Processor Cluster(现成处理阵列,简称TPC),因此在GeForce GTX 280中共有240个线程处理器,30个TPA及10组TPC。
GT200图形架构与并行架构的区别:
  与前面GT200并行计算架构模型对比,你会发现,图形渲染架构多了几何Shader、ROPs单元这个单元模块,而少了“Atomic”SM控制单元。NVIDIA亚太区市场经理邓培植先生在讲解图形处理器与Tesla处理器的差别时,也特别提到这一点,因为并行计算需要的是GPU核心强大的多线程处理器浮点运算能力,不需要ROPs光栅输出这个步骤,因此在模型图里少了这一块功能单元。
  从这个意义上去理解的话,GT200可以看作是Tesla和Geforce GPU的复合体,546mm2的Die Size面积,14亿个晶体管数量对于“一芯双面”的GT200也就不出奇了。
英雄难过美人关 GT200 Tech Demo解析
  为了配合展示GeForce
GTX 200的强大性能,NVIDIA特别了制作一个名为“Medusa”的Tech demo。在以往NVIDIA的DEMO通常都是一个人物,而在“Medusa” DEMO不但主要人物增多,而且更加重视庞大场景的描绘。
Adrianne demo
  与Adrianne demo相比较,美杜莎demo场景平均每帧需要超过3百万个三角形生成。游戏中的人物之一勇士身体变成石头的过程运用了Geometry Shader特性,多大120个Render Passes多重渲染数据通过“Stream out直接从显存中调用数据,输回给像素或缓冲区,从而快速生成人物的皮肤、头发等。小熊在线.cn
Adrianne demo
  美杜莎摆动的头发加入了NVIDIA自家的PhysX物理特效,使得Demo摆脱了上代Adrianne demo的照片级静态真实感(Photorealism),达到动态真实的效果Dynamic Realism。
  人物皮肤采用了“纹理空间光照”特效,10个分解的高斯模糊(gaussian blur)的后处理特效。DEMO场景地面采用了soft Shadows软边阴影和视觉闭塞映射(occlusion)特效。DirectX 纹理缓存应用于人物的面部表情变化基于GPU硬件动态生成的化石(petrification)及变形、火光和烟雾。
支持10-bit色彩输出
Far Cry 2 - 极度高清动态美景(育碧)
  GeForce GTX 200效能高出前代GPU 50-100%,可以以更高游戏帧数和Extreme HD分辨率下运行特效全开的游戏,获得真正的电影级游戏体验。 GeForce GTX 200支持新的DisplayPort输出,允许超过的分辨率,支持10-bit色彩,达成全屏超过10亿种不同的色彩(需要驱动程序,显示器和应用程序支持)。
  这里需要注意的是前代G80也内建内部10bit色彩处理,但是只能支持8bit复合色彩输出(RGB)。GeForce
GTX 200 GPU允许10-bit内部处理和10-bit色彩输出。
关于Gorgon Medusa(戈耳工 美杜莎)
戈耳工是希腊神话中的蛇发女妖三姐妹,居住在遥远的西方,是海神福耳库斯的女儿。高更(Gorgon)妖女族的族人,而高更族人都有用眼睛将人变石头的能力。因吹嘘自己比雅典娜长得漂亮而被这位智慧女神夺去了她的所有美丽,并且将头发变成毒蛇,成为一头面目狰狞的怪物。她们的头上和脖子上布满鳞甲,头发是一条条蠕动的毒蛇,长着野猪的獠牙,还有一双铁手和金翅膀,任何看到她们的人都会立即变成石头。
改进的几何着色和流输出
  前面的Medusa DEMO NVIDIA特别强调了高效的几何着色和流输出在未来游戏中的作用,而GT200在几何着色器和流输出方面比上代G80也做出了很大改进。
  这里跟大家回顾一下几何着色器(Geometry Shader)和流输出。在DirectX 10之前,几何体必须在写入显存之前被光栅化并送入像素着色器(pixel shader)。几何着色器是Shader Model 4.0中最新引入的功能单元,第一次允许程序在图像处理器中创建新数据。GPU在系统中本来只可处理已有数据,而有了何着色器之后,GPU不但可以处理数据同时又可生成数据。
  DirectX 10引入了一个叫做数据流输出(Stream Output),它允许数据从顶点着色器或几何着色器中直接被传入帧缓冲内存(Frame Buffer Memory)。这种输出可以被传回渲染流水线重新处理。当几何着色器与数据流输出结合使用时,GPU不仅可以处理新的图形算法,还可以提高一般运算和物理运算的效率。
  和前代GPU相比,GeForce GTX 200 GPU内部的输出缓冲架构尺寸提升了6倍,因此提供快得多的几何着色和流输出效能。上图显示最新的RightMark 3D 2.0 Benchmark测试成绩,其中包括几何着色测试。GeForce GTX 280 GPU的效能比前代GPU和竞争对手产品快得多。
Register file寄存器数量翻倍
  比起G80一代,GTX 200的寄存器数量翻了一倍。寄存器是比缓存拥有更高的读取和写入速度,是处理核心与缓存之间的桥梁。大量的寄存器也是NVIDIAG80与GT200线程处理器异步频率运行的基础,因为线程处理器主要依赖于寄存器,不像纹理映射单元一样频繁访问显卡内存。而寄存器的访问速度与延迟到非常低,因此流处理器才可以比纹理单元拥有更高的运行频率。
  在G80 GPU中,遇到了超长的Shader指令时,寄存器就会爆满,这时就需要与外缓存交换数据。而更大容量的寄存器可以保证存储更长更复杂的Shader指令,与存储器交换数据的几率就会变小,那么需要等待的数据延迟自认就会变小,因此GeForce GTX 280可以保证指令更快更有效率的执行。
  现在游戏越来越多地采用更加复杂的着色程序,因此需要更多的寄存器空间。扩展寄存器的容量虽然会导致芯片的体积增大,不过增大的部分也是微不足道的,在在接受的范围内。通过上图的表格,我们可以看到,当寄存器的容量增大了1倍之后,在3D Mark Vantage的得分也相应得到了大幅提升。因为GPU可以运行更长,更复杂的指令,大大提高了处理效率。
Dual-Issue的回归
  Dual-Issue是指标量指令+矢量指令并行处理能力,其实在NVIDIA的产品上,Dual-Issue一直是一个有意思的话题,NV30不支持Co-Issue导致产品并行能力较差,因此在NVIDIA在NV40时期加入了Co-Issue功能,并且命名为Dual-Issue,与之前的Co-Issue相比,执行方式上也更灵活,不仅支持常见的3D+1D,还可进行了2D+2D的操作。而到了G80时期,由于流处理器单元采用了1D标量的处理方式,因此在进行图形运算时Co-Issue功能并没有被开启,不过在进行CUDA通用计算时却可以开启。
  NVIDIA一直对外宣称G80拥有518GFlops的浮点运算能力,而进行图形运算时却只能达到345GFlops,后来在G84/86中在图形运算时也开启了Dual-Issue功能,不过可惜的是在G92中,Dual-Issue功能还是被取消了。
  GT200中终于又可以支持Dual-Issue功能了!GeForce GTX 200的SM当中特殊功能单元(SFU)主要负责复杂算术计算、归属解释和执行浮点MUL指令。通过采用SP的MAD单元,来在每时钟周期执行1个MUL和ADD操作,GeForce GTX 200 GPU当中的单个流处理核心现在几乎可以用全速Dual Issue的方式来进行累加(MAD)操作和MUL操作(3flops/SP)。同时,在相同的时钟周期内采用SFU来进行另外一次MUL操作。优化和直接的测试显示,效率比前代GPU提升93-94%。
  GeForce GTX 200 GPU当中全部的SPA单元,可以提供将近1 Tereaflop的峰值单精度IEEE754浮点运算效能,接近G80的3倍。NVIDIA的演示文档里用3DV的两项GPU物理性能运算来比较Single-Issue与的理论指标,我们后面会有针对Dual-Issue的测试。
改善的纹理性能
  GTX 200同样提供了一种更为平衡的纹理寻址和填充组合,每10个TPC阵列包括一组2-4比例纹理单元组合,每个时钟周期能够完成8个像素的双向性,或者是4个2:1比例的异向性过滤,或者4个FP16 双向性过滤操作。
  GeForce 8800 GTX当中内建的8个TPC阵列,每时钟周期可以为64个像素进行纹理过滤,可以同时为32个像素进行纹理寻址及2x各向异性双线性过滤(8bit整数),或者32双线性过滤的像素(8bit整数或者16bit浮点)。GeForce 8800 GTX之后的GeForce 8和9系列GPU平衡了纹理寻址和纹理过滤。 例如,GeForce 9800 GTX每时钟周期可以寻址和过滤64个像素,每时钟周期支持64双线性过滤的像素(8bit整数)或者32双线性过滤的像素(16bit浮点)。
G80纹理单元TA:TF=1:2,G92改进为1:1
  GeForce GTX 200 GPU也提供纹理寻址和纹理过滤的平衡,GeForce GTX 200 GPU当中10个TPC当中每个TPC都包含1个双块纹理单元,每时钟周期可以寻址和过滤8个双线性像素,或者4个2:1各向异性过滤的像素,或者4个FP16双线性的像素。GeForce GTX 200 GPU全部的双线性纹理寻址和过滤效能是每时钟周期80个像素。
理论填充率
3DMark测试结果
测试与理论效率比
Geforce 9系列
Geforce GTX 200
  GTX 200使用了一种更高效的管理器,允许GPU核心获得接近理论峰值的纹理填充率。根据NVIDIA内部的测试数据,在实际的游戏或软件应用中,GTX 200的纹理过滤性能要比Geforce 9800系列快22%。
更高的像素/纹理比率
  显卡的讨论总是离不开像素、纹理、顶点、ROP等这些最基本的功能单元,而这些单元的比率问题再每一代都会有所不同,而这也是游戏发展之路的真实写照。最早像素单元与纹理单元的比值为1:1,而后来人们发现当时游戏不需要更多的像素处理单元,因此GPU厂商们更愿意在纹理单元的数量上下功夫,例如我们熟知的NV30以前产品,其像素单元与纹理单元比值为1:2,而AMD-ATI的RV200更是做到了1:3,当游戏越来越注重像素运算的时候,R300首次采用1:1的像素与纹理比值,后来NV40也跟进这一比值,而后R530上像素与纹理比值破天荒的达到了3:1,之后的游戏也证明更大的像素/纹理值更加适应游戏的发展,G80时达到了2:1。
  NVIDIA的纹理单元与AMD-ATI的设计思路不同,NVIDIA是将纹理单元直接绑定在SM中,同核心及衍生产品的SP单元与纹理单元比值相同,这样可以使数据响应延迟比较低;而AMD-ATI则是将纹理单元独立于像素单元之外,因此可以根据高中低端产品设置不同的流处理器与纹理单元比值,甚至L2缓存也可以做到不同。
  GeForce GTX 200 GPU设计因此从平衡着色和纹理,发展到更高的着色和纹理比率。通过每个TPC多加入1组SM单元,同时保持纹理硬件不变,这样每个TPC中流处理器个数达到了24个,而纹理单元则仍停留在8个,由于GT200拥有10组TCP,因此纹理总数为80个。
  对比G80,现在GeForce GTX 200 GPU当中着色/纹理的比率已经提升50%。这样GT200的纹理处理能力达到了48GT/s,虽然对比G80有所提升,不过像素单元与纹理单元的运算效能比值仍旧从G80的14:1提升到19:1,这是因为GT200的流处理器能力提升的更高。
ROP为高分辨率改进 增加到32个
  上代GeForce 8系列拥有6组ROP,每组可以处理4个像素,因而一共可以每时钟可以处理24个包含颜色和Z信息的像素。如果是Z-only处理,则可以实现每时钟192个单像素的处理。如果是4x multisampled antialiasing打开,则可以完成48个Z-only操作。
G80 16X CSAA
  GeForce 8系列当中ROP光栅单元支持多重采样反锯齿、超级采样反锯齿、透明自适应反锯齿和覆盖采样反锯齿。也支持浮点(FP16和FP32)渲染目标表面的帧缓冲混合,用来和多重采样反锯齿结合,达成出色的HDR渲染质量。
GT200图形计算架构模型
  G80内建6个ROP Array,每时钟周期可以输出24个像素,混合12个像素,GeForce GTX 280则内建,8个ROP Array,每组包括4个ROP单元,下图中黄色框内为一个完整的ROP单元,总量达到32个,每时钟周期可以输出32个像素,混合32个像素。
  GeForce GTX 200 GPU的ROP子系统支持前代GPU所有的ROP功能,并且每时钟周期提供最大32个像素的输出功能(4个像素/每ROP分区x8个ROP分区)。GeForce GTX 200 GPU当中每个ROP分区支持8xMSAA情况下,最大32个色彩和Z轴采样。采用U8(8bit未分配整数)数据格式的像素混合速度,比前代GPU的速度提升了2倍。
引入512bit位宽 带宽高达142GB/s
  如今3D游戏采用各种各样的纹理来达成更高的真实感。法线贴图用来增强物体表面的真实感,立方体贴图被用来达成反射效果,高分辨率透视阴影贴图用来创建软阴影效果。这意味着现在渲染1个场景所需的内存容量远大于传统依赖于基本纹理的渲染。延迟渲染引擎也大量广泛地采用多重渲染目标,即合成最终画面之前已经进行多个物体的渲染。这种渲染技术耗费大量的显存容量和显存带宽,特别是延迟渲染和反锯齿相结合的时候。
  虽然G80正式发布时没有达到人们预期的512Bit不免让人有些失望,同时也使R600夺去首款桌面级512Bit GPU的头衔,不过GeForce GTX 280已经从前代GPU的384 bit提升到GeForce GTX 280的512bit。GTX 200 GPU采用8个64bit位宽的帧缓冲(俗称显存)接口,搭载16颗0.8ns GDDR3显存,带宽高达惊人的142GB/s。但这样的设计也使得核心Die Size面积必须做得非常大,才能容纳下8个显存位宽接口。
  NVIDIA亚太区市场经理邓培智表示,GT200超大的带宽设计,不仅满足极限高清游戏的需求,同时也是保证大量线程同时进行并行计算所必需的。
  在架构平衡方面,和前代GPU相比,GeForce GTX 200 GPU的纹理/帧缓冲带宽比率也重新修订,提供对目前和未来工作量的最佳支持。NVIDIA工程师测试了许多应用程序,很好地平衡了纹理单元满负荷工作需要的帧缓冲带宽。
  GeForce GTX 280和GeForce GTX 260分别支持1024MB和896MB显存,其容量比前代GPU翻倍。借助1GB显存,高分辨率反锯齿效能得以极大地提升,现在玩家可以在诸如《S.T.A.L.K.E.R.》等采用延迟渲染的游戏当中开启反锯齿。
渲染管线和架构的额外增强
  GeForce GTX 200 GPU架构当中的前端单元,负责和运行在系统当中的GPU驱动程序进行通讯,接受驱动程序发出的命令和数据。GeForce GTX 200 GPU这部分的通讯协议和特定软件集也重新进行了优化,以提升数据在驱动程序和GPU前端单元之间的传输效率。
  GeForce GTX 200 GPU当中,位于数据装配器和帧缓冲单元之间的内存Crossbar也经过了优化处理,允许GeForce GTX 200 GPU在进行基元获取和索引的同时全速运行。(前代GPU在前端和数据装配器之间有速度上的损耗)。
  GeForce GTX 200 GPU当中后变换缓存的尺寸也获得提升,这导致更少的管线延迟,并且提升从几何和顶点阶段到视口/剔除阶段的通讯速度(建立速度和前代GPU相似,每时钟周期支持最多1个基元)。
  GeForce GTX 200 GPU的Z-剔除效能也得以提升,特别是在高分辨率情况下。因为GeForce GTX 200 GPU当中ZROPs数量的提升,早期Z轴拒绝速率也获得提升。GeForce GTX 200 GPU当中最大ZROP剔除速率是每时钟周期256个样本或者每时钟周期32个像素。
  GeForce GTX 200 GPU的寄存器分配、指令调度安排和指令相关的微架构也获得显著改进。GeForce GTX 200 GPU现在可以更加迅速地“喂饱”执行单元。这些改进让向SP和SFU dual-issue指令成为可能。GeForce GTX 200 GPU当中纹理单元和SM控制器之间的工作量安排效率也获得提升。
动态功耗管理
  和前代GPU相比,GeForce GTX 200 GPU加入了类似PowerPlay的动态功耗管理技术,但在节电幅度上比PowerPlay做得更灵活,其中部署了4种不同的效能/功耗模式:
   ●空闲/2D功耗模式(大约25W)
   ●蓝光DVD播放模式(大约35W)
   ●全速3D效能模式(变化-最高功耗236W)
   ●HybridPower模式(实际0W)
  GeForce GTX 200内建有门控时钟电路,这种门控时钟电路可以有效地关闭一段时间(毫秒)内空闲的GPU部分区块,在GPU非峰值使用率的情况下,进一步降低GPU的功耗。
  GeForce GTX 200当中内建使用率监测器(“数字看门狗”),来连续监测GPU内部数据流量的变化。基于使用率监测器报告的数据,GPU驱动程序可以动态设定相应的效能/功耗模式(比如,设定工作频率和电压级别等),以达到让显卡功耗最小化的目的。所有这些监控和设定都对用户透明。
  节电设计让GeForce GTX 200 GPU的空闲功耗只有满负荷功耗的1/10(GeForce GTX 280的空闲功耗大约是25W)。这种动态功耗范围让用户在全系列应用程序(游戏、视频播放和上网)当中获得让人惊异的功耗管理效率。
  下面是GTX 280在不同应用模式下的频率截图,软件版本是Rivatuner v2.09:
GTX 280 Standard 2D模式:300/600/100MHz
GTX 280 Low Power 3D模式:400/800/300MHz
GTX 280 Performence 3D模式:602/MHz
  NVIDIA亚太区市场经理邓培智先生表示,由于GT200内部的架构非常复杂,新增加的动态功耗管理技术并不能简单理解为的2D分频/电压技术.这项技术是通过监控GPU的计算用途,从而启用相应的功能模块,闲置的模块单元可以完全关闭,负载率不高的模块单元也可以调节其电压、降频运行。
  不过可惜的是,HybridPower仅支持NVIDIA自家nForce芯片主板,比如基于nForce 780a芯片组的主板,在进行非密集图形计算操作的时候,GeForce GTX 200 GPU可以被完全关闭,图形输出转交主板上集成的GPU(mGPU)负责。
GTX280/260规格
  顺应简化IT产品命名方式的潮流,NVIDIA在GT200这一代产品命名方式上也做出了改变,将后缀名提到数字型号的前面,变成前缀,类似3DMmark Vantage的得分计算方式,根据前缀就很容易判断出该型号的定位高低。
晶体管数量
Shader频率
Shader数量
1107MHz/2214MHz
999MHz/1998MHz
1417.7GB/s
纹理填充率
48.2 GigaTexels/sec
36.9 GigaTexels/sec
2xDual-Link DVI-I 1xHDTV
2xDual-Link DVI-I 1xHDTV
PCI Express 2.0
PCI Express 2.0
1x8-pin和1x6-pin
  GT200家族包括Geforce GTX280和GTX 260两款产品,采用台积电的65nm生产工艺,核心晶体管数量达到史无前例的14亿个,几乎是G80的两倍,最高端的GTX 280 Shader数量为240个,次级的GTX 260 Shader数量缩减为192个,相应的TPC阵列由GT280的10组缩减为8组,纹理单元、ROPs单元也相应缩减了一组。
  由于配备了512bit的显存接口,GTX 280搭配了16颗0.8ns GDDR3显存,显存容量达到1GB,理论上的显存带宽可达142GB/s,与AMD即将发布的HD 4870搭配GDDR5/256bit的方案相比,两者的成本都不会低到哪里去。
  在功耗方面,NVIDIA给出GT280的TDP功耗为236W,因此需要一组6pin+一组8pin接口才能满足需求,GTX 260的TDP功耗为182W,因此两组6pin PCI-E供电接口即可。
  GT200核心可以正常工作的温度限定在105度,相比前几代产品耐高温能力似乎有所降低。
更像是一款艺术品
GTX280实物赏析
  与GeForce 9800GX2相同,公版GeForce GTX280除了PCI-Express 2.0 X16接口裸露在外,其余部分都被黑色的涡轮散热器所包裹,外观看上去比NVIDIA以往的任何一款桌面平台单GPU高端显卡产品都要豪华。
由左至右依次为:GeForce 8800GTX、GeForce 9800GTX、GeForce GTX280、Radeon HD3870X2
  GeForce GTX280显卡的PCB长度仍为10.5英寸(约28cm),与GeForce 9800GTX、GeForce 8800GTX/Ultra保持一致 。小熊在线.cn
GT200 Die Size达576mm2
  为了给各位看官一个比较清晰的脉络,再现NVIDIA十几年来的风雨历程,编辑特意整理了一份NVIDIA历代图形产品的工艺制程、晶体管数量、核心Die Size面积的演进过程,从第一篇真正意义上的显卡Geforce 265开始,到目前最新的GT200 8代图形产品的资料,中间的时间跨度长达13年。(图上部分资料来源于网络,并不一定完全正确。)
GTX280核心代号G200-300-A2版
  G200-300-A2 GPU采用台积电65nm制造工艺,核心DIE SIZE为正方形,面积达到史无前例的576平方毫米,容纳多达14亿个晶体管,晶体管数量接近Intel 45nm四核处理器的2倍,拥有240个Streaming Processor、32个ROPs、80个纹理填充单元,默认核心/Shader频率为602/1296MHz。
G200的核心封装面积为45mm*45mm
  为了保护核心不被压坏,NVIDIA在GT200 Die 外面增加了罩了一层铁壳。
核心厚度也比其它的GPU核心高出很多
四枚1分钱硬币水平摆开也没有GT200的核心大
GTX280采用P651版型
  2008年5月中旬,GeForce GTX280的PCB设计图已经在网上曝光,今天我们就给大家展示出它的真身。
GeForce GTX280 PCB P651正面,GPU周围分布着8颗显存。
GeForce GTX280 PCB P651背面,另外8颗显存分布在背面
  GeForce GTX280采用的P651 PCB与GeForce 8800GTX/Ultra采用的P355,各单元布局相似,但相同面积下P651容纳了更多电气元件。
  信号输出的部分,GeForce GTX280采用了GeForce 8800GTX相同的做法,即把显示输出工作交给了NVIO2芯片负责,在靠近SLI MIO接口的地方预留了DisplayPort控制IC的位置。
  NVIO2-A2(ES版)芯片,NVIO芯片的功能是一个纯粹的显示输出芯片,内部集成了RAMDAC,视频解码等功能,这样可以让G200更加“专注”于进行3D/通用运算……
GPU、NVIO2、供电单元
  PCB正反两面共16颗FBGA封装的Hynix(海力士)H5RS5223CFR-N2C GDDR3显存颗粒,单颗容量为64MB,速度为0.8ns,理论极限运行频率为2200Mhz,GeForce GTX280的显存位宽为512bit,64bitx8,对应8组ROPs Array。
  GeForce GTX280的供电单元堪称豪华,除了PCI-E辅助供电的高压滤波部分及风扇4pin接口的输入滤波部分,共采用了三颗三洋SMT贴片封装固态电容外,其余供电模块全部采用了MLCC陶瓷电容,核心/显存则采用了耦合电感+MLCC陶瓷电容的组合方式,构成5+2相核心/显存数字供电单元。
公版GeForce GTX280细节
  公版GeForce GTX280显卡的细节配置比以往产品更加华丽、用心。
  GTX280/260支持目前顶级的3-way SLI模式,但除了像Crysis这样的变态游戏,似乎没什么必须要上3-way SLI。
  SLI MIO金手指上面增加了一个黑色胶套,防尘的同时,还很好的保护了SLI接口,防止金手指被氧化或划伤。
  NV给出GeForce GTX280的TDP功耗为236W,显然两组6pinPCI-E辅助供电接口喂不饱这个功耗大户,因此PCB上提供了一组8pin和一组6pinPCI-E辅助供电接口,理论上可以提供超过280W的供电需求。PCI-E辅助供电方接口旁边也有一个正方形的黑色胶帽,显卡配备的SPDIF jumper就位于此处,胶帽仍然起到防尘和放氧化的作用。
  输出方面,GeForce GTX280提供了双Dual-link DVI+S-Video方式的接口组合,另外曾经在GeForce 9800GTX显卡上的POWER指示灯也被保留了下来。PCI挡板采用了镀镍工艺,可以防止长期暴露在空气中氧化。此外,P651 PCB上预留了DisplayPort芯片的空焊位,厂商可以根据市场需要推出相应的版本。
公版GeForce GTX280散热器
  GeForce GTX280采用的巨型的涡轮导流散热器,外观与GeForce 9800GTX、GeForce 8800GTS(G92)大致相同,只是增加了显卡背面的散热单元。
  同样的涡轮式风扇提供了形成散热器风道的动力源。公版GeForce GTX280散热器的风道入风口集中在了靠近涡轮风扇的一端。
  覆盖在PCB正面的主散热器单元,能够照顾到GPU、显存、供电单元以及输出芯片,背面的散热单元主要用来为PCB背面的8颗显存效力。
贴近GPU的散热片为纯铜材质,并且连接热导管直接延伸至风道
XFX GTX 280显卡
  作为NVIDIA在亚太地区最重要的AIC合作厂商,XFX讯景在6月17日与NVIDIA全球同步发布了旗下的Geforce GTX280 1GB顶级单卡。
包装内附赠了最近最热门的《刺客信条》
耕昇GTX 280显卡
  耕昇近一年来在国内市场的动作非常大,独特的产品命名方式(大乔版、小乔版)和对超频特色的挖掘上不遗余力,使得广大玩家对其显卡的认知度非常之高。GT200 NDA解禁的当天,耕昇也在同时发布了旗下的Geforce GTX 280和Geforce GTX 260两款显卡型号。
耕昇GTX 260显卡
测试平台说明
  前面我们花了大量篇幅介绍GTX 200诸多改良的设计,也知道NVIDIA最终的目标是让GT200的3D游戏性能达到上代G80的1.5~2倍,想必大家对新的单卡皇者GTX 280的实际性能都很期待吧。下面进入我们的测试环节,首先是测试平台以及相关设置、驱动版本的介绍:
硬 件 测 试 平 台
Intel Core 2 Duo QX9550(45nm、1333MHz FSB、主频2.8G、L2为12M)
ASUS P5E3 Premium主板(X38+ICH9R)
Tt 大台风Big Typhoon VX CL-P0310
  NVIDIA Geforce GTX 280 1GB/512bit(602/MHz)
   MSI Geforce 9800GTX 512M/256bit(720/MHz)
   XFX Geforce 8800GTX 768M/384bit(576/MHz)
   ATI Raeon HD GB/256bit(825/2250MHz)
Dell 3007WFP LCD
A-DATA PC3-10700G
DDR3 1333MHz 1GB x2
(内存时序:8-8-8-24)
WD Raptor 150G SATA HardDisk Driver
Samsung HD160HJ金宝 7200转 160G SATA HardDisk Driver
TT ToughPower 650W
系 统 平 台 及 驱 动 信 息
Microsoft Windows Vista Ultimate 32bit SP1
GTX280:Forceware 177.34 for Vista-32bit
9800GTX:Forceware 174.74 for Vista-32bit
8800GTX:Forceware 169.25 for Vista-32bit
HD 3870 X2:Catalyst 8.5 for Vista-32bit
Intel inf_9001008
DirectX版本
DirectX 10.1 API
  这里需要向大家说明一下,N卡现在的驱动更新很频繁,而且会专门针对每款型号推出相应的驱动版本,这里不得不佩服一下NVIDIA驱动部门的强大。GTX 280使用的是首款支持CUDA运算的Forcewar驱动117.34,9800GTX使用的是 forceware 174.74 for
vista-32bit,8800GTX使用的是比较老的169.25,A卡方面使用的是催化剂8.5正式版。操作系统选择上,我们使用了Windows Vista-32bit
Ultimate SP1。
  本次测试编辑找来Geforce 8800GTX 768M,Geforce 9800GTX 512M,Radeon HD GB三款显卡作为对比参照:
测试项目及测试方法
视频转码测试
Badaboom(支持CUDA)
MainConcept H.264 Encoder
DX10理论测试
3DMark Vantage v1.0.1
光线渲染测试
Lightmark 2007
OpenGL游戏
敌占区:雷神战争
使命召唤4:现代战争
虚幻竞技场3
外挂(WAR-Torlan-fly场景)
英雄连:抵抗前线2.101.0
自带测试BenchMark
失落星球:极限状态
自带测试BenchMark
自带测试BenchMark
自带测试BenchMark
外挂(GPU_test)
  游戏方面,我们选择了9款主流游戏大作,包括《刺客信条》、《使命召唤4:现代战争》、《虚幻竞技场3》,《生化骑兵》、《英雄连:抵抗前线》、《冲突世界》、《孤岛危机》和《狂野西部》DX10 Benchmark。
GPU视频转码测试
  在成功将CPU从视频解码的重负中解放出来后,NVIDIA第二代统一架构GPU的解放目标又瞄准了视频编、转码。
片源一:NVIDIA官方提供视频短片PlushLife.mpg,容量184M。
  GTX 280转码这样小分辨率的视频速度可达每秒120帧以上,大家可以点击放大看一下具体的数字。
片源二:Christina.Aguilera HDTV 1080p(Live).mpg,画面分辨率,长度4m39s。
测试说明: GPU使用NVIDIA官方提供的BadaBoom软件(支持CUDA)、CPU使用MainConcept H.264 Encoder软件。
  MainConcept H.264 Encoder是一款常用的测试CPU编码性能的软件,具体的转码过程截图这里就不放出来了。上面是我们的测试结果,CPU很难达到每秒24fps的转码速度,也就是达到Real-Time实时解码,而GPU做同样的工作却非常轻松,PlusLife.mpg达到了120fps每秒的Super Real Time速度,即使是1080p格式的MPEG文件也能达到80fps每秒的速度。而且原始视频文件的容量越大,GPU解码的速度越明显,NVIDIA 在Editor‘s Day上所说的GTX280转码一个2小时长的HDTV视频比GPU要快18倍确实是所言非虚。
  这里给一些网友解释一下GPU转码速度惊人的原因,视频转码的一个重要过程就是将画面按像素拆成n个Blocks块进行处理,GPU的多线程架构可以同时处理多个Block,而CPU只能按次序排队处理Block,效率上当然比不少GPU了。
Folding@home测试
  NVIDIA GPU专用的Folding@home分布式计算程序,上面可以显示目前计算的工作单元,完成的百分比,实际的性能,还有剩余的时间,右边是捐献者的名字和所在小组的名称。
  该项计算可以检验出不同处理器的效能差别,只要11个连续的数据包处理,即可计算出结果,Geforce GTX 280的成绩是675ns/天,实测的结果比NVIDIA官方的数据还要好一些。由于目前的177.34驱动仅支持GT200,相关的对比测试这里就欠奉了,请各位看官谅解。
下页开始我们测试的大餐部分,3D性能测试。
3DMark Vantage
  3DMark Vantage是专门针对微软DX10 API的综合性基准测试工具。 此前的3DMark最终结果只有一个简单的分数,3DMark Vantage一个全新特性是引入了四种不同等级的参数预设(Preset),按照画质等级划分成了入门级(Entry,E)、性能级(Performance,P)、高端级(High,H)、极限级(Extreme,X)四类。测试结果改成了“字母等级”加“数字”的组合形式。
  之前v1.0.0发布时,除专业版外其他版本必须联网提交数据才能生成分数,导致很多玩家对其敬而远之,看来Futurmark是听取了玩家的建议,最新的1.0.1补丁已经取消了这个限制,高级版、基础版和试用版都可以离线使用。
  测试的结果很直观,GT200 Performence得分突破1w分大关,理论性能比G80提升近一倍左右,Extreme的性能提升大约是1.4倍。
纹理/像素填充测试
  这一页是GT200相比前代产品的各项理论性指标测试结果:
  3870 X2在这项理论测试表现出色,GT200纹理填充效率似乎G92没快多少。
  GT200像素填充率达到6.68GPixel/s,8800GTX是4.31GPixel/s,第二代产品的提升幅度相当明显。
GPU物理性能测试
LightMark 2007
  Lightmark 2007是“lab of dee”实验室发布的一款光线渲染能力测试软件,这款测试软件着重考察电脑运行全局实时光照(global illumination)的能力,最新1.2版Light Mark可以渲染22万个多边形,并且可以在高分辨率下运行,软件大小为28.9MB。
测试分辨率:bit All Highest
  GTX 280领先G92的幅度并不算大,但相比G80性能接近30%的大幅度的提升。A卡在这个项目上表现一直差强人意,这里就不多说了。
Crysis
  Cry Engine 2的代表作Crysis是目前检验DX10显卡最具说服力的游戏,前一代的G80、3870 X2都在其面前折戟沉沙。NVIDIA宣称GTX 280单卡的一个目标就是保证玩家在24寸LCD上流畅运行Crysis,事实如何呢?下面来看看GTX 280的真实性能:
测试方法:使用Crysis benchmark软件记录平均帧数。
测试分辨率:20@32bit / 画质:High /2AA
  为了不让这些顶级显卡蒙羞,编辑没有采用“Extreme”、4AA这样的设定。在开启2AA、画质等级为“High”设定下,GT280确实是唯一一款能够保证Crysis在分辨率下运行在30fps以上显卡。8.5催化剂下的HD 3870 X2的性能略高于8800GTX,基本上和9800GTX持平。
ASSASSINS CREED
  《刺客信条(ASSASSINS CREED)》是由《波斯王子》、《细胞分裂》系列制作小组Ubisoft蒙特利尔工作室所制作的原创新作,PC版本于2月份正式推出,是育碧今年重推的游戏大餐。因其身为“游戏之道”的成员,刺客信条是否支持DX10.1特效在前一段时间闹得沸沸扬扬,育碧最终放出了一个补丁,放弃了成为首款DX10.1游戏的机会。
  刺客信条故事背景设定为12世纪末的欧洲,玩家扮演身手不凡的刺客Altair,为了结束帮派斗争而进行一项项暗杀任务。游戏风格不乏《波斯王子》的熟悉感觉,但画面和情节更引人入胜,对于喜欢第三人称动作游戏的玩家而言本作绝对吸引。
测试方法:固定场景Fraps记录帧数
测试分辨率:20x00@32bit all High
  GTX 280比上一代产品有了10~15%的性能提升,3870 X2还是略高于8800GTX。
Call of Duty 4:Modern Warfare
  《使命召唤4》与所有系列前作相比发生显著的变化,游戏时代背景由前几部的以第二次世界大战时期为中心,直接转变为以现代战争为背景。作为一款第一人称视角的FPS游戏,自上市以来,曾创下连续几周蝉联北美地区销售榜首的战绩。
  尽管不是一款基于DX10引擎设计的游戏,《使命召唤4:现代战争》的画面效果、逼真程度毫不逊色于一些所谓的DX10游戏,它真正吸引人的地方还是其超高的可玩性和现场感,过关卡过让人通关后仍觉不够过瘾。
“Charlie Don't Surf ”游戏测试场景
测试方法:选取Missions ActⅠ第2个任务“Charlie Don't Surf ”开始前一个大约60秒的过场动画(即时渲染),使用Fraps软件记录60秒内平均值,共记录3次,取3次的平均值为最后所得帧数。
  GTX 280在游戏所能到达的最高画质下可以保证60fps以上的全速运行,9800GTX在AA优化方面比G80要好一些,参加对比的3870X2的成绩则落后非常多,看来8.5催化剂对COD4的Crossfire的性能优化依旧没有改善。
Unreal Tournament 3
  对于广大FPS玩家来说,《虚幻竞技场3(Unreal Tournament 3)》标志着有史以来最具号召力的科幻竞技射击游戏系列的正式回归。基于强大的“虚幻3(Unreal Engine 3)”图像引擎,《虚幻竞技场3》在图像效果、游戏性以及挑战性推向全新的高度。
  《虚幻竞技场3》游戏的画面风格类似使用同一图象引擎的《战争机器》,不过画面在高分辨率和高倍数的抗锯齿的情况下,实际效果比《战争机器》要好上很多。而且游戏中还包含了大量的载具和武器,这些都将成为玩家们在游戏中必须利用的一些元素!
测试方法:使用一款UT3 Benchmark V0.2.0.45 Benchmark软件,纹理细节、图像等级都设为“5”最高,运行其中的“War-Torlan_fly”飞行场景模式,记录所得平均帧数。
War-Torlan_fly游戏场景截图
  N卡的一致表现是不能开启抗锯齿,包括测试的主角GTX 280,A卡尽管可以开启抗锯齿,但无法发挥出两颗RV670交火的实力,帧数表现惨不忍睹。
BioShock
  《BioShock》在发布之前被誉为2007年最值得期待的游戏之一,游戏引人入胜的剧情和出色的可玩性赢得了国外专业游戏媒体满分的评价。这款科幻恐怖射击游戏由IrrATIonal Games采用“虚幻引擎3”改良而来的“Vengeance”引擎开发,被看作是《System Shock 2》(网络奇兵2)的精髓续作。
  《BioShock》游戏全面支持DirectX 10,尤其是对水面渲染进行了加强,比如反射和折射效果,而且物体在投入水中的时候也会有物理模拟加速,从而产生互动的波浪效果,另外火焰燃烧等软粒子效果也很出色,物体阴影同样是动态变化的,游戏还支持DX10.1规范要求的全局动态照明特效渲染,从而营造出了非常细腻的城市场景、人物纹理及动态光影等效果。
测试方法:选取游戏坠机的火海场景,使用Fraps软件记录30秒内平均值,共3次,取3次的平均值为最后帧数。
  GTX 280的性能相比G80提升幅度接近50%,下还能够达到40fps以上,169.25驱动下的8800GTX无法开启抗锯齿特效,9800GTX的性能略高于8800GTX,但高分辨率下开启AA明显是显存容量不足造成的性能损失,3870 X2基本与8800GTX持平。
Company of Heroes:Opposing Fronts
  由Relic开发和THQ发行的人气大作《英雄连》续作——《英雄连之抵抗前线》(Company of Heroes Opposing Fronts)日前宣布进厂压盘,不日发售。这款游戏将采用DX10引擎制作,展现强大的画面效果。
  资料片“抵抗前线”将使用升级版Essence引擎,支持DirectX 10,加强了物理效果,支持动态天气系统,加强了车辆和士兵的AI。前作是以美军诺曼底登陆为故事主轴讲述的,资料片则选择了英军解放法国卡昂的故事,游戏中可以选择英军和德国装甲兵,都有各自完整的任务模式。
测试方法:游戏Video菜单自带Performence Benchmark工具。
测试分辨率:60x1600@32bit DX10 8AA
画质设定:
DX10、ALL High
  3870 X2的测试结果让人喜忧参半,不开AA性能竟然能和GTX 280持平,但打开AA后就令人失望了,帧数下降非常之巨大。
Lost Planet: Extreme Condition
  PC版《失落的星球》用增强的画面与游戏性来弥补没有新增内容的遗憾。游戏支持DirectX 9与DirectX 10,所以游戏可以运行在Windows XP与Windows Vista系统上。游戏光影效果与各种其他效果看起来都美轮美奂,较Xbox 360版本游戏有大幅度提升。作为NVIDIA“The Way It's Meant To Be Played”列表中的一个,Capcom的游戏开发小组专门为NVIDIA显卡做游戏画面优化。
测试方法:采用游戏自带GPU Benchmark工具记录平均/最大/最小帧数。
测试分辨率:60x1600@32bit 、4AA/16AF
画质设定: DX10、ALL HIGH
  失落星球游戏中的的雪景使用了大量的粒子特效,显卡的负载要比洞穴高一些。
Cave场景
Call of Juarez benchmark
  《狂野西部》(Call of Juarez)DX10版本由Techland开发,Focus Home Interactive和UbiSoft Entertainment联合发行。游戏背景设定在19世纪末美国西部,是一款第一人称视角的FPS游戏,在故事情节、射击动作、游戏画面等方面均有独到之处。
World in Conflict
  《冲突世界》(World in Conflict)是一款以虚拟全球冷战为故事背景的RTS游戏,PC版游戏画面真正达到高清大片的水准。游戏以发生于21世纪的虚拟全球战争为背景,是Vivendi旗下著名的Massive Entertainment公司(代表作有《地面控制》系列)最新开发的产品。
  《冲突世界》设定在一个虚拟历史的世界中,并没有像我们知道的那样结束,而是一直持续,苏联也并没有解体,而且苏联开始进攻美国。该作中没有资源采集的过程,一切资源补给全部依靠战略支援。《冲突世界》的一大特点是拥有第一人称视角。
测试方法:采用游戏Video菜单自带GPU Benchmark工具记录平均/最大/最小帧数。
测试分辨率:0X00/bit / 画质:中等 /No AA.AF
Enemy Territory:Quake Wars
  作为一款目前流行的OpenGL游戏,《敌占区:雷神战争》以《Quake 4》为背景,由id Software授权Splash Damage公司开发,游戏采用强化过的《毁灭战士3》游戏引擎制作。
  德国天才程序员Daniel Pohl最近将热门的光线追踪技术引入了《敌占区:雷神战争》,给OpenGL引擎注入了新的元素,给游戏画面带来一个质的飞跃。我们目前的游戏版本尚不支持这项技术。
  GTX 280在ETQW中的领先幅度不大,不开AA领先G80大约20~30%,领先G92大约15~20%。HD 3870 X2开启AA后性能损失相当严重,甚至还不如8800GTX单卡。
功耗需求情况
测试方法:  一.闲置功耗:BIOS中关闭CPU节能技术,进入Vista系统后(Aero界面),关闭边栏和后台多余程序,10分钟后记录系统功耗。
       二.播放高清视频功耗:使用PowerDVD播放同一段H.264 1080p视频,平均码率要求达到30MB/s,记录系统整机功耗。
       三.3D峰值功耗:运行3Dmark Vantage
Extreame最高等级测试,记录系统最高功耗负载。
测试说明:室温恒定26°C
  GTX 280整机的2D闲置功耗仅为126W,GTX 280和3870 X2在播放高清时功耗上升幅度较大,G80、G92仅有10W左右的上升。 3DV E模式不能让GTX 280和G80达到峰值负载。
第七部分:GT200与G80性能比较
8800GTX 768M
GTX 280 1GB
提升幅度%
3Dmark Vantage
Performence
Texture fill
Color fill
GPU Particles
Perlin Noise
虚幻竞技场3
敌占区:雷神战争
  其实从G80开始,NVIDIA在设计产品时已经不需要再担忧对手的威胁了,NVIDIA这一次目标是挑战自身,第一代G80的超标量管线架构取得前所未有的局面之后,第二代统一架构的设计重心转向了绝对计算能力的提升和计算效率的优化,GT200的实际游戏性能是否达到了NVIDIA设计预期1.5倍目标,大家自己看吧。
功耗表现:
  NVIDIA在这一代产品上也开始加入节能的设计,GTX 200这次加入了动态的功耗管理,一改往日Geforce 8800Ultra、9800GTX功耗居高不下的弊病,而且根据实际的测试结果来看,2D闲置时的功耗表现比PowerPlay更胜一筹,性能/瓦特比也进一步提升。
  NVIDIA给出的GTX 280建议电源额定功耗在550W以上,+12V输出电流至少要达到40A,GTX 260的建议电源额定功率为500W以上,+12V输出电流至少要达到36A。
风扇噪音:
  由于GTX 280此次加入了动态功耗管理的特性,发热量整体来看也得到很好地控制,风扇在2D状态时转速相当低,由于测试环境的限制,闲置时的噪音值无法准确测出,在这里向各位看官说明一下,总体而言,评测编辑对其噪音是满意的。
市场分析:
  GT200在性能上又树立了一个新的等待超越的标杆,基于CUDA平台运算不再是商业运算的专利,高清视频转码、Photoshop加速、PhysX物理加速这些最激动人心的应用已经成为现实,CUDA开始真正走进到电脑用户的桌面中来。从这个角度来看,毫无疑问GT200开创了图形产业 一个新的计算时代。但一片GT200核心Die Size面积高达惊人的576mm2,这必将导致GTX 280和260的成本居高不下,是不是赔本賺吆喝,应该只有NVIDIA自己才最清楚。
GTX200引领异构计算的未来
  通过GeForce GTX 200的强大图形及并行计算能力,NVIDIA正式提出了异构计算系统——改变传统的CPU为主导的PC架构,转而以GPU为运算的主导,这也就是NVIDIA提出的“Optimized PC(优化PC)”概念的基础。其实大到整个PC,小到处理芯片,都在探讨着一个问题,到底如何的平衡各个运算芯片或单元。
  在最新一代游戏主机XBOX360及PS3上的CPU讨论中,平行设计的XBOX360核心(3个Power PC核心)与协处理架构的CELL一直是人们谈论的焦点,而CELL的协处理器配置优势已经被越来越多的人接受,很多人已经认为今后处理器的发展方向就是协处理器,而不是平行的多核设计。这其实也很好理解,多核虽然在核心数量有拥有一定优势,但是中国有句古话:术业有专攻,专门为各种应用而设计的单元才能更发挥优势,这正是协处理器的真实写照。
  如果我们把我们所应用的电脑想象成一个大处理器,那么PC也可以用协处理器的概念去理解,包括GPU在内的诸多芯片都可以看作的是CPU的协处理器,而NVIDIA异构计算的目的并不是要把CPU变成GPU的协处理器,而是让GPU继续做CPU的协处理器,但是在NVIDIA的意识中,GPU这颗协处理器的功能过于强大,以至于要远大于CPU。
  包括NVIDIA最新发布的Tegra系列解决方案,虽然采用的是同一芯片,但是其内部确实典型的协处理器架构,这使Tegra对比Atom在诸如游戏、视频等领域全面胜出,这就是因为在Tegra中加入了专用的处理单元。
  CUDA所构造的异构计算架构,正式向传统的PC架构挑战,也许这是X86诞生以后处理器地位所要面对的最有实力的挑战!
  至于如何推动GPU这颗强大的“协处理器”本文已经做出了详细的介绍——CUDA的应用,构建真正的“Optimized PC”,也许就是从NVIDIA的异构计算及CUDA开始,而改变传统的PC架构也许就是从CUDA开始,X86架构成就一个微软,那么CUDA能否成就第二个微软,我们拭目以待……
&网友评论不代表本站立场
比价网搜索
&&&& 关键词 |&& AMD & 英特尔&& 华硕&& 双敏&& 神舟
友情链接/合作伙伴
说的太好了,我顶!
Copyright & 2014 www.51yue.net Corporation, All Rights Reserved
Processed in 0.0195 second(s), 3 db_queries,
0 rpc_queries

我要回帖

更多关于 对号符号 的文章

 

随机推荐