
2006年第一季度,AMD系统收入超过10亿美元,占整个x86服务器市场的1/6. 在短短一年内,Opteron处理器的市场份额已从去年的6%增加到今年的15%. 在四路服务器中,Opteron占美国市场份额的48%,而去年为23%. 更重要的是,这不是“仅USUS”事件. 它还在全球四向服务器市场中. 在过去的四年中,AMD的市场份额增长了36%. AMD已成为服务器CPU市场的标志.
受英特尔至强和安腾处理器压制的Sun去年终于出现了复苏的迹象. 它的UltraSparcIV +处理器具有用于Sun的快速,集成的L2高速缓存和大数据量的L3高速缓存,以保留大部分传统Sparc处理器用户,精心设计的GALAXYOpteron服务器系统,并用于影响中端x86市场UltraSparcT1已实现市场表现良好.
对于英特尔来说,是时候做出应有的回应,并且是时候对该服务器的处理器进行一些处理了. 英特尔给出的答案是Core Xeon: Woodcrest. 内存数据相关性预测功能(MemoryDisaMBIguATIon),大容量随机缓存和大容量低延迟共享L2缓存均使Core架构在服务器任务中比其他x86处理器更高效.
本文的重点是为用户提供基于Woodcrest及其竞争对手的几种不同服务器的性能比较: AMDOpteron和UltraSparcT1处理器.
英特尔最新的Bensley平台的最大优势之一是其出色的兼容性: Dempsey,Woodcrest和四核Clovertown Xeon都使用相同的插槽和平台.
Benley为每个CPU分配了一条单独的1333MHz总线,而Bensley在设计中省略了共享的Xeon总线. 这与旧的Athlon MP平台非常相似,也使Blackford North Bridge和MCH的设计更加复杂. Blackford还提供4个内存通道和24个PCIE通道.
由于只有某些HPC程序受FSB带宽的限制,所以DIB(双独立总线)不会在Woodcrest和Dempsey之间带来任何区别. 多年的测试经验告诉我们,大多数服务器和工作站程序都不会因FSB速度而引起瓶颈. 多亏了NUMA的设计,Opteron平台在双核和四核架构中不会有太大波动. 在大多数程序中,低延迟集成内存控制器的影响超过了FSB / NUMA带宽. 当然,对于Clovertown或两个Woodcrest核心集成处理器,标准的FSB可能成为瓶颈. 在这种情况下服务器性能测试软件,DIB将是一个不错的选择.
Blackford的最大改进应该是引入了完全缓冲DIMM(FB-DIMM). 在FB-DIMmsPCB上,我们仍然可以找到并行的DDR-2内存,但是高级内存缓冲区(AMB)将该并行数据流转换为连续的数据流,并传输到Blackford芯片. 内存子系统与芯片之间的连续连接不仅消除了不对称问题,而且还大大简化了主板的唤醒功能. 唤起四个通道的DDR-2内存无疑将是一件可怕的事情.
我们在Sun T2000中使用了Solaris 10操作系统. T2000当前唯一可用的操作系统是Solaris 10 3/05 / HW2. T1和当前的SPARC系统可以是二进制兼容的,但必须是此版本的Solaris.
以下是一些不同的服务器指标:
Sun T2000
Sun UltraSparc T1 1 GHz服务器性能测试软件,8核,32线程
Sun Solaris 10
32 GB(16x2048 MB)关键DDR-2 533
NIC: 1 Gb英特尔RC82540EM-Intel E1000驱动程序
英特尔服务器1:
双英特尔至强“ Woodcrest” 3 GHz共享4 MB L2缓存,1333 MHz FSB(4核)

Blackford芯片组
64位Gentoo内核2.6.15-gentoo-r7
英特尔服务器主板S5000
4 GB(4x1024 MB)微米FB-DIMM已注册DDR2-533 CAS 4,启用了ECC
NIC: 双Intel PRO / 1000服务器NIC
2个Western Digital Raptor 36 GB SATA
英特尔服务器2:
双Intel Xeon“ Irwindale” 3.6 GHz 2 MB L2缓存,800 MHz FSB-Lindenhurst
64位Gentoo内核2.6.15-gentoo-r7
英特尔服务器主板SE7520AF2
8 GB(8x1024 MB)微米级注册DDR2-400 CAS 3,启用ECC
NIC: 双Intel PRO / 1000服务器NIC(Intel 82546GB控制器)
2个Western Digital Raptor 36 GB SATA
Opteron服务器1: 双Opteron 275 2.2 GHz 2x1MB L2高速缓存(共4核)
64位Gentoo内核2.6.15-gentoo-r7
Solaris x86 10
MSI K8N MASTER2-FAR
4 GB: 4x1GB MB Crucial DDR-400(3-3-3-6)
NIC: Broadcom BCM5721(PCI-E)
2个Western Digital Raptor 36 GB SATA
Opteron服务器2: MSI K2-102A2M
ServerWorksHT2000芯片组
64位Gentoo内核2.6.15-gentoo-r7
4 GB: 4x1GB MB Crucial DDR-400(3-3-3-6)
NIC: Broadcom BCM5721(PCI-E)
2个Western Digital Raptor 36 GB SATA
Opteron服务器3: HP DL385
Solaris x86 10

AMD 81xx芯片组
64位Gentoo内核2.6.15-gentoo-r7
4 GB: 4x1GB MB Crucial DDR-400(3-3-3-6)
NIC: Broadcom BCM5721(PCI-E)
2x Seagate Cheetah 36 GB-15000 rpm-SCSI 320 MB / s {{page}}
客户端配置: Dual Opteron 850
MSI K8T Master1-FAR
4x512 MB英飞凌注册DDR-333,ECC
NIC: Broadcom 5705
常用软件
64位Gentoo内核2.6.15-gentoo-r7
Apache2 2.0.55 +用于gzip压缩的mod_deflate模块.
PHP4.4.1
Mysql5.0.21
SPEC FP和lnt 2000是用于测试CPU性能的标准测试软件. 但是,实际测试分数受编译器的影响很大. SPEC fp和integer将显示最佳性能. 但是,在实际使用中,处理器的性能将相对保守.
在我们的文章中,这意味着SPEC测试数据将略高于其在实际应用中的性能. 但是,使用SPEC CPU 2000,我们可以很好地了解处理器的性能. 如前所述,测试中的Xeon 5000是具有新Woodcrest内核的Xeon处理器.
SPECfp
时钟速度
SPEC fp 2000
POWER5 +
2200
3271
Itanium 2
1666
2851
至强5160
3000
2783
Opteron
2800
2256
奔腾4 E
3733
2232
我们看到,新的核心Woodcrest比最快的双核Opteron快20-25%. 由于采用了新的65纳米工艺,Woodcrest的核心速度提高了7%. 如果AMD能够使其处理器频率达到Intel的水平,它将带来15%的性能提升. 但是,在大多数64位和128位SSE程序中,英特尔的Woodcrest仍然占有非常明显的性能优势.
SPECint
时钟速度
SPEC Int 2000
至强5160
3000
3057
奔腾4 E
3733
1870
Opteron
2800

1837
奔腾4至强
3733
1813
POWER5 +
2200
1705
Itanium 2
1666
1502
在整数性能测试中,Woodcrest轻松超越了其他几个水平比较处理器. 接下来,我们将在服务器程序中查看SPEC lnt 2000的整数性能.
延迟
LMBench是一个测试软件,可用于确定内存时序和指令时序. 我们使用LMBench3.0a-5进行了测试. 应该说,LMBench的结果通常是正确的,但并不总是正确的. 如果软件无法正确识别特定的体系结构,则可能会出现错误的测试结果. 我们非常需要提前检查.
LMBench
时钟速度
L1(ns)
L1(循环)
L2(ns)
L2(循环)
RAM(ns)
RAM(周期)
Xeon 5160 3 GHz
3000
1.01
3
4.7
14
117.3
345
奔腾M 1.6 GHz
1593
2
3
6
10
92.1
147
Sun T1 1 GHz
980
3
3
22.1
22
107.5
105
Opteron 275

2209
1
3
5.5
12
73
161
至强Irwindale 3.6 GHz
3594
1
4
8
28
48.8
175
大容量4MB L2缓存具有非常低的延迟: 14个周期. 如果我们使用诸如ScienceMark之类的测试工具,我们得到的值将是12cycle,因此这将是非常糟糕的结果. 但是,即使在14cycle时,其性能在3GHz时仍然令人惊讶. 还有Core Duo(Yonah),
另一方面,缓存的等待时间非常长,但是对于4MB L2缓存,这种影响仍然最小. 造成此现象的原因可能是FB-DIMM. AMB将导致较高的延迟,而已注册CAS 4的DDR2 533芯片将导致较高的延迟. 这使内存子系统中的等待时间达到了115ns的很高,而Opteron只有73ns.
ScienceMark结果不一样. Opteron系统的测试结果为65-70ns,而Woodcrest的测试结果为70-76ns.
但是在这里,我们更倾向于LMBench的结果.
由于MAU可以支持模块取幂和乘法,因此SunT1可以加速SSL RSA(RivestShamirAdleman)和DSA(DigitalSignalALGorithm)的加密和解密操作. 每个T1内核都有一个MAU(模数运算单元),因此8个内核有9个MAU. 为了充分利用8个MAU,我们需要通过SCF(SolarisCryptographicFramework)完成SSLI计算过程. 我们使用命令opensslspeed-enginepkcs11rsa测试T1 MAU. Solaris10系统还提供了内核内SSL终端,其安全性优于内核之外的SSL终端.
我们在测试中选择了HP的DL585,以测试Opteron880的八个内核是否可以与SunT1的八个MAU竞争. 如果要比较Woodcrest和Opteron,我们需要检测2和4个并行代码. 我们可以在下表中看到1024bit的值. 每个内核都有线程器的最佳选择,因此在测试DL585时我们使用最大的16个线程,因此8个线程的性能最强. 测试XeonIrwidale使用8个线程,因此5个线程是最强的,依此类推.
我们注意到8MAU的Sun T1仅在关闭32个“ SSL RSA签名”线程后才能获得全部性能. 在这种情况下,1GHz T1可以实现与2.4GHz 8核DL585类似的性能. 如果不考虑MAU,T1的性能将达到至强Irwindale 1.8GHz. 因此,如果要在Sun T2000上运行自己的安全网络服务,则必须在Web服务器上执行SCF检查.
此外,我们注意到以前的Netburst体系结构表现非常差. 这是因为Pentium4内核内部缺少桶式移位器,该电路可以将大量数据转换或循环为一个时钟周期. 由于缺少此转换设备,因此延迟太高. 对于大多数x86代码,这是不容忽视的,但是代码的加密通常需要这种转换和循环过程. 我们在打开和关闭超线程的两种情况下分别进行了测试. 在这种情况下,Hyer-Threading将编码加密的性能提高了20-28%.
我们对四核AMDOpteron 2.4GHz,四核XeonWoodcrest和SunT1(开放式MAU,分配了不同长度的RSA)进行了比较测试.
RSA加密(符号/秒)
Opteron 2.4 GHz
4个线程
Xeon 5160 3 GHz
4个线程
带有MAU的SUN T1
32个线程
512位
19003
21194
35613
1024位
6098
6240
10722
2048位
1145
1087
1918
4096位
185
164

1
我们注意到T1的硬件加速在2048位时表现不佳. 考虑到大多数安全程序仍在使用1024bit,我们可以接受此结果.
在检测信号时,服务器必须验证客户端的一致性. 在1024bit时,Woodcrest和Opteron都可以检测到每个内核超过50,000个密钥,这也是OpenSSL检测程序的硬件限制.
Opteron再次率领测试. 8MAU Sun T1仅是4Opteron和Woodcrest速度的一半. 加密通常比检测代码消耗更多的服务器速度.
Apache / PHP / MySQL性能
英特尔的新至强在这里“扫地”. 比起2.4GHz Opteron性能高出75%,即使面对3GHz Opteron,新的Xeon也不会出现任何问题. 我们应该做进一步的研究,但是现在看来,这是由于4MB L2高速缓存和Woodcrest甚至没有更好的整数性能所致. 在此测试中,T1的性能还不错. {{分页符}}
Java Webserving
整个测试包括以下部分:
AMD在这里的表现只能算是差强人意. 如果我们忽略2.4GHz和2.2GHz CPU,则3GHz Opteron仍然比3GHz Woodcrest慢25%!
这次用于测试的MySQL参数如下:
[mysqld]
port3306
socket = /tmp/mysql.sock
跳过锁定
key_buffer = 1G
max_allowed_packet = 1M
table_cache = 1024
sort_buffer_size = 2M
read_buffer_size = 2M
read_rnd_buffer_size = 8M
thread_cache = 125
max_user_conNECtions = 450
max_connections = 450
thread_concurrency = 16
测试结果:
T1需要20-30个MySQL线程才能全速运行,这在很大程度上受8核“ 4线程加特林机核心”体系结构的影响.
MySQL的性能很难令人满意. 与上述优化图表相比,性能下降了约4-5倍.
接下来,我们将比较一个双核Woodcrest,一个双核Opteron和一个四核Sun T1.
为了测试双核,我们还在此处测试了Xeon Irwindale. 额外的1MB缓存使Irwindale的测试成绩提高了7-8%. 但是,超级威胁并不能帮助MySQl. 我们注意到性能下降了大约7%.
MySQL Linux(查询)
Sun T1
4/8核1 GHz
MSI K2-102A2M
Opteron 275
至强5160
Woodcrest 3 GHz
MSI K2-102A2M
Opteron 280
平均双核
(T1: 四核)
362
749
996
805
平均四核
(T1: 八核)
433
590
904
622
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-282703-1.html
说得好