[转帖]龙芯 vs 飞腾:各种测试数据看国产CPU水平

龙芯,vs,飞腾,各种,测试数据,国产,cpu,水平 · 浏览次数 : 0

小编点评

**性能提升** * **优化程序**:为了提高性能,可以优化程序,例如减少循环、使用缓存等。 * **外围存储**:可以外围存储数据,以提高性能。 * **互连优化**:可以优化互连性能,以提高性能。 **技术** * **3A5000**:3A5000是龙芯3A4000的改进版本,它具有更高的性能,但仍保持低功耗。 * **DDR4**:DDR4是一种自研的内存接口,它可以提供更高的性能,但成本更高。 **策略** * **理性采购**:为了购买性能好的一台计算机,可以进行理性采购,例如购买具有性能优异的品牌,或购买二手电脑,可以获取较低价格的性能好的一台计算机。 * **利用技术**:可以利用技术,例如优化程序、外围存储、互连优化等,以提高性能。 * **保持性能**:可以保持性能,通过使用性能优化技术、适当配置等,来保持计算机的性能稳定在提升的范围内。 **结论** *国产计算机性能有待提升,但仍然具有很大潜能。 *可以通过优化程序、外围存储、互连优化等技术,以提升性能。 *可以利用技术,例如3A5000、DDR4等,以提升性能。

正文

https://zhuanlan.zhihu.com/p/99921594

 

2019年年末,龙芯、飞腾两大国产CPU巨头更是相继组织了规模宏大的年会,发布了新型桌面芯片及其整机产品,顿时硝烟四起。各大媒体也都很嗨,zyt、xhs、rmrb都对两个盛会做了报道,环球更是发表了第三方文章,把龙芯吹捧了一把,把其他家狠狠打压了一番。在芯片行业遭遇国际严峻形势的情况下,秀秀肌肉提振一下信心很有必要,笔者也很振奋于国产CPU的整体氛围已经起来了,中国芯片的发展大势已经不可抵挡。但我们仍应认清我们的差距,切不可盲目乐观,号称“补课”已经完成,不要被一些发明出来的metric晃晕了头脑,否则你吃得起小龙虾,你就买得起奥迪。

一周时间过去了,情绪的高潮也应该差不多了,是时候理性出场、数据说话了。这两款芯片性能到底如何?公布的性能水分有多大?笔者在两家产品的样机上进行了一番摸底测试。

整机配置:

1、龙芯整机:3A4000四核,1.8GHz,内存8G,SATA机械硬盘

2、飞腾整机:FT2000四核,2.6GHz,内存8G,SATA机械硬盘

下面放数据,事先声明,用的编译开关是通用的,不排除两家还各自有神操作,能够提升各自性能,也欢迎各自提供测试数据。

一、SPEC2006(分数越高越好)

龙芯vs 飞腾spec2006测试结果对比:

龙芯3A4000四核测试结果:

图:3A4000单核整型spec2006测试结果

图:3A4000四核整型spec2006测试结果

图:3A4000单核浮点型spec2006测试结果

图:3A4000四核浮点型spec2006测试结果

飞腾FT2000四核测试结果:

图:飞腾2000单核整型spec2006测试结果

图:飞腾2000四核整型spec2006测试结果

图:飞腾2000单核浮点型spec2006测试结果

图:飞腾2000四核浮点型spec2006测试结果

二、LmBench访存延迟(延迟越低越好)

龙芯vs 飞腾LmBench测试结果对比:

龙芯测试结果:

飞腾测试结果:

三、系统综合性能Unixbench(分值越高越好)

龙芯vs 飞腾Unixbench测试结果对比:

龙芯测试结果

单核测试结果:

多核测试结果:

飞腾测试结果:

单核测试结果:

多核测试结果:

四、stream访存带宽(带宽越高越好)

龙芯vs 飞腾stream测试结果对比:

龙芯测试方法及过程日志

-------------------------------------------------------------

STREAM version $Revision: 5.10 $

-------------------------------------------------------------

This system uses 8 bytes per array element.

-------------------------------------------------------------

Array size = 10000000 (elements), Offset = 0 (elements)

Memory per array = 76.3 MiB (= 0.1 GiB).

Total memory required = 228.9 MiB (= 0.2 GiB).

Each kernel will be executed 10 times.

The *best* time for each kernel (excluding the first iteration)

will be used to compute the reported bandwidth.

-------------------------------------------------------------

Number of Threads requested = 4

Number of Threads counted = 4

-------------------------------------------------------------

Your clock granularity/precision appears to be 1 microseconds.

Each test below will take on the order of 23420 microseconds.

(= 23420 clock ticks)

Increase the size of the arrays if this shows that

you are not getting at least 20 clock ticks per test.

-------------------------------------------------------------

WARNING -- The above is only a rough guideline.

For best results, please be sure you know the

precision of your system timer.

-------------------------------------------------------------

Function Best Rate MB/s Avg time Min time Max time

Copy: 7991.1 0.020137 0.020022 0.020330

Scale: 7898.5 0.020402 0.020257 0.020543

Add: 8019.5 0.030083 0.029927 0.030517

Triad: 8063.4 0.030026 0.029764 0.031464

飞腾测试方法及过程日志:

-------------------------------------------------------------

STREAM version $Revision: 5.10 $

-------------------------------------------------------------

This system uses 8 bytes per array element.

-------------------------------------------------------------

Array size = 178900000 (elements), Offset = 0 (elements)

Memory per array = 1364.9 MiB (= 1.3 GiB).

Total memory required = 4094.7 MiB (= 4.0 GiB).

Each kernel will be executed 10 times.

The *best* time for each kernel (excluding the first iteration)

will be used to compute the reported bandwidth.

-------------------------------------------------------------

Number of Threads requested = 4

Number of Threads counted = 4

-------------------------------------------------------------

Your clock granularity/precision appears to be 1 microseconds.

Each test below will take on the order of 328026 microseconds.

(= 328026 clock ticks)

Increase the size of the arrays if this shows that

you are not getting at least 20 clock ticks per test.

-------------------------------------------------------------

WARNING -- The above is only a rough guideline.

For best results, please be sure you know the

precision of your system timer.

-------------------------------------------------------------

Function Best Rate MB/s Avg time Min time Max time

Copy: 10705.9 0.270737 0.267367 0.274043

Scale: 10647.1 0.271205 0.268843 0.273011

Add: 10851.3 0.399085 0.395677 0.403818

Triad: 10763.5 0.402215 0.398904 0.406974

--------------------------------------------------------------

 

五、浏览器性能Octane(分数越高越好)

龙芯vs 飞腾Octane测试结果对比:

六、SpecJVM2008(分数越高越好)

龙芯vs 飞腾SpecJVM2008测试结果对比:

七、小结

单以spec2006测试来看,飞腾和龙芯的单核性能并未像宣传的那样都达到20分水平,可能是因为他们自己内部测试有更高主频、更好配置,进行了某些他们自己特有的优化,希望他们能够公布出来,让我们好好学习。另外,龙芯未公布全芯片的性能,强调单核提升较多,但芯片设计是个系统工程,不止是单核能力,还涉及到互连、存储、IO等设计,实测的全芯片性能和单核性能综合起来才能代表芯片设计水平。飞腾单核到多核的扩展性尚可,但单核性能也不出彩,即便扩展到3.0GHz,在这个配置下也难以达到20分,更何况核的频率提升带来的性能提升并非线性的,除非外围存储和互连也同步提升。现在市面上的intel、AMD的桌面CPU的spec2006单核性能基本都在30分以上,最高的可以到70、80分。因此,国产CPU相比国际主流来讲还有不小差距,难说达到完成了“补课”的状态,还有很长的路要走。

根据龙芯总裁胡伟武研究员2019年12月24日发布的演讲来看,龙芯3A4000四核在DDR4和功耗方面确实存在一些问题,导致性能与上一代比较提升不明显,希望3A5000能够有所改善。从龙芯在推出3A4000不到半年就要推出3A5000计划来看,确实是非常急迫地想要进行改进,3A4000是一个比较尴尬的中间产品。但龙芯有个亮点,这个DDR4接口是自研的,虽然只是28nm,频率也不高,好歹解决了有无问题。如果不涉及知识产权问题,这个IP可以外售赚钱了。不过没有PCIE是个缺憾,现在还用AMD的HT接口实在是太老的。

总之,还是那句话,国产的大幕已经拉开,谁也无法阻挡。但大家应多些理性、多些客观,对刚刚起步的这项事业只有好处没有坏处。

与[转帖]龙芯 vs 飞腾:各种测试数据看国产CPU水平相似的内容:

[转帖]龙芯 vs 飞腾:各种测试数据看国产CPU水平

https://zhuanlan.zhihu.com/p/99921594 2019年年末,龙芯、飞腾两大国产CPU巨头更是相继组织了规模宏大的年会,发布了新型桌面芯片及其整机产品,顿时硝烟四起。各大媒体也都很嗨,zyt、xhs、rmrb都对两个盛会做了报道,环球更是发表了第三方文章,把龙芯吹捧了一

[转帖]龙芯总强调单核同频性能,是因为Pentium4要到25+GHz才能比得上11代酷睿单核

https://zhuanlan.zhihu.com/p/522073827 闲话不说,先上图,是SPEC CPU 2006 int(单任务)测试的成绩: 上图中的成绩,大部分是本人自己测试的结果。SPEC CPU 2006 的测试可费劲了,Pentium 4运行一遍完整测试(int base/pe

[转帖]龙芯处理器应用于服务器的性能初探

https://zhuanlan.zhihu.com/p/585350070 自从今年龙芯3C5000+7A2000面世以来,在服务器市场已经具备初步的竞争力。在11月16日南京的会议中,龙芯发布了几十款服务器与台式机产品。一直以来,服务器CPU给人的感觉比较高端,价格也要贵好几倍,一个INTEL的

[转帖]龙芯二进制翻译性能的不严谨分析

https://zhuanlan.zhihu.com/p/580008360 先读一下胡老师的大作 节取一些内容如下,下面有官方测试参数: 一通操作猛如虎,一看跑分不如知乎答主: 龙芯UnixBench分高,龙芯说了原因如下: 二进制翻译性如下(LATX就是翻译到X86): 胡老师说spec2000

[转帖]龙芯3A5000评测 国产自主指令集架构实战

https://tieba.baidu.com/p/8297036384?pid=147031768904&cid=#147031768904 芯片,是世界一大难题,很多人难以想象电子硬件中最小巧的的元件反而拥有最高技术含量,其中蕴含的逻辑就相当于以纳米为单位修建一座城市。 芯片器件中最著名的产物是

[转帖]龙芯总强调同频性能,是因奔腾4要到25+GHz才比得上酷睿11代单核

https://baijiahao.baidu.com/s?id=1734320620568707041 闲话不说,先上图,是SPEC CPU 2006 int(单任务)测试的成绩: 上图中的成绩,大部分是本人自己测试的结果。SPEC CPU 2006 的测试可费劲了,Pentium 4运行一遍完整

[转帖]龙芯、海光、飞腾、兆芯同桌对比性能力求公平

https://zhuanlan.zhihu.com/p/627627813 老夫桌上有酒,不喜独酌,闻数家国产CPU有擅桌面者,故许利淘宝陆续擒得之,长随老夫左右伴饮。已得龙芯、海光、飞腾、兆芯四姓围坐,皆为桌面CPU才俊,老夫甚慰。 此日海光新至,为其接风饮宴。席间其乐融融,众CPU互报姓名,曰

[转帖]面对龙芯3A5000的逼迫,3A4000要为生存抗争!

https://baijiahao.baidu.com/s?id=1709233817860985518&wfr=spider&for=pc 龙芯3A5000是龙芯中科自主设计的最新型号桌面CPU,比上一代3A4000提升了50%的性能。本人通过真机实测,印证了3A5000无论是单核性能还是多核性能

[转帖]在龙芯3A5000上测试SPEC CPU 2006

https://baijiahao.baidu.com/s?id=1707601012673143593&wfr=spider&for=pc 注:百家号中,一些文本、代码等的排版格式无法控制,编辑状态时看着好好的,发布之后再看就乱了。这里真不适合当成技术博客来用……本人(guee)知乎上的同名文章中

[转帖]美国把龙芯列入黑名单没有什么用

https://baijiahao.baidu.com/s?id=1759406814932648369 美国商务部周四在黑名单中又增加了28家中国实体,龙芯中科名列其中,理由仍是“威胁美国国家安全”之类的陈词滥调。谁都知道龙芯迟早会被美国制裁,只是笔者以为应该是在半年之后…… 笔者难以理解,龙芯是