专业显卡在生产力应用领域不仅仅用于AI模型训练及推理,也用于空气动力学仿真、科学计算和数据分析。某些情况下塔式工作站是很多专业用户的最佳选择。
为什么选择消费级平台?
使用云服务获得专业显卡的计算能力是非常方便的,但受限于光速,使用非同一个城市的机房会有较大的延迟,部分专业应用对延迟要求很高,也不得不使用物理机搭配专业显卡。
博主在近几年一直在做垂直领域的人工智能,由于服务于政府客户,对数据安全的要求比较高,因此选择自建塔式工作站放置于工作室来进行模型调试,使用雷电4接口能够快速传输大量数据。在生产部署阶段自然也会部署于服务器机房,实现合理分工。
在服务器中使用A800/A100专业显卡非常简单,插上去就完事。但是机架服务器动辄万转的风扇产生巨大的噪音使得无法放置在普通办公室使用。
不同的人对专业应用的要求是不一样的,就像有的人明知游戏卡某些计算精度性能和专业卡有区别,内存带宽和多卡互联能力也有很大差距,但是他就是要用多张4090游戏卡来进行AI炼丹一样,他们既不使用专业软件,也不要求更高的数据吞吐能力,因此出于对成本、环境、安全性以及各方面的考虑,就是有用户希望使用普通电脑安装使用专业显卡。博主实测4090比绝大部分专业卡做AI绘图速度更快,因此4090在这个场景下就是具有性价比。总之,希望大家以包容的心态看待这个问题。
家用级别的设备稳定性是远不如企业级设备的,博主也只会在开发环境下使用消费级平台,不要试图将工作站直接放进机柜部署,否则就是给自己找事情做。
使用专业卡必备的条件
在普通电脑安装使用A100等专业显卡,对CPU和主板的选择有一定要求。以NVIDIA Tesla A800 80G为例,首张A800显卡需要使用全速PCI-E 4.0 x16的插槽,也就是说PCIe 4.0 x4 in x16 slot是不行的,除了PCIe插槽长度,还需要考虑具体有几条通道可以使用。比如Z790平台搭载两条PCIe5.0 x16插槽的主板,在同时插入两张显卡的时候只能以x8/x8的模式运行。
你有几条PCIe通道是由你的CPU、主板及主板使用的芯片组共同决定的。PCIe通道数量也是家用主板和工作站主板、服务器主板的主要区别之一。无论是家用主板还是工作站主板,PCIe插槽和能同时使用的PCIe条数都是不固定的,即便你的工作站主板有8条PCIe 5.0 x16的插槽,也未必能提供8条全速的PCIe通道。因此在购买主板之前需要先研究清楚你选择的CPU、芯片组和主板支持几根PCIe通道及具备几条多少长度的插槽。
如果你的专业显卡也是A800,那么需要选择X570(AMD)、Z490(Intel)及以上型号芯片组的主板,同时需要确认主板支持Gen4 x16满速插槽。最好选择带错误码显示的高端系列,否则主板自检不通过时排查错误需要根据主板LED灯或者检测卡,会比较麻烦。如果你的专业显卡是P40、V100,选择支持PCI-E 3.0 16x且支持“Above 4G Decoding”(大于4G地址空间解码,技嘉叫做“4G以上解码”,还有的叫 Memory mapped I/O above 4GB 或 PCI 64-bit resource handing above 4G,一般Z170+主板都支持,大于16G显存的显卡都需要开启该选项以获得最佳性能)。
选购显卡的时候不要选择绑定某微平台的A800,不过一般能买到显卡的渠道都不会是捆绑版本。A800选择PCIe版本而不是SXM4。
为服务器设计的专业卡都不支持直接插入HDMI或者DP线,压根没有显示输出接口。有些服务器芯片组的工作站或服务器自带亮机卡,但是某些亮机卡是不支持3D加速的,不适合拿来开发,因此需要配置独立亮机显卡。A800/A100这样的高端型号比较特殊,实测不支持搭配Intel核显工作,需要准备其他的Nvidia专业显卡作为亮机卡,博主选择的是 A2000 6G 版本作为亮机卡,可以使用和 A800 同样的专业卡驱动程序。而P40、V100就很省事了,基本上和游戏卡一样,能够搭配Intel核显同时使用。
正如上文所说,服务器专用的专业卡是搭配大转速的服务器风扇使用的,现代服务器上,除了CPU散热器上可能有散热风扇外,基本上依靠电源附近的暴力风扇形成服务器通道来散热,因此也要求服务器机房带空调且具备无尘机房环境。在这种情况下,专业卡一般都是被动散热设计,即显卡本身没有风扇。因此为了确保显卡不出现过热,需要购买别人3D打印组装好的散热风扇,用螺丝固定后即可使用,相比起改装水冷影响质保,这种方法简单方便性价比极高。实测全转速情况下大模型微调满载时显卡温度不超过 65度。
(图片已获得原作者授权,请勿转载)
7*24小时运行的工作站不建议选用水冷!不过博主买过双塔散热器测试了13700k,实在是太热了,没办法购买了有漏液保的水冷。在能压住CPU的情况下,尽量还是不要使用水冷。
机箱建议使用全塔机箱,保证充足的内部空间及良好的散热。
博主考虑CPU单核性能及内存性能、工作噪音等综合因素,选择家用的Z790平台搭配13900k型号的CPU作为搭载A800显卡的工作站。
以博主选择的华硕ROG MAXIMUS Z790 HERO主板搭配13900k为例,CPU本身支持14根PCIe 5.0通道,4条PCIe 4.0通道。Z790芯片组支持20条PCIe 4.0通道,8条PCIe 3.0通道。从主板的视角看,CPU支持2 x PCIe 5.0 x16 slots (support x16 or x8/x8 modes),Z790芯片组支持1 x PCIe 4.0 x16 slot (supports x4, x4/x4 modes)。
这种情况下,A800插入第一根PCIe 5.0 x16插槽(自动降级为PCIe 4.0 x16),第二条PCIe 5.0 x16插槽留空,这样就占用了CPU中14条PCIe通道。如果将 NVMe 的 SSD 插入第一个M.2插槽,则占用CPU 剩余的PCIe 4.0 x4通道,其他任何设备就无法使用 CPU 的PCIe通道了。这种情况下,只能将 SSD 插入到第二或者第三个 M.2 插槽,走南桥的 PCIe 通道,这样才能保证 A800 和其他 PCIe 设备得到足够的 PCIe 带宽同时 SSD 也能保持 7000M/s的持续读写性能。
同理,雷电 4 接口也会占用 CPU 的 PCIe 通道数量,如果要手动设置“Above 4G Decoding”,则必须先关闭雷电接口。如果要保留雷电4接口,则必须合理搭配使用的 PCIe 通道。
A800 显卡的 TDP 是 300W,综合考虑建议使用 800W 以上的电源。博主选择的是 1250W 的 ATX3.0电源。需要特别注意的是,专业显卡需要使用专门的供电线,默认的 PCI-E 8pin 接口不适用于为服务器设计的显卡,搭配转接线使用即可,切勿暴力怼入供电口。
总结一下,需要考虑的主要因素是:
- 亮机卡
- PCIe通道数和插槽数
- 供电线
- 散热
最后再提示一下,NVIDIA的企业技术支持是英文邮件和英文热线,如果没有接触过物理服务器建议不要选择消费级平台。
如何配置设备以兼容专业卡
将亮机卡插入显示器,进入BIOS第一件事,就是调节显卡风扇所在的FAN口转速为全速以保护显卡。
在 BIOS 中开启上文提到的“Above 4G Decoding”选项,否则无法开机。
进入Win11安全模式或者 Ubuntu TTY2 安装显卡官网驱动程序。
如果遇到 d4 PCI 资源不足等主板自检报错或者蓝屏,请重复检查上文提到的内容。
蓝屏代码INACCESSIBLE_BOOT_DEVICE以及DRIVER_VERIFIER_DMA_VIOLATION均与设置有关,参照网上相关说明即可解决。
遇到错误可先排查主板中 PCIe 通道信息,如果 BIOS 设置正确仍然提示“该设备找不到足够的资源可以使用”,请检查主板上的物理 PCIe 切换按钮。
不要轻信任何客服人员告诉你主板和显卡有兼容性问题。
如果实在无法解决问题,博主可提供免费的邮箱咨询(a@wyr.me)或有偿电话技术支持(2000元每次)。
总结
强如 A800 这样的专业卡也是可以用于普通电脑的,只不过在搭配使用的时候需要遵循基本的组装规则。实测A800单卡进行6-10B 级别的大模型推理的输出速度几乎是秒级。
暂无内容
感谢回复! Clang 在生成时沿用了 GCC 的版本号标识,我是不是可以理解为Clang 18.1.4生成时使用的就是GCC4.8,所以我后续使用gcc 9.4
gcov
就会有不兼容的问题抱歉,这块我也不太清楚,尝试寻求AI的帮助吧。
我在这个过程中遇到了各种问题- -,现在在UDC core: g_serial: couldn't find an available UDC卡住了,请问大佬有什么解决方案吗,还是说我前置的设置就错了呢,> 这个需求很特殊。是可以的,但是比较困难,需要修改驱动配置。
好思路呀!!
关于hex编辑器,网上没找到特别好用的(小白没办法),最后在vscode上扩展一搜hex,第一个安装一下就可以用vscode进行hex编译了