刘晓义(00:00:03): 我们要重新定义起点中,我们还真需要,今天又是微蓝的,连不上这个 hdmi 线的一天很好。就几次。 续本达(00:00:16): 所以能给个摄像头吗?哈罗。 刘晓义(00:00:23): 会不会显示我不知道我一去了,刚刚说啥了,我没猜谁给摄像头。 续本达(00:00:31): 可以给摄像头,教室全景。 刘晓义(00:00:35): 正在准备是因为谢老师,你之前我记得你那次来讲的时候上来第一件事是 xrndr,这个这次是微蓝的,连 xlr 都没有,就不知道为什么显示没有影,正在挪。流狗好多东西? 续本达(00:00:51): Ok 已经超出我的知识范围了。 刘晓义(00:00:54): 你觉得什么?对加一下腾讯会议,然后咱们开一下那个投屏和摄像头,为什么我都把导航的 app 关掉,我还能听得到很多播报。 刘晓义(00:01:43): 不用开直播室内音乐,我不要 qtp1直用我的。你至少做到实。对他这。立即联系乃老师让他修。 Harry(00:02:20): 喵喵发生啥事了? 刘晓义(00:02:22): Svlan 不是 vlan,只需要说一个微。 Harry(00:02:30): 威兰和奶牛老师的关系是啥? 刘晓义(00:02:32): 和乃老师没有关系,现在正在开 ttp。 LUG @ USTC(00:02:39): 我最后已经支持为代理。 刘晓义(00:02:44): 现在是连不上教室的 hdmi。哈哈。我看一下主板看没看?线上为什么只有你人,为什么线上只有你人,你确定你的会议号选的是对的吗?哥们?两端会好不一样?照片录像好像挺好。 刘晓义(00:03:55): 好热烈庆祝! 武益阳(00:05:17): 怎么又被关了,终于成功了! 武益阳(00:05:31): 那大大家晚上好,我来为大家介绍一下实验物理垃圾岛是如何组建高性所谓的高性能 gpu 集群的。那么首先讲述一下我们这次参赛的一个背景故事。的一个前厅提要,曾经谢老师为了备份运输,还有传存储这个 pb 级的数据,在这个磁带和磁盘上他都已经做了一个系列 to net 大家可以看到这个谢老师已经迭代出迭代到几乎看不到了。但是光光存储不行的,还需要大量的这个算力分析,正好薛老师带领的团队以王云一为 BarrySoft 为首,研发了 fsmp 算法是在2022年的时候,他的一个。讲述的是 MMCMC 的 gpu 加速的算法,这个非常吃,其实之矩阵乘法能力,所以它天然的适配使用 gpu 进行运算,那么这就意味着我们要处理 pp 级的数据,要使用大量的 gpu。然后肖老师觉得用什么样的 gpu 最好在那个时代大概是202222到2024年之间,这个时候,N 卡已经成为了某种意义上的理财产品。 武益阳(00:06:46): 这是薛老师给我们的发邮件的原话,那个时候 a100被量化金融集团炒到了可能非常高,加上禁运的因素,所以购买大量的 N 卡就变成了非常昂贵的一件事情。为了研究,如果我们真的要上 N 卡的话,我们就必须省很多经费去搞清,这个事儿非常麻烦,而且扩大老师,包括我们都很讨厌扩大的封闭软件生态。然后没有办法自己的去 debug,而且它对于内核模块还是单独存在的,还不没有 upstream 到 linux 内核,导致我们每次升级内核或者升级驱动都非常苦恼。 武益阳(00:07:28): 我们希望能够理解 gpu 计算的一些更多的理解它的步骤,因为科学计算的可复现性是一个非常重要的事情,而薛老师瞄准的是当时一个。软件框架叫 rocmrocm,它既能兼容扩大的一些,它就它基本上能够一对一的兼容扩大的一些基本程序。它可以让我们的计算更好的 port 过来。另外,它也是比较开源的。主要的原因还主要原因就是 linux 中有原生的 ROCm 支持内核,而且它的整个 userspace 都是开源的,可以构建我们经过了一个 ospt1个 gsoc,当时是我在主要工作以及社区多个开发者的努力下,当时我们把 rock。就是 amd 机器上的这个运算生态把它迁移到了粘土上,装到了我们自己的机器上。那个时候,我们机器基本是我记得是有一块 a100,还有两块 mi100就是 amd 的卡,就可以基本上工工作了,能够在这两张卡运算了。 武益阳(00:08:34): 接下来就是要大量的铺开,我们要上量来处理即将运行的江门中微,那个时候对于我们来说是即将运行,现在已经开始运行了这个江门中微子实验数据。那么在这个实验运行前期我们就开始考虑如何堆 gpu 了。那当然 nan 卡很贵,然后 a 卡因为大家因为其实很多人都不会用,反而它的价格相对便宜一些,你甚至只能在二手市场上买到几千元的 mi100,它的性能,它的部分性能甚至逼近,甚至。超越了 a100按照图片中的价格仅供参考,现实是实现,你可能得花个六七千块钱,甚至更高才能买到。 武益阳(00:09:20): 当时我们对算力的估计大概是一个 mi100大概能支撑80个波形每秒,现在可能这个随着我们算法的开发复杂,以及我们发现32精度可能不够,现在转化到了64精度这个。这个速度可能会减半,当时对于中子探测器的预估已经已是这样一个数字。虽然这个4万波形每秒不一定是我们一定要达到的一个数目,因为你可以用一些更简单的算法,先筛出一部分数据子集来,然后再处理它。越多算力肯定越高越好,而且未来可能会有更多的需求,所以我们在思考如何利用有限的经费以及场地部署更多的 cpu 那么接下来就进入到我们的正题,我们到底是如何去选择,gpu 刚刚说了 mi100听起来非常有性价比,其他的各种配件我们是如何去选择去捡垃圾的? 武益阳(00:10:18): 首先第一个最大号的垃圾就是这个 ai 服务器这个服务器很独特,然后它都是一个。它都是2U 的尺寸,但是它其实可以装八个卡,它的价格其实很便宜。它之所以能装八卡,就是因为你看到它的头尾只有两个巨大的风扇,这个风扇是上下能插两张2U 双宽的 pci 卡。 武益阳(00:11:01): 然后前面这里面有前面有俩左右俩大暴力风扇,然后吹往后一直在吹,然后这个服务器的话,前面装四块双宽卡,后面装四块双宽卡,它就在2U 的空间内塞下八块卡。我们认为这是目前来说,我们见过最高密度的地标系统,必其实就是为了 gpu 计算这种数据中心设计的。那么经过1ai 这几年的蓬勃发展之后,作为这种初代产品,它被淘汰,终于流入了二手市场,成为了喜闻乐见的。叫大船货,那么这是它的这个系统组成,可以看到它其实是它的重心其实就是 gpu,它做它支持八条这个 pcic4.0,然后其中有其中是 CPI P。 武益阳(00:11:54): 43分出了四条 pci4.0叉16,然后再经过这个 pci 的 switch,把它 switch 到八条,所以相当于其实刚刚说了那个服务器有能插八块卡,就是前面四块,左边两块右边两块后左后两块右后两。块,然后每两块就是一个单独的可以提拉的模块,这个模块上就搭载了一个 tcvswitch 装两块 gpu,然后同时它还能提供它这个板载还有万兆网卡。以及各种 io 接口,其实很香,我们都不用买,自己买万兆卡,直接就能融入到我们现有的楼是机房里的万兆网络里。 武益阳(00:12:36): 内存如何解决,在那个时候在2024年的时候,二手的二手大盘内存还是很便宜的,这是我随便找了一个商家,最后成交价甚至要比这更便宜,大概可能八百块钱左右就能买到一个64G 的3200色的1.24内存就可以直接插到 zen3的这个平台上,非常香的。以及64核心128线程的 cpu 的时候,因为 z4已经出来了,2024年的时候任务也马上要出来了。所以那时候 z3的 cpuip3其实不是特别的贵,像这些 atc13它是那种云服务厂商。 武益阳(00:13:19): 的货,要么就是拆机下来的,要么就是甚至没有上机,就搁在仓库里吃灰的 cpu 就是我们最后那个集群里的六块 tc13的 cpu,其实就是他们找到的,可能是当时上集群就是上数据中心多余出来几块 cpu 就搁那仓库里吃灰,就是全新的。 武益阳(00:13:41): 这些都来自于深圳,以及佛山那些广东地方基于以上的这些零件,我们就开始搭建原型机的过程。理想主义说就是我们听起来就是一套完美的巴卡机器。然后我们把它的原型机叫 lilypad,但现实起来,今发现有一堆 bug 首先是我们第一次买的那个292它的忘刷 bios 导致我装上了 z3的 cpu 根本不认。后来我是重新刷了 bios 才行,他们专家说刷 about 其实他没刷,然后主板其实还有质量问题,当时我们购入那个原型机,有通道内存,其实是无法识别的。然后除了这个之外,很多我买到的那个廉价内存,它体质不好,有时候插上就没有办法开机,有些是插上之后就一直在 etc 每五分钟一次 etc 报错。尤其是这三个东西。对这最恐怖的事情是这三个东西混在一起。我当时把内存插拔了好久,还把这三个问题区分出来。它没有原装导轨。它这个服务器非常奇怪的一点就是它的 bios 里的默认风扇的配置是压不住这个 gpu 的很奇怪,就是 gpu 总会过高温度报警,它那个风扇不干活。我后来又重新调了一下它这个 gpugpu 的风扇 profile,然后所以最最恐怖一点就是我们都是机架式服务器,但它没有导轨的话,它怎么上架是一个比较大的问题。 武益阳(00:15:24): 我们尝试了很多这种 L 型的拖导轨,但是他们的都不满意,因为 L 型导轨你装上去之后,不仅要把这个服务器装上去,最好前面它那个服务器螺丝能够固定到机架上,把它拧上,这样服务器。它受到水平力的时候,它不会滑出来。虽然这种情况比较小,但是我们试过了几乎所有通用 L 型导轨,它都没有办法跟服务器自己的螺丝匹配。 武益阳(00:15:51): 最终非常幸运的一件事就是帮我们的物理系友军迁移机房的过程中发现他这一台戴尔的机器,它的这个导轨居然跟原装导轨几乎一样,只是的螺丝。从螺丝替换掉就行,所以我们就直接从前移入手66条导轨以及一道螺丝,然后成功拼自己拼出了一套兼容原装,就是拼出了一套原装导轨。 武益阳(00:16:16): 这套原装导轨是台湾的一个导轨厂制作的,如果我们要单独去买台湾导轨的话,其实是非常麻烦,在这个过程中,我们 debug 逐渐也逐渐理解了这些非垃圾佬们就是大厂们,他们去研发服务器背后的付出,每一个地方的螺丝,然后每个组件的布置安排都是有一定其道理的,就在研发过程中投入了很多的金钱。就逐渐变成了服务器上看上去的智商税。当然我承认里面其实还有很多智商不合理的智商税,那么我们其实是在使用高质量的二手配件,通过合理的价格站在大厂已经研发出的肩膀上,再加上一点自己的适配。因为二手市场上,这价格更接近他们这些设备原有的生产价格,而不是加入了研发价格。 武益阳(00:17:13): 我已经是主持人,那么第二台在完成了 lilypad 这样一台经了经历科科判断的第一台原型机之后,我们又尝试了第二台原型机 catherine 这台原型机就是292的升2z20的升级版叫292z45。买它的缘起是因为就是为了捣鬼查数,当时我们第一台原型机有机器没捣鬼,为了获得一个导轨,我们就联系技嘉原厂。这家影厂说我单给你卖一根导轨,这太不划算了,运费生产什么的,你不如买一台我们的服务器,然后我再给你多送一条导轨,所以就买就有了买。 武益阳(00:17:53): 292z45这块儿盘这盘饺子,然后他顺便送了我们多一个导轨。当时这个导轨,它是它的原厂导轨,也是一个 L 型的静态导轨,而不是像戴尔那种能推出服务器的滑轨。这是由于台海局势一家它不再采用大陆工厂的那个滑轨方案,所以就只能找台湾本地的一个静态导轨方案。 武益阳(00:18:16): 他们拆这些服务器的时候,拆的时候都我发现就是二手服务器,包括盘阵什么的,他们在拆卸的时候其实很多时候就是拆服务器回收服务器的人跟回收导轨的人不是一拨人,他们可能就流向了不同的市场。我们买服务器的时候没有导轨。而那些导轨,我发现似乎有可能甚至都没有流入国内,而是流入到了海外,所以就有。所以这个导轨其实是一个 tricky 的情情况。而 z45就跟 zz20有这样一个不同,它是在它也是在2U 的空间,然后完全一样的外壳。但是它在里面更猛,它塞入了两颗 z3的 cpu。而且这个 cpu2个 cpu 很神奇,你可以看到一般来说,你的双路 ip,它这个里面是一个44条,这个 p4条叉16的 PCI E 通道来让 cpu 之间互联。这两个 cpu 在。互相往外暴露四个叉16的 ctcctca 通道,这样整机是还是暴露下面暴露八条 pc pc8条叉16的 pcctca 通道,但是你要插八卡的话,它这个机器里就没有上 pc switch 了,它要更聪明一点,它把这个叉四的。 武益阳(00:19:30): 这2cpu 链接降低到叉三就是33条 pcie 叉16然后这样的话,每个 cpu 就可以出五条第31 X16,然后五条中可能就有各一条分别去做 slot 以及联接这个 bmc 联网口这种外设,然后剩下八条就可以直通 gpu。 武益阳(00:19:50): 那么我们在想,如果少一条少一条从 cpu 内存 cpu 到 gpu 的一个 switch 的关口会不会这个带宽更高?这个是它的实物图,可以看到我们的在这个上架的时候,然后这边就是这边两个 gpu,后边两个 gpu,当然这个设计有它的一个问题就是。后面 gpu 会吃前面 gpu 的尾气,这后面会提到也是一个坑,然后中间的话也是一个纵向的前面前后两个 cpu 外加。 武益阳(00:20:25): 16颗16个内存,它这个 cpu 数目就更多。理论上它是说我们有两倍的 cpu 到 gpu 带宽,因为原来是一颗 cpu,然后它出四条 pci 叉八,然后再倍增用 switch 倍增出八条叉八。现在我们是直接两颗 cpu,同时连八个 CPU 直连八个 gpu,那它对 hpc 就是高清计算,这个理论上是更好的,但实际上我们发现使用体验跟 g20差不多,这可能是因为我们的这个运算它不是。 武益阳(00:20:59): 系统内存跟到 gpu 显存之间带宽来方式,它更像是 gpu 显存到 gpu 核心的带宽棒。而且这个 z5451个最大的问题就是它的原厂价格卖我们的时候是2万6这个相对于几千块钱的 z20来说,价格还是太贵了,不符合垃圾岛精神。 武益阳(00:21:18): 我们这个原型机方案就被搁置了,最终我们选择了第一号原型机方案选择第一号原型机方案,那我们就开始了量产环节。量产环节就是我们艾克里说的,我们大概投入了50万经费50万是因为再往上我们就要招投标在50万以下,我们还可以通过比选和论证的方式来去对在学校最终做一个报销的方案。 武益阳(00:21:46): 所以这六台机器我们就薛老师亲自出马去了趟广东,然后去找了去上仓库里实地考察,去找了一家手里握有大量 z20准系统商家,他们是经过薛老师的认可之后,觉得他们水平可以,然后他们使用了刚刚说新生产的就是。 武益阳(00:22:08): 吃灰的 etc13,然后但是那个商家他没有 gpu 在市场上找很多的 gpu,然后当时我薛老师还有那个商家,三个人兵分三路,在咸鱼淘宝上问来问去。然后因为闲鱼淘宝上其实大部分人都是二道贩子,手里没有囤货,他们也他们接到这个有人要买 mi100的时候,他们也在到处搜,然后就会形成一个级联效应,仿佛这整个世界的人都突然要买 mi100。 武益阳(00:22:39): 是六十多块,那当时是六乘四四十八块 MM100,然后好多商家就直接好多二道贩子就开始发现这个需求突然这么大,开始坐地起价。然后就幸好幸运的是,我联系到了那个手里握有货的人,我第一次我联系他的时候,他还非常不屑,他以为我也是二道贩子。他觉得我也是为了,但是当他告诉我们是最终买家只有他的心情一下变得非常愉悦,而且他意识到我们是为科研来去购买这个 mi100,所以他非常的开心,直接,我们就直接这个绕开了所有中间商。 武益阳(00:23:24): 他掏出了自己的库存的 mi100,他是个量化基金老板使用 welcome 他的这个主力机主力 gpu 是 mi50,因为这玩意性价比更高。然后他当时买了好多 mi50和 MI100 性价比用了一下之后发现 MI50 更好,所以 MI100 就晾那儿了。晾晾之后就卖给了我们。那最后导轨就是刚刚说的 CRC6420的静态导轨。 武益阳(00:23:50): 最终,大家可以到时候算一下这个 IPD7D13可能大概有不到五5000块钱,然后准系统可能有5000块钱,然后 mi100的话我们当时成交价是6351块。 武益阳(00:24:05): 八块的话,现在就是 gpu 是基本占大头八块的话是55到差不多5万块钱,然后内存的话大概是。给我们的是900块钱的内存,一个内存,然后插扎八条,基本上就是也要几千,反正最后他这个商家拼装,然后运输弄些测试费,基本上一台机器就是8万。然后8万6台的话就是大概48万,所以我们最后是用50万的价格拿下了这六台的钉钉单,然后运了过来。那么有了这六台之后,代价是什么?拉架代价是什么?首先就是电力与散热难题,这个是我们的一个群聊记录。 武益阳(00:24:50): 就是我们隔壁组有个最先发现了运大佬运维,他发现了一个机房,突然有一路电断了,然后我们发现这个我们的机器突然自动重启了,因为这个机器它是双路电源,但它不是双路冗余电源。它是双路瑞的零电源就是这个机器,它的满载功耗大概是,但如果你的 mi100都开起来的话,大概有三三千多瓦,然后但是一个电源只能提供2200瓦,所以它两个电源其实是 raid0模式不是 raid1模式。所以,当我们如果是低功耗的情况下,比如它的功率没超过2000瓦那两一个单电源也能撑住。但是当时我们在当时我们的那个 fsmb 跑的飞起。 武益阳(00:25:39): 全部机器都在3000瓦满载运行,然后机机教学校机柜的这个电源撑不住了,就报了一个报了之后就只剩单单2200瓦电源撑这些计算。然后这些服务器瞬间意识到自己要没电了,他们就自动用,他们会自动启动这个关机流程。的体面的重启了,但是别的服别隔壁组的服务器就没有那么好了,因为我们当时是两两两列,每列电源是单独的,我们是两两边分头接,这样有一个电源是活着的,但是他们有些服务器是。同时接到了那个两个同两两个电源,两个冗余电源同时接到了一列电电源插排上,然后他们不就当掉了。另外,这个除了电力以外,散热也是一个非常难大的难题。我们这个给八个300瓦的 gpu 散热用的是好用的是这种1万6500转的暴力风扇。这个当时我们这个所有当我们满功率运算的时候。这个声音是非常恐怖的,它可以轻易的击穿这个机房的隔音门,然后响彻刘青楼的整个地下车库。当时据在我们满速运转的时候,去机房维护人说那个噪音是可以对人造成物理伤害的。 武益阳(00:26:59): 而且比较恐怖的是这个,即便是这样机对机房空调的温度也有比较高的要求。我记得在刚我们的机房在刚刚空调完成维修的时候能空调的温度大概是十几度还是能压住我们所有机器有满载的,但是到了现在,这个温度似乎上升到20多度。然后即便风扇满转也压不住这个 gpu 了,顺便说一句,这个风扇的转速也是我后后期调过的就是我发现这个你用温度又根据 gpu 核心的温度来去。 武益阳(00:27:35): 去判断去调整风扇转速,就像这个电脑里风扇一样,好像不够,有点滞后。所以最终我是使用了一个电源电流的模式,因为我们知道这个12伏 gpu 吃了一定是12伏电压,正好这些服务器上都有一些电流传感器,它能侦测出流向 gpu 的这个12伏电流到底有多大,我就直接按电流去 scale 我的温度曲线,风扇曲线。当我进行满载的时候,我就把风扇打满。这样的话,正好达成了一个。相当于我的热工号和风扇转速是成正比的,这样的话就能打,不会有这种温度,通过温度判断。风扇转速的一个滞后性。当然,拉角另一个严重翻车的地方。对寒道风扇功耗也不小,那个风扇的功率是非常恐怖的,所以机器确实可能3000瓦往上了,就刚刚说的内存体质不好,它插上经常无法开机,有一根插上无法开机,有些插上,经常的报错。 武益阳(00:28:46): Ecc 报错有时候有那种五分钟报错的,或者是一上压力就开始冷不丁报错的,可以看到这些是我们当2024年买的各种批次的内存的。这是人民币对不起这个打错了,这个不是美元,这是人民币770的这个三星的内存,当时我买了,然后我买了27根,然后售后,然后发现有六根儿坏的六根儿坏之后我发回售后。然后他寄回了六根中又有两根是坏的,然后我又寄回八回售后寄回,最终这获得了二27根好的内存,但是其中有八根是坏的,所以它的故障率是八分之八,除以35。为我们提供服务器厂家,他总共给我们预装了46根内存就是900块钱的950块钱的。然后也有一根儿就是经常一星期报错,隔五分钟报一次,所以它的故障率也不是零,就是说明无论你是从哪里回收的二手内存都有概率,体质不好,只不过价钱越高,它的体质也许就越好。 武益阳(00:29:55): 当然了,还有我之后会讲一个300块钱的32G 内存,它的故障率当时买了八根,也有一根出问题,所以我们可以隐约看出二手市场的一个层次化。价格和故障率是相关的,那么说完了这个硬件,我们是如何搭建的,我们来看一下软件运维上有一些心得,我们的一些心得就是我们这六个服务器它买过来的时候是不装硬盘的,因为预算马上就要超了。那不装硬盘的话,正好,反正这六个服务器都是 identical 的,我们又想着能不能就不给他们装硬盘了,然后就用一个统一的文件系统,统一的操作系统可不可行,那这就要涉及薛老师之前的一个。 武益阳(00:30:39): 设计的硬盘以及技差异步的架构。首先毕老师以前讲过它有一个盘阵巨大的盘阵,这个盘阵上有一堆固态机械硬盘和固态硬盘。这些固态硬盘先首先组成了一个50多个 G 的 rootfs,就是用 butter fs 组成的 root fs,这入台 five 里面就有一个 tftp 服务,这个操作系统,这个这边就足提供一个 tftp 和 dhcp 的服务,这些服务就会初始给这些集群在 P 插一步的时候,一个他们的 ipa4地址。同时这个 tftp 服务还可以提供这个一差一步,这个 tftp 里面的内容就包括这个内核内内核的镜像就是 vmlinux init rd 以及 graph 的 configuration。这样的话,我们这个 series 集群它是没有盘的,它拿到地址之后就能直接读取。读取这些文件,然后来启动一个 graph,那么 graph 启动完了之后怎么办?我们这个时候谢老师的硬盘又提供了又通过这个 zfs 的组成了一些 Z 库,这些 Z 库中有大部分的数据。大部分的 zfsdataset 都会通过 nfs 方式提供给其他的服务器来做科研用途存数据。那有一小部分 zfs,那它就提供了这个 svs 这个集群的一个 rootfs。Series Data set. 这些 data set 首先,这些 dataset 会作为 N root nfs 你可以 mount 到上面,这样的话,它就有一个,它就通过这个 nfs 可以有一个。 武益阳(00:32:20): Root fs 文件系统那么有了这个 rootipad 的时候它可以启动,但在启动之后,我们一开始发现了一个问题,就是不同的。因为这是我们是 openrc 管理的所有日志都会写到 war log 下面,然后所有机器如果都往一个 nfs 下面写日志的话,他们就会打架,甚至他们的一些这个 run 的 pid 文件可能都会打架。如果他不是在那种碳排排自己的话,这个时候,所以我们就需要看每个机器的自己的 log 来确来监控他们的运行。为此我们单独设立了。为每个机器设立一个独立的 warlog 的 zfs data set 在它在启动的时候会根据这个根据一些不同的编号来去 mount 自己的 viralog。这个 monkword log1定要在 initram fs 阶段挂载,不能在这个系统把这个 init 交给 open rc 之后再挂和 cityinit 之后再挂载。这是因为一旦交给了 init 系统就是相当于你的真实的 root。ip 已经被挂载了,然后 init 系统会开始写 log。写完 log 之后,如果你中途再去切换这个 log log log 目录的挂载的话,那你的 log 就是初始会有一阶段会丢失,所以你一钉钉要在引进 R fs 就是它切 root 切这个 nfs root 的同时,也要切这个 log 的。 武益阳(00:33:55): 这个文件 nfs 文件系统最后一个小灵通小设计就是 bindmount,就是因为因为在这个 boot boot 那个文件夹下面存储了这个内核这些内核,因为我们都是呆变的系统,所以我们在升级的时候呆变会自动帮我们。打包好这个以及 vm 这些内核,然后塞到 boot 下面,但是理论上如果没有这个 B 的话,我们还要每次升级内核都要把内核的镜像拷贝到 tftp 这个服务器里。因为这个内核它是通过 tftp 启动起来的,它不是通过这个 rootfs 获取的。但是所以这里面为了方便以方便内核升级,我们就直接把它的这个 boot 分区这个 boot 里面,这个文件夹 bindmount 到了这个 tftp 的那个目,一个 boot 目录下面把 image 和 vm 直接练。软链到这里面,这个里面才是 linux 正常 debian 正常启动的时候读取的这个影响。所以通过这样一一通操作之后,它就能直接读取到最新最 up to date 的这个 debian 提供的这个内核,而不需要我们手动拷贝了。但是这样也带来了一个代价,就是我们这个 bad month1钉钉要在所有的 rootfs 启动之后再完成这个 bind month。 武益阳(00:35:24): 那么未来我们要对这个机器人有做何展望,首先继续探寻 mi100渠道,因为 mi100真的有时候挺看运气的,有时候有个量化老板里面手里有批货就可以便宜卖。我们有时候他们没货的话就不一钉钉能找到这个渠道。另外一个就是量化基金老板也对我们建议说,mi5十十6gb 性价比超高。有我们的 NVIDIA V100这个32gb 性价比高,当然这对它来说,做量化可能它用单精度,我们如果要用双精度的话,可能卖100确实性能比较强。而对于又希望使用 nv 的 V 加卡小伙伴,其实当时来说,v100价格也不高,现在我不知道这个整个行情如何了,也许能找到性能性价比更好的。 武益阳(00:36:10): 这个双宽卡当时让我们还常看了其他的卡,包括这个4090用沃森卡。我们发现其实 z20的系统它的空间是非常局限的,它只能适用于这种加速器加速双宽的加速卡。再大一点的带一个涡扇的,它就装不进去了,因为那个多余的涡扇所带来的这个空间也会它这个对于 gpu 的长度的要求有非常大的限制,对高度要求有非常大的限制,你必须是一个标准的 tce 高度的卡,高一点它都塞不进去。比如说对于那种游戏卡来说的话,它那个显卡的电源接口都是从上往下插入那个 pcie 口,这个时候如果你插上那个 pcie 线,你就会发现它塞不到那个机箱里。这个时候如果我们要用这种民用AMD 民用卡这话,它就需要模改电源散电源接口的散热器,因为它的 pcb 虽然符合 pcb 标准,但是它的供电还要散热尺寸就起飞了。就需要开摩出门就上,然后当时我们发现了一个是非常妖的,这个 gpu 是华擎推出的,因为华擎自古出腰板。 武益阳(00:37:25): 华擎推出了一个这样奇怪的卡,其实到现在其实好像并没有发售,因为不知道以后它还会不会发售了,叫被动散热的7900叉 T 和7900叉 T 叉,它就是为数据中心这种服务器设计的。它只是把这个7900它你可以看到它的设计中,首先把风扇什么都去了它这样它的高度严格限制在 pcie 的高度全高高度上。第其次它是。横向的有风道,那么它的这个服务器吹过来的强力的风暴力风扇的风就可以直接给它进行一个被动的直接给它进行一个暴力散热,最关键的是它这个电源接口。它这个电源接口是这个是正向烧接口那个接口,它不是因为它的功率比较高,但是它跟加速计算中心的加速卡有个很像的地方,就是它的接口是横出的,这样的话,你在就可以,就是它刚刚说了,如果它的接口边接口是竖出的,像普通游戏卡一样,高度就超过服务器能承载。承载高度了,如果有这种横竖卡的话,它就完美的适配了像 z20这种服务器。当时非常兴奋跟商家跟进,但可能恶心,好像一直没有听完这个卡,最终实际生产。 武益阳(00:38:42): 最后是一些小彩蛋,跟这个也有些关系,首先是谢老师的硬盘,因为大家现在大家在群群里已经看到了我们最近发现硬盘空间不够了,又开始买新的硬盘,在买新的硬盘中买了。现在硬盘很贵,但是二手硬盘现在二手硬盘的价格跟以前新盘价格差不多,但是还算能忍,新盘价格已经翻了两倍,不过我们觉得还能忍,所以就买了45块25盘。然后在走入地位的过程中发现以前对地位的理解不够透彻,这个在这个意识中有所体现,就比如说这个低瑞的,它是一个。我算一下48。 武益阳(00:39:32): 32,3212这是一个九,这个是地位的,这是比如说这是一个地位的二然后它是九个盘一组就是 abcdefghigk9a 盘一组,所以它,然后其中有两个 parity,所以它是个地位的22data。出2S 地位的二然后7DATA2S 这样的一个地位的组合,但是因为 zfs 中它的一个,它的 recordsize 就是它。它的这个 recordsize般默认是128K,它是以它的文件,这个 block 是以128K 为整体的,而每个就是每个盘又是一个4K 的 block size,也就是说要32个 block 为一个单位存储。那么你在发,你就会发现,如果我是七张盘的话,我就没有办法透出整数个组来去存这个32个 block,我就只能凑出这个四。 武益阳(00:40:31): 247a12345678。123456789不对,这是99个九加二,只能凑出四个四乘九盘,那就是3036,然后36个 blog 中,然后我们有四个 blog 相当于浪费的。那么这样的话,我一个组组,一个九盘一组,再加两个 parity 的话,它的实际的利用率就很低。那么我推导出来一个这样的公式就是假设我们仍然是32个一组128K 的 recordsize。那么因为你如果你这个盘数一个是九个一组的话,它就不是32的因数,那么它就会造成这种浪费,你就可以去算一下它到底浪费了多少,算一个这样子32除以它的一个。因数是它在这个地方在 zfs 上,这个是在 zfs 层面浪费的空间,然后 data 除以 data 加 party 是在 zpool 层面,因为你因为 party 浪费的空间。最后乘上 T 就是不包含 housefare 导致的你有效盘数,那么这个才是你 zfs 能利用到有效盘数。 武益阳(00:41:46): 当你在 Z 铺去看 Z 铺这个尺寸的时候,它会显示 D 除以 D 加 P 乘 T,这是你 Z 铺的可用函数。但是它当你在显示这个 zfs 的时候,Z 铺的时候,它甚至都不会是它都没有这个 D 除以它会就它就直接显示 D 加 P 乘上 T。但当你显示 zfs 的时候,它就会考虑到这些情况告诉你文件系统本质的可用空间。那么所以我们对这45盘底瑞的进行了一个要计算,就是在不同情况下,比如说比瑞的一,那就是我四个这个地方就是我四个盘一组加一个 housefare,因为四是整除的,所以它的利用率其实相对高一些,但又因为四个盘加一个 housefare。加一个 parity,它的 D 除以 D 加 P 这个效率比较低,所以它这个利用率其实也比较低,但是当你发现这个盘数到八的时候。如果盘盘中到五的话,虽然它的这个 D 加 D 加地图 D 加 P 更高了,但是因为它的容易度降低了,所以它的可它理论上的可利用率变高了。但是由于这个。这个原因,它实际的利用率比 zi 盘的利用率变低,变得更低了。那么直到第88个盘的时候,它又一次成为了这个32整数因数,所以它的利用率更越高了一些。 武益阳(00:43:11): 但是八个盘的每八盘一组组队的一敌瑞的我们觉得风险有点大,所以我们就常在看 dv 的二会是一个什么情况,那 dv 的二其实会更加复杂一些,但你会看到很神奇的就是八个盘一组的 dv 的二是最佳最最佳的一个高度,但是实际上11盘也很好。这是为什么?因为三乘11除32只余一,所以11盘的利用率也很高。当然最后16盘的利用率更高,但是16盘中出两个再加两个 party 还是有点危险。最终我们选择了八盘 dvd2的一个 configuration。 武益阳(00:43:56): 还有一次就是我在除了我,除了给薛老师建这个 zz20基金以外,自己还在北师大给女朋友搞了一个搞了他们的工作站,这个工作站就更加的。就是更加的这个灵车,然后首先可以看到它是有两颗这个 cpu 的,它里面压着的其实是 epic7773叉,它是叉3g cpu,它有非常大的缓存,对于他们做流体力学计算都有比较大的好处。然后为了填补这个预算,然后给他加了两个7900叉卸卡可以做 gpu 运算。然后除此之外,因为他们这个他们 openform 的这个运算软件,它非常的灵车,它也非常的灵车,它会通过疯狂读写 C 加加文件来去存储数据,就是说数据,它模拟出来的数据是存在以 C 加加源代码的形式。存储的。然后它通过编译这个 C 加加源代码来读取它的数据就是它会哈,它会把它的输出数据哈扣到 C 加加源代码里只有了。也就是说它会在运算过程中产生大量的 C 加加源代码。所以他对于这种小小小文件,所以他对于这种小文件的 io 非常的吃,所以我为他配备了一个这样的实盘的 nvme 全闪。 武益阳(00:45:19): 首先这个这是型号,我就不细念了,当然它这个也有很大的问题,就是我们如今这些硬件它的发热量都特别大,这个工作站附近人。遭受了巨量的力量攻击就待据说待超过一个小时,人就会头晕,脑胀还,而且它还有一些神奇的 bug,比如说它的网卡有时候会悬些故障,而且因为我给这个机器装了,这个独显,他们就直接把这个独显插出到显示器上做一些高清的图形工作用。但这就会导致他们插着这个显示器的时候,发现它会躲舍这个板载的 asd62600极限,导致 ipmi 远程连接它的做一些管理任务的时候。它这个图它就没有任何的显示,然后薛老师就虽然不是薛老师的硬盘,但这也是一个垃圾岛硬盘方案。就是我们怎么做使用消费级或者是捡垃圾的思路来做全闪的全闪阵列,这个机器它本身提供了五个 slim saas 接口 slim saas,就是能插 u2的盘。另外它还有两,其实有好几条闲置的 pcie4.0叉八,所以我就直接在网上以一两百的价格买了好多那种直接就是电器上的 pcie 转 ur。然后这样转成这样四两条 pcpca4叉八就转出四个 u2接口,但是这些转出来 ur 接口它的一个缺点就是它不支持热插拔,最后还有一个版本的 mr 接口,这样的话,我们就有一个实盘的16tb 全闪。 武益阳(00:46:58): 这是实盘16t 的前,我们当然要把它不能就乱七八糟的插在机器,所以我使用了这样大概购买了一个700块钱的这样的显卡龙,把它用螺丝吊在机架顶部,然后把就非常有模,有样就能把 naeme 盘插进去,显得非常企业级其实很灵车。然后这些绿绿色蓝色的线其实都是插在这个 saas 的口上,这里面为因为 gpu 它挡了 G 通道,所以我用了显卡延长线把它挪了出来,也是一个非常灵车的设计。 武益阳(00:47:38): 然后这样的话,我们就那么这个固态选什么,就是为了方便报销,都选了这个1000块钱以下的固态硬盘。首先是一些当时一些消费级2T 的固态像什么 pm3星 pm9a1的智泰的盘联想,还有一些 O 长江存储的 oem 盘。然后这些盘大概加起来有六块,除了有一块插在板载的 m2通道上,剩下的我都买了一堆,就是 nvme 的也转 u2硬盘盒,它们的市场价大概70人民币左右,这样这些盘塞入到 u2硬盘盒之后。 武益阳(00:48:14): 就可以华 m2硬盘两华丽一变成 u2硬盘。然后另外一些 ui 硬盘就是企业级垃圾,比如华为的这个硬盘,他们都是拆机下来的希捷的硬盘,他们的大概1.6T1.9T 他们还有英特尔的硬盘,他们都在这个1000块钱以下,但是非常著。 武益阳(00:48:34): 值得注意的点就是这些固态消费级固态,他们的 m2它们的发热量很低,但是这些企业级 u2固原生 u2固态,它们的发热量很高,所以记得一钉钉,如果你放这种硬盘龙的话,一定要记得给它抓风扇散热。一开始我就偷懒,没上风扇散热,结果华为一个盘就发热量大,三个月就坏了一个,然后虽然商家后来给售后了,而且因为是 zfs 有冗余,所以他请过来了。 武益阳(00:49:03): 好,所以就那我要讲介绍的就是这些了。感谢大家的聆听,大家有什么问题吗?你说哪个设计?对他不是领车行为。当然不对,你说服务器,塔塔式服务器是正常行为。他也。你说这里对这是对我这样,我知道他可能不是这个 bug 是个 feature,但是这其实也挺烦人的。估计就是二手22手,那另外我发现就是跟内存控制器可能也有,或者说跟它频率有关系,我们试过把内存降频那些坏的内存就都活了。 武益阳(00:50:19): 都是 R ECC。对我知道是。超频条。 武益阳(00:50:48): 对我们可能也不知道是不是这种情况,但是确实降频会让你的 ecc 报错那分好好很多。对汉的。 武益阳(00:51:25): 这只有跟英伟达是你因为他用的是 dkms 吧 amd 的 dkms。如果你直接使用 linux 原生的就是你不,你直接使用 kernel 直接使用 linux 的 upstreamkernel,你不装任何 dkms。这可以的,我们就是在这么跑的。 武益阳(00:52:02): 奋斗上有,但是名义上我不太清楚。没有演,但是它有 powerprofile 可以调。也许吧,我没试过。你要试你要试试吗?反正我们服务器的散热能力就已经默认的已经拉满了,就是三,它标称300290瓦其实能跑到300瓦多310瓦。空调就买对,好像是我记得学校当在我们装这台这些服务器之前正好换了空调。进空调感谢机房维护别人是给他们原来空调老是进春天进柳絮,所以。换了一个新空调。更牛逼的空调。 武益阳(00:53:28): 这次我们就直接联系这家原厂,我们是当时是宁一家在中国的分部就是叫宁波中加公司。是薛老师联系到的,能够当时为了买导轨顺带买服务器。就是我们的 fsmp 的运算性能吧,因为我觉得瓶颈不在。你在既不在 cpu 上也不在带宽 gpu 到 cpu 带宽上。 武益阳(00:54:33): R. Gm. 是。但是我们的运算是不跨 cpu 的。对然后一般都是单卡定型,单卡自己算,现在还没用到这种多卡,你要说这张卡跟这张卡你要做一个交换的话,其实这个效率可能更低,我感觉。还不如 V r0?Z20,它首先这两张卡交换效率就很高。这个天线的交换机,你甚至能找到一些软件去读里面交换机这个交换芯片的数据,它比如说它这个交换芯片到底通过多少数据都能读出来。 武益阳(00:55:30): 对。你说的显著内核里,你直接从 plsptci 其实就可以看,那我不知道我跑过什么 bandwidthtest。是能看出来的。不过因为我们的计算现在还没有做到多卡环节,我就没太关心卡到卡的带宽。 武益阳(00:56:16): 是我们也用 avtop 看 a 卡的 a cop I N a N i3家都支持,但是我记得 aa 卡好像缺一些这个 bus 的速度。我现在看一眼。对,但是我可能得上一下腾讯会议,没事,我现在可以先打开一下 nvtop 告诉你有没有这个。有没有这个,那啥正常打开一下,那是 top,我上登一下腾讯会议给大家看一下八个框框。 武益阳(00:57:02): 于老师不是变会号了,不对我用的同一个账号登录这个我一旦登录腾讯会议,这个就会掉下来。社会。 武益阳(00:57:36): 然后看一下 vlan 的屏幕共享。完完了完了我这个他可以好像他腾讯会议上能看到 Nvt. 这有80速度吗? 续本达(00:57:56): 能看到。 武益阳(00:58:01): 看不到你的袜子速度!因为现在没有任务在运行,我给你跑一个你你来试试。他待机功耗那么高。对它待机功耗确实对他确实有点高等会。人卡。 Berrysoft(00:58:26): 哪台机器要不我跑一个? 武益阳(00:58:29): 我之前我记得我考我记得如果15号我会跑的 rockplus benchmark 碰不到,你去一个。我希望我再找一个。好就得让显卡对 OK。 Berrysoft(00:58:59): 你展示 nvtop 的这是哪台机器? 武益阳(00:59:01): 首先打开 nv top。然后。 续本达(00:59:03): The Katherine. Berrysoft(00:59:04): Catherine 我 exclude 了。 续本达(00:59:19): 你同步来吧!同步开启。 武益阳(00:59:21): 这是我当时用来烧烤的,好好最最最火的。有了。Cpu 的显存现在站起来了。可能太卡了吧,他因为有八张卡,所以他的更新特别卡,他运行完了,我靠。他的监控甚至没有我搞一个看看能不能搞一个占选分比较大的卡,不是我记得我有一个用来烤显存的,还有一个用来烤。我们只需要把矩阵的尺寸弄大一点。Em. 武益阳(01:00:29): 开源的 welcome 自带的。让我找一下。 Berrysoft(01:00:34): 我在 katherine 上跑了一个,你看能不能看到? 武益阳(01:00:39): 看一下我们的小吃的。 续本达(01:00:43): 似乎现场听不到你说话。你你你发在听 thunder 技术群吧! 武益阳(01:00:56): 这就是我们不在。 武益阳(01:01:15): 看一眼我那个790叉 T 的那个 G 有没有我在疯狂搜索这个命令行历史记录。为什么我都是在?先看线上的同学有什么别的问题跟这个想问一下关于我是什么样? 武益阳(01:01:49): 略微有点雷同,你说哪个 C 什么就是挂的那个就挂 zfs 的。挂了,我先切回来吧! 武益阳(01:02:22): 你说这个吗?Okok 对这是想灵异? 武益阳(01:02:47): 对,所以我们把能有可能冲突的地方全都放独立出来了,不只有 vlog,这个简简单的写法,就是还有一些其他文件夹写单独拎出来。不是整个腕儿。对给他单开一个读写的。确实有可能就有一台一台机器 upgrade 另一台快打去,但是目前为止这些机器还算能正常工作,没出现过这种情况。我其中一个机器升级了,它文件变了。就其他的机器它也正常运行的吧,一般一般什么情况下会出大事?什么出去会对镇上有人拜拜。 LUG @ USTC(01:04:06): 你太离奇了吧?对那如果对有台机器,它升级了其他机器。他真不会出事吗?没出过事情。 武益阳(01:04:21): 没有我们升级。好好 Ok. Ok. 无盘系统需不需要入台板主图,其实我觉得应该用盘子组,我忘记了这件事情,我没配就是狗血的。对,然后可以让那些 vlog 读写,然后让数字 fps 只读是。不过有时候我们还会进到这个机器里,最后比巴子一下。这个时候 home 最好也能读读写一下。对把错误都挂到那里。是我们考虑一下制度,但是目前为止,因为只要你不运行新程序就大部分待变的升级,都你不牵扯 soversion 的变化的话,都没有什么太大的危害。对现在还12,当时是12现在还没升级。这也是跟发行版有关系? LUG @ USTC(01:05:49): 为什么你们用 openrc? 武益阳(01:05:54): 这是徐老师说用 openrc 我们就用 openrc。9N OS。 LUG @ USTC(01:05:54): 为什么用 open 的 rc? 武益阳(01:06:06): rs。Ice cosy. Ice classes 吗。Ok ok 我需要一个黑板,就是白板,就是我们也之前尝试过 skyscape 方案,虽然不是提供一个入台 fs。比如说你有一个我们这个上位机和有一代有一个 Z 然后 zpool 它可以它给出一个 blockdevice,然后它可以通过网网络,它再通过网网络,比如说这个 internet。然后给到另一台机器上,然后通过 IIG,然后这样它就会有一个 blockdevice,然后你在上面分区分,比如1est4。分区然后但是性能其实比 nfs 要好。他那这样,如果你有多台机器的话。这是他的一个问题。我尽量是可以的,但是就这种情况下,他必须是只能挂载。当时我们想都读写,就出现了这个灵车这个情况是真的都可以读写的,然后各个机器的文件系统可以互相串的。I have T. 没有房子,nfs 确实就是它本身就是支持各机器挂载同一个可读写的。地方所以。对 nfs 支持他叫不对 nfs 是 multiclient?但是在 nfs 的语语境下,这个提供盘实际物理盘的就是 host 硬盘通过透过网络硬盘那个叫 client,所以它是 multiclient 的知识的。 武益阳(01:08:30): 还有一个更神奇的叫 pnfs,但是我没用过,就是似乎它能够 multihorse 有多个提供物理盘的有多个写盘,但据说不是效果不是特别好。用的人比较少,nfs 还是比较普遍的,像什么他们那个 nas 都是 nfs,几乎 icrc 可能在 nas 的领域里,nficrc 比 nfs 要更少见一些。 武益阳(01:09:10): 软件不支持 ns 几乎不会,它是一个文件系统,它的应用程序基本看不见。 武益阳(01:09:31): 有可能目前没有,我们都是一些比较开开源的框架,如果有,我们也可以把它改了。Lesser 对于我们来说,感觉太太太重了,或者说就太太企业了,我们是垃圾佬,就我们更喜好这种平民友好的。好拉塞尔之前考考虑过吧,但是感觉维护起来非常困难,就没有用 luster 因为我而且 luster 我觉得更关键的一个是它有个 multi host,就是我有很多个物理机器,它插了很多的很多个 disk 就是分布式存储,我们这个其实还不是分布式存储。我们的所有 dis 都是一个 saas expander 连到一台机器上提供一个 zpool,然后再通过网络分发给各个 nfs 分发给各个机器。就它并不,它不是一个分布式存储,它其实是一个中心化存储。就他不需要拉扯那种。 武益阳(01:10:46): 现在走的是 eithernet,虽然我觉得可能未来走 roce 可能效果会更好,因为这些网卡都是万兆的,它其实都是支持 roc,不过现在 internet 来说也够用了。说实话,有时候带宽还会被打爆,带宽,打包的时候就比较头疼,因为尤其是因为 root 也是 nfs 走的。所以当 nfs 带宽被打爆的时候,你直接看进去,大部分情况下进 ssc 进去执行一些简单的命令是好的,但是一旦你执行到了一些命令,它没有被缓存到内存里。你需要读这个 nfss 上的文件的时候就挂了,就你就卡彻底卡死。所以未来的一个想法,就是它的这个 rootnfs 和这个它这个科研数据的 nfs 也会挂,这我少画一条线也会挂这个机器上能不能这些挂载操作系统的 nfs 走一个独立的。 武益阳(01:11:47): 物理网络,比如说走就走一个千兆网络,包括管理的信号,或者说我走两条万兆网络,甚至你如果去捡垃圾的话,你发现在百 G100G 的网卡也便宜起来了,可能300,300块就可以三四百块就可以买到一个单口的。 武益阳(01:12:04): Melonos 网卡百 G 网卡,然后900块就可以买到一个双口,然后3000二手3000块钱就可以买到一个八口的百 G 交换机。不是 idlc 都可以,我买了两块,当然还没用,用上只是测试一下能成功能,甚至这个甚至 linux 内置的一个 linux 的一个测速软件叫。I. I per. 他甚至打不满这个网卡,因为他先把 cpu 吃满了。最后是我当时是我记得是六个还是七个 ipad 并行,每个 ipad 占一个 cpu core,然后把这个网卡打满了。 武益阳(01:12:50): 不买模块,我们直接买 dac 线大概100块钱。11米一米,然后因为我们服务器几乎都放在一块儿,所以大概这个成本是可能五千五五三三三五千块钱买一个八口交换机。然后再买再花几千块钱给每个机配一个百 G 网卡,最后花1000块钱买一堆 dac 线,一年就是一个百 G 的网络是二都是二手的。 武益阳(01:13:19): 也还有一些更便宜的,我记得有过一个博主,他用6000块钱买了一个十几口的400G 交换机,但是用不了就是很多交换机,它里面装的系统是那种还是那都现在都是白牌交换机。它那种很多时候卖的时候都是白牌,它的固件缺失的,然后它里面的固件其实就是,比如说一个 arm 或者 riskfive 的可能 risk five 多基本上都是 arm 的一些 linux 操作系统。如果你能找到正确的交换机,操作系统刷进去的话,它就能用找不到它就是一个废铁对,但是我记得3000块钱是知乎上有个网友研究出来了,刷哪个操作系统进去。所以3000块钱就能找到一个八口百 G 的交换机就是当然我这些垃圾我们还尚没有捡,因为现在还没有。 武益阳(01:14:15): 我们现在平静,基本上就是这个这块的[saas]这个 sars 线,这个 H 这上面的 hpa 卡是一个,然后这个网线也是一个图片。不过我们对于数据的要求没那么高,其实主要还是计算瓶颈。目前还没有动力上百 G。 刘晓义(01:14:35): 上百字。 武益阳(01:14:51): 我们的 fs3算法不需要 reduce。所以暂时没有考虑考虑这个事情。 武益阳(01:15:18): 首先这是个很好的问题,就是我们市面上商家分为两类,一种是有卖服务器资质的商家,一种是没有资质,商家一般来说没有资质商家他就开不出发票。但是我们的方法就是找有资质的商家,让他们替我们买后期这些零件,然后打包卖给我们一个整机就是我首先有几台原型机。什么就他有他几台原型机之后,我把这个方案交给有能卖准系统的厂家,就他们这些厂家是有卖二手准系统的。这个资质的他们有资质就能开出发票,然后他们再去网上采购各种的这个采购的各种二手的配件装起来。 武益阳(01:16:10): 最后卖给我们个整机就有发票,事实上还有很多商家,他卖二手货,其实都比如卖二手 cpu 的那内存的其实都是有资质的,因为二手这个事情,有时候他不需要进项,就直接向税务局交一点税,你就能直接开发票。关键是他商家只要有资质就行。 武益阳(01:16:32): 对他们可以宣传了,也是交易的一部分吧,他们给我们这么便宜的只收了一点人工费,但是这个方案不是很轻易就能卖钱的,因为最关最核心的 gpu 到底。要什么客户去定。他们能不能找到这么便宜的 m100?Nvlink 的问题还有?和他聊天。 武益阳(01:17:14): 看一下 nv top。可以切换过来看一下 nvtop。 武益阳(01:20:37): 六品供电线我觉得不是太大问题。有是有的。你说他是涡扇吗?它不是涡扇。Wallshine 有可能不行,我找找找过,就是他对这个的长度要求也是很严格的。对就他装不进去,有两种情况。对被动散热卡他跟你你说的应该都是,比如我们画画一个4U 的,一般都是4U 服务器从屁股上来看是这样的,然后它都是竖装的?对,然后这是涡扇是风通风,但是这个服务器跟它不一样的是,它的 gpu 是这是个22U 服务器。然后它的 gpu 是这样装的,那是这样的,那它是最最严重的问题是他要在一个这样这么大空间得撒下再下两。 武益阳(01:22:06): 两波卡它这个长度是受限的,这个长度会限制过上卡,一般我反正我没买过,但是我大概读过这个沃畅卡这个宽度它是。它比一般比被动散热卡这个要宽一下这个事情,我现在手头确实我们组,如果你两块,我到时候去两,如果你从俯视的卡路看的话,这是一块卡。这是一块卡,然后这个长度是严格限制的,你如果超过了一旦超过这个长度,那如果这样的话,它插供电不会很困难吗?对插供电就是特别困难,所以我们插这个 mi100卡几乎是刚刚好才能插得下。供电就它的显卡,大概这个可能散热器到这儿,然后 pc 这是 pcb 然后这是宫殿,然后弓箭线,然后走走这么走。你们现在放的是对会充上是会吃尾气,它这个地方服务器,客通道有开口,这有一个暴力风扇。然后往往里进前后,然后这个地方有一个中间有个暴力风扇,最后有一个暴力风扇往外吹,那很好,然后这有一,这会有一部分空气进入,但是假设你的机箱外边比较,就旁边也有机柜的话这个。这个风可能就会,然后这个时候就会出现后边的显卡吃水器,所以我们经常收到温度报警,全都是后边的几张卡在吃水器,我觉得你其实可以看一下吧,就是你可以看一下市面上常见的409048解决方案吧。 武益阳(01:23:51): 268268应该 pc 标准的吧,是标准就是我那张卡,我当时拆过就是它是就是没有在 pcb 后面额外伸出任何的长度就是 pcb 和整个涡扇的那个。风道框是额外延长,那是可以的,我感觉就是如果后面要 nv 你,你试试这玩意能不能八卡四零九零四十8G 我感觉它可以让你的这个东西成为一个核弹节点,对它可以,它是可以的,就是如果不计成本的话。而且这还能超频,非常好,是有个坏消息,先预告一下四零九零四十8G 的那个 V bios 的作者比较阴间,他把那个功耗墙锁在450瓦,这是非常恶劣的行为,他保他不能往上改,你能改吗?就他觉得我这个卡应该压不住,但是其实单卡是压得住的,在450瓦服务器。 武益阳(01:24:46): 服务器怎么压这个服务器的散热怎么压450万看风扇你要用暴力风扇压吗?你们的风扇不是已经想撤车库了吗?那对再小一点也不差。不是你首先这个风扇这个服务器的1650转风扇已经到极限了。其次你是涡扇卡的话,你要气流要这么走一下再出去,难道不是他自己的涡扇限制了他的散热吗?有两种卡就是涡扇卡,如果他配合服务器那种他的屁股后面涡扇的。就是盖会开,开开就是朝朝进风的那一面是塑料,是没封住它的风也可以进来对它进风又可以涡扇。虽然我们实测它的效果是,如果涡扇被挡住了,只靠进风。 武益阳(01:25:37): 挺难压的,就基本上我们之前有这样一个结构,气流要经过一些奇奇怪怪的地方,它会有感觉会扰乱它的气流,而且期期待你们有八个4090没有我们找我们没有八个4090,你们就可以来试试这个物理上是吧,我目前以为是300瓦了300瓦已经很难压了,已经刚好压住。然后气温高一点,像室内温度到二什么25度,这就压不住了。通常夏天有空调,你们空调能压住,但是我记得这个商家在给我们发货前,我们先做了一遍烤漆测试,在他们的衣柜里,那是在广州,夏天30多度就全报警好。 武益阳(01:26:36): 可以,但这个服务器本身是风冷的,就是你改水冷的话,你机房也得做相应的适配,你得在机柜里加一个水循环加几加个2U 的什么水循环套件才能用,就是改水冷是这样的,改水冷改一台非常不划算,除非你能一改八台,这可以搞。我靠没有地下车库,好像没有洗手间,二号就地解决,这是什么事情?这可能反正我觉得越冷会就我觉得就算八台的话,液冷可能也不一定划算吧,得需要挺贵的感觉。这种定制服务其实都很贵,他也不会计算的时候把这不会给灭了你自己改,就只能自己改是这需要一些精细操作。 武益阳(01:27:36): 这卡温度强有看吗?我看好像90多度90多也撞了,那确实压不住了,那么有点极限了。我以为 a 卡看一下 a 卡和 N 卡的温度,毕竟服务器卡他就以为他会认为自己较贵一点。不过。撞就撞了还行,N 卡能90也能90多,它可以改上去对,但我真的挺担心你的我算卡在这里面其实有奇奇怪怪的风道以及吃尾气问题,其实比较严重的,其实也还行,就是有的时候你买卡,你让他撞撞公号墙就撞吧,他设置个墙就让你撞的。就无所谓,他撞就让他撞,反正做了温度强的4090,那还是比3090强,反正这是目前来说,2U 2U8卡是算密度最高的一个配置了。 武益阳(01:28:27): 确实就如果你真的供电还有散热跟上的话,你可以就以这个密度堆下去,事实上没有那么理,我们的机房没有那么理想,因为之前说了供电是有上限的,你在1u4十四十2U 的机柜,你不可能全堆满这种机器,我们基本上堆六台,这个机器供电就吃满了。重压就是只是压倒对骆驼的最后一根稻草,是他们别人的机器全插到一个排插上,然后排插贵了,然后让他们把。把机器分别插到两个排插均匀负载了一下好。让大家都基因负载了,大家都有,至少有一个冗余。 武益阳(01:29:08): 不过1万6005也挺啥的,今天早上发生一个十分难崩的事情,叫做由于我在就我们也组了一个非常灵车的 gpu 服务器,甚至里面还有什么 p104然后我们在那个机上跑哈希猫,然后是个超 V 的8卡十个人。然后每个卡都超时了,结果这个服务器就他的风扇被我开到88%然后今天早上接到了一个投诉,南京机场保安给我打电话,说这个机房是不是要爆炸?就特别难做,超微那个风扇只有10001万1000转多一点点满转也就10001万6,主要是它这个风扇因为转速会导致它的频率特别高,它的响度?对人耳使得那个机房的那种门,它对这个频率是隔不太掉的,对,那你只要超过人耳去听听音上线就可以了。那你的。 武益阳(01:30:14): 这个服务器,你看单侧三个风扇,总共有六个风扇,然后这儿还有两个,总共八个超高速风扇。对,然后主要它的默认最最最好玩是它的这个 bios 的默认配置是压不住这个 gpu 的 bios 默认配置的风扇曲线是根据 cpu 的温度来调整我的风扇转速。 武益阳(01:30:41): 风扇转速的?在你的 gpu 里面内置一个填到它的,所以我是通过电电流就是我它这个 gpu 是有它这个每个 gpu 上是有一个单独的电路来给它输供电的。每路都有电流传感,我是通过这个电流传感就是这八个,这六个风扇我是通过这个。我是通过它的电流传感来去调这三个,通过这边的电流传感调它们的转速,然后 cpu 的就 cpu 的我单独再设一个播放,这几个播放可以互不影响。 武益阳(01:31:29): 吃饭是 I can 发我不知道,反正我是在网页里调的六我不知道 itim 我没试过 itim two 能不能导出这个脚本,我到时候试一下吧。他那个网页是可以。对就是用 gpu 传感 gpu 的电流传,不是 gpu 电流传感器,说 pcie 供电的电流传感器12伏供电传感器来控制这个风扇的转速。你去拿这个 N 找到 nds 的某一行的,对有气,对如果有电流传感器的话,确实会非常好。所以那个话更不属于这个我的方法一点都不成熟,比较为什么,因为超微的那个 IPMI 你 carry 3次会有两次给你报超时超微是这样,他有两次会给你报什么超时有的时候会返回空结果。平均要尝试五次才能拿到一次点。对。另外这个我选电流也有一个,我觉得有一个好东西,打一个提前量,就是你的 gpgpu,然后风在那吹,然后它在散热,然后 gpu 的输入的电流 I 乘上它的电压 U 就是它的功耗。就是他出的这个,所以理论上你的散热能力,我觉得在我心目中,散热能力应该跟功耗成正比,而不是跟温度成正比。 武益阳(01:33:07): 温跟温度成你就有点补救的程度,反正这套方案下来,我们基本上就压得住了,或就是如果他刚这时候温度还没起来,他那个。虽然给他吹很多的风,但他没有这条话不对的,希尔巴吹还热,温度稍微高一点,之后吹才有用,确实可能。 武益阳(01:33:33): 根据热根据温度来定可能会更,但是我当时就是没好像是没找着温度接口或者是它那温度读数感觉不准,反正我发现工号这个事儿一定是。一定是一定是读出来电流一定是准,也不一定当时 zzz20读出来是准的,我发现 z50那个 bios z45那个 bios 读出来的电流好像总是二倍。后来给他手手动给了两倍。他就这。 武益阳(01:34:26): 当然3000多,我觉得是不带税的,你要真加加开发票,我发现。是差不多。 武益阳(01:34:40): 对你买,你可以对,一个是你你你就插一根,要不差一根也能跑差一根2400的也能跑。还升官,你还能升职,当然还升职,今年比赛单位最佳的还是内2万块钱买了一个 T 内核,搞过三年。你要是 P 加一卡就无所谓4.0也够了,大部分时候就我们这是好几万买了好多个 T 的内存。已经赚疯了对!然后 pzie 还能对是。 武益阳(01:35:29): 为什么100你们找不摆改的可能上午一去,我看你刚刚里面放的是100,100,100,我改请标准,你为什么要上微改模板?100不是没有默认 ppi 的东西吗?没有吗?有我**100你死的叫泰坦不是一样的。就是特斯拉 v100有它作为计算卡,它没有 pcie 的,是不是说不过去,但是它非常贵,量量它五块不是不算很贵吧,我感觉。存量应该少?可能现在去全全都改出来了,那我就不知道了,反正我对这些 mi100我们曾经除了这个电话公司老板以外,还有一波货就是深圳的一家进口贸易公司,然后他们当时也是很便宜的价格卖 mi100说是两年前有一个机构教育科研机构要买 mi100。他们当时连合同都没签,就非常高兴,就直接进进从香港进货了100块,结果教育机构说天津又说我不要这些 mma100,然后他们就货就砸手里了。然后当时他们进货价一块 m100,在2022年的时候是一万一万一万五一万61块,割了两年之后被我们收了,就是卖,我们当时买了十几块6001块。然后后来又有一个机构把剩下的都给收了,好像6500,所以有时候对他们这些商家来说也挺刺激的,搞这些。 武益阳(01:37:18): 这些都是卖的很贵,都是可能要走私,或者说不面对国内用户嫌疑用户的面对海外嫌疑用户。确实可以,那就贵。我见过有卖 mi300的那都特别的贵,一块卖三二三十万,这种差不多他们卖的其实是整机就是八个 ms300的那种,上百万。对别人做高端别人做人,人人是那种顶级方案就已经不在我们垃圾岛这个层次了。 武益阳(01:38:20): 很可能 amd 的优化还是要差一些,是公认的,虽然它的堆料可能堆的更好,包括 mi100也是我们最近之所以把我们的程序从。 武益阳(01:38:34): 双精度切到单不单精度切到双精度,也是因为发现在 mi100上跑的时候,有些双精度会出现玄学的精度下降问题。精度损失问题,就它比 a100出精度是精度损失的要更明显一些。就比如说我有1000个中微子事件,我 a100上只有一个精度出问题,m100上可能有十个精度出问题。非常好运。 武益阳(01:39:07): 福建经度不是转换,就是它的运算,比如成成家的时候,这个精度会损失,因为你它每一步运算的精度都是在 iee 标准之内的。但是你在 cpu 上算的时候不知道为什么那些 mtmc 它累加起来的精度就会收敛的。但是在 mi100上,它的每一步,虽然每一步的精度都是在可控范围之内的,都是在都是符合标准的。它的叠加起来的误差就会起飞。很神奇。装0error 超过一个上限超过你,我们看每次它的运算 runningerror 都在合理范围内,只是累积的误差会起飞。他每次的。它是可复现的,你每次都跑不是 apdf 然后一套节点运算下来,他每次都做出同样的一个值,差不,我万一微软你你知道吗?它是可复现吗?我记得是可复现的。 武益阳(01:40:23): 我当时研究这个问题,现在我不研究它了,但是我记得我当时研究的时候是可不见的。就为此我还专门写过在 cpu 上跑,同样的数在 a100上跑,同样的数在 mi100上跑,同样的数。他们的误差是他们的误差的数值是不一样,但是他们的这些误差都在这个 pro32的接受,可接受范围内,但不知道为什么 imi100最后就是有。就会累积出来炸了。概率就更高,a100也出现过这种情况。Cpu 其实 cpu 没出现,可能是因为 cpu 不是,就是因为他们这个误差是有随机性的。比如在这套波形下面就同样的数据集 a 它在 cpu 上。不炸它不代表在数据 B 上 cpu 不炸,同样的,a 在 mi100上炸了,咱们基本上 boom 了。它不代表着 B 在 ma100秒会炸,所以我觉得可能有一定随机性在里边,因为他们的 roundingerror 是不一样的,虽然他们的 rounding error 都在合理范围内,但是累积起来,其实有很大的随机性。 武益阳(01:41:37): 这个现象是在?在某个特定的预算设备上。也存在他在 N 卡 M 对,但是问题就是数据集大了。数据大致之后发现 a 卡上的概率就高。之前都炸过灯卡,还出现过什么,他们如果你不指定一些环境变量 tf32,它会默认使用 tf32代替 ft32精度运算,然后导致精度爆炸。 武益阳(01:42:19): 后来我们软件上把这个屏蔽掉,让他强制使用 sd32五个 batch 的尺寸也会影响,因为 mi100它那个 rockblast 的库,它会根据你不同的矩阵尺寸。来去调整对应的调的 kernel 的掉到 kel 的硬件的 K 然后尺寸不一样的时候,它这个运算的浮点误差也不一样。非常灵。我看线上还有没有问题? 武益阳(01:43:04): 还有1000确实我没搜过那个风扇,我估计那风扇有,这可能就是为什么机器是 read0的电源4400瓦。因为3000瓦2400瓦给了 GPU,然后咱们10001000瓦给了不是? 武益阳(01:43:28): 他在三峡机房托管了一个神人,他说我有四张四零九零四十8G,但是我发现这个四张卡,他说就是他不他是需要天天和 cpu 内存交换数据的,于是他发现把这个卡插到两个 U 马下面就卖了,跟乌龟一样。然后就卖到四分之一,然后就把这张卡插到一个发卡机器的集中一个中间两张卡就在探探考点卡,然后他后来又发现这个托管商给他的四张四零九零四十八亿加双路那个志强34代吧,然后收了六按照多少6000瓦还是1万2000瓦收了托管费。然后他平时测一下,反正好像它的风扇,它就是它待机有1700瓦,然后后来发现不是显卡的问题,也不是 cpu 的问题,不是内存的问题,硬盘动电。他把风扇关到20%你这个待机功耗就降到了400瓦,不能就一个风扇吃掉了1000瓦加不过还不止1000瓦。就然后他有12个神人风扇,结果最难过的是那12个风扇还压不住那个中间的4G 太可怕了,是4448G 你要400多瓦的话,确实。 武益阳(01:44:49): 我们这是66个风扇六,他一万,他那个风扇多少转的两边各放四张海的八卡。他的双槽卡如果你都是涡轮卡,这个涡轮就会被卡被面给憋死,对我们这个也是我们这个也会我们两个卡,包括它的底座,这都是空间,几乎就没有空间的。所以他也会就卡卡卡丁卡没有日就可能只能塞这样塞一两张 a4纸的一毫米左右的缝隙。贴着的对,所以我觉得3090涡轮卡进这个玩意是有问题的,不如把它涡轮拆了,然后再给它装一个推动散热。所以我觉得最最理想的还是这种东西就是华擎的腰板,就这个一个。 武益阳(01:45:53): 对这是一看就是为服务器设计,当时这个卡出的时候是大家都很困惑,说这个怎么世界上怎么还会有被动散热的游戏显卡?但是时尚与我在我们的第二台 supermarket 试验机上做云车的。代理商不一定能,我觉得原厂甚至我现在网上都没查到,有人买到全球,可能我觉得我猜这玩意都没产,有人能查到吗? 武益阳(01:46:39): 那是 pro,他是工作站,他们有三个系列。这个跟 amd 无关,这个是华擎自己想搞的一个零车,然后就发出去,对我觉得就是他没钱赚。反正我跟代理商联系,他说反正只这个设计还没产,然后再问后续再问也没消息了,我觉得是很好的设计,如果其实我觉得上把这个设计搬到什么4090后也会有更多人买。有什么我不清楚里面到底什么细节了,反正。 武益阳(01:47:31): 反正最后这个设计,我觉得设计就是为了,我觉得几乎就是为了这种服务器而生的,因为沃善卡你可以插那种4U 的竖叉。数插服务器,但是这种服务器它就只能插这种被动卡,它插不了沃。对温卡在卖是我记得我当时就是查那个涡轮卡,发现它的尺寸不太合适。99放弃了。肯定装不下,可以装下。 武益阳(01:48:33): 谢谢大家。 武益阳(01:48:43): 这是不是要更灵灵一点,车之王进来的人到?