现在,看完流浪蓝星这个压轴项目,就只剩moss-550a这个大轴了。
该说不说,托流浪蓝星里的moss的福。
当前来参观的老先生以及随同人员们,看到这个也叫moss的ai的时候,兴致瞬间就来了。
但随着高文的介绍和测试,众人的表情,纷纷变得严肃了起来。
尤其是刚刚对着徐希羽好一番交代的老先生,摆手打断道:“小高,你等一下。
你是说,你们团队用了国外团队十分之一的成本,训练出了水平差不多的ai模型?”
“对。”高文点了点头,在看徐希羽一眼后,他用着尽量通俗的措辞继续道:“不过十分之一只是一个相对粗略的计算。
目前,我们正在和徐总共同训练moss-550b和wei-550b。用于训练的芯片是英伟达h100的阉割版h800。
由于我们的架构比较优秀,所以,我们实现了处理每万亿个token,也就是ai能够处理的最小数据单元,只需要18万个小时的gpu运算时间。
我们现在有2048块gpu同时运算,所以,处理这些数据,只需要3.7天。而我们整个预训练阶段需要处理的数据,预计需要花费266.4万小时。
加上,上下文长度扩展的19万小时,以及后训练的5千小时,我们550b完整训练,只需要花费278.8万gpu小时,也就是两个月左右。
因此,现在每块英伟达h800gpu的租赁价格大概是每小时2美元,这代表着,我们550b的总训练成本,只需要557.6万美元。
不过这个成本仅包括我们的官方训练时的成本。不包括与架构、算法或数据的先前研究和消融实验相关的成本。
而作为对比,和我们同水平的chatgpt-4的训练成本,需要超过1亿美元,因此,如果仅仅是算这个,他们的成本,是我们的十八倍。”
该说不说,即便是高文已经尽量通俗了,可听讲的人当中,有9成还是没怎么听懂。
不过没听懂没关系,作为领导,最大的能力就是抓住核心。
而高文刚刚的核心其实就四个:更低的算力(阉割版的芯片)、更好的架构、更低的价格、同等的水平。
当这四个关键组合起来,老先生的眼睛直接亮了。
熟。
这味道太熟了。