推广 热搜： 金杯公司行业服务系统中国企业参数教师

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

日期：2023-07-29 浏览：136 移动：http://skally.gawce.com/quote/2996.html

IT之家7月13日消息，外媒近日曝光了今年3月发布的GPT-4大模型，包括GPT-4模型架构、训练和推理基础设施、参数量、训练数据集、token等具体参数和信息数量、成本、混合专家模型。

▲ 图片来源

外媒称，GPT-4共包含120层1.8万亿个参数，而GPT-3只有约1750亿个参数。为了保持合理的成本，采用混合专家模型进行构建。

IT之家注：混合专家模型（的）是一个神经网络。系统根据数据分离并训练多个模型。每个模型输出后，系统将这些模型集成并输出为单个任务。

▲ 图片来源

据悉，GPT-4使用了16个混合专家模型（的），每个模型有1110亿个参数，每个前向传递路线经过两个专家模型。

此外，它还有 550 亿个共享注意力参数，使用包含 13 万亿个的数据集进行训练，不是唯一的，而是更多地根据迭代次数进行计算。

GPT-4预训练阶段的上下文长度为8k。 32k版本是8k微调的结果。培训成本相当高。据外媒报道，8x H100 无法以每秒 33.33 的速度提供所需的密集参数模型。因此，训练模型需要极高的推理成本。如果H100实体机每小时1美元，那么一节课的培训成本将高达6300万美元（约合人民币4.51亿元）。

对此，我选择使用云端的A100 GPU来训练模型，这使得最终的训练成本降低到了约2150万美元（约1.54亿元人民币），并且花费了稍长的时间来降低训练成本。

广告声明：文章中包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息，节省选择时间。结果仅供参考。 IT之家的所有文章均包含此声明。

本文地址：http://xasic.gawce.com/quote/2996.html 阁恬下 http://xasic.gawce.com/ , 查看更多

特别提示：本信息由相关企业自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关行业动态

推荐行业动态

点击排行