元象开源650亿参数高性能大模型，无条件免费商用

数码

TIME

2023-11-06 15:25

网易科技

近日，元象XVERSE公司宣布，开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用。

元象XVERSE创始人姚星表示：“面对研发时间紧、算力持续短缺等挑战，团队依靠丰富经验，三个月内研发出多款高性能7B、13B模型，并最早为社区献上一个‘大有可为’的65B模型，为研究、商业及生态创造三重价值。”

据介绍，XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练，上下文窗口扩展至16K，支持中、英、俄、法等40多种语言。

元象坚持“高性能”定位，提升了65B三方面能力：一、理解、生成、推理和记忆等基础能力，到模型的多样性、创造性和精度表现，从优异到强大；二、扩展了工具调用、代码解释、反思修正等能力，为构建智能体（AI Agent）奠定技术基础，提高模型实用性；三、显著缓解7B、13B中常见且可能很严重的幻觉问题，减少大模型“胡说八道”，提高准确性和专业度。

据悉，元象大模型系列均为全链条自研，涵盖多项关键技术与研发创新：

复杂分布式系统设计：借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验，自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术，打造高效稳定的训练系统，千卡集群峰值算力利用率达58.5%。

全面提升性能：65B训练中采用FlashAttention2加速计算， 3D并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线产生过高气泡率，提升计算推理效率；上下文窗口长度从8K逐步提升到16K，使其不仅能出色完成复杂任务，包括长文理解、长文生成和超长对话，还拓展了工具调用、代码解释及反思修正能力，能更好构建智能体（AI Agent）。

提升训练稳定性：因计算量庞大，通信拥塞、芯片过热或计算节点故障成为65B训练常态，初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，元象打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至98.6%。

此外，在接近1.6万亿Tokens的模型训练中期，损失函数产生了NaN值，可能导致训练中断。通常情况下，业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化，选择不删除数据，直接跳过相关参数更新，最终 NaN值问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明，该问题可能与模型最后一层transformer block激活值的最大值变化有关，并会随最大值的逐渐降低而自行解决。

为确保业界能对元象大模型性能有全面、客观、长期认知，研究人员参考了一系列权威学术测评，制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准，将持续使用并迭代。

XVERSE-65B在与国外标杆对比测评中，部分指标超越、综合性能媲美GPT3.5；全面超越开源标杆 Llama2-70B和Falcon-180B ；与GPT4仍有差距。

据介绍，元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载，简单登记后即可无条件免费商用，能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务，赋能文娱、金融、医疗等各行各业，帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023年10月，腾讯音乐宣布与元象大模型建立战略合作，共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”，未来还将持续探索AI与3D前沿技术。

THE END

免责声明：本文系转载，版权归原作者所有；刊载之目的为传播更多信息，如内容不适请及时通知我们。

元象开源650亿参数高性能大模型，无条件免费商用

相关热点

最新文章

相关推荐

东京奥运会中国第13金由游泳健将张雨霏斩获，一天斩获两枚金牌

两名航天员成功出舱航天员刘伯明成功开启天和核心舱节点舱出舱舱门

微信显示“正在输入”，其实不是在回复消息，背后原因挺“伤人”

关注我们

元象开源650亿参数高性能大模型，无条件免费商用

相关热点

最新文章

相关推荐

东京奥运会中国第13金由游泳健将张雨霏斩获，一天斩获两枚金牌

两名航天员成功出舱 航天员刘伯明成功开启天和核心舱节点舱出舱舱门

微信显示“正在输入”，其实不是在回复消息，背后原因挺“伤人”

关注我们

两名航天员成功出舱航天员刘伯明成功开启天和核心舱节点舱出舱舱门