登录
主页
大型语言模型预训练(LLM360)
2025-06-11
  
1156
深数据
LLM360由Petuum和穆罕默德·本·扎耶德人工智能大学(MBZUAI)共同推出,是用于创建开源大型语言模型的项目,主要用于大型语言模型的预训练,为开发者提供大量高质量、多样化的数据,帮助其更轻松、快捷、经济地创建开源大型语言模型。
LLM360已发布13个开源模型,涵盖K2等四个大型语言模型系列,提供模型检查点、代码、数据和模型开发的见解与细节;开源了庞大的完全清理过的预训练数据集TxT360,通过合并和去重99个CommonCrawl数据集和14个高质量数据源创建而成,在Hugging Face上排名第一,存储了丰富元数据,使预训练者能精确控制数据分布。
LLM360的项目地址:https://www.llm360.ai
一、框架内容
训练数据集和数据处理代码:公开LLMs的预训练数据,包括数据的来源、预处理方式等,以便用户和开发者了解模型的潜在行为问题和偏见。
训练代码、超参数和配置:公开所有LLM预训练框架、超参数和配置,包括整个训练源代码、学习率、批量大小等,方便研究人员复现和改进训练过程。
模型检查点:发布LLMs的所有中间检查点,包括模型权重和优化器状态,以便研究人员在不从头开始的情况下进行训练,有助于分析模型的训练动态和性能变化。
指标:完全开源收集到的日志和指标,包括系统统计信息、训练日志和评估指标,以便更深入地了解整个训练过程,评估模型的性能和收敛情况。
二、核心功能
1.全透明训练框架
公开完整的训练代码、超参数配置和数据处理流程,允许研究人员复现任意规模的LLM训练。
提供训练过程中的详细指标(如损失曲线、计算效率),帮助分析模型性能变化。
2.多模态数据支持
集成文本、代码、图像等多源数据,支持跨模态预训练(如文本-代码联合训练)。
提供数据清洗、去重、增强的工具链,提升预训练数据质量。
3.分布式训练优化
支持大规模并行训练(如使用Cerebras Wafer-Scale Engine等专用硬件)。
优化内存管理和梯度计算,降低资源消耗。
4.模型检查点与可解释性
保存训练过程中的所有中间检查点(如每1000步),便于分析模型演化。
提供工具可视化模型行为(如注意力机制、知识分布)。
5.基准测试与评估
内置常见NLP任务评估套件(如MMLU、SuperGLUE)。
支持自定义评估指标,验证模型在特定领域的泛化能力。
三、应用场景
1.学术研究
复现现有LLM训练过程,验证理论假设。
探索不同数据分布、架构设计对模型性能的影响。
研究模型灾难性遗忘、知识蒸馏等前沿问题。
2.工业级模型定制
基于LLM360的框架和数据,企业可低成本微调领域特定模型(如医疗、金融、法律)。
优化模型大小与性能的权衡,适配资源受限场景。
3.安全与伦理研究
分析预训练数据中的偏见和毒性,改进模型公平性。
检测和防御对抗性攻击,提升模型鲁棒性。
4.教育与技术普及
提供教学资源,帮助学生理解LLM训练原理。
降低中小企业进入AI领域的门槛。
5.多语言与跨文化应用
支持不同语言的数据预处理和模型训练,推动全球语言多样性的AI发展。
四、典型案例
AMBER:是基于1.3T tokens进行预训练的7B英语语言模型,采用与Llama 7B一致的模型架构,在MMLU基准测试中表现良好。它在训练过程中保存了360个模型检查点,除了最终的模型权重外,还提供了每个检查点的逐步骤数据序列,便于研究人员和企业团队进行进一步的研究和定制。
CRYSTALCODER:是基于1.4T tokens预训练的7B英语和代码语言模型,通过精心混合文本和代码数据进行训练,在语言和代码任务之间取得了很好的平衡,可用于调查AI代理和工具使用能力。该模型在训练过程中保存了143个模型检查点,并公开了所有的预训练数据。
五、意义和价值
LLM360通过提供全面的训练资源和基准测试结果,为开源语言模型的发展树立了新的标准,推动了LLMs研究的进步,有助于减少研究中的重复工作,促进不同研究团队之间的合作和创新,使人工智能研究更加开放、透明和可重复。
点赞数:2
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号