megatron学习框架

资讯

NVIDIA Megatron：超大Transformer语言模型的分布式训练框架 (二)
有了高效的分布式训练框架，自然也需要优化的分布式训练集群。NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构，最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建，旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统，以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。
NVIDIA英伟达中国
大模型「进厂」有多难？这个源自中国的AI框架整整用了2年
【新智元导读】AI热了这么多年，但框架还是「二人转」，国产框架真的一个能打的都没有吗?2020年末，DeepMind开发的第二代深度学习神经网络震惊了结构生物学界。
新智元
6评论
淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA
这些工作不仅在目前各种大模型能力客观评测榜单上表现卓越，同时展现了在长文本理解、长文本生成、代码编写、数学求解等实用场景的优秀性能。
机器之心Pro
5评论
上海人工智能实验室大模型中心
上海人工智能实验室（上海AI实验室）面向全球招聘大模型人才。实验室现已推出书生大模型体系，涵盖书生·浦语、书生·万象通用基础模型及多个垂直领域专用模型。同时，实验室构建了大模型评测体系（司南OpenCompass），以纯粹技术及中立视角，为业界提供能力指标参考和优化方向指引。
上观新闻
12评论
大型语言模型有哪些用途？
大型语言模型是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。
NVIDIA英伟达中国
1评论

在线举报