开源大型语言模型

资讯

Yandex开源大型语言模型训练工具YaFSDP
6月11日消息，跨国科技公司Yandex最近推出了用于训练大型语言模型的开源方法YaFSDP。YaFSDP可用于增强GPU通信并减少LLM训练中的内存使用量，与FSDP相比，其训练速度提升最高可达26%。YaFSDP方法目前已可以在Github上免费访问。
界面快讯
早资道 | 通义千问已开源7款大语言模型；百度文心一言上线新功能
通义千问已开源7款大语言模型4月7日消息，阿里云通义千问320亿参数模型Qwen1.5-32B宣布开源。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型。此次开源的320亿参数模型，将在性能、效率和内存占用之间实现更理想的平衡。
封面新闻
1评论
通义千问开源320亿参数模型，已实现7款大语言模型全开源
来源：环球网【环球网报道记者李文瑶】4月7日消息，阿里云通义千问开源320亿参数模型Qwen1.5-32B，可最大限度兼顾性能、效率和内存占用的平衡，为企业和开发者提供更高性价比的模型选择。目前，通义千问共开源了7款大语言模型，在海内外开源社区累计下载量突破300万。
环球网
16评论
腾讯混元大语言模型和3D模型正式开源
11月5日，腾讯混元最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。
界面快讯
天津大学“伏羲传语”多语言大模型正式发布并开源，应对大模型多语言能力不足
红星资本局8月16日消息，日前，天津大学自主研发的“伏羲传语”（FuxiTranyu）多语言大模型正式发布并开源。“大语言模型在各类任务中表现出了强大的能力，然而，许多大模型在应对不同语言时并不会表现出均衡的能力，这通常与预训练的语料数据的配比有关。
红星新闻
苹果发布语言模型OpenELM：基于开源训练和推理框架
来源：环球网【环球网科技综合报道】4月25日消息，苹果公司于日前发布一个名为OpenELM的高效语言模型，具有开源训练和推理框架。苹果方面表示，“大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。
环球网
3评论

视频

在线举报