6月11日消息,跨国科技公司Yandex最近推出了用于训练大型语言模型的开源方法YaFSDP。YaFSDP可用于增强GPU通信并减少LLM训练中的内存使用量,与FSDP相比,其训练速度提升最高可达26%。YaFSDP方法目前已可以在Github上免费访问。
通义千问已开源7款大语言模型4月7日消息,阿里云通义千问320亿参数模型Qwen1.5-32B宣布开源。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型。此次开源的320亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。
来源:环球网 【环球网报道 记者 李文瑶】4月7日消息,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。
11月5日,腾讯混元最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。
红星资本局8月16日消息,日前,天津大学自主研发的“伏羲传语”(FuxiTranyu)多语言大模型正式发布并开源。“大语言模型在各类任务中表现出了强大的能力,然而,许多大模型在应对不同语言时并不会表现出均衡的能力,这通常与预训练的语料数据的配比有关。
来源:环球网 【环球网科技综合报道】4月25日消息,苹果公司于日前发布一个名为OpenELM的高效语言模型,具有开源训练和推理框架。苹果方面表示,“大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。