来源:环球网 【环球网报道 记者 李文瑶】4月7日消息,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。
每经记者:王帆 每经编辑:文多9月7日上午,《每日经济新闻》记者从腾讯全球数字生态大会上获悉,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上发布腾讯混元大模型,该大模型为腾讯全链路自研大语言模型,参数规模超千亿,预训练语料超2万亿tokens(大语言模型文本单位),
从 2019 年的谷歌 T5 到 OpenAI GPT 系列,参数量爆炸的大模型不断涌现。可以说,LLMs 的研究在学界和业界都得到了很大的推进,尤其去年 11 月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。
更具体来说,我们假设在预训练数据中,某个任务 T 有 100 个训练数据,当模型规模小的时可能只记得 30 个,达不到 Grokking 现象的临界点,而当模型规模推大时,因为模型记忆能力增强,可能就能记住其中的 50 个,这意味着它可能超过了 Grokking 的临界点,于是会出现 Grokking 里面的泛化现象。
(本文作者王鹏为北京市社会科学院研究员,数据资产化研究院执行院长)在全球范围内,大型语言模型的发展正在迅速推进。国内已经具备了多个具有先进技术与创新能力的额模型,但在数据处理、技术标准以及隐私问题等方面仍然存在不容忽视的障碍。