大规模语言模型参数

资讯

通义千问开源320亿参数模型，已实现7款大语言模型全开源
来源：环球网【环球网报道记者李文瑶】4月7日消息，阿里云通义千问开源320亿参数模型Qwen1.5-32B，可最大限度兼顾性能、效率和内存占用的平衡，为企业和开发者提供更高性价比的模型选择。目前，通义千问共开源了7款大语言模型，在海内外开源社区累计下载量突破300万。
环球网
16评论
腾讯正式发布混元大语言模型参数规模超千亿
每经记者：王帆每经编辑：文多9月7日上午，《每日经济新闻》记者从腾讯全球数字生态大会上获悉，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在会上发布腾讯混元大模型，该大模型为腾讯全链路自研大语言模型，参数规模超千亿，预训练语料超2万亿tokens（大语言模型文本单位），
每日经济新闻
6评论
最新大语言模型综述：T5到GPT-4最全盘点，20余位研究者联合撰写
从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的大模型不断涌现。可以说，LLMs 的研究在学界和业界都得到了很大的推进，尤其去年 11 月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。
机器之心Pro
27评论
大语言模型科普：涌现
提到大语言模型，大家都能够联想到一个突出能力，那就是涌现能力。本文针对该现象展开分析，为你科普大语言模型的涌现，希望对你有所帮助。
人人都是产品经理
12评论
ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力？
更具体来说，我们假设在预训练数据中，某个任务 T 有 100 个训练数据，当模型规模小的时可能只记得 30 个，达不到 Grokking 现象的临界点，而当模型规模推大时，因为模型记忆能力增强，可能就能记住其中的 50 个，这意味着它可能超过了 Grokking 的临界点，于是会出现 Grokking 里面的泛化现象。
CSDN
29评论
2023国内大语言模型发展盘点（三）—发展难点与未来展望
（本文作者王鹏为北京市社会科学院研究员，数据资产化研究院执行院长）在全球范围内，大型语言模型的发展正在迅速推进。国内已经具备了多个具有先进技术与创新能力的额模型，但在数据处理、技术标准以及隐私问题等方面仍然存在不容忽视的障碍。
第一财经
商汤科技大语言模型出炉：名为“商量SenseChat”
新京报贝壳财经讯（记者罗亦丹）国内大语言模型又添一员。
新京报

视频

在线举报