近日,朱泽园 和李远志 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验总结了 12 条定律,为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。作者研究了三种类型的合成数据:bioS、bioR、bioD。
每经记者:文巧 每经编辑:何小桃,兰素英“大模界”是每日经济新闻推出一档专注生成式AI与大模型技术的前沿科技报道栏目。 在这里,我们将聚焦生成式AI技术浪潮,展现从文字、图像、音频、视频的大模型如何编织数字化世界。
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,上下文窗口为8k。
近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。11月6日,零一万物创始人及CEO李开复带队创办的AI 2.
和 GPT 系列一样,LLaMA 模型也是 Decoder-only 架构,但结合前人的工作做了一些改进,比如:Pre-normalization . 为了提高训练稳定性,LLaMA 对每个 transformer 子层的输入进行归一化,使用 RMSNorm 归一化函数,Pre-normalization 由Zhang和Sennrich引入。
11月15日,创新工场创始人李开复创办的大模型公司零一万物,针对其开源Yi大模型涉嫌抄袭LLaMA一事作出说明,并“表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新”。
近日,创新工场董事长兼CEO李开复创办的AI 2.0公司零一万物陷入抄袭争议,被指“‘Yi’大模型使用了LLaMA的架构,只对两个张量进行重命名”。对此,该公司致歉称,“我们正在各开源平台重新提交模型及代码并补充LLaMA协议副本的流程中。