作 者丨白杨编 辑丨骆一帆图 源丨图虫AI大模型的发展需要开源生态9月6日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。11月6日,零一万物创始人及CEO李开复带队创办的AI 2.
和 GPT 系列一样,LLaMA 模型也是 Decoder-only 架构,但结合前人的工作做了一些改进,比如:Pre-normalization . 为了提高训练稳定性,LLaMA 对每个 transformer 子层的输入进行归一化,使用 RMSNorm 归一化函数,Pre-normalization 由Zhang和Sennrich引入。
·Meta发布Llama 3.1开源大模型系列,包括最大的版本Llama 3.1 405B,轻量级的Llama 3.1 8B和Llama 3.1 70B,任何人都可以免费使用。扎克伯格表示,开源人工智能是前进之路,人工智能开发将继续保持非常激烈的竞争,开源正在迅速缩小差距。
第一批AI大模型创业者们,正密集加入大厂。因为讨厌大公司的官僚作风,2021年,AI大牛Noam Shazeer和Daniel De Freitas从谷歌离职,融资1.5亿美元,创立了大模型聊天机器人Character.AI。
·通常,运行GPT-3需要多个数据中心级英伟达A100 GPU,但LLaMA可以在单个强大的消费类GPU上运行。通过一种被称为量化的技术来进行优化、使模型缩小后,LLaMA可以在配备M1芯片的苹果电脑或较小的英伟达消费级GPU上运行。人工智能世界正在以闪电般的速度发展。