最近,开源中国 OSCHINA、Gitee 与 Gitee AI 联合发布了《2024 中国开源开发者报告》。在第二章《TOP 101-2024 大模型观点》中,Hugging Face 工程师 Tiezhen、Hugging Face 中文社区项目经理Adina以及 Hugging Face FellowLu Cheng,从崛起与变革两个维度,探讨中国开源模型在这一年取得的重大成就和未来展望。
2月14日,百度在其官方公众号发文:“我们将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。” 此前,李彦宏曾在采访中表达对闭源大模型的支持观点,他认为“开源其实是一种智商税”,闭源才有真正的商业模式。
4 月 17 日,两家大模型企业相继宣布重大更新。午间,MiniMax在其公众号宣布正式推出abab 6.5 系列模型,其中abab 6.5 包含万亿参数,支持 200k tokens的上下文长度,abab 6.5s 与 abab 6.
据不完全统计,目前国内发布的大模型数量超300个,10亿参数规模以上大模型数量也超过100个,大模型产品更是琳琅满目,版本、能力、价格各不相同,开源闭源技术路线各有利弊,面对各种数据和概念,企业也难免患上“选择困难症”。
作 者丨白杨编 辑丨骆一帆图 源丨图虫AI大模型的发展需要开源生态9月6日,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
2022年11月,ChatGPT横空出世,带来大模型时代。但训练大模型好比培养孩子,唯有高质量的教育,才有高质量的输出。因此,高质量语料库是大模型产业链关键环节。基于此,今年7月6日,在世界人工智能大会开幕式上,由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
——林咏华 北京智源人工智能研究院副院长兼总工程师在6月9日—10日举行的2023北京智源大会上,“AI数据开源”引发广泛关注。AI数据为什么要开源?AI数据开源面临哪些挑战?它会是未来AI发展的重要趋势吗?科技日报记者带着这些问题采访了相关专家。
AI大模型时代,随着AI生成内容作品的数量不断增多,这其中存在的版权问题显得愈发引人注目,用人类的作品“喂给”AI进行训练之后生成的作品,算“借鉴”还是算“抄袭”?如果AI训练必须执行严格的版权规定,那么AI大模型在训练过程中学习过一万个人的作品,是否要经过这1万人一一授权?
模型能力是由算法、数据质量和算力投入大小决定,而不是由开源还是闭源决定短期看,理想状态是在开闭源两种模式之间找到平衡,在技术进步与生态建立方面优势互补;长期看,大模型可能会像互联网一样,逐步走向开源,由全世界共同维护、共同受益文 |《瞭望》新闻周刊记者 钱沛杉大模型应该开源还是闭