大模型上下文长度

资讯

百川智能推出大模型Baichuan2-192K 称上下文窗口长度是GPT-4的14倍
每经记者：可杨每经编辑：陈俊杰10月30日，百川智能发布Baichuan2-192K大模型。
每日经济新闻
百川智能推出全球最长上下文窗口大模型
北京日报客户端 | 记者孙奇茹10月30日，北京人工智能大模型企业百川智能发布Baichuan2-192K大模型，其上下文窗口长度达192K，是目前全球最长的上下文窗口，能够处理约35万个汉字，是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗口，实测约8万
北京日报客户端
1评论
NVIDIA把Llama-3的上下文长度扩展16倍，上下文理解能力超越GPT-4
我们知道，大模型的上下文长度越长，其计算过程中消耗的资源也就越多，看起来扩展大模型的上下文是一件耗时耗力的工作。
夕小瑶科技说
3评论
Kimi掀起大模型长文本之战
界面新闻记者 | 于浩伍洋宇界面新闻编辑 | 文姝琪凭借“长文本”标签，月之暗面从国内一众AI大模型公司中脱颖而出，打破了这个行业在产品上大同小异、技术上难分伯仲的刻板印象。
界面新闻
6评论
国产130亿参数大模型免费商用！性能超Llama2-13B，支持8k上下文
XVERSE-13B，开源即免费商用。而为了充分利用训练数据，他们在分词策略上，基于BPE算法，使用上百 GB 语料训练了一个词表大小为 100，278 的分词器。
量子位
49评论
大模型进入“价格战”阶段，百度宣布两款主力大模型免费开放
来源：环球网【环球网科技综合报道】5月21日消息，据百度官方宣布，其两款主力模型 ERNIE Speed、ERNIE Lite 全面免费。
环球网
2评论
林达华谈大模型发展之路：未来会有更高效的模型结构出现
·大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起云涌，模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
澎湃新闻
3评论
21 深度丨量化巨头幻方搅局AI大模型：首期投入自有资金30亿元
21世纪经济报道记者李域深圳报道量化私募巨头幻方成为了AI大模型市场中的“鲶鱼”。7月4日，AI公司深度求索（DeepSeek）发文称，DeepSeek API已经上线128K上下文长度，价格保持不变，还在大家熟悉的，即“每百万tokens输入1元、输出2元”。
21世纪经济报道
全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线
10 月 30 日，百川智能正式发布 Baichuan2-192K 长窗口大模型，将大语言模型上下文窗口的长度一举提升到了 192K token。
机器之心Pro
4评论
大模型又开“卷”，万亿参数闭源模型、四千亿开源模型来了
4 月 17 日，两家大模型企业相继宣布重大更新。午间，MiniMax在其公众号宣布正式推出abab 6.5 系列模型，其中abab 6.5 包含万亿参数，支持 200k tokens的上下文长度，abab 6.5s 与 abab 6.
第一财经
1评论
研究人员揭示大模型指令微调新秘密，助力大模型高效、低成本定制
2020 年，通过增加大模型参数量的方法，OpenAI 在具有 1750 亿参数量的 GPT-3 上发现，大模型可以根据提示词中提供的信息，来执行新任务或改进现有任务。随后他们趁热打铁，一起研究能否使用上下文学习，来替代成本高昂的指令微调方法。
DeepTech深科技
2评论
瞄准百亿参数级大模型，云从科技想降低行业大模型的使用门槛
界面新闻记者 | 于浩界面新闻编辑 | 在ChatGPT所带来的“预训练大模型+人类反馈强化学习”技术范式的推动作用下，国内各大厂商都开启了大模型及相关应用生态方面的商业竞赛。
界面新闻
一篇文章系统看懂大模型
上周在分享《我的AI产品经理转型之路》这篇文章的时候，就预告了一下，三白将输出一篇文章帮助大家系统的学习和了解大模型，今天来交稿了;
人人都是产品经理
10评论
对标GPT-4o，面壁智能瞄准手机、汽车等智能终端大模型
9月5日，头部大模型初创公司面壁智能官宣实现旗下模型新一轮迭代。正式进化的MiniCPM 3.0基座模型，再次以小博大，以仅为4B的参数，在包括自然语言理解、知识、代码、数学等多项能力上已实现超越GPT-3.5的性能。南都记者了解到，此次MiniCPM 3.
南方都市报
Kimi爆火，中国大模型何时商业落地
本报记者陈子帅杨沙沙马梦阳编者的话：一款擅长处理长文本的国产大模型日前引发广泛关注。据香港《南华早报》报道，中国人工智能公司“月之暗面”（Moonshot AI）宣布旗下大模型Kimi已经能够处理200万汉字的无损上下文，比去年10月时20万汉字的水平有了明显突破。
环球时报
6评论
再开源两款大模型，腾讯慢慢来
同行几乎每月都在发布大模型开源消息，腾讯的类似新闻发生在6个月前。11月5日，腾讯将MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源，这两个模型已在腾讯业务场景落地，支持企业及开发者精调、部署等不同场景的使用需求。
快消八谈
大模型落地难题怎样破解？百川智能用搜索给出答案
界面新闻记者 | 李京亚界面新闻编辑 | 大模型一周年之际，业界对各类工作的重要程度开始达成共识，比如多位开发者就公认，扩展大模型上下文长度是非常重要的工作，甚至会成为大模型落地的瓶颈，向量数据库则是另一个。
界面新闻
1评论
2GB 内存就能跑 ChatGPT！这个国产「小钢炮」，要让华为 OV 们的 AI 体验突破瓶颈
在这波 AI 浪潮中，面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。自从面壁智能 2 月份发布性能小钢炮 1.0 后，接连几月陆续迭代升级，其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。
爱范儿
1评论
鑫闻界|引爆AI概念的KiMi是什么来头，哪些公司正在获益？
记者黄寿赓近日，月之暗面（Moonshot AI）旗下国产大模型Kimi智能助手凭借200万字级的长上下文处理能力骤然走红，一举站到国产大模型行业前列。Kimi走红引发A股新一轮AI行情，华策影视、掌阅科技等股连续获得涨停。
齐鲁壹点
126评论

加载更多

视频