大模型上下文的长度

资讯

百川智能推出大模型Baichuan2-192K 称上下文窗口长度是GPT-4的14倍
每经记者：可杨每经编辑：陈俊杰10月30日，百川智能发布Baichuan2-192K大模型。
每日经济新闻
大模型如何使用长上下文信息？将重要的信息放在开始或者结尾处！
昨天，斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现:当相关信息出现在输入上下文的开始或结束时，大模型的性能通常最高，而当大模型必须访问长上下文中间的相关信息时，性能显著下降。
数据学习DataLearner
2评论
GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录
对此，OpenAI 算过一笔更详细的账:当上下文长度为 8K 时，每 1K 输入 token 的成本为 3 美分，输出的成本为 6 美分。
机器之心Pro
2评论
NVIDIA把Llama-3的上下文长度扩展16倍，上下文理解能力超越GPT-4
我们知道，大模型的上下文长度越长，其计算过程中消耗的资源也就越多，看起来扩展大模型的上下文是一件耗时耗力的工作。
夕小瑶科技说
3评论
百川智能推出全球最长上下文窗口大模型
北京日报客户端 | 记者孙奇茹10月30日，北京人工智能大模型企业百川智能发布Baichuan2-192K大模型，其上下文窗口长度达192K，是目前全球最长的上下文窗口，能够处理约35万个汉字，是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗口，实测约8万
北京日报客户端
1评论
多家国产大模型开放长文本处理功能
原标题:企事录|多家国产大模型开放长文本处理功能。3月22日，阿里的通义千问官宣升级，向所有人免费开放1000万字的长文档处理功能。
小康杂志社
国产130亿参数大模型免费商用！性能超Llama2-13B，支持8k上下文
XVERSE-13B，开源即免费商用。而为了充分利用训练数据，他们在分词策略上，基于BPE算法，使用上百 GB 语料训练了一个词表大小为 100，278 的分词器。
量子位
49评论
全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线
10 月 30 日，百川智能正式发布 Baichuan2-192K 长窗口大模型，将大语言模型上下文窗口的长度一举提升到了 192K token。
机器之心Pro
4评论
大模型进入“价格战”阶段，百度宣布两款主力大模型免费开放
来源：环球网【环球网科技综合报道】5月21日消息，据百度官方宣布，其两款主力模型 ERNIE Speed、ERNIE Lite 全面免费。
环球网
2评论
21 深度丨量化巨头幻方搅局AI大模型：首期投入自有资金30亿元
21世纪经济报道记者李域深圳报道量化私募巨头幻方成为了AI大模型市场中的“鲶鱼”。7月4日，AI公司深度求索（DeepSeek）发文称，DeepSeek API已经上线128K上下文长度，价格保持不变，还在大家熟悉的，即“每百万tokens输入1元、输出2元”。
21世纪经济报道
林达华谈大模型发展之路：未来会有更高效的模型结构出现
·大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起云涌，模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。
澎湃新闻
3评论
研究人员揭示大模型指令微调新秘密，助力大模型高效、低成本定制
2020 年，通过增加大模型参数量的方法，OpenAI 在具有 1750 亿参数量的 GPT-3 上发现，大模型可以根据提示词中提供的信息，来执行新任务或改进现有任务。随后他们趁热打铁，一起研究能否使用上下文学习，来替代成本高昂的指令微调方法。
DeepTech深科技
2评论
对标GPT-4o，面壁智能瞄准手机、汽车等智能终端大模型
9月5日，头部大模型初创公司面壁智能官宣实现旗下模型新一轮迭代。正式进化的MiniCPM 3.0基座模型，再次以小博大，以仅为4B的参数，在包括自然语言理解、知识、代码、数学等多项能力上已实现超越GPT-3.5的性能。南都记者了解到，此次MiniCPM 3.
南方都市报
智谱AI发布基座大模型GLM-4，发起大模型开源基金
·大模型开源基金包括三个“1000”，智谱AI将为大模型开源社区提供1000张卡助力开源开发，提供1000万元现金支持与大模型相关的开源项目，为优秀开源开发者提供1000亿免费API tokens。GLM-4文生图和多模态理解得到增强。
澎湃新闻
3评论
大模型落地难题怎样破解？百川智能用搜索给出答案
界面新闻记者 | 李京亚界面新闻编辑 | 大模型一周年之际，业界对各类工作的重要程度开始达成共识，比如多位开发者就公认，扩展大模型上下文长度是非常重要的工作，甚至会成为大模型落地的瓶颈，向量数据库则是另一个。
界面新闻
1评论
时隔5个月，Kimi从20万字到200万字，月之暗面“长文本时代”一路狂奔
每经记者：杨昕怡每经编辑：刘雪梅“通往AGI（通用人工智能）的话，长上下文会是一个很重要的点，从某种程度上看，所有问题都是上下文长度问题。”在今年2月末接受《每日经济新闻》记者采访时，AI创业公司月之暗面方面曾指出了突破长文本处理技术的重要意义。
每日经济新闻
中国科学家正训练全新AI，一项数据比肩最新版GPT
近日，鹏城实验室与百川智能宣布携手探索大模型训练和应用，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”。
南方+客户端
1评论
2GB 内存就能跑 ChatGPT！这个国产「小钢炮」，要让华为 OV 们的 AI 体验突破瓶颈
在这波 AI 浪潮中，面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。自从面壁智能 2 月份发布性能小钢炮 1.0 后，接连几月陆续迭代升级，其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。
爱范儿
1评论

加载更多