大模型的benchmark如何做

资讯

360视角：大模型幻觉问题及其解决方案的深度探索与实践
解决该问题是一项复杂的系统工程任务，需多角度综合探索。业界正通过持续的研究与实践，寻找更有效的检测与缓解策略，以提升大模型的可靠性、安全性与实用性。
DataFunTalk
4评论
大模型在数据分析场景下的能力评测
“你们能对接国产大模型吗？”“开源的 LLaMA 能用吗，中文支持怎么样？”“私有化部署和在线服务哪个更合适？”自 7 月 14 日发布 AI 数智助理 Kyligence Copilot 后，我们收到了很多类似上面的咨询，尤其是我们很多来自银行、保险等的大型金融客户。
Kyligence
C-Eval: 构造中文大模型的知识评估基准
在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。
海外独角兽
Kimi掀起大模型长文本之战
界面新闻记者 | 于浩伍洋宇界面新闻编辑 | 文姝琪凭借“长文本”标签，月之暗面从国内一众AI大模型公司中脱颖而出，打破了这个行业在产品上大同小异、技术上难分伯仲的刻板印象。
界面新闻
6评论
大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark
让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打?与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。
量子位
23评论
大模型震荡时刻：DeepSeek掀桌百度开源免费成必答题
图/ic2025年新春伊始，中国AI行业迎来里程碑时刻。DeepSeek崛起引发全球AI产业震荡，百度开源、GPT免费 ……由深度求索公司研发的开源大模型DeepSeek以"低成本+高智能+全开源"的颠覆性优势横空出世，犹如一条激活全球AI生态的鲶鱼，在科技界掀起惊涛骇浪。
新京报
1评论
阿里360月之暗面角逐长文本记者实测国内大模型长文本哪家强
大模型应用Kimi智能助手火了，随之“Kimi概念股”华策影视在3月20日至22日连续三天20%的涨停板。消息面上，其运营公司月之暗面3月18日宣布Kimi长上下文窗口技术突破至200万字。但200万字并非大语言模型的极限。
新京报
1评论
进击的电商，更确定的增长藏在大模型里
AI电商的京东方案。文｜《中国企业家》记者李艳艳编辑｜姚赟头图来源｜视觉中国AI加持下，电商降本的程度到底有多深？“原来需要30万～40万一年的真人直播团队成本，现在用数字人，只需要3万元。”吴依（化名）形容，“不到原来成本的十分之一。
中国企业家杂志
4评论
对话真格戴雨森：从20分迅速追到50分，国产大模型难在哪儿
小宇宙播客扫码收听采访｜泓君文｜钟子湫编辑｜泓君随着AI过火，最近越来越多的中国大模型加入了这场AI大模型之战。中国的大模型跟海外大模型相比到底怎么样？真格基金做了一套大模型的大模型测试集Z-Bench，设计了300个问题去评估中外大模型之家的综合能力。
硅谷101
22评论
腾讯邱跃鹏：围绕智能化、融合创新、国际化，打造面向未来的云
9月5日，在腾讯全球数字生态大会上，腾讯集团副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏在演讲中表示，未来的云是面向智能化、融合创新、国际化的，腾讯云将围绕这三个方向持续探索和创新，打磨好产品能力，助力企业取得新增长。
中国青年网

视频

问答

以ChatGPT为代表的「大模型」会是多大的技术革命？如果要发生技术革命需要具备哪些条件？
AI大模型在具体场景下的多样价值 · AI大模型相当于是通过积累大量知识，最后形成的一个有泛化知识的个体。它跟原来传统意义上的小模型之间的差异，就相当于一个经过了大量通用题库训练的大学生，和一个只在特定专业受训练的技校生的差异。
头条问答