梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。
21世纪经济报道 记者 郑雪 北京报道如何让AI懂得人类的伦理道德?如何让人类的伦理道德更加明确?7月8日,记者获悉,“智善•如流”人工智能伦理道德与社会规范的群智数据与知识平台于今日在世界人工智能大会上发布。
南都讯 记者李玲 数据质量决定了大模型的上限,但数据短缺成为制约大模型发展的瓶颈。如何缓解AI公司的数据焦虑?6月14日,第六届北京智源大会上公布了两个数据集:一是千万级高质量开源指令微调数据集,二是开源中英文行业数据集。高质量的指令数据是大模型性能的“养料”。
21世纪经济报道记者 冯恋阁 福州报道生成式人工智能技术不断发展,训练数据来源成为人们最关注的问题之一。去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。
AI几乎读取了互联网上的所有内容,但仍渴望获得更多数据。为此,开发人员必须寻找变通之道。得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。
他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调指令集数据。
来源:环球网 【环球网科技综合报道】1 个 AI 创新赛,1 个创新者舞台。2024 Inclusion·外滩大会今日闭幕,当我们的目光再次汇聚黄浦江畔,一个个具体的人和事呈现在面前,他们像一束光,引领科技向前、向善。赛事和舞台是今年外滩大会的新增板块。
一场“语言叛变”引发的AI革命2025年2月7日,OpenAI紧急发布的新模型o3-mini引发了一场“语言叛变”——即便用户用英文提问,AI竟频频用中文输出回答!这一反常现象迅速引爆科技圈,有人调侃:“AI这是要认中文当‘母语’了?
AI 惊现中文推理,引发热议最近,AI 圈发生了一件让人惊掉下巴的事!不少国外用户发现,像 OpenAI 这些西方主流的人工智能模型,在进行推理的时候,竟然会自动切换成中文模式 。哪怕你用俄文、英文提问,最后它在推理过程中也极有可能冒出中文来。