作为生成式人工智能的代表,大模型已经进入全新的发展阶段。红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,已于本月正式启动。2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。
逻辑推理被认为是当前大模型最难以攻克的一道关卡。某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图文| 王晓凯一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.
关于“9.11和9.9哪个大”,这样一道小学生难度的数学题难倒了一众海内外AI大模型。7月17日,第一财经报道了国内外“12个大模型8个都会答错”这道题的现象,大模型的数学能力引发讨论。“从技术人员的角度看答错这个问题并不惊讶。
2月18日,马斯克及其 xAI 团队在直播中正式发布了 Grok 3,此前马斯克通过持续的预热宣传,将外界对 Grok3 的期待值推向了前所未有的高度。然而,被马斯克称为“地球上最聪明人工智能”的Grok 3,似乎也翻车了。
第二十期:大模型的开源闭源之争大模型集体失智!“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了??从ChatGPT-4o到豆包、kimi,一众大模型都坚定地认为9.11更大,简直要怀疑是全世界AI联合起来欺骗人类了。
9月13日,OpenAI发布新模型o1,此前被网友诟病的大模型比较不出9.11和9.9大小的问题,终于在新版大模型中得到了正确结论。 经过测试,o1-preview依旧给出错误答案,认为9.11更大。而o1-mini经过短暂“思考”,纠正了此前错误:“抱歉,上次的回答有误。9.
快科技2月19日消息,昨日,马斯克旗下的人工智能公司xAI举行了一场技术演示,正式发布了其最新的大模型——Grok 3。据悉,这是人类历史上,第一个在20万块GPU上训练出的模型,而且其训练计算量是Grok-2的10倍,马斯克对其不吝赞美,称“地球上最聪明的人工智能来了”。
北京商报 ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。近日,在新一期的《歌手》节目中,孙楠与外国歌手的微小分数差异,引发了网友关于13.8%和13.11%谁大谁小的争论。有网友竟给出“13.11%大于13.
素有“地球上最为聪慧的人工智能”之称的 Grok 3 竟也遭遇滑铁卢,连 9.11 和 9.9 谁大这一问题都未能答对,众多网友见状不禁哑然失笑。部分媒体对最新的 Beta 版 Grok 3 进行了测试,并且抛出了那个用于刁难大模型的经典问题:“9.11 与 9.9 哪个大?
ChatGPT的出现注定是科技圈的里程碑事件。2022年11月30日,OpenAI正式发布聊天机器人ChatGPT,人们第一次发现,人工智能的对话近似人类了。在这背后,通过大规模预训练和自监督学习技术构建的深度学习模型,提高了计算机对自然语言的理解和生成能力。
近日,马斯克与其xAI团队在直播中正式发布了最新版本的AI模型Grok-3,宣称其为“地球上最聪明的AI”。虽然这一版本在理论上被推崇为顶尖技术,但其最新测试结果却让人感到意外——当被问到经典的AI测试问题“9.11与9.9哪个大”时,Grok-3未能正确回答。