金磊 西风 发自 凹非寺量子位 | 公众号 QbitAI继Devin之后,又一个AI软件工程师被刷屏了——它叫Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。
Claude 3.7 Sonnet and Claude Code。Claude Code横空出世,上一集视频测评了最新的Claude3.7,这是第一个做对了我所有测评用的题的大模型,所以我封它为最强大的大语言模型。除了Claude3.
提起Github Copilot,相信很多人都听说过甚至使用过,作为Github研发的一款先进的编程辅助插件,它可以在我们日常编写代码的过程中,根据代码的上下文内容、注释等信息自动推断生成高质量的代码,很大程度上提升我们的代码编写效率。
谁是最强AI代码助手?近日,权威研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《中国AI代码生成市场报告》,报告初步认定市场存在6家AI代码生成厂商主流玩家,商汤科技位列其中,且是市场综合竞争表现最强的厂商。
20万块GPU“烧出”的Grok 3到底是不是地表最强AI?对此不乏争议。但毋庸置疑的是,Grok 3绝对是有史以来能耗最高的大模型。训练消耗的能源相当于一座小城市一年的用电量,或者4万多辆燃油车一年的碳排放量。
北京时间2月18日午间,马斯克旗下xAI公司正式发布新一代大模型Grok 3。为了证明Grok 3是“地球上最聪明的AI”,马斯克将它与DeepSeek、Gemini、ChatGPT等大模型进行对比测试,比如Grok 3在数学、科学、编程等推理能力上都排名第一,其它方面也有过人之处。
北京时间2月18日中午,马斯克旗下人工智能初创公司XAI开发的Grok-3模型正式发布,并通过自己的X平台进行了视频直播。此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。
尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分达到 96 分,超过了 o3 mini、o1 和 DeepSeek-R1 等前沿模型。