News

AI 发展的上半场主要聚焦于模型和方法的创新,而非评估标准的建立。这是因为开发新的算法和模型架构(如反向传播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,远比将已有人类任务转化为基准测试更具挑战性和吸引力。
研究者让当前最顶尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆转裁判》中接受考验,看它们能否喊出「反对!」,扭转案情,揭开谎言背后的真相。
这份报告的实验发现,Claude 3.7 Sonnet仅在25%的情况下在其思维链中提及收到的提示信息,DeepSeek R1则为39%,意味着大多数情况下模型不会忠实反映其真实决策过程。
成功的数字化转型需要勇气,并且要从将其视为一系列项目转变为重新构想企业如何创造价值、交付价值和捕获价值。在未来,企业可以在数字化转型项目开始时锁定明确的成功指标和目标。此外,企业必须抵制在转型过程中改变目标,除非影响因素的变化要求这样做。
近日,伯克利联合英伟达提出一项突破性成果:PS3 视觉编码器,首次实现了在 4K超高分辨率下的高效视觉预训练并且没有额外开销,并在此基础上提出多模态大模型 VILA-HD。相比于目前最先进的多模态大模型(如 Qwen2-VL),VILA-HD ...
OpenAI新模型全网实测惊艳来袭!o3缩放图像被玩疯,o4-mini速解Project Euler,碾压人类。AI初创CEO说,OpenAI凭此一役已经重回榜首,甚至有经济学家直言AGI已经来临!
OpenAI 还分享了一项新实验:Codex CLI,这是一款可在终端运行的轻量级编程智能体。它可以直接在个人计算机上运行,最大限度地提升 o3 和 o4-mini 等模型的推理能力,并即将支持 GPT-4.1 等更多 API 模型。
与此同时,David Silver 和他的老师、2024 年图灵奖得主 Richard Sutton 合作撰写的论文《Welcome to the Era of ...
近日,来自JHU 的研究团队提出了 AutoToM,一种全自动、开放式的心智推理方法。作为首个面向开放场景的 model-based ToM 方法,以类似人类的思维模式,AutoToM 在 5 ...
满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。
谷歌DeepMind 和牛津大学的研究人员发布了一篇论文,深度研究了在解码器Transformer架构中的“表示崩塌”和“过度压缩”两大难题,同时提供了几个简单的解决方案。
此外,根据彭博最新消息,OpenAI正以30亿美元洽谈收购AI编程平台Windsurf,这也充分说明OpenAI持续加码智能体编程赛道的决心。 功能方面,Codex ...