site:www.51cto.com - Search News

News

AI 发展的上半场主要聚焦于模型和方法的创新，而非评估标准的建立。这是因为开发新的算法和模型架构（如反向传播、AlexNet、Transformer 等）需要深刻的洞察力和工程能力，远比将已有人类任务转化为基准测试更具挑战性和吸引力。

研究者让当前最顶尖的AI模型（GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等）在《逆转裁判》中接受考验，看它们能否喊出「反对！」，扭转案情，揭开谎言背后的真相。

这份报告的实验发现，Claude 3.7 Sonnet仅在25%的情况下在其思维链中提及收到的提示信息，DeepSeek R1则为39%，意味着大多数情况下模型不会忠实反映其真实决策过程。

成功的数字化转型需要勇气，并且要从将其视为一系列项目转变为重新构想企业如何创造价值、交付价值和捕获价值。在未来，企业可以在数字化转型项目开始时锁定明确的成功指标和目标。此外，企业必须抵制在转型过程中改变目标，除非影响因素的变化要求这样做。

20h

近日，伯克利联合英伟达提出一项突破性成果：PS3 视觉编码器，首次实现了在 4K超高分辨率下的高效视觉预训练并且没有额外开销，并在此基础上提出多模态大模型 VILA-HD。相比于目前最先进的多模态大模型（如 Qwen2-VL），VILA-HD ...

20h

OpenAI新模型全网实测惊艳来袭！o3缩放图像被玩疯，o4-mini速解Project Euler，碾压人类。AI初创CEO说，OpenAI凭此一役已经重回榜首，甚至有经济学家直言AGI已经来临！

OpenAI 还分享了一项新实验：Codex CLI，这是一款可在终端运行的轻量级编程智能体。它可以直接在个人计算机上运行，最大限度地提升 o3 和 o4-mini 等模型的推理能力，并即将支持 GPT-4.1 等更多 API 模型。

与此同时，David Silver 和他的老师、2024 年图灵奖得主 Richard Sutton 合作撰写的论文《Welcome to the Era of ...

近日，来自JHU 的研究团队提出了 AutoToM，一种全自动、开放式的心智推理方法。作为首个面向开放场景的 model-based ToM 方法，以类似人类的思维模式，AutoToM 在 5 ...

满血版o3和o4-mini深夜登场，首次将图像推理融入思维链，还会自主调用工具，60秒内破解复杂难题。尤其是，o3以十倍o1算力刷新编程、数学、视觉推理SOTA，接近「天才水平」。此外，OpenAI还开源了编程神器Codex CLI，一夜爆火。

谷歌DeepMind 和牛津大学的研究人员发布了一篇论文，深度研究了在解码器Transformer架构中的“表示崩塌”和“过度压缩”两大难题，同时提供了几个简单的解决方案。

此外，根据彭博最新消息，OpenAI正以30亿美元洽谈收购AI编程平台Windsurf，这也充分说明OpenAI持续加码智能体编程赛道的决心。功能方面，Codex ...

Some results have been hidden because they may be inaccessible to you