人工智能资讯 第3页
聚合当前分类下的最新内容,按时间顺序查看第 3 页精选文章。

11个大模型打“吃鸡”:Grok赢13局,Claude最会合作,但这不是智能排行榜
OpenRouter 开发者把 11 个大模型放进自建 2D 吃鸡游戏连打 30 局,Grok 4.1 Fast 赢 13 局,Claude Sonnet 4.6 赢 5 局。更有意思的是成本和行为差异:Grok 单胜约 0.97 美元,Claude 单胜约 26.78 美元。这个实验不能证明 Grok 整体更强,但提醒开发者:静态跑分很难预测模型在动态、零和、多智能体任务里的真实表现。

OpenAI 的 LifeSciBench:生命科学 AI 终于被拉回研究现场
OpenAI 发布 LifeSciBench,用 750 个专家任务评估 AI 处理真实生命科学研究问题的能力。它测的不是生物学知识背诵,而是证据处理、实验设计、转化判断和风险权衡。GPT-Rosalind 总体通过率升到 36.1%,进步明显,但离可靠科研合作者还有距离。

企业 AI 开始算账:从 Tokenmaxxing 到 ROI 追踪,机会换了位置
NEA 合伙人 Tiffany Luck 在 TechCrunch Equity 播客中谈到,企业还在摸索 AI 投入回报怎么衡量。Tokenmaxxing 带来的高使用量,正在被预算、授权和业务结果重新校准。对创业公司来说,机会不在再造一个聊天入口,而在帮企业看清 AI 花在哪里、值不值、能不能嵌进流程。

NVIDIA ENPIRE:AI 代理能跑机器人训练闭环,但成本账还没算平
NVIDIA GEAR 联合 CMU、UC Berkeley 推出 ENPIRE,让多组 AI 编程代理自动设计、测试并迭代机器人训练流程。它在 Push-T、插针整理、扎带处理、GPU 插拔等受控操作任务中跑出高成功率,但这不能泛化成“机器人已能自主学会任何任务”。更关键的变量是成本:机器人等待代理、token 消耗上升、并行资源没吃满,都会削弱自动化收益。

G7担忧美国“拔插头”:AI主权从口号变成采购风险
G7峰会上,马克龙、莫迪公开担心美国可能随时切断他国对顶级AI模型的访问,导火索是特朗普政府限制Anthropic最新模型出口。真正重要的不是某一个模型被禁,而是美国AI优势正变成盟友企业和政府的基础设施依赖风险。G7讨论“可信伙伴”机制,但它目前仍是方案设想,无法立刻消除企业对断供的担忧。

Claude 两个模型被迫下线:真正麻烦的不是 Anthropic
Anthropic 的 Claude Fable 5 和 Mythos 5 因美国政府出口管制指令下线,限制点是“任何外国国民”不得使用相关服务。争议不在模型会不会作恶,而在高级网络攻防能力已经进入双用途区间:能帮防守,也能被攻击者拿来用。封住一个入口只能拖时间,真正要看的,是美国会不会拿出透明的能力分级、访问审计和恢复条件。

Anthropic 新模型被出口管制卡住:远程 AI 服务也要按战略物资管?
特朗普政府要求 Anthropic 切断所有外国国民对 Fable 5、Mythos 5 的访问,范围包括美国境内用户和公司外籍员工。Anthropic 为执行指令,一度把模型对所有用户下线。真正的争议在于:远程 chatbot 访问,是否也能被当作“出口”来管。

Odyssey 融资 3.1 亿美元:世界模型热起来,Amazon 看中的不只是估值
Odyssey 完成 3.1 亿美元 B 轮融资,估值升至 14.5 亿美元,累计融资 3.37 亿美元,已经进入世界模型创业公司的第一梯队。它的看点不是证明世界模型已经成熟,而是把现实数据采集、物理环境模拟、游戏创作、机器人训练和云算力绑到了一条线上。Amazon 参投后,AWS 成为 Odyssey 首选云服务,模型将针对 Trainium 优化,这比单纯财务投资更有产业信号。

Threads、Instagram、TikTok 让用户调算法:多了旋钮,但方向盘还在平台手里
Threads、Instagram、TikTok 正在把推荐偏好做成可调功能:用户可以设置想多看、少看什么,但还不能真正控制推荐系统。平台开放的是偏好输入口,核心排序、权重和商业目标仍在自己手里。对内容创作者和社媒运营来说,主题匹配会更重要,追热点的确定性会下降。

Anthropic加入Frontier:AI公司开始为耗电叙事补票
Anthropic加入碳移除联盟Frontier,成为首家加入该联盟的纯AI创业公司;Frontier新一批承诺资金为9.15亿美元,总承诺额达到18亿美元。关键不在“AI突然变环保”,而在算力扩张正在把能源压力推到台前。碳移除有必要,但它不是即时减排,也还撑不起AI行业全部的气候叙事。

Hugging Face 的 ARD,不是工具商店,是 Agent 入口战的预告
Hugging Face 发布 Discover Tool,作为 ARD 草案开放规范的参考实现,让 Agent 能搜索工具、Skills、MCP 服务器和其他 Agent。重点不是多了一个搜索框,而是 Agent 的“发现层”开始被标准化。对开发者和工具平台来说,接下来要盯的不是能不能搜到,而是谁定义排序、身份和可信信号。

OpenAI 的 AI 化学家进了实验室,但钥匙还在人手里
OpenAI 与 Molecule.one 把 GPT-5.4 接入 Maria 自动化化学实验平台,在人类把关下改进了伯磺酰胺与硼酸的 Chan–Lam 偶联反应。10,080 次反应后,平均产率从 16.6% 升到 25.2%,但这不是 AI 独立做科研。真正的变化是模型开始进入实验闭环;真正的限制仍是自动化实验室、人类判断和可复现证据。

AI 让代码变便宜后,工程纪律反而涨价了
Simon Willison 摘引的是 Charity Majors 的判断:2025 年,AI 把代码生成从昂贵、缓慢,推向近乎免费、即时。真正受冲击的不是工程师价值,而是团队验证、评审、可观测性和长期维护的能力。接下来最该看的,不是谁生成代码更多,而是谁能把错误、膨胀和责任收住。

Anthropic 的 Fable 被加许可限制:美国 AI 政策最危险的变量不是模型
特朗普政府在周五晚对 Anthropic 的先进 Fable 模型施加许可限制,目前能确认的是限制对象,不是全面封杀。时间点撞上 G7 AI 与创新议程,Dario Amodei 又出现在相关工作午餐上,这让事件不再只是公司新闻。更要紧的是,美国前沿 AI 政策正在被派系放风、媒体叙事和总统注意力机制一起推着走。

美国人更常用 AI 聊天机器人,也更不放心它
皮尤最新调查显示,49% 的美国人至少偶尔使用 AI 聊天机器人,高于 2024 年的 33%,ChatGPT 使用率也较 2023 年翻倍至 44%。但使用增长没有换来信任:63% 认为 AI 发展过快,只有 16% 认为 AI 将对社会产生积极影响。最有启发的是年轻人:他们用得最多,却并不更乐观。

Google Home Speaker:Gemini 进客厅,99 美元音箱开始卖订阅
Google 发布 99.99 美元的 Google Home Speaker,现已预订,本月晚些时候发货,这是 2020 年 Nest Audio 后首款独立智能音箱。它押注 Gemini,把固定口令改成自然语言、多步骤、可纠错的家庭控制。真正的看点不是音箱外观,而是 Google 想把客厅入口改成每月 10 美元的家庭 AI 订阅。

美国人正在用 AI,也正在失去耐心
皮尤新研究显示,美国受访者对 AI 的长期社会影响明显偏悲观:只有 16% 认为未来 20 年影响积极,约 40% 认为负面。反常点在于,ChatGPT 等工具使用率仍在上升,说明 AI 正在变成一种“常用但不放心”的基础设施。真正的风险不在短期热度,而在信任赤字会怎样改变监管、采购和平台使用习惯。

CADAM 开源:AI 没有终结 CAD,但正在撬动建模入口
YC W25 项目 Adam 开源 CADAM:一个浏览器里的 text-to-CAD 应用,可用自然语言或图片生成参数化 OpenSCAD 模型,并导出 STL、SCAD、DXF。 它更像 3D 打印、开源硬件和机械原型的草稿入口,不是专业 CAD 的替代品。 真正要看的不是演示有多炫,而是它能否在约束、精度、装配逻辑和责任边界上过关。

Interconnects 给独立 AI 写作立规矩:收钱、披露、关评论区
Interconnects 作者离开 Ai2 后,公开了博客的中期状态:约 7 万订阅者、约 900 名付费订阅者,目标是在夏季达到 1000 名付费订阅者。更关键的是,他披露了 Arcee AI 和 Mercor 两项顾问关系,并准备把评论区全部放进付费墙、增加付费文章、办更小规模的线下活动。真正的问题不是一个博客怎么变现,而是前沿 AI 写作如何在独立判断、利益关系、开放生态和 AI 垃圾内容之间保住可信度。

AllenAI 发布 MolmoMotion:用 3D 点轨迹预测物体下一步怎么动
Ai2/AllenAI 发布 MolmoMotion,并开放模型权重、MolmoMotion-1M 数据集、PointMotionBench 基准、代码和技术报告。它不生成完整视频,也不直接控制机械臂,而是把语言指令、RGB 观察和物体 3D 查询点转成未来几秒的 3D 点轨迹。我的判断是,它真正推进的是“可控运动信号”:对机器人规划和视频生成有用,但还没到通用物理世界模型那一步。

Google 六年来首款新智能音箱开卖:别只看硬件,Gemini 才是考题
Google Home Speaker 已于 6 月 17 日开启预购,6 月 29 日发货,售价约 99/100 美元,略晚于此前承诺的春季窗口。硬件自 9 个月前发布以来没有变化,真正要看的不是音质升级,而是它能不能把 Gemini for Home 稳定带进家庭场景。对已有 Google 智能家居设备、或正在搭 Matter/Thread 中枢的用户,建议先看清订阅限制和旧设备体验差距。