人工智能资讯 第2页

聚合当前分类下的最新内容,按时间顺序查看第 2 页精选文章。

NeoCognition 融资 4000 万美元:VC 开始押注更可托付的 AI agent,不再只赌大模型
人工智能 2026/4/22

NeoCognition 融资 4000 万美元:VC 开始押注更可托付的 AI agent,不再只赌大模型

NeoCognition 结束隐身,拿到 4000 万美元种子轮,由 OSU 教授余苏创办,想做的是能在任意“micro world”里持续学习并自我专精的 AI agent 系统。关键点不在又一家 agent 公司融资,而在资本开始把“通用模型不够可靠”的老问题,改写成“可学习的专家代理”新叙事。现在还只能看到路线、团队和投资人组合,离“已被证明可托付”还差产品证据和客户验证。

AI AgentNeoCognition融资
“鹈鹕骑自行车”错配仓库火了:当 AI 训练默认抓全网,作者也开始反手喂假样本
人工智能 2026/4/22

“鹈鹕骑自行车”错配仓库火了:当 AI 训练默认抓全网,作者也开始反手喂假样本

Steve Cosman 在 GitHub 做了个故意把标题、标签和图片内容错配的项目,Simon Willison 转发后直接表态支持,还补了一句:自己过去发过的很多相关样例,某种程度上也算在“poisoning”。这事眼下还谈不上能打坏主流模型,但它很清楚地指向一个问题:当模型训练长期把公开互联网当原料池,内容作者就可能把“误导抓取”当成低成本反制。真正该追问的,不是这个梗有多好笑,而是谁先把开放网络变成了免费采石场。

数据投毒GitHub模型训练数据
星巴克把点单接进 ChatGPT:固定订单没更快,反而更容易点错
人工智能 2026/4/22

星巴克把点单接进 ChatGPT:固定订单没更快,反而更容易点错

星巴克上周把点单功能接入 ChatGPT,入口是输入“@Starbucks + 订单”。但 The Verge 实测显示,一杯在原生 App 里四次点击就能完成的固定咖啡,到了聊天框里反而更慢、更绕,还可能默认加错规格。问题不在 AI 会不会聊天,而在高频、标准化、低容错的任务,本来就未必适合生成式交互。

ChatGPT星巴克AI点单
Latitude 推出 Voyage:AI RPG 往前走了一步,但创作权和付费墙才是硬问题
人工智能 2026/4/22

Latitude 推出 Voyage:AI RPG 往前走了一步,但创作权和付费墙才是硬问题

AI Dungeon 开发商 Latitude 发布 AI 原生 RPG 平台 Voyage,用户可用自然语言生成世界观、任务、规则和 NPC 互动,产品已进入扩展 beta,计划年内开放公测。它的关键变化,不是让 AI 多说几句,而是把开放文本冒险推进到更强调记忆、关系、物件追踪和规则持续性的“世界引擎”。我更在意的是另一面:如果成本、稳定性、审核和作品归属说不清,这就更像订阅制生成服务,而不是真把 RPG 创作交还给用户。

VoyageLatitudeAI 原生 RPG
前 Pinterest 团队做了个邮件应用 Extra:它想废掉收件箱崇拜,但真正难题还在后面
人工智能 2026/4/22

前 Pinterest 团队做了个邮件应用 Extra:它想废掉收件箱崇拜,但真正难题还在后面

前 Pinterest 设计和工程团队推出邮件应用 Extra,用 AI 在后台重组 Gmail,把默认入口从传统 inbox 改成“Today”总览,并加入自动分类、一键退订、语音回复和搜索等功能,现阶段仅向 iOS 和 Web 候补用户开放。 它最聪明的点,不是把 AI 助手摆到台前,而是承认多数人要的只是更低摩擦的信息整理,不是一个会表演“代你生活”的代理。 但这类产品的考题从来不只在设计:权限信任、商业化方向,以及它会不会把购物和内容邮件重新做成新的流量入口,才是真正的分水岭。

ExtraGmailAI 邮箱
Yelp升级AI助手:能在一段对话里问完就订,但交易闭环还不在自己手里
人工智能 2026/4/21

Yelp升级AI助手:能在一段对话里问完就订,但交易闭环还不在自己手里

Yelp 更新了 2024 年推出的 AI 助手,用户现在可以在同一段对话里查询餐厅或服务信息,并发起订位、下单或预约。问题在于,关键交易大多仍要跳转到 DoorDash、Grubhub、Vagaro、Zocdoc、RepairPal、Calendly 等外部服务完成,所以它更像聊天式分发层,不是已经跑通的完整 AI 代理。真正值得看的,是 Yelp 正把自己从评论平台往“答案+行动”平台挪,争的是本地生活入口和交易前置位。

YelpAI助手本地生活
codemix 发了个 TypeScript 图数据库,但更想抢的是 AI 上下文入口
人工智能 2026/4/21

codemix 发了个 TypeScript 图数据库,但更想抢的是 AI 上下文入口

codemix 发布了 `@codemix/graph`:有 schema 类型安全、Gremlin 风格遍历、Cypher-like 查询,还能把底层放进 Yjs CRDT,做实时协作和离线同步。真正值得看的是这套组合:图模型、协作状态层和 AI/agent 上下文被绑进同一栈里。问题也很直接:官方已明确它还是 alpha,目前看到的是功能拼装的方向感,不是成熟数据库替代品。

codemix@codemix/graph图数据库
TII发了个阿拉伯语大模型榜单,真正被重排的是评测尺子
人工智能 2026/4/21

TII发了个阿拉伯语大模型榜单,真正被重排的是评测尺子

阿联酋 TII 在 Hugging Face 发布阿拉伯语大模型榜单 QIMMA,先清洗 14 个基准、109 个子集、超 5.2 万条样本,再重排 46 个开源模型。Jais-2-70B 以 65.81 排第一,Qwen2.5-72B 以 65.75 紧追,分差只有 0.06。真正值得看的是,QIMMA不是又发了一张榜,而是在修阿拉伯语评测里那把长期不太准的尺;可尺子更干净,不等于裁判就天然中立。

阿拉伯语大模型评测QIMMATII
Moonshot 发布 Kimi K2.6:开源模型开始比 agent 落地,不只比榜单分数
人工智能 2026/4/21

Moonshot 发布 Kimi K2.6:开源模型开始比 agent 落地,不只比榜单分数

Moonshot 发布开源权重模型 Kimi K2.6,账面配置包括 1T MoE、32B active、256K context、原生多模态和 INT4,主打长时 agentic coding,而不是普通聊天。更关键的是,它首日就接入 vLLM、OpenRouter、Cloudflare、Baseten、MLX 等生态入口,竞争焦点开始从“谁分高”转向“谁更快进部署栈、进产品后端”。我的判断是:K2.6 让 Moonshot 暂时站上中文开源头部,但这位置能不能坐稳,还得看社区复现、部署成本和竞品跟进。

Kimi K2.6Moonshot开源大模型
华为 HiFloat4、Anthropic AAR、Kimi K2.5:AI 效率在猛冲,安全还没跟上
人工智能 2026/4/21

华为 HiFloat4、Anthropic AAR、Kimi K2.5:AI 效率在猛冲,安全还没跟上

这期最该放在一起看的,不是三条零散新闻,而是一条更硬的产业线:算力受限在逼出效率创新,研究自动化开始吞掉一部分人工,对应的安全治理却明显慢半拍。华为在昇腾体系里用 HiFloat4 压过 MXFP4,Anthropic 证明特定对齐研究可半自动推进,Kimi K2.5 则把“能力逼近、护栏偏弱、政治审查更重”的不均衡状态摊开了。

AI治理华为Anthropic
arXiv 论文称 KV Cache 理论上可压 91 万倍:它改写了压缩对象,不是推翻香农
人工智能 2026/4/21

arXiv 论文称 KV Cache 理论上可压 91 万倍:它改写了压缩对象,不是推翻香农

一篇单作者 arXiv 论文把 LLM 的 KV cache 压缩,从“逐向量量化”改成“按序列预测编码”,并据此推导出理论上可比 TurboQuant 高约 91.4 万倍的压缩上限。关键不在“91 万倍”这个标题数字,而在它把压缩问题从独立向量熵,换成了条件序列熵。现在能下的判断很简单:这是信息论上的上限宣言,不是已经跑通生产系统的工程胜利。

KV Cache 压缩LLMarXiv
开源模型离闭源还差多远?别再迷信那一个总分榜了
人工智能 2026/4/21

开源模型离闭源还差多远?别再迷信那一个总分榜了

开源模型和闭源前沿模型的差距还在,但今天最容易误读的地方,是大家总想用一个综合分数把这件事说完。真正拉开差距的,越来越不是通用聊天题,而是复杂编码、终端任务、长上下文和专业 agent 工作流背后的数据、环境与产品入口。企业采购更该算账:多出来的性能,到底是能力鸿沟,还是被评测设计和商业叙事一起放大的优势。

开源模型闭源模型模型评测
Lucebox在 RTX 3090 上把 Qwen3.5-27B 跑到 207 tok/s:问题开始指向通用推理栈
人工智能 2026/4/21

Lucebox在 RTX 3090 上把 Qwen3.5-27B 跑到 207 tok/s:问题开始指向通用推理栈

Lucebox 开源了一套面向特定消费级硬件手工优化的推理仓库,在单张 RTX 3090 上把 Qwen3.5-27B 的 GGUF 推理做到 demo 峰值 207.6 tok/s,HumanEval 均值 129.5 tok/s。更重要的是,它把一个老问题重新摆上台面:在消费级 GPU 上,通用推理框架可能一直丢掉了不少现成性能。可这条路也不轻松,成绩成立的前提很窄,维护成本也很高。

LLM推理LuceboxRTX 3090
Noetik想用AI降低癌症试验95%失败率,但真正稀缺的不是模型,是病人分层
人工智能 2026/4/21

Noetik想用AI降低癌症试验95%失败率,但真正稀缺的不是模型,是病人分层

Noetik 这家做肿瘤基础模型的公司,正在押注一个不太讨喜但很关键的判断:很多癌症药不是没用,而是临床试验把“该用的人”和“能受益的人”配错了。GSK 掏出 5000 万美元签软件与模型授权,说明大药厂开始认真买“分层工具”而不只是买新药故事;但这件事的难点,仍然在真实世界验证,而不在演示里的模型曲线。

Noetik癌症临床试验患者分层
一份 nginx 日志,戳穿了 AI 搜索流量最爱混淆的账
人工智能 2026/4/21

一份 nginx 日志,戳穿了 AI 搜索流量最爱混淆的账

一位站长用 nginx 访问日志做了件很朴素的事:直接看 ChatGPT、Claude、Perplexity 到底会不会在回答时抓取网页。结果不复杂,但很重要——AI 抓取和用户点击根本不是一回事,很多“AI 流量分析”产品却偏偏爱把它们算成一锅粥。Google 更特殊,它大多依赖 Googlebot 建好的搜索索引,所以你看不到一个叫“Gemini-User”的访客;这不是技术细节,而是平台权力藏身的地方。

AI 搜索流量分析nginx access logChatGPT
Canva不想只做设计工具了,它要去抢“企业AI入口”
人工智能 2026/4/20

Canva不想只做设计工具了,它要去抢“企业AI入口”

Canva CEO Melanie Perkins最新给公司的定义,不再是“带AI功能的设计平台”,而是“带设计工具的AI平台”。这句话听着像公关词,实则暴露了更大的野心:Canva要从做海报、PPT的软件,变成企业里帮你自动产出文档、演示和营销内容的工作入口。真正该盯的不是它会不会画得更快,而是它能不能把AI生成的东西变成可编辑、可协作、可管控的企业资产;做不到,这波AI升级就只是更贵的自动排版。

Canva企业AI入口Melanie Perkins
AI 不想再替你点网页了,SaaS 正在转向“无界面”服务
人工智能 2026/4/20

AI 不想再替你点网页了,SaaS 正在转向“无界面”服务

Simon Willison 转引的一篇文章提出,面向个人 AI 的“headless”服务会越来越多:应用不再把网页当主入口,而是把 API、CLI、MCP 直接交给 AI 代理调用。我认为这件事真正重要的,不是一个新术语,而是软件交互权正在从“人点按钮”转向“AI 调接口”,这会直接冲击按人头收费的 SaaS 商业模式。真正还不确定的,是企业愿不愿意把最核心的工作流和权限,放心交给代理自动执行。

AI代理headless服务SaaS
英伟达把边缘多模态 Agent 跑进 8GB:这次补上的不是模型,而是“能落地”的那一步
人工智能 2026/4/23

英伟达把边缘多模态 Agent 跑进 8GB:这次补上的不是模型,而是“能落地”的那一步

NVIDIA 在 Hugging Face 放出一篇教程,把 Parakeet STT、Gemma 4、摄像头工具调用和 Kokoro TTS 串进 8GB 的 Jetson Orin Nano Super,本地跑通一条语音输入、按需看图、语音回答的简化链路。它没有推翻“大模型落地难在数据和工程”的老问题,但补上了一个更现实的信号:边缘端多模态 agent 已经从云上演示,走到了开发板级别的可复现样板。问题也很明确——能跑,不等于普通团队能轻松部署,更不等于已经适合产品化。

边缘多模态AgentNVIDIAJetson Orin Nano Super
AI圈的“平静一天”,其实在改写一件大事:模型正从云端往设备和工作流里下沉
人工智能 2026/4/19

AI圈的“平静一天”,其实在改写一件大事:模型正从云端往设备和工作流里下沉

这一天没有特别炸裂的新发布,但几个零散信号拼在一起,指向同一个方向:开源模型正在更快落地到手机、Mac和本地工具链,云端订阅制AI的护城河被进一步削薄。真正重要的不是又出了几个新模型,而是“谁来付推理费、谁掌握工作流数据、谁能把模型接进真实任务”这三个问题,开始比榜单分数更重要。

开源模型本地部署Gemma 4Agent
AI圈“没什么大事”的一天,真正的变化却已经很清楚:模型开始分工,代理开始学会挑人
人工智能 2026/4/19

AI圈“没什么大事”的一天,真正的变化却已经很清楚:模型开始分工,代理开始学会挑人

4月10日前后的AI动态表面平静,实则透露出一个更关键的行业转向:单一大模型不再是默认答案,便宜模型干活、昂贵模型做决策,正变成主流工程思路。真正重要的不是又多了几个新模型,而是工具链开始把“模型路由”和“代理编排”做成产品能力,这会直接改变开发者的成本结构和企业采购逻辑。

大模型分工模型路由代理编排
Kimi K2.6 把 AI 竞争往前推了一层:模型还在卷分数,Agent 已经开始抢底盘
人工智能 2026/4/21

Kimi K2.6 把 AI 竞争往前推了一层:模型还在卷分数,Agent 已经开始抢底盘

Moonshot 发布的 Kimi K2.6,补上的不是一份普通榜单成绩单,而是一张更清楚的路线图:开源模型开始把战场从“谁更聪明”推向“谁更适合当 agent 内核”。它当天就接入多家推理与部署平台,信号很直白——先把开发者工作台占住,再谈谁是最强大脑。

AgentKimi K2.6Moonshot