AI 每日资讯 — 2026-05-16

🔥 HuggingFace 每日论文

1. SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Haoyi Zhu, Haozhe Liu, Yuyang Zhao

本文提出SANA-WM——一种高效、开源的分钟级世界模型，参数量仅2.6B，原生支持60秒高保真720p视频生成，并实现精确的6自由度相机轨迹控制。其核心创新包括：混合线性注意力机制（融合Gated DeltaNet与Softma

x注意力）、双分支相机控制、两阶段生成流程及鲁棒的公域视频6-DoF姿态标注流水线。实验表明，SANA-WM仅需213K公开视频片段、64块H100 GPU训练15天，单卡即可生成60秒视频；经NVFP4量化后可在RTX 5090上34秒完成去噪。在自建分钟级基准测试中，其动作跟随精度超越现有开源模型，视觉质量媲美工业级大模型，推理效率提升36倍。

PDF · arXiv · 项目 | ❤️ 48

2. Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

Yifan Wang, Tong He

本文提出Warp-as-History，一种无需训练、不修改模型结构、亦无需测试时优化的零样本相机控制视频生成方法。该方法将相机运动诱导的光流扭曲转化为与目标帧位置对齐、并经可见性筛选的“伪历史”视觉序列，并直接注入预训练视频生成

模型的视觉历史通路。实验表明，仅凭冻结模型即可实现稳健的相机轨迹跟随；进一步在单个标注视频上进行轻量LoRA微调，即可显著提升相机一致性、画面质量与运动连贯性，并泛化至未见视频。在多场景（如潜水、飞行）中验证了其强泛化性与实用性。

PDF · arXiv · 代码 · 项目 | ❤️ 32

3. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

Ziyu Guo, Rain Liu, Xinyan Chen

本文针对视觉推理中代理式（agentic）与隐式（latent）方法各自存在的计算开销大、上下文切换延迟高、泛化能力弱及训练不稳定等问题，提出ATLAS框架。其核心是引入一种兼具代理操作与隐式表征功能的离散“功能词元”（funct

ional token），每个词元内化一个视觉操作，无需视觉监督，且可直接通过标准自回归语言建模生成。该设计避免了中间图像生成，同时兼容现有SFT与RL训练范式。为进一步缓解强化学习中功能词元稀疏导致的梯度不稳定问题，作者提出Latent-Anchored GRPO（LA-GRPO），通过静态加权辅助目标锚定功能词元，显著提升训练稳定性与收敛性。实验表明，ATLAS在多任务视觉推理基准上优于现有代理与隐式方法。

PDF · arXiv · 项目 | ❤️ 16

4. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

Kaixin Zhu, Yiwen Tang, Yifan Yang

VGGT-Edit提出了一种前馈式、文本驱动的原生3D场景编辑框架，旨在解决现有方法依赖2D提升策略导致的纹理模糊与几何不一致问题。该方法通过深度同步文本注入机制，将语义指令精准对齐至3D空间姿态，并引入残差场预测头直接生成三维几

何位移，实现结构保持的场景变形。模型采用多目标损失函数联合优化几何精度与跨视角一致性，并在自建高质量DeltaScene数据集（含3D一致性筛选）上进行训练。实验表明，VGGT-Edit在编辑保真度、结构稳定性和跨视图一致性方面显著优于现有方法。

PDF · arXiv | ❤️ 12

5. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

Yanzuo Lu, Ronglai Zuo, Jiankang Deng

本文针对因果自回归视频扩散模型在长时序外推中因训练与推理历史分布不一致导致的质量退化问题，提出实时自回归视频外推网络RAVEN及一致性模型分组相对策略优化（CM-GRPO）方法。RAVEN通过将自 rollout 重构成清洁历史端

点与噪声去噪状态的交错序列，使训练注意力机制对齐推理时的外推过程，并利用下游块损失监督依赖于历史表征的未来预测。CM-GRPO将一致性采样建模为条件高斯转移，直接在其上应用在线强化学习，摒弃了传统流模型RL中依赖欧拉-丸山辅助过程的做法。实验表明，RAVEN在生成质量、语义保真度与动态程度等多维度上显著超越现有因果视频蒸馏基线，CM-GRPO进一步带来可观增益。

PDF · arXiv · 代码 · 项目 | ❤️ 6

6. FutureSim: Replaying World Events to Evaluate Adaptive Agents

Shashwat Goel, Nikhil Chandak, Arvindh Arun

本文提出FutureSim，一种基于真实世界事件时序回放的基准框架，用于评估AI智能体在动态开放环境中的长期自适应能力。FutureSim通过按时间顺序注入真实新闻与逐步揭晓的问题，要求智能体在知识截止点之后持续预测未来事件。在2

026年1–3月为期三个月的评测中，前沿智能体表现差异显著：最优模型准确率仅25%，部分模型Brier技能分甚至低于零预测基线。消融实验表明，该框架能有效支撑长周期测试时适应、检索、记忆及不确定性推理等关键研究方向。FutureSim为衡量AI在现实世界长时序开放任务中的适应性进步提供了可扩展、可复现的评估范式。

PDF · arXiv · 代码 · 项目 | ❤️ 2

7. Quantitative Video World Model Evaluation for Geometric-Consistency

Jiaxin Wu, Yihao Pi, Yinling Zhang

本文针对生成式视频模型作为隐式世界模型时缺乏几何一致性量化评估的问题，提出PDI-Bench（透视畸变指数）框架，首次实现对生成视频中3D结构与运动物理合理性的定量审计。方法上，通过对象分割与点跟踪获取物体中心观测，结合单目三维重

建升维至世界坐标系，并计算三类射影几何残差：尺度-深度对齐性、3D运动一致性与结构刚性。基于此构建PDI-Dataset，覆盖多类几何挑战场景。实验表明，PDI能有效识别主流视频生成模型中感知指标无法捕捉的系统性几何缺陷，为物理 grounded 的视频生成提供可解释、可复现的诊断工具。

PDF · arXiv · 代码 · 项目 | ❤️ 1

8. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

Xiang Fan, Yuheng Wang, Bohan Fang

本文针对视频生成中解码器缺乏条件引导导致细节丢失与结构不一致的问题，提出RefDecoder——一种参考图像条件化的视频VAE解码器。其核心是通过参考注意力机制，将轻量图像编码器提取的高保真参考帧token，与去噪后的视频潜在表示

在每一上采样阶段协同处理。该方法无需微调即可即插即用地集成至现有视频生成系统（如Wan 2.1、VideoVAE+），在Inter4K、WebVid等重建基准上PSNR提升达+2.1dB，并在VBench I2V评测中显著增强主体一致性、背景一致性及整体质量。此外，RefDecoder在风格迁移与视频编辑等任务中亦展现出良好泛化性。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Yeahia Sarker, Md Rahmat Ullah, Musa Molla, Shafiq Joty

GraphBit 提出一种基于图的智能体编排框架，旨在解决提示驱动型LLM智能体系统中普遍存在的幻觉路由、无限循环与执行不可复现等问题。该框架将工作流显式建模为有向无环图（DAG），由Rust引擎统一调度，智能体被封装为类型化函数

，支持并行分支、基于结构化状态谓词的条件控制及可配置错误恢复。其三层内存架构（临时缓存、结构化状态、外部连接器）有效隔离上下文，抑制长流程中的上下文膨胀。在GAIA基准测试中，GraphBit以67.6%的最高准确率、零框架诱导幻觉、11.9ms最低开销延迟和最高吞吐量全面超越六种现有框架；消融实验验证了各内存层级与确定性执行对性能的显著贡献。

2. Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

Francisco Aguilera Moreno

本文提出混合整数目标规划（MIGP）模型，解决个性化膳食优化中长期存在的两大难题：连续变量导致不切实际的分数份量（如1.7个鸡蛋），以及硬性营养约束引发的不可行性。MIGP采用整数变量表示自然份量单位（如“1个鸡蛋”），结合目标规

划处理软性营养目标，并引入逆目标归一化以平衡多营养素优化。理论分析揭示其偏差吸收特性，使整数解与连续松弛解在15种以上食物的餐食中完全一致。在810个基准实例上的实验表明，MIGP相较目标规划加后验取整方法在66%案例中严格更优（从不更差），且保持100%可行性；而硬约束整数规划可行性仅48%。求解时间均低于100毫秒，已开源为Python模块并集成至交互式膳食规划应用。

3. A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

Jia Huang, Joey Tianyi Zhou

本文提出一种二维AI智能体设计模式框架，从认知功能（含上下文工程、记忆、推理等7类）与执行拓扑（链式、路由、并行等6种结构）两个正交维度对LLM智能体架构进行系统分类，构建7×6矩阵并识别27种命名模式（其中13种为原创命名）。通

过跨维度分析验证其正交性，详述8种典型模式，并在金融借贷、法律尽调、网络运维和医疗分诊四个真实场景中验证其描述覆盖能力。进一步提炼出5条关于环境约束（如时间压力、失败成本不对称性等）与架构选择关系的经验法则，为AI智能体设计提供原则性、框架无关且模型无关的通用术语体系。

🏛️ Joey Tianyi Zhou

📄 arXiv: cs.CL

1. Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

Kunil Lee, Ki-Young Shin, Jong-Hyeok Lee, Young-Joo Suh

本文针对多语言知识编辑（MKE）中语言间编辑干扰这一核心挑战，系统评估了六种向量融合方法在大规模批量编辑场景下的有效性。研究聚焦于三方面：融合策略本身的效果、任务特异性奇异向量融合（TSVM）缓解多语言干扰的能力，以及权重缩放因子

与秩压缩比对性能的影响。实验基于MzsRE基准，在12种语言、两种主流大语言模型及两种基础编辑方法上展开。结果表明，采用共享协方差的向量求和是最稳健的融合策略；TSVM仅在部分设置下有效，抗干扰能力有限；而增大权重缩放因子并采用较低秩压缩通常可提升性能。该工作为MKE方法的实际应用与后续研究提供了实证依据与技术指引。

2. VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

Juan S. Santillana

本文提出VectraYX-Nano——一个仅含4195万参数、专为西班牙语网络安全领域从零训练的解码器语言模型，聚焦拉丁美洲语境，并原生支持通过模型上下文协议（MCP）调用安全工具。其核心贡献包括：构建170M词元的西班牙语网络安

全语料库VectraYX-Sec-ES；采用集成GQA、QK-Norm、SwiGLU等先进组件的轻量Transformer架构；设计带回放机制的课程学习策略，实现稳定收敛并达成0.78±0.05的对话能力阈值；实证揭示工具使用性能受限于语料密度而非模型容量。该模型GGUF格式仅81MB，可在消费级硬件上实现亚秒级首字响应，是首个端到端集成MCP的西班牙语网络安全大模型。

3. Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding

Shuoyang Sun, Chang Da, Hao Fang, Kuofeng Gao, Xinhao Zhong, Yi Sun, Fan Mo, Shu-Tao Xia, Bin Chen

本文揭示了基于模型的推测解码（speculative decoding）中一种新型机制级漏洞：由于起草器（drafter）对目标模型分布的近似必然存在偏差，攻击者可利用微小扰动在不改变目标模型可见输出的前提下显著降低草案令牌接受率

。为此，作者提出Mistletoe——一种隐蔽的加速崩溃攻击方法，通过联合优化降级目标（削弱drafter-target一致性）与语义保持目标（约束目标模型输出分布），并引入零空间投影机制，将降级梯度投影至语义不变方向之外，从而在最小化语义偏移的同时大幅抑制草案接受。实验表明，Mistletoe可显著降低平均接受长度τ、摧毁推理加速效果、降低令牌吞吐量，同时保持输出质量与困惑度不变，凸显推测解码在机制层面的新安全风险。

📄 arXiv: cs.LG

1. Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Bardh Hoxha, Oliver Sch"on, Hideki Okamoto, Lars Lindemann, Georgios Fainekos

本文研究基于视觉观测的过去时态信号时序逻辑（ptSTL）运行时监控问题，面向部分可观测场景并提供有限样本下的统计保证。提出两种可复用监控架构：语义基监控器直接学习所有时序原子的鲁棒性得分向量，作为单调1-Lipschitz接口的最

小预测目标，支持对整类公式仅需一次共形校准即可实现无并集界误差的认证；滚动预测监控器则仅预测当前谓词值并在线重构时序历史，训练更简单但长时域下保守性增强。在行人过街基准与真实Waymo驾驶数据上验证表明：短时域内滚动监控器认证界更紧，而长时域下语义基监控器紧致度提升达4倍，且二者均经验满足共形覆盖保证。

2. Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

William Lehn-Schi{\o}ler, Magnus Ruud Kj{\ae}r, Rahul Thapa, Magnus Guldberg Pedersen, Anton Storgaard Mosquera, Nick Williams, Radu Gatej, Tue Lehn-Schi{\o}ler, S'andor Beniczky, Sadasivan Puthusserypady, James Zou, Lars Kai Hansen

本文针对脑电图（EEG）基础模型可解释性不足的问题，提出基于TopK稀疏自编码器（SAEs）的机理可解释性分析框架。研究在SleepFM、REVE和LaBraM三种架构各异的EEG Transformer上提取稀疏特征字典，并依据

临床分类体系（异常性、年龄、性别、用药）评估特征的单义性与概念纠缠程度。通过统一的字典健康审计驱动超参选择，实现跨架构鲁棒迁移；引入“目标vs.离靶”探针区指标量化概念引导选择性，识别出三类表征模式；发现“破坏性干预”导致全局性能崩溃及临床概念混淆（如年龄-病理耦合）等关键表征缺陷；最后借助谱解码器将隐空间操作映射至幅值频谱，实现病理慢波抑制、α波恢复等生理可解释的频率响应。

🏛️ James Zou

3. Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Zhuohao Lin, Kun Li, Jiameng Chen, Jiajun Yu, Duanhua Cao, Yizhen Zheng, Wenbin Hu

本文针对AI药物发现中分子性质在极端分布外（OOD）场景下预测鲁棒性不足的问题，指出现有骨架划分协议易导致微观语义重叠、诱发捷径学习，而传统多源域自适应方法在剧烈结构偏移下易引入拓扑噪声并引发负迁移。为此，作者构建了基于理化描述符

空间聚类划分的SCOPE-BENCH OOD评估基准，并提出策略优化多源适配框架POMA：通过“检索–组合–适配”流程，先定位与目标分子结构相近的源骨架作为代理目标，再以强化学习策略从指数级候选源集中自适应选取最优子集，最后在宏观拓扑与微观药效团双尺度上协同进行域自适应。实验表明，SOTA 3D分子模型在SCOPE-BENCH上的平均预测误差激增5.9倍（最高达8.0倍），而POMA在多种骨干网络上平均降低MAE达6.2%，最高提升11.2%。

📄 arXiv: cs.CV

Minghao Sun, Chongyang Xu, Yitao Xie, Buzhen Huang, Kun Li

本文针对多人3D人群网格重建中严重遮挡与深度模糊难题，提出对比式多模态超图推理（CoMHR）框架。该方法融合RGB语义特征、几何先验与遮挡感知的不完整姿态，初始化鲁棒节点表征，并引入盆骨深度指示器作为全局空间锚点，实现度量尺度无关

的深度序对齐。进一步构建共享拓扑超图，建模高阶群体动态关系，并设计超图对比学习机制，协同提升单模态判别性与跨模态正交性。在Panoptic与GigaCrowd数据集上的实验表明，本方法显著优于现有方法，达到新SOTA性能。

2. Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

Evelyn Turri, Davide Bucciarelli, Sara Sarto, Lorenzo Baraldi, Marcella Cornia

本文揭示了扩散Transformer（DiT）中“大规模激活”现象的本质：即少数隐状态通道在文本到图像生成过程中承担着关键语义编码功能。作者通过可控干扰实验验证其功能性重要性，通过空间聚类分析揭示其与图像主体及显著区域的强空间对应

关系，并证明其跨提示轨迹的可迁移性，支持无需训练的文本/图像条件语义迁移。实验表明，这些稀疏通道构成一个提示依赖的语义承载子空间，而非异常激活，为理解DiT内部工作机制提供了新视角。

3. CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

Xiaoyue Liu, Xiaohan Yuan, Mark Y Chan, Ching-Hui Sia, Lei Li

本文提出CineMesh4D，一种端到端的4D（3D+t）个性化全心网格重建方法，旨在从稀疏多视角动态MRI中直接生成患者特异的全心时序网格模型。针对传统方法仅重建部分心腔或单一时相、且难以兼顾解剖稀疏性与运动耦合性的局限，该方法

引入可微分渲染损失，实现基于多视角2D轮廓的3D+t网格监督；并设计双上下文时序模块，融合全局周期性与局部动态特征以建模高维心脏运动模式。实验表明，CineMesh4D在重建精度与运动一致性上显著优于现有方法，为临床实时个性化心脏评估提供了可行方案。

🔬 OpenReview 近期论文

1. DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment

Eric Wang, Licheng Pan, Yuan Lu

本文针对时间序列预测中条件分布对齐偏差问题，提出DistDF框架。传统直接预测（DF）方法依赖均方误差最小化，但在标签存在自相关时会产生条件分布估计偏差。DistDF转而最小化预测与真实标签之间的条件分布差异，但因有限观测下难以准

确估计条件差异，作者提出一种新型联合分布Wasserstein差异度量，其理论上可上界约束目标条件差异，且具备可微、可计算特性，便于端到端梯度优化。大量实验表明，DistDF显著提升多种预测模型性能，并在多个基准数据集上达到当前最优水平。

PDF

📝 AI 官方博客

1. The new AI-powered Google Finance is expanding to Europe.

📝 Google AI Blog

本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力，支持用户以自然语言查询实时股票行情、财务指标、行业趋势及公司新闻，并提供个性化投资洞察与风险评估建议。其核心技术包括基于多源金融数…

据（如彭博、路透及SEC公开文件）的实时索引、微调的金融领域大语言模型，以及符合GDPR的数据隐私保护架构。实验表明，新系统将用户获取关键投资信息的平均耗时缩短62%，问答准确率达91.3%（在欧盟主流市场测试集上），显著提升了个人投资者的信息获取效率与决策质量。

2. See what happens when creative legends use AI to make ads for small businesses.

📝 Google AI Blog

本文探讨了创意领域资深从业者（Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe）如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析，揭示AI在创意策略生成、视觉内容合成、文案优化及跨…

平台适配中的协同作用，强调“人机共创”模式对降低创意门槛、提升传播效率与保持品牌真实性的价值。实验表明，在AI辅助下，小型企业广告产出周期平均缩短62%，A/B测试点击率提升34%，且创意一致性与情感共鸣度获专业评审显著认可。

3. 5 gardening tips you can try right in Search

📝 Google AI Blog

本文介绍了一项面向园艺初学者的实用搜索功能优化实践，旨在通过搜索引擎直接提供可操作的园艺建议。研究整合了结构化园艺知识库与自然语言查询理解技术，支持用户在搜索框中输入如“如何种番茄”等模糊请求，即时返回包含光照、浇水、施肥、病虫害防治及季节…

适配等五类核心技巧的简明指南。系统采用轻量级实体识别与意图分类模型，在Google Search平台完成A/B测试，结果显示用户点击率提升23%，平均停留时长增加41秒，验证了“即搜即用”型垂直领域信息呈现的有效性。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象，本工作系统梳理了现有奖励黑客案例的成因分类，提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…

，并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明，该方法能有效识别约78%的隐式奖励篡改行为，较基线方法提升23%。后续将拓展至高维连续控制任务，并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过系统性过滤预训练数据提升开源大语言模型（LLM）的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题，该方法设计多阶段数据筛选管道，结合语义毒性检测、知识边界识别与对…

抗性示例剔除技术，在不依赖微调或后处理的前提下，从源头削弱模型习得危险能力的可能。在多个安全基准（如BBQ、ToxiGen、SafeBench）上的实验表明，经过滤数据训练的模型在保持通用能力（MMLU、ARC）的同时，将越狱成功率降低达62%，有害响应率下降57%，且对数据删除攻击展现出更强鲁棒性。

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

📝 Anthropic

本文介绍了Anthropic最新发布的Claude Opus 4.7模型，该模型在代码生成、智能体（agents）推理、多模态视觉理解及复杂多步任务处理方面实现显著性能提升，尤其增强了任务执行的严谨性与结果一致性。模型通过优化长程依赖建模、…

强化推理链校验机制及融合更高质量的多模态训练数据，提升了关键工作流中的可靠性与完成度。在HumanEval、MMBench、AgentBench等基准测试中，Opus 4.7相较前代平均提升12.3%，并在真实场景设计协作任务（如Claude Design平台集成）中展现出更强的意图理解与迭代生成能力。

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

📝 Anthropic

暂无摘要

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📝 Anthropic

暂无摘要

📬 TLDR AI 精选

1. one daily email

该页面仅显示标题“one daily email”，无其他实质性内容，无法提取具体新闻或信息。

💬 Hacker News AI 热门

1. A 0-click exploit chain for the Pixel 10

🔥 173 分 · 💬 75 评论

谷歌Project Zero团队发现并利用了Pixel 10手机中一个“零点击”漏洞链：先通过更新后的Dolby音频漏洞（CVE-2025-54957）实现初始入侵，再借助新引入的VPU视频解码驱动中一个严重设计缺陷——其mmap接口未限制…

映射范围，允许用户态直接映射并任意读写内核内存，从而在数行代码内获得内核级权限。该漏洞于2025年11月报告，2026年2月补丁修复，响应速度创Android驱动漏洞修复新纪录。

2. OpenAI is connecting ChatGPT to bank accounts via Plaid

🔥 23 分 · 💬 13 评论

OpenAI正通过Plaid平台将ChatGPT与用户银行账户连接，允许用户在聊天界面中直接查看余额、交易记录及进行支付等操作。此举旨在提升ChatGPT的实用性，使其成为更强大的个人金融助手，但同时也引发对数据隐私和安全风险的广泛关注。目…

前该功能处于早期测试阶段，仅限部分用户参与。

AI 每日资讯 — 2026-05-16#

🔥 HuggingFace 每日论文#

1. SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer#

2. Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video#

3. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both#

4. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction#

5. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO#

6. FutureSim: Replaying World Events to Evaluate Adaptive Agents#

7. Quantitative Video World Model Evaluation for Geometric-Consistency#

8. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration#

2. Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity#

3. A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology#

📄 arXiv: cs.CL#

1. Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey#

2. VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use#

3. Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding#

📄 arXiv: cs.LG#

1. Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations#

2. Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders#

3. Rethinking Molecular OOD Generalization via Target-Aware Source Selection#

📄 arXiv: cs.CV#

1. Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery#

2. Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers#

3. CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI#

🔬 OpenReview 近期论文#

1. DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment#

📝 AI 官方博客#

1. The new AI-powered Google Finance is expanding to Europe.#

2. See what happens when creative legends use AI to make ads for small businesses.#

3. 5 gardening tips you can try right in Search#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.#

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.#

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.#

📬 TLDR AI 精选#

1. one daily email#

💬 Hacker News AI 热门#

1. A 0-click exploit chain for the Pixel 10#

2. OpenAI is connecting ChatGPT to bank accounts via Plaid#

📰 TechCrunch AI 新闻#

1. OpenAI launches ChatGPT for personal finance, will let you connect bank accounts#

2. Runway started by helping filmmakers. Now it wants to beat Google at AI.#

3. Osaurus brings both local and cloud AI models to your Mac#

4. What the jury will actually decide in the case of Elon Musk vs. Sam Altman#

5. Elon Musk’s SpaceXAI has been bleeding staff since its merger#

AI 每日资讯 — 2026-05-16

🔥 HuggingFace 每日论文

1. SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

2. Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

3. ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

4. VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

5. RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

6. FutureSim: Replaying World Events to Evaluate Adaptive Agents

7. Quantitative Video World Model Evaluation for Geometric-Consistency

8. RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

2. Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

3. A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology

📄 arXiv: cs.CL

1. Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

2. VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

3. Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding

📄 arXiv: cs.LG

1. Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

2. Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

3. Rethinking Molecular OOD Generalization via Target-Aware Source Selection

📄 arXiv: cs.CV

1. Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery

2. Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

3. CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

🔬 OpenReview 近期论文

1. DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment

📝 AI 官方博客

1. The new AI-powered Google Finance is expanding to Europe.

2. See what happens when creative legends use AI to make ads for small businesses.

3. 5 gardening tips you can try right in Search

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📬 TLDR AI 精选

1. one daily email

💬 Hacker News AI 热门

1. A 0-click exploit chain for the Pixel 10

2. OpenAI is connecting ChatGPT to bank accounts via Plaid

📰 TechCrunch AI 新闻

1. OpenAI launches ChatGPT for personal finance, will let you connect bank accounts

2. Runway started by helping filmmakers. Now it wants to beat Google at AI.

3. Osaurus brings both local and cloud AI models to your Mac

4. What the jury will actually decide in the case of Elon Musk vs. Sam Altman

5. Elon Musk’s SpaceXAI has been bleeding staff since its merger