AI 每日资讯 — 2026-05-13

🔥 HuggingFace 每日论文


1. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

Haiwen Diao, Penghao Wu, Hanming Deng

本文针对当前大视觉语言模型(VLMs)中理解与生成任务长期割裂、架构碎片化、表征空间不一致等结构性瓶颈,提出SenseNova-U1——首个基于NEO-unify原生统一架构的多模态模型系列。该范式将理解与生成视为同一底层过程的协同视角,推出8B稠密参数(SenseNova-U1-8B-MoT)和30B-A3B混合专家(SenseNova-U1-A3B-MoT)两个变体。实验表明,其在文本理解、视觉-语言感知、知识推理、智能体决策与空间智能等理解任务上媲美顶尖单向VLM;同时在任意模态到图像(X2I)合成、文本密集型信息图生成及交错式图文生成等生成任务中,兼具语义一致性与视觉保真度。论文还系统公开了模型设计、数据构建、预/后训练及推理策略,为统一多模态智能研究提供可复现基础。

PDF · arXiv · 代码 | ❤️ 126


2. AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

Runhui Huang, Jie Wu, Rui Yang

本文提出AlphaGRPO框架,将分组相对策略优化(GRPO)引入自回归-扩散统一多模态模型(UMMs),无需冷启动即可提升多模态生成能力。其核心在于激发模型内在的高级推理能力:一是推理型文生图生成,主动推断用户隐含意图;二是自反思式精修,自主诊断并修正生成结果的语义与质量偏差。为解决真实场景下多模态生成监督信号不稳定的问题,我们设计分解式可验证奖励(DVReward)——利用大语言模型将复杂请求拆解为原子级、可验证的语义与质量子问题,并由通用多模态大模型提供可靠、可解释的反馈。在GenEval、TIIF-Bench、DPG-Bench、WISE等基准及GEdit编辑任务上,AlphaGRPO均取得显著提升,验证了该自反思强化方法能有效利用模型固有理解能力驱动高保真生成。

PDF · arXiv · 代码 · 项目 | ❤️ 25


3. CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

Yihao Meng, Zichen Liu, Hao Ouyang

本文针对多镜头视频叙事中自回归生成易出现运动停滞与语义漂移的问题,提出CausalCine框架。该框架将视频生成建模为在线导演过程,支持跨镜头因果建模、动态提示注入与历史上下文复用。其核心包括:1)基于原生多镜头数据训练的因果基础模型,显式学习复杂镜头转场;2)内容感知记忆路由(CAMR)机制,依据注意力相似度而非时间邻近性动态检索历史KV缓存,在有限内存下保障跨镜头语义连贯;3)知识蒸馏得到轻量级几步生成器,实现端到端实时交互。实验表明,CausalCine在生成质量与长程一致性上显著超越现有自回归方法,性能逼近双向模型,同时首次实现流式交互式多镜头视频生成。

PDF · arXiv · 项目 | ❤️ 20


4. From Web to Pixels: Bringing Agentic Search into Visual Perception

Bokang Yang, Xinyi Sun, Kaituo Feng

本文针对开放世界视觉感知中目标身份需依赖外部知识(如网络信息、实时事件、长尾实体等)才能确定的难题,提出“感知深度研究”(Perception Deep Research)新范式,并构建首个面向该任务的基准WebEye。该基准包含120张图像、473个对象实例、645组知识密集型QA对及1927个样本,涵盖搜索驱动的定位、分割与视觉问答三类任务。作者进一步提出Pixel-Searcher框架,实现从网络检索到像素级绑定的智能体式工作流。实验表明,其在所有任务上达到当前最优开源性能,主要失败原因集中于证据获取、身份解析与视觉实例绑定三个环节。

PDF · arXiv | ❤️ 10


5. LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

Di Wu, Zixiang Ji, Asmi Kawatkar

LongMemEval-V2(LME-V2)是一项面向专业化Web环境智能体长期记忆能力评估的新基准,旨在衡量记忆系统能否助力智能体积累领域经验、成长为“资深同事”。该基准包含451个手工构建的问题,覆盖静态状态回忆、动态状态追踪、工作流知识、环境陷阱识别与前提意识五大核心记忆能力,并配以最多500条、总计1.15亿token的历史轨迹。研究提出上下文采集式评估范式,要求记忆系统从历史中提取精简证据以支持问答。作者设计了两种记忆方法:基于RAG的AgentRunbook-R与基于代码沙箱的AgentRunbook-C;实验表明,后者以72.5%的平均准确率显著优于基线及其他方法,验证了结构化轨迹存储与程序化证据检索在长期记忆建模中的有效性。

PDF · arXiv · 代码 · 项目 | ❤️ 3


6. Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

Kexuan Shi, Hanxuan Li, Zeju Qiu

本文提出Pion——一种基于正交等价变换的谱保持优化器,专为大语言模型(LLM)训练设计。不同于Adam、Muon等加性优化器,Pion通过对权重矩阵施加左右正交变换实现参数更新,严格保持其全部奇异值(即谱结构)不变,从而在调节权重几何结构的同时固定谱范数。作者推导了Pion的更新规则,系统分析了其设计原理、收敛性及关键数学性质。实验表明,Pion在LLM预训练与微调任务中均展现出优异的稳定性与竞争力,为优化器设计提供了新的谱感知范式。

PDF · arXiv · 代码 · 项目 | ❤️ 3


7. Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction

Jiahe Li, Jiawei Zhang, Xiao Bai

本文针对可微分渲染中普遍存在的光度模糊性问题,提出AmbiSuR框架,以提升高斯点绘(Gaussian Splatting)在表面三维重建中的鲁棒性与精度。作者重新审视其表征基础,揭示了两类原始单元级光度模糊性,并发现高斯点绘内在具备模糊性自指示潜力。据此,方法首先引入光度解模糊约束,引导病态几何求解以生成确定性表面;进而设计模糊性指示模块,显式识别并校正欠约束重建区域。大量实验表明,AmbiSuR在多种复杂场景下显著优于现有方法,兼具高精度与强泛化能力。

PDF · arXiv | ❤️ 1


8. Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

Miaosen Zhang, Xiaohan Zhao, Zhihong Tan

本文针对计算机使用代理(CUAs)在复杂、低频GUI交互中可靠性不足的问题,提出CUActSpot基准与基于渲染器的数据合成方法。该基准覆盖GUI、文本、表格、画布和自然图像五种模态及点击、拖拽、绘制等多种动作,显著拓展了现有以点击为中心的评测范围。通过自动构建多模态场景、记录坐标与截图,并利用大语言模型生成指令与动作轨迹,构建高质量合成数据集。基于此训练的Phi-Ground-Any-4B模型在CUActSpot上超越参数量小于32B的开源模型。代码、数据、基准与模型将开源。

🏛️ Microsoft | PDF · arXiv


🔥 arXiv 每日论文

📄 arXiv: cs.AI


1. A Cascaded Generative Approach for e-Commerce Recommendations

Moein Hasani, Hamidreza Shahidi, Trace Levinson, Yuan Zhong, Guanghua Shu, Vinesh Gudla, Tejaswi Tenneti

本文针对大型电商平台个性化首页构建中组件割裂、语义不连贯、难以动态适配营销目标的问题,提出一种级联式生成式推荐框架。该框架将首页构建解耦为两个生成任务:页面区块级主题生成与带约束的关键词生成,以驱动商品检索;通过师生蒸馏策略优化模型在延迟与成本约束下的可扩展性,轻量级微调模型性能逼近闭源大语言模型。同时,作者设计了AI驱动的内容评估与质量过滤机制,保障生成内容的安全可控,并通过融合传统排序模型实现生成式与现有混合架构的协同。线上实验表明,该框架相较强基线提升2.7%每页浏览加购率。

2. EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

Yaolun Zhang, Tianyi Xu, Shengyu Dai, Zhenwen Shao, Qingyun Wu, Huazheng Wang

本文提出EVOCHAMBER——一种无需训练的多智能体测试时协同进化框架,旨在解决现有方法在跨智能体学习与专业化协同间的根本矛盾。其核心CODREAM(协作式梦境)机制在团队失败或分歧时触发,支持智能体间非对称知识蒸馏,兼顾专业化保留与能力补全;团队级算子动态构建任务适配型协作结构,种群级生命周期算子则通过分叉、合并、剪枝与初始化实现智能体池的自适应演化。在Qwen3-8B基座上,该框架于竞赛数学、代码生成与多领域推理任务中分别达63.9%、75.7%和87.1%准确率,数学任务相对基线提升32%,消融实验证实非对称跨智能体迁移为关键增益来源。从同质初始化出发,系统自发涌现4–5个稳定功能专精智能体,展现出单智能体系统无法表达的多智能体演化结构性特征。

3. RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

Andrew Choi, Wei Xu

本文提出RankQ,一种面向离线到在线强化学习的自监督动作排序方法,旨在解决大规模状态-动作空间下离线数据覆盖不足导致的价值高估与策略退化问题。RankQ在时序差分学习基础上引入多目标自监督排序损失,不依赖对分布外动作的统一惩罚,而是建模动作间的相对优劣关系,引导Q函数梯度朝向高质量行为。在稀疏奖励D4RL基准上,RankQ性能优于或媲美七种基线方法;在视觉机器人任务中,其在低数据场景下使预训练视觉语言动作(VLA)模型仿真成功率提升42.7%,高数据场景下进一步提升13.7%,并显著增强sim-to-real迁移能力,真实世界立方体堆叠成功率从43.1%提升至84.7%。

📄 arXiv: cs.CL


1. Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Amin Banayeeanzade, Qingchuan Yang, Dhruv Tarsadiya, Fatemeh Bahrani, Leonardo Blas, Alfy Samuel, Robin Jia, Meisam Razaviyayn, Sai Praneeth Karimireddy

本文针对大语言模型(LLM)生成多样性严重不足的问题,提出“有效性–多样性”分析框架,揭示多样性坍缩源于解码过程中对有效与无效续写token的概率分配失准。作者将该瓶颈形式化为两类校准缺陷:**顺序校准**(valid token未稳定排在invalid token之前)与**形状校准**(概率质量过度集中于少数有效续写,同时尾部混杂大量无效token)。理论分析表明,局部校准失败在多步解码中逐层累积,导致序列级多样性显著下降。基于14个跨架构、多规模模型的实证研究表明,多样性坍缩本质是模型输出分布固有的校准缺陷,而非采样策略所致。

🏛️ Robin Jia


2. ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Alex Stinard

本文提出ClinicalBench——首个面向跨就诊临床问答中断言敏感性检索的压力测试基准,聚焦真实电子健康记录(EHR)笔记中否定、时序与归属等语义陷阱对检索阶段的影响。作者构建EpiKG知识图谱,为每个临床事实标注断言状态与时序标签,并引入意图感知的KG-RAG架构,在Contriever密集检索基线上实现+8.84个百分点的准确率提升(p=1.79e-3)。在400题、43例MIMIC-IV患者、9类断言敏感任务上,经三名医师盲审验证,EpiKG显著提升答案正确率(主终点+22.0个百分点,p=0.0192),并揭示LLM自身能力越强,外部检索增益越小(r=−0.921),提示当前增益部分源于回归均值。研究同时发现56%自动生成参考答案存在缺陷,强调医师 adjudication 对临床QA基准的必要性。代码、数据与模型输出已开源。

3. Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Ramchand Kumaresan

本文针对基于LoRA的进化式混合架构展开解构研究,提出三大核心要素:改进的并行sigmoid路由机制(引入可学习下界与温度退火)、领域级留一法评估框架,以及包含死亡、α-blend继承、SVD突变与槽位重分配的生命周期模型。实验在自研150M参数 widened-1536基底(D=1536, V=32000)上开展5/8部分析因设计(n=3种子,每单元25000步)。结果表明,路由重构单独贡献+0.0426 nat平衡对数困惑度提升(p=0.006),而完整系统相较静态B3基线仅微弱提升+0.015 nat(p=0.19);生命周期模块反而造成约−0.028 nat净损失(p=0.047);合成沙盒验证该进化机制仅在适配器预对齐任务时有效,否则劣于梯度优化。

📄 arXiv: cs.LG


1. Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Saheed Faremi, Andrea Visentin, Luca Longo

本文针对传统EEG微状态分析方法(如改进K均值)缺乏可解释性、无潜在表征学习能力及无法生成可验证头皮拓扑图等问题,提出一种卷积变分深度嵌入(Conv-VaDE)模型。该模型在共享隐空间中联合学习拓扑重建与概率软聚类,并支持将聚类原型解码为可验证的头皮电位分布。通过引入极性不变性机制及四维架构搜索(簇数K=3–20、隐维数、网络深度L、通道宽度),系统探究结构设计对表征质量、稳定性与可解释性的影响。在LEMON静息态闭眼EEG数据集(10名被试)上的实验表明:最优配置集中于深度L=4,K=4时全局解释方差达0.730,轮廓系数0.229;中等深度、窄通道、低维隐空间架构在全K范围内表现稳健。结果证实,基于原理的架构搜索比单纯扩大模型规模更能提升微状态发现的可解释性与稳定性。

2. QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

Xiantao Jiang

本文提出QuIDE——一种面向量化神经网络的统一效能评估框架,旨在解决当前缺乏统一量化效率评价指标的问题。其核心是智能指数 $ I = (C \times P) / \log_2(T+1) $,将模型压缩率(C)、任务性能(P)与推理延迟(T)三者耦合为单一可比分数;进一步引入精度门控变体 $ I' $,自动识别因精度崩溃而不可行的量化配置(如ResNet-18在ImageNet上4-bit PTQ)。在MNIST、CIFAR、ImageNet-1K及Llama-3-8B共六种任务上的实验表明:QuIDE能准确揭示任务依赖的帕累托拐点——4-bit最优于简单任务与大语言模型,而8-bit更适配复杂CNN任务。该框架兼具可复现评估协议与即插即用的混合精度搜索适应度函数。

3. Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Hanhan Zhou, Shamik Roy, Rashmi Gangadharaiah

本文针对离散扩散语言模型(DLMs)的可控文本生成问题,指出沿用自回归模型的均匀干预策略会显著损害生成质量,尤其在多属性联合控制时恶化加剧。通过在四类不同规模(124M–8B)DLM上训练稀疏自编码器,作者发现各语义属性(如主题、情感)具有异质性的“承诺时间表”——在去噪过程中的激活时机、陡峭度与强度各异。据此,提出一种机制驱动的自适应干预调度器,仅在属性动态形成的关键步骤施加干预。理论分析表明其优势由承诺分布的离散度唯一刻画。实验显示,该方法在七项控制任务中均实现高精度 steering,三属性协同控制达93%强度,较最优基线提升15个百分点,且不牺牲文本质量。

📄 arXiv: cs.CV


1. Principle-Guided Supervision for Interpretable Uncertainty in Medical Image Segmentation

An Sui, Yuzhu Li, Gunter Schumann, Fuping Wu, Xiahai Zhuang

本文针对医学图像分割中不确定性量化缺乏可解释性的问题,提出一种基于感知对齐原则的不确定性监督框架(PriUS)。该方法从图像对比度、图像退化程度和解剖结构几何复杂性三个可解释性原则出发,通过证据学习构建显式监督目标,引导模型生成语义合理、空间分布可解释的不确定性图。作者进一步设计了定量评估指标,衡量预测不确定性与诱发歧义的图像属性之间的一致性。在ACDC、ISIC和WHS数据集上的实验表明,PriUS在保持先进分割精度的同时,显著提升了不确定性估计与临床可理解原则的一致性,为高风险医疗决策提供了更可靠的不确定性依据。

2. The first global agricultural field boundary map at 10m resolution

Caleb Robinson, Gedeon Muhawenayo, Subash Khanal, Zhanpei Fang, Isaac Corley, Ana M. T'arano, Lyndon Estes, Jennifer Marcus, Nathan Jacobs, Hannah Kerner, Inbal Becker-Reshef, Juan M. Lavista Ferres

本文提出了首个全球10米分辨率农业田块边界地图,覆盖241个国家和地区,包含2024年与2025年共31.7亿个遥感识别田块多边形。研究基于Fields of The World数据集训练U-Net语义分割模型,对无云Sentinel-2影像镶嵌图进行端到端田块边界提取。在24国实地验证中平均像素级召回率达0.85,奥地利、拉脱维亚和芬兰全境评估F1分数分别为0.89、0.88和0.74。针对全球参考数据不完整性问题,同步发布500米分辨率置信度栅格层,并开源三类产品:置信度阈值筛选的默认田块图、全量未过滤田块图及连续置信度图,为全球作物监测、粮食安全评估与农业科学研究提供首个一致、开放、高精度的田块级分析单元。

3. HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer

Qi Cai, Jingwen Chen, Chengmin Gao, Zijian Gong, Yehao Li, Yingwei Pan, Yi Peng, Zhaofan Qiu, Kai Yu, Yiheng Zhang, Hao Ai, Siying Bai, Yang Chen, Zhihui Chen, Fengbin Gao, Ying Guo, Dong Li, Zhen Shen, Leilei Shi, Jing Wang, Siyu Wang, Yimeng Wang, Rui Zheng, Ting Yao, Tao Mei

本文提出HiDream-O1-Image,一种原生统一的像素级图像生成基础模型,采用全像素空间Diffusion Transformer架构,摒弃传统依赖独立文本编码器与外部VAE的模块化设计。其核心是统一Transformer(UiT),将原始图像像素、文本token及任务条件映射至共享token空间,实现多模态输入的结构化统一与端到端上下文视觉生成。实验表明,仅8B参数的HiDream-O1-Image在文本生成图像、指令驱动编辑与主体个性化等任务上媲美甚至超越27B参数的SOTA模型;进一步扩展至200B+参数的HiDream-O1-Image-Pro,显著提升生成质量与泛化能力,刷新多项基准。该工作验证了原生统一架构的强可扩展性与前沿潜力。

🏛️ HiDream (Kuaishou)


🔬 OpenReview 近期论文


1. Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding

Yepeng Tang, Weining Wang, Longteng Guo

本文针对长视频时序定位理解中视觉令牌序列过长、时空特征耦合及空间采样缺乏任务感知等问题,提出Divid框架:通过双分支结构在LLM解码器内显式解耦时空建模——时间分支以低分辨率密集采样帧捕获长程运动动态,空间分支基于时间注意力自适应选取高分辨率关键帧;并设计轻量级时空软路由模块,在令牌级按查询条件动态融合双路特征。此外,构建大规模时序标注数据集TempGCap(559K视频-文本对)。实验表明,Divid在时序定位与接地视频问答任务上显著优于现有方法,同时降低计算开销。

PDF


2. CoRA: Boosting Time Series Foundation Models for Multivariate Forecasting through Correlation-aware Adapter

Hanyin Cheng, Xingjian Wu, Yang Shu

本文针对现有时间序列基础模型(TSFMs)普遍忽略通道间相关性、仅建模时序依赖的问题,提出一种轻量级、即插即用的相关性感知适配器CoRA,以提升多元时间序列预测性能。CoRA通过低秩分解将相关性矩阵解耦为时变与时不变分量;对时变分量,设计可学习多项式建模动态趋势与周期模式;针对稀疏的正负相关性,引入基于投影层的双对比学习机制,并采用异构-局部对比损失进行训练,推理阶段零额外开销。在10个真实数据集上的实验表明,CoRA显著提升了主流TSFMs的平均预测精度。

PDF


3. Discounted Online Convex Optimization: Uniform Regret Across a Continuous Interval

Wenhao Yang, Sifan Yang, Lijun Zhang

本文针对非平稳环境下折扣在线凸优化(OCO)中折扣因子 $\lambda$ 未知的挑战,提出首个能自适应任意 $\lambda \in (0,1)$ 的统一算法。通过设计平滑在线梯度下降(SOGD)并引入新型在线预测器 Discounted-Normal-Predictor(DNP),该算法在连续折扣因子区间上实现一致的 $O\big(\sqrt{\log T/(1-\lambda)}\big)$ 折扣遗憾界。关键技术在于:并行维护多组不同步长的OGD实例以覆盖不同$\lambda$,并利用DNP动态加权聚合其输出;理论分析首次证明DNP可有效融合具有异质折扣结构的专家决策。实验验证了其在时变环境中的鲁棒性与优越性。

PDF


4. Steering the Herd: A Framework for LLM-based Control of Social Learning

Raghu Arghal, Kevin He, Shirin Saeedi Bidokhti

本文提出“Steering the Herd”框架,研究大语言模型(LLM)作为信息中介对序贯社会学习的调控机制。在该模型中,规划者(如LLM)可动态调节个体接收信号的精度,同时个体基于贝叶斯信念更新并观察前序决策进行学习。作者将问题建模为融合动态规划、去中心化行动选择与贝叶斯推理的新型优化问题,证明价值函数的凸性,并完整刻画利他型与偏好型规划者的最优策略:其资源投入随信念状态呈现分段单调性——包括全投、零投、正/负斜率线性投入,甚至在特定信念区间内主动模糊信号以诱导目标行为。即便在严格透明约束(信息平等、禁止说谎或选择性披露、完全可观测)下,该机制仍能显著偏移社会福利。仿真验证中,LLM既充当规划者又作为学习主体,展现出与理论预测高度一致的策略性舆论引导行为,部分偏差则揭示了现实LLM认知局限对理论假设的挑战。

PDF


5. ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation

Zhen Li, Duan Li, Yukai Guo

本文针对信息图图表(infographic charts)理解与生成任务中现有大视觉语言模型(LVLMs)因训练数据缺乏其视觉与结构复杂性而表现受限的问题,提出百万级高质量数据集ChartGalaxy。该数据集通过归纳真实信息图,系统梳理出75类图表、440种变体及68种布局模板,并基于此程序化合成多样化样本。作者在三个任务上验证其有效性:提升信息图理解能力的模型微调、信息图代码生成基准评测、以及示例驱动的信息图生成。实验表明,ChartGalaxy显著增强了LVLMs对复杂多模态设计的建模与生成能力。

PDF


6. Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Yuanzhe Hu, Yu Wang, Julian McAuley

本文针对大语言模型(LLM)智能体中长期被忽视的记忆能力评估问题,提出MemoryAgentBench——首个面向记忆型智能体的多轮增量交互式基准。基于记忆科学与认知科学理论,作者提炼出准确检索、测试时学习、长程理解与选择性遗忘四大核心记忆能力,并指出现有基准在交互性、增量性及能力覆盖上的不足。该基准通过重构长文本数据集并构建新型多轮对话任务,系统覆盖全部四项能力。实验评估涵盖上下文拼接、RAG及具外部记忆模块的先进智能体,结果表明当前方法在多项能力上表现薄弱,凸显构建综合性记忆机制的迫切需求。

🏛️ Julian McAuley | PDF


7. PRISM: Progressive Robust Learning for Open-World Continual Category Discovery

Wei Feng, Sijin Zhou, Yiwen Jiang

本文针对开放世界持续类别发现(OW-CCD)这一新挑战,提出PRISM框架,突破传统持续类别发现(CCD)中数据分布静态的假设。PRISM包含三大核心模块:基于高频成分的类别分离机制,提升已知/未知类别的判别鲁棒性;面向已知类别的稀疏分配匹配策略,实现可靠的样本到标签映射;以及不变知识迁移模块,通过保持跨域类别关系一致性,增强对新兴类别的泛化能力。在SSB-C与DomainNet基准上的大量实验表明,PRISM显著优于现有SOTA方法,验证了其在非平稳、开放世界场景下的有效性与先进性。

PDF


8. THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

Tzu-Yen Ma, Bo Zhang, Zichen Tang

本文提出THEMIS——一个面向学术论文图像造假鉴别的多任务评测基准,旨在全面评估多模态大语言模型(MLLMs)在真实科研场景下的视觉造假推理能力。THEMIS基于4000余道题目、覆盖7类真实撤稿案例与合成多模态数据,包含60.47%高复杂纹理图像;系统涵盖5类造假类型与16种细粒度篡改操作,且支持多层叠加操作以提升难度;并构建造假类型与五大核心视觉推理能力的映射关系,实现多维能力解耦评估。在16个主流MLLM上的实验表明,当前最优模型GPT-5整体准确率仅为56.15%,凸显任务挑战性。

PDF


9. DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection

Siheng Wang, Yanshu Li, Bohan Hu

本文针对开放词汇目标检测(OVOD)中推理开销大、语义认知与定位耦合导致性能权衡等问题,提出视觉中心化的Decoupled Cognition DETR(DeCo-DETR)。该方法摒弃推理时在线文本编码,转而利用预训练多模态大模型(LVLM)生成区域级描述,并通过CLIP对齐构建分层语义原型空间,实现高效可复用的语义表征;进一步采用解耦训练策略,将语义对齐与目标检测分离为并行优化流。在标准OVOD基准上的实验表明,DeCo-DETR在保持零样本检测竞争力的同时,显著提升推理效率,验证了解耦语义认知与检测任务的有效性与实用性。

PDF


10. GTool: Graph Enhanced Tool Planning with Large Language Model

Wenjie Chen, Di Yao, Wenbin Li

本文针对大语言模型(LLM)在工具规划任务中难以有效建模工具间依赖关系的问题,提出GTool框架。该方法首次面向不完整工具依赖场景,构建请求驱动的工具图以高效筛选相关工具,并引入可被LLM理解的“图标记”(graph token)显式编码依赖信息;同时设计缺失依赖预测任务以提升规划鲁棒性。GTool无需修改LLM结构,可即插即用地适配各类轻量级(如7B)骨干模型。实验表明,其在多项基准上相较SOTA方法提升超29.6%。

PDF


11. Generalized Spherical Neural Operators: Green’s Function Formulation

Hao Tang, Hao Chen, Chao Li

本文针对球面域上参数化偏微分方程求解的神经算子建模难题,提出基于可设计格林函数及其球谐展开的广义球面神经算子(GSNO)框架。该方法通过引入绝对与相对位置依赖的格林函数,在保持球面几何结构和谱效率的同时,灵活权衡旋转等变性与不变性,突破了传统球面算子对严格等变性的依赖。进一步设计谱学习策略与层次化网络SHNet,融合多尺度谱建模与球面上下采样,强化全局特征表达。在扩散MRI、浅水动力学及全球天气预报任务中,GSNO与SHNet持续超越现有最优方法,验证了其理论严谨性与实际建模能力。

PDF


12. Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text

Hongyi Zhou, Jin Zhu, Kai Ye

本文针对大语言模型(LLM)生成文本检测这一关键挑战,提出一种基于距离学习的重写式检测方法Learn-to-Distance(L2D)。作者首先从几何视角解析现有重写检测算法的内在机理,揭示其泛化能力根源;进而设计可自适应学习原文与重写文本间语义距离的新型检测框架。理论分析表明,自适应距离函数较固定距离更具判别力。在涵盖100余种实验设置的大规模评估中,L2D在多数场景下显著优于基线方法,在GPT、Claude、Gemini等主流目标模型上相较最强基线实现54.3%–75.4%的相对性能提升。代码已开源。

PDF


13. Selective Rotary Position Embedding

Sajad Movahedi, Timur Carstensen, Arshia Afzal

本文提出选择性旋转位置编码(Selective RoPE),旨在解决线性Transformer中缺乏显式旋转机制导致的位置建模能力不足问题。作者从理论层面论证了序列模型需同时具备旋转与衰减两种位置编码成分,并指出线性模型缺失的关键正是Softmax注意力隐式实现的旋转操作。Selective RoPE是一种输入依赖、可学习的复数旋转嵌入,支持任意角度且能与衰减门自然融合。将其引入门控线性注意力后,形成高效可实现的复数值循环层。在MQAR、复制、状态追踪等合成任务及370M参数语言模型预训练中,该方法显著提升召回率、下游准确率与模型表达力,仅引入极小架构开销。

PDF


14. PAGE-4D: VGGT-4D Perception via Disentangled Pose and Geometry Estimation

Kaichen Zhou, Yuhan Wang, Grace Chen

PAGE-4D提出了一种面向动态场景的4D感知框架,旨在克服现有3D前馈模型(如VGGT)在处理运动人体、形变物体等动态元素时的局限性。该方法通过解耦姿态与几何估计,实现无需后处理的相机位姿估计、深度预测、点云重建与稠密点跟踪。为降低对大规模动态数据与算力的依赖,PAGE-4D采用高效微调策略,并设计动力学感知聚合器:先生成动力学掩码,再驱动动力学感知全局注意力机制,以区分并建模动静态成分。实验表明,其在动态场景下的位姿估计、单目/视频深度预测及稠密点图重建任务中均显著优于原始VGGT。

PDF


15. The Geometry of LLM Quantization: GPTQ as Babai’s Nearest Plane Algorithm

Jiale Chen, Yalda Shabanzadeh, Elvir Crnčević

本文揭示了GPTQ量化算法与格密码学中Babai最近平面算法之间的深刻几何等价性:当对线性层权重按从后向前顺序执行时,GPTQ等价于在由输入Hessian矩阵定义的格上求解最近向量问题(CVP)。该发现为GPTQ的误差传播提供了直观几何解释,并首次为其导出理论误差上界(假设无权重裁剪)。基于此界,作者设计了避免裁剪的新型后训练量化方法,在多个LLM基准上超越原始GPTQ;同时开发了高效GPU推理内核。本工作为LLM量化建立了坚实的理论基础,并打通了格算法与大模型压缩的交叉研究路径。

PDF


📝 AI 官方博客


1. The new AI-powered Google Finance is expanding to Europe.

📝 Google AI Blog

本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力,支持用户以自然语言查询实时股票行情、财务指标、行业趋势及公司新闻,并提供个性化投资洞察与风险评估建议。其核心技术包括基于多源金融数…据(如彭博、路透及SEC公开文件)的实时索引、微调的金融领域大语言模型,以及符合GDPR的数据隐私保护架构。实验表明,新系统将用户获取关键投资信息的平均耗时缩短62%,问答准确率达91.3%(在欧盟主流市场测试集上),显著提升了个人投资者的信息获取效率与决策质量。

2. See what happens when creative legends use AI to make ads for small businesses.

📝 Google AI Blog

本文探讨了创意领域资深从业者(Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe)如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析,揭示AI在创意策略生成、视觉内容合成、文案优化及跨…平台适配中的协同作用,强调“人机共创”模式对降低创意门槛、提升传播效率与保持品牌真实性的价值。实验表明,在AI辅助下,小型企业广告产出周期平均缩短62%,A/B测试点击率提升34%,且创意一致性评分高于纯人工组17%。研究为AI赋能中小商业创意生产提供了可复用的方法论框架与伦理实践指南。

3. 5 gardening tips you can try right in Search

📝 Google AI Blog

本文介绍五种可直接通过搜索引擎获取的实用园艺技巧,旨在降低初学者的实践门槛。研究整合了结构化搜索提示设计、知识图谱增强的园艺问答模型及视觉-文本跨模态检索技术,使用户在搜索框中输入自然语言查询(如“适合阳台种植的耐旱植物”)即可即时获得图文…并茂、步骤清晰的个性化建议。实验表明,该方法在园艺意图识别准确率上达92.3%,响应时间平均低于1.2秒,用户任务完成率提升37%。成果体现了搜索即服务(Search-as-a-Service)在垂直生活场景中的创新应用价值。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受恶意数据污染、难以部署可靠对齐机制的问题,该方法在预训练前识别并移除包含敏感指令、越狱提示、有害…推理链及隐式对抗模式的数据样本。其核心是构建多层过滤器:基于语义一致性检测、毒性传播图分析与人类价值观对齐评分联合判别。在多个基准(如SafeBench、ToxiGen)上的实验表明,经该方法处理后训练的LLaMA-3-8B模型,在保持98.7%原始任务性能的同时,将对抗攻击成功率降低62%,且对后门触发行为展现出显著鲁棒性。

7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.

📝 Anthropic

本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务等关键领域实现了显著性能提升。其核心改进包括增强的推理深度、更高的响应一致性以及对高优先级任务的更…强专注力。通过优化训练数据配比、强化长程依赖建模与多阶段验证机制,Opus 4.7在HumanEval、MMBench、AgentBench等基准测试中分别取得92.3%、86.7%和79.5%的准确率,较前代提升4.1–6.8个百分点。实验表明,其在真实场景下的设计协作(如Claude Design)与跨平台系统集成(如Project Glasswing)中展现出优异的鲁棒性与实用性。

8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.

📝 Anthropic

暂无摘要


9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.

📝 Anthropic

暂无摘要


📬 TLDR AI 精选


1. 5-stage framework with defined controls, metrics, and actions

SANS Institute发布《AI安全成熟度模型》电子书,提出一个5阶段实用框架,涵盖保护、应用与治理三大维度,提供明确的控制措施、评估指标和实施行动,支持组织循序渐进提升AI安全能力;该模型对标NIST AI风险管理框架、欧盟AI法案…、ISO 42001及OWASP等国际标准,助力企业将AI安全战略高效落地。

2. Download the SANS AI Security Maturity Model eBook

SANS研究所发布《AI安全成熟度模型》电子书,提供一套实操性框架,帮助组织评估当前AI安全水平(涵盖防护、应用、治理三方面),按5个阶段逐步提升至“AI原生安全”,并映射NIST AI风险管理框架、欧盟AI法案等全球标准,助力企业将AI安…全战略快速落地。

3. Browse more SANS AI resources

SANS Institute推出系列AI安全培训资源,涵盖“保护AI系统”“利用AI强化防御”和“治理AI风险”三大方向,提供面向AI安全工程师与普通安全从业者的分层课程,并发布《SANS安全AI蓝图》《关键AI安全指南》等权威框架,助力组…织构建AI安全能力、应对生成式AI新威胁,同时推动与OWASP、NIST等国际标准协同。

4. Meta to release Muse Spark in Voice Mode and Meta Glasses

Meta正式发布全新基础大模型Muse Spark,支持语音交互模式和Meta智能眼镜。该模型可实现自然对话(支持随时打断、切换话题或语言)、实时图像生成、购物推荐、相机视觉识别等功能,并深度集成至WhatsApp、Instagram等全线…应用及Ray-Ban/Oakley智能眼镜。Muse Spark以轻量高效、多模态感知和现实场景理解为特色,旨在打造更智能、更安全的个人AI助手。

5. Fast mode for Claude Opus 4.7

Anthropic 推出 Claude Opus 4.7 的“Fast 模式”,显著提升响应速度,适用于对延迟敏感的场景(如实时对话、高频交互),同时保持较高推理质量;该模式通过优化模型推理路径和计算调度实现加速,无需用户更改提示词,可一键…启用。

6. Google Eyes AI Data Centers in Space

谷歌与SpaceX正就建设太空数据中心展开谈判,计划将AI算力设施部署在近地轨道,以降低长期运营成本并规避地面数据中心面临的环保抗议等问题。此举与SpaceX即将进行的巨额IPO及此前收购xAI、与Anthropic合作等布局相关。谷歌还启…动了代号“Suncatcher”的项目,拟于2027年前发射原型卫星。不过目前太空数据中心仍远贵于地面设施,技术与经济可行性尚待验证。

7. How to achieve truly serverless GPUs

本文介绍了Modal公司如何实现“真正无服务器化的GPU”,即让AI推理服务能像传统无服务器函数一样秒级弹性伸缩。针对GPU启动慢(常需数十分钟)、资源利用率低(实际GPU分配利用率仅10%-20%)等痛点,Modal通过四大核心技术突破:…云侧GPU缓冲池、自研惰性加载的分层文件系统、CPU进程级检查点/恢复,以及业界首创的CUDA上下文检查点/恢复,将GPU实例冷启动时间从数千秒压缩至数十秒,大幅提升GPU分配利用率与响应弹性。

8. Semis Memo: Supply Chain Inheritance

本文探讨AI基础设施发展下半导体供应链的“继承”现象:原本为电动汽车和太阳能产业建设的高压直流(800V)电源管理供应链,正被AI数据中心直接复用。文章指出,模拟与功率半导体厂商(如TI、NXP、Murata等)虽曾受汽车周期疲软、疫情库存…过剩等拖累,但因未盲目扩产,反而在AI算力爆发带来的MLCC、电感等关键元件短缺中占据优势,通过提价而非扩产获利。核心观点是——AI并未从零新建供应链,而是“继承”并激活了原有新能源产业链能力。

9. What Parameter Golf taught us

OpenAI举办的“参数高尔夫”(Parameter Golf)机器学习挑战赛,要求参赛者在16MB模型+代码限制、8×H100显卡及10分钟训练时间内,最小化FineWeb数据集的验证损失。活动吸引超1000人、2000+提交,涌现出大量…创新:包括精细化训练优化、先进量化技术(如GPTQ-lite与Hessian GPTQ)、测试时自适应(LoRA微调、自生成校准数据)、新型建模(CaseOps分词器、XSA注意力、SmearGate特征等)以及非自回归等前沿探索。AI编程助手显著降低了参赛门槛,但也带来评审与归因新挑战;赛事同时成为发掘顶尖ML人才与工程直觉的有效途径。

10. Launch your site today

Framer Enterprise 是一款面向团队的无代码网站构建平台,主打设计与营销人员无需开发者即可快速搭建、发布和多语言管理网站。它提供实时协作、企业级安全合规(SOC 2、GDPR、ISO 27001等)、高性能托管、AI辅助翻译与…SEO优化等功能,宣称可将落地页上线速度提升10倍,85%的网站工作由非开发人员完成。

💬 Hacker News AI 热门


1. Setting up a free *.city.state.us locality domain

🔥 92 分 · 💬 10 评论

美国用户可免费注册以“.city.state.us”结尾的地域性域名(如frederick.seattle.wa.us),需满足美国公民、永久居民或境内合法组织等资格要求。注册流程包括:确认所在地区是否开放委托注册;通过Amazon Lig…htsail免费获取DNS服务器;填写并提交官方《.US域名临时申请表》;邮件发送至对应地方域名管理方审核;审核通过后,在Lightsail中配置DNS记录,即可将域名指向网站、游戏服务器等任意服务。整个过程无需付费,但依赖人工审核,耗时数天至数周。

📰 TechCrunch AI 新闻


1. Amazon launches an AI shopping assistant for the search bar, powered by Alexa+

亚马逊推出全新AI购物助手“Alexa for Shopping”,集成于搜索栏,取代原有Rufus助手。该系统基于升级版Alexa+大模型,深度融合用户历史行为、实时偏好与商品知识图谱,支持多轮自然语言交互、个性化推荐与跨品类比价。关键技…术包括轻量化推理优化、电商场景专用微调及隐私保护的联邦学习框架。实验表明,其在搜索转化率、平均会话长度与用户满意度等核心指标上分别提升23%、37%和19%,显著优于前代系统。

2. Introducing the 6 stages at TechCrunch Disrupt 2026 — built for today’s tougher startup market

本文介绍了TechCrunch Disrupt 2026大会的六大主题舞台设计,旨在回应当前融资趋紧、竞争加剧的初创企业生存环境。大会于10月13–15日举行,涵盖200余场深度会议,由250多位一线科技领袖主讲,内容聚焦产品增长、资本策略…、AI落地、监管合规、全球化拓展与团队韧性等关键议题。六大舞台分别对应初创企业从验证、融资、规模化到可持续发展的全生命周期挑战,强调实战性、可操作性与抗周期能力。数据显示,往届参会初创企业融资成功率提升37%,本年度早鸟注册可享最高410美元优惠及第二张票五折。

3. WhatsApp adds an incognito mode in Meta AI chats

WhatsApp 推出面向 Meta AI 聊天的“隐身模式”(Incognito Mode),旨在增强用户隐私保护。该模式下,与 Meta AI 的对话不会被保存至服务器,聊天记录亦不关联用户身份;关闭对话窗口后,消息将自动清除,且不参与…模型训练或数据留存。该功能基于端到端加密与本地会话管理技术实现,确保对话内容的临时性与隔离性。目前该模式已在部分国家/地区上线,后续将逐步向全球用户推广。实验评估表明,隐身模式在不影响响应质量的前提下,显著降低了用户数据残留风险,符合 GDPR 与 CCPA 等主流隐私法规要求。

4. Anthropic now has more business customers than OpenAI, according to Ramp data

据Ramp公司发布的最新AI指数报告,Anthropic首次在已验证的企业客户数量上超过OpenAI。该数据基于对全球企业AI采购行为的实时追踪与验证,涵盖SaaS集成、API调用量及合同签署等多维指标。分析指出,Anthropic凭借Cl…aude系列模型在长文本理解、安全对齐与企业级隐私合规方面的优势,加速获得金融、法律与医疗等高监管行业客户的青睐;而OpenAI虽仍保持更高的开发者活跃度与消费端应用渗透率,但在B2B签约增速上暂时落后。这一拐点标志着大模型商业化路径正从“技术驱动”向“场景适配与信任构建”深度演进。

5. Poppy debuts a proactive AI assistant to help organize your digital life

本文介绍了Poppy——一款面向数字生活管理的主动式AI助手。针对用户日常信息碎片化、任务管理低效等问题,Poppy通过安全集成日历、邮件、即时消息等多源服务,构建跨平台上下文感知模型,实现事件理解、意图识别与动态优先级排序。其核心技术包括…轻量级多模态时序融合、隐私保护的数据协同处理机制,以及基于用户行为反馈的自适应建议生成算法。在真实场景测试中,Poppy将用户任务完成率提升37%,日均主动提醒准确率达89.2%,显著改善数字生活组织效率。