AI 每日资讯 — 2026-05-14
🔥 HuggingFace 每日论文
1. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture
Haiwen Diao, Penghao Wu, Hanming Deng
本文针对当前大视觉语言模型(VLMs)中理解与生成任务长期割裂、架构碎片化、表征空间不一致等结构性瓶颈,提出SenseNova-U1——基于NEO-unify原生统一架构的多模态模型。该范式将理解与生成视为同一底层过程的协同视角,
构建了两个变体:SenseNova-U1-8B-MoT(稠密架构)与SenseNova-U1-A3B-MoT(30B混合专家架构)。实验表明,二者在文本理解、视觉-语言感知、知识推理、智能体决策及空间智能等理解任务上媲美顶尖单向VLM;同时在任意模态到图像(X2I)合成、文本密集型信息图生成及交错式图文生成等生成任务中,兼具语义一致性与视觉保真度。论文还系统公开了模型设计、数据预处理、预/后训练及推理策略,推动社区研究。2. AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward
Runhui Huang, Jie Wu, Rui Yang
本文提出AlphaGRPO框架,将分组相对策略优化(GRPO)引入自回归-扩散统一多模态模型(UMMs),无需冷启动即可提升多模态生成能力。其核心在于激发模型内在的高级推理能力:一是推理型文生图生成,主动推断用户隐含意图;二是自反
思式精修,自主诊断并修正生成结果的语义与质量偏差。为解决真实场景中多模态生成监督信号不稳定的问题,我们设计分解式可验证奖励(DVReward)——利用大语言模型将复杂请求拆解为原子级、可验证的语义与质量子问题,并由通用多模态大模型提供可靠、可解释的反馈。在GenEval、TIIF-Bench、DPG-Bench、WISE等基准及GEdit编辑任务上,AlphaGRPO均取得显著性能提升,验证了该自反思强化学习范式能有效利用模型固有理解能力驱动高保真生成。3. CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives
Yihao Meng, Zichen Liu, Hao Ouyang
本文针对多镜头视频叙事中自回归生成易出现运动停滞与语义漂移的问题,提出CausalCine——一种支持实时交互的因果式多镜头视频生成框架。该方法首先在原生多镜头数据上训练因果基础模型,显式建模镜头切换间的复杂时序与语义依赖;进而引
入内容感知记忆路由(CAMR)机制,依据注意力相似度动态检索历史KV缓存,突破时间邻近性约束,保障跨镜头连贯性;最后通过知识蒸馏构建少步长生成器,实现低延迟交互。实验表明,CausalCine在生成质量、长程一致性与响应速度上显著优于现有自回归方法,性能逼近双向模型,同时支持实时提示更新与镜头级可控生成。4. From Web to Pixels: Bringing Agentic Search into Visual Perception
Bokang Yang, Xinyi Sun, Kaituo Feng
本文针对开放世界视觉感知中目标身份需依赖外部知识(如网络信息、实时事件、长尾实体等)才能确定的难题,提出“感知深度研究”(Perception Deep Research)新范式,并构建首个面向该任务的基准WebEye。该基准包含
120张图像、473个对象实例、645组知识密集型问答对及1927个任务样本,涵盖搜索驱动的定位、分割与视觉问答三类任务。作者进一步提出Pixel-Searcher框架,实现从网络检索到像素级绑定的智能体式工作流。实验表明,其在全部三项任务上达到当前开源模型最优性能,主要失败原因集中于证据获取、身份解析与视觉实例绑定三个环节。5. LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues
Di Wu, Zixiang Ji, Asmi Kawatkar
本文针对现有智能体记忆评估基准忽视环境特异性经验内化的问题,提出LongMemEval-V2(LME-V2)——首个面向专业化Web环境中长期记忆能力评估的基准。该基准包含451个手工构建的问题,覆盖静态状态回忆、动态状态追踪、工
作流知识、环境陷阱识别与前提意识五大核心记忆能力,并配以最多500条、总计1.15亿token的历史轨迹。作者提出“上下文收集”评估范式,要求记忆系统从历史中提取精简证据以支持问答。为此设计两种记忆方法:基于RAG的AgentRunbook-R与基于代码沙盒的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率显著优于基线方法。6. Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
Kexuan Shi, Hanxuan Li, Zeju Qiu
本文提出Pion——一种基于正交等价变换的谱保持优化器,专为大语言模型(LLM)训练设计。不同于Adam、Muon等加性优化器,Pion通过对权重矩阵施加左右正交变换实现参数更新,严格保持其全部奇异值(即谱结构)不变,从而在调节权
重几何结构的同时固定谱范数。作者推导了Pion的更新规则,系统分析了其设计选择、收敛性及关键数学性质。实验表明,Pion在LLM预训练与微调任务中均展现出优异的稳定性与竞争力,为优化器设计提供了新的谱感知范式。7. Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction
Jiahe Li, Jiawei Zhang, Xiao Bai
本文针对可微分渲染中普遍存在的光度模糊性问题,提出AmbiSuR框架,以提升高斯点绘(Gaussian Splatting)在表面三维重建中的鲁棒性与精度。作者重新审视其表征基础,揭示了两类原始单元级光度模糊性,并发现高斯点绘内在
具备模糊性自指示潜力。据此,方法首先引入光度解模糊约束,引导几何优化收敛至确定性表面;进而设计模糊性指示模块,主动识别并校正欠约束重建区域。大量实验表明,AmbiSuR在多种复杂场景下显著优于现有方法,兼具高精度与强泛化能力。8. Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
Miaosen Zhang, Xiaohan Zhao, Zhihong Tan
本文针对计算机使用代理(CUAs)在复杂、低频GUI交互中可靠性不足的问题,提出CUActSpot基准与基于渲染器的数据合成方法。该基准覆盖GUI、文本、表格、画布和自然图像五种模态及点击、拖拽、绘制等多种动作,显著拓展了现有以点
击为中心的评测范围。通过自动构建多模态场景、记录坐标与截图,并利用大语言模型生成指令与动作轨迹,构建高质量合成数据集。基于此训练的Phi-Ground-Any-4B模型在CUActSpot上超越参数量小于32B的开源模型。代码、数据、基准与模型将开源。🔥 arXiv 每日论文
📄 arXiv: cs.AI
1. A Cascaded Generative Approach for e-Commerce Recommendations
Moein Hasani, Hamidreza Shahidi, Trace Levinson, Yuan Zhong, Guanghua Shu, Vinesh Gudla, Tejaswi Tenneti
本文提出一种级联生成式电商推荐框架,旨在解决传统模块化 storefront 构建范式在个性化深度与页面语义一致性上的局限。该框架将首页生成解耦为两个生成任务:(i)页面区块级主题生成,(ii)面向检索的约束关键词生成;通过教师-
学生蒸馏实现轻量化部署,在保持低延迟与低成本的同时逼近闭源大模型性能。进一步设计了AI驱动的内容评估与质量过滤机制,保障动态内容安全上线,并通过生成结果与传统排序模型融合,兼容现有混合架构。线上实验表明,该方法相较强基线提升2.7%每页加购率。2. EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales
Yaolun Zhang, Tianyi Xu, Shengyu Dai, Zhenwen Shao, Qingyun Wu, Huazheng Wang
本文提出EVOCHAMBER——一种无需训练的多智能体测试时协同进化框架,旨在解决现有方法在跨智能体学习与专业化协同间的根本矛盾。其核心CODREAM(协作式梦境)机制在团队失败或分歧时触发,支持智能体间非对称知识蒸馏,兼顾专业化
保留与能力补全;团队级算子动态构建任务适配型协作结构,种群级生命周期算子则通过分叉、合并、剪枝与初始化实现智能体池的自适应演化。在Qwen3-8B基座上,该框架于竞赛数学、代码生成与多领域推理任务中分别达63.9%、75.7%和87.1%准确率,数学任务相对基线提升32%,消融实验证实非对称跨智能体迁移为关键增益来源。从同质初始化出发,系统自发涌现4–5个稳定功能专精智能体,展现出单智能体系统无法表达的多智能体演化结构性特征。3. RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
Andrew Choi, Wei Xu
本文提出RankQ,一种面向离线到在线强化学习的自监督动作排序方法,旨在解决大规模状态-动作空间下离线数据覆盖不足导致的价值高估与策略退化问题。RankQ在时序差分学习基础上引入多目标自监督排序损失,不依赖对分布外动作的统一惩罚,
而是建模动作间的相对优劣关系,引导Q函数梯度朝向更高质量行为。在稀疏奖励D4RL基准上,RankQ性能优于或媲美七种现有方法;在视觉机器人任务中,其在低数据场景下使预训练视觉语言动作(VLA)模型的仿真成功率平均提升42.7%,高数据场景下进一步提升13.7%,并显著增强sim-to-real迁移能力,真实世界方块堆叠成功率从43.1%提升至84.7%。📄 arXiv: cs.CL
1. Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs
Amin Banayeeanzade, Qingchuan Yang, Dhruv Tarsadiya, Fatemeh Bahrani, Leonardo Blas, Alfy Samuel, Robin Jia, Meisam Razaviyayn, Sai Praneeth Karimireddy
本文针对大语言模型(LLM)在生成任务中普遍存在的多样性坍缩问题,提出“有效性–多样性”分析框架,指出其根源在于解码过程中模型对有效与无效续写token的概率分配失准。作者将该瓶颈形式化为两类校准缺陷:顺序校准(valid tok
en未稳定排在invalid token之前)与形状校准(概率质量过度集中于少数有效续写,同时尾部混杂大量无效token)。理论分析表明,局部校准失败会在序列生成中逐层累积,显著削弱整体多样性。基于14个跨架构、多规模模型的实证研究表明,多样性下降并非采样策略所致,而是LLM自身输出分布固有的校准缺陷所致。🏛️ Robin Jia
2. ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV
Alex Stinard
本文提出ClinicalBench——首个面向跨就诊临床问答中断言敏感性(assertion-awareness)的检索压力测试基准,聚焦真实电子健康记录(EHR)中否定、时序与归属等语义陷阱对检索阶段的影响。作者构建EpiKG知
识图谱,为每个临床事实标注断言状态与时序标签,并引入意图驱动的KG-RAG架构,在Contriever密集检索基线上实现+8.84个百分点的准确率提升(McNemar *p*=0.00179)。在400题、43例MIMIC-IV患者、9类断言敏感场景的严格评估中,经三名医师盲审验证,方法相较基线平均提升+22.0个百分点(95% CI [+5.1, +31.5], *p*=0.0192),且揭示LLM自身能力越强,外部检索增益越小(*r*=−0.921),提示当前RAG收益部分源于模型能力不足的补偿。研究同时发现56%自动生成答案存在临床缺陷,强调医师 adjudication 对临床QA基准建设的必要性。代码、数据与EpiKG栈已开源。3. Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary
Ramchand Kumaresan
本文针对基于LoRA的进化式混合架构展开解构研究,提出三大核心要素:改进的并行sigmoid路由机制(引入可学习下界与温度退火)、领域级留一法评估框架,以及包含死亡、α混合继承、SVD变异与槽位重分配的生命周期模型。实验在自研15
0M参数 widened-1536 子结构(D=1536, V=32000)上开展5/8部分析因设计(n=3种子,每单元25000步)。结果表明:路由重写单独贡献+0.0426 nat的平衡对数困惑度提升(p=0.006),而完整系统相较静态B3基线仅微弱提升+0.015 nat(p=0.19,未达显著性);生命周期模块反向拖累约−0.028 nat(p=0.047);合成沙盒验证了路由进化效果高度依赖适配器预对齐——仅在此条件下具负载能力,否则劣于梯度优化。📄 arXiv: cs.LG
1. Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation
Saheed Faremi, Andrea Visentin, Luca Longo
本文针对传统EEG微状态分析方法(如改进K均值)缺乏可解释性、无潜在表征学习能力及无法生成可验证头皮拓扑图等问题,提出一种卷积变分深度嵌入(Conv-VaDE)模型。该模型在共享隐空间中联合学习拓扑重建与概率软聚类,并支持将聚类原
型解码为可验证的头皮电位分布。通过引入极性不变性机制及四维网格搜索(簇数K=3–20、隐维数、网络深度L、通道宽度),系统探究架构选择对表征质量、稳定性与可解释性的影响。在LEMON静息态EEG数据集上的实验表明:深度L=4在全部18组最优配置中一致出现,K=4时达到最高全局解释方差(GEV=0.730)与轮廓系数(0.229),证实适度深度、紧凑通道宽度与低维隐空间更利于可解释且稳定的微状态发现。2. QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization
Xiantao Jiang
本文针对量化神经网络缺乏统一效率评估指标的问题,提出量化智能权衡评估框架QuIDE。其核心是构建 Intelligence Index(I = (C × P)/log₂(T+1)),将模型压缩率(C)、任务性能(P)与推理延迟(T
)三者耦合为单一可比分数。在MNIST、CIFAR、ImageNet-1K及Llama-3-8B共六种任务上实验表明,最优量化位宽具有任务依赖性:4-bit适用于简单CNN与大语言模型,而ResNet-18/ImgNet需8-bit以避免4-bit PTQ导致的精度崩塌。进一步引入精度门控变体I′,可自动识别并剔除不可行配置。QuIDE兼具可复现评估协议与即插即用的混合精度搜索适应度函数。3. Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models
Hanhan Zhou, Shamik Roy, Rashmi Gangadharaiah
本文针对离散扩散语言模型(DLMs)的可控文本生成问题,指出沿用自回归模型的均匀步长干预策略会显著损害生成质量,尤其在多属性联合控制时恶化加剧。通过在四类不同规模(124M–8B)DLM上训练稀疏自编码器,作者发现各语义属性(如主
题、情感)在去噪过程中具有异质性的“承诺时间分布”——主题在前2%步即固化,而情感则渐进式显现于约20%步内。据此,提出一种机制驱动的自适应干预调度器,仅在属性活跃形成阶段施加干预。理论分析表明其优势由承诺分布的离散度单一统计量刻画。实验显示,该方法在七项控制任务中均实现高精度 steering,三属性协同控制达93%强度,较最优基线提升15个百分点,且不牺牲文本质量。📄 arXiv: cs.CV
1. Principle-Guided Supervision for Interpretable Uncertainty in Medical Image Segmentation
An Sui, Yuzhu Li, Gunter Schumann, Fuping Wu, Xiahai Zhuang
本文针对医学图像分割中不确定性量化缺乏可解释性的问题,提出一种基于感知对齐原则的不确定性监督框架(PriUS)。该方法从图像对比度、图像退化程度和解剖结构几何复杂性三方面定义不确定性空间分布应满足的可解释性原则,并基于证据学习构建
显式监督目标。为定量评估不确定性与模糊源的一致性,本文设计了新型评价指标。在ACDC、ISIC和WHS数据集上的实验表明,PriUS在保持先进分割精度的同时,显著提升了不确定性估计的空间可解释性与语义一致性。🏛️ Gunter Schumann
2. The first global agricultural field boundary map at 10m resolution
Caleb Robinson, Gedeon Muhawenayo, Subash Khanal, Zhanpei Fang, Isaac Corley, Ana M. T'arano, Lyndon Estes, Jennifer Marcus, Nathan Jacobs, Hannah Kerner, Inbal Becker-Reshef, Juan M. Lavista Ferres
本文提出了首个全球10米分辨率农业田块边界地图,覆盖241个国家和地区,包含2024年与2025年共31.7亿个遥感识别田块多边形。研究基于Fields of The World数据集训练U-Net语义分割模型,对无云Sentin
el-2影像镶嵌图进行端到端田块边界提取。在24国实地验证中平均像素级召回率达0.85,奥地利、拉脱维亚和芬兰全境评估F1分数分别为0.89、0.88和0.74。为应对全球参考数据不完整性,同步发布500米分辨率置信度栅格层,并开源三类产品:置信度阈值筛选的默认田块图、完整未过滤田块图及连续置信度图。该成果填补了全球尺度高精度、开放、一致田块边界数据空白,为作物监测、粮食安全评估与农业科学研究提供了基础性空间单元。3. HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
Qi Cai, Jingwen Chen, Chengmin Gao, Zijian Gong, Yehao Li, Yingwei Pan, Yi Peng, Zhaofan Qiu, Kai Yu, Yiheng Zhang, Hao Ai, Siying Bai, Yang Chen, Zhihui Chen, Fengbin Gao, Ying Guo, Dong Li, Zhen Shen, Leilei Shi, Jing Wang, Siyu Wang, Yimeng Wang, Rui Zheng, Ting Yao, Tao Mei
本文提出HiDream-O1-Image,一种原生统一的像素级图像生成基础模型,采用全像素空间Diffusion Transformer架构,摒弃传统依赖独立文本编码器与外部VAE的模块化设计。其核心是统一Transformer(
UiT),将原始图像像素、文本token及任务条件映射至共享token空间,实现多模态输入的结构化统一与端到端上下文视觉生成。实验表明,仅8B参数的HiDream-O1-Image在文本生成图像、指令驱动编辑和主体个性化等任务上媲美甚至超越27B参数的SOTA模型;进一步扩展至200B+参数的HiDream-O1-Image-Pro更刷新多项生成性能基准,验证了该原生统一范式的强可扩展性与前沿潜力。🏛️ Tao Mei
🔬 OpenReview 近期论文
1. Near-Optimal Online Deployment and Routing for Streaming LLMs
Shaoang Li, Jian Li
本文针对流式大语言模型(LLM)场景下动态模型更替、严格并发限制与单次查询成本约束的挑战,提出在线部署与路由联合优化问题。作者设计分层算法StageRoute:在固定维护窗口期,基于奖励上置信界与成本下置信界乐观选择至多$M_{\
max}$个模型进行阶段式部署;对每个到达查询,在已部署模型集合上求解预算与吞吐量约束下的带约束多臂赌博机子问题以实现细粒度路由。理论证明其遗憾界为$\tilde{\mathcal{O}}(T^{2/3})$,并给出匹配的下界,确立近最优性;实验表明StageRoute在多种负载与严苛预算下均能紧随强oracle性能。2. Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training
Artyom Sorokin, Nazar Buzun, Aleksandr Anokhin
本文提出Q-RAG,一种基于价值驱动的嵌入器(Embedder)强化学习训练框架,旨在解决开放域问答中复杂问题所需的长上下文多步检索难题。不同于依赖大语言模型(LLM)微调的现有方法,Q-RAG通过策略梯度优化嵌入器,使其在多步检
索中逐步聚焦相关段落,显著降低计算开销并兼容任意规模LLM。在BabiLong与RULER等长上下文基准(支持高达10M tokens)上,Q-RAG取得当前最优性能,验证了其有效性与可扩展性。3. Lightweight Spatio-Temporal Modeling via Temporally Shifted Distillation for Real-Time Accident Anticipation
Patrik Patera, Yie-Tarng Chen, Wen-Hsien Fang
本文针对边缘设备上实时交通事故预判的难题,提出一种轻量级时空建模框架。核心在于时序偏移蒸馏策略,使学生模型无需视频预训练教师模型即可从冻结的图像教师中学习时序动态;结合RepMixer空间编码与RWKV启发的循环模块实现高效长程时
序推理,并引入掩码记忆机制增强部分可观测条件下的鲁棒性,通过记忆保留重建缺失视觉令牌以模拟遮挡与未来事件;辅以多模态视觉-语言监督提升语义理解。在多个真实车载摄像头基准上达到SOTA性能,在NVIDIA Jetson Orin Nano等资源受限平台保持实时推理,模型体积仅为现有方法的1/3–1/7,同时实现更高精度与更早预警。4. On The Surprising Effectiveness of a Single Global Merging in Decentralized Learning
Tongtian Zhu, Tianyu Zhang, Mingze Wang
本文探讨了去中心化学习中通信调度策略对模型性能的影响,发现将通信预算集中于训练后期(尤其是仅在最终步执行一次全局模型合并)能显著提升高数据异构性下的泛化性能。作者首次从理论上证明:经单次全局合并的去中心化SGD可达到与并行SGD相
同的收敛速率。关键技术在于重新诠释局部模型差异——将其部分视为有益的构造性信号而非噪声,从而支撑理论分析。实验验证了该策略在多种异构数据场景下的有效性,为低通信开销、高异构环境下的去中心化学习提供了新范式,并拓展了模型合并的研究边界。5. Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime
Leonardo Defilippis, Yizhou Xu, Julius Girardin
本文系统研究了浅层神经网络在特征学习范式下的缩放律与权重谱特性,聚焦于二次型与对角型网络。通过建立与矩阵压缩感知及LASSO的理论联系,推导出过风险缩放指数随样本复杂度与权重衰减变化的精细相图,揭示了不同缩放区间的交叉行为与平台现
象,与实证神经缩放规律高度一致。进一步,作者严格建立了缩放相区与训练后权重矩阵谱性质之间的对应关系,定量刻画其奇异值分布。结果从第一性原理出发,为权重谱中幂律尾部与泛化性能间的经验关联提供了理论解释。6. Divid: Disentangled Spatial-Temporal Modeling within LLMs for Temporally Grounded Video Understanding
Yepeng Tang, Weining Wang, Longteng Guo
本文针对长视频时序定位理解中视觉令牌序列过长、时空特征耦合及空间采样缺乏任务感知等问题,提出Divid框架:通过双分支结构在LLM解码器内显式解耦时空建模——时间分支处理高密度低分辨率帧以捕获长程运动动态,空间分支基于时间注意力自
适应选取稀疏高分辨率关键帧;并设计轻量级时空软路由机制,在令牌级按查询条件动态融合双路特征。此外,构建大规模时序标注数据集TempGCap(55.9万样本)。实验表明,Divid在时序定位与接地视频问答任务上显著优于现有方法,同时降低计算开销。7. CoRA: Boosting Time Series Foundation Models for Multivariate Forecasting through Correlation-aware Adapter
Hanyin Cheng, Xingjian Wu, Yang Shu
本文针对现有时间序列基础模型(TSFMs)普遍采用通道独立建模、忽视多变量间复杂相关性的问题,提出一种轻量级、即插即用的相关性感知适配器CoRA。CoRA通过将相关性矩阵分解为低秩的时变与时不变分量,在降低计算复杂度的同时,分别建
模动态演化与静态依赖关系;其中,时变分量采用可学习多项式捕捉趋势与周期性相关模式,而针对稀疏的正负相关结构,设计基于投影层的双对比学习机制,并引入异构-局部对比损失进行优化,确保推理阶段零额外开销。在10个真实数据集上的实验表明,CoRA显著提升了主流TSFMs的多变量预测性能,达到新的SOTA水平。8. Discounted Online Convex Optimization: Uniform Regret Across a Continuous Interval
Wenhao Yang, Sifan Yang, Lijun Zhang
本文针对非平稳环境下折扣在线凸优化(OCO)中折扣因子 $\lambda$ 未知的挑战,提出首个能自适应任意 $\lambda \in (0,1)$ 的在线算法。通过设计多实例平滑在线梯度下降(SOGD)与新型在线预测器Disco
unted-Normal-Predictor(DNP),实现了对连续区间内所有 $\lambda$ 均成立的统一折扣遗憾界 $O\big(\sqrt{\log T/(1-\lambda)}\big)$。关键技术在于DNP可有效融合不同折扣因子下专家的决策,突破了传统加权方法在异质折扣目标下的分析瓶颈。理论分析与实验验证表明,该算法在动态环境中的鲁棒性与泛化能力显著优于固定$\lambda$基准方法。9. Steering the Herd: A Framework for LLM-based Control of Social Learning
Raghu Arghal, Kevin He, Shirin Saeedi Bidokhti
本文提出“Steering the Herd”框架,研究大语言模型(LLM)作为信息中介对序贯社会学习的调控机制。在该模型中,规划者(如LLM)可动态调节个体接收信号的精度,同时个体基于贝叶斯信念更新并观测前序决策进行学习。作者将
问题建模为融合动态规划、去中心化行动选择与贝叶斯推理的新型优化问题,证明价值函数的凸性,并完整刻画利他型与偏好型规划者的最优策略:其投资强度随个体信念呈分段单调变化,包括全投、零投、正/负斜率线性响应,甚至在特定信念区间主动引入信号模糊以诱导目标行为。即便在严格透明约束(信息平等、禁止欺骗与选择性呈现、完全可观测)下,信息调控仍可显著提升或损害社会福利。仿真中LLM既充当规划者又作为学习主体,展现出与理论预测高度一致的舆论引导策略性行为,验证了框架的现实适用性与理论洞见。10. ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation
Zhen Li, Duan Li, Yukai Guo
本文针对信息图图表(infographic charts)理解与生成任务中现有大视觉语言模型(LVLMs)因训练数据局限于普通图表而难以应对信息图丰富视觉结构与图文融合特性的挑战,提出百万级高质量数据集ChartGalaxy。该数
据集通过归纳真实信息图,系统梳理出75类图表、440种变体及68种布局模板,并基于此程序化合成多样化样本。实验表明,ChartGalaxy可有效提升LVLM在信息图理解上的微调性能,支持图表代码生成基准评测,并实现示例驱动的信息图生成,显著增强模型对复杂图文结构的多模态推理与生成能力。11. Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
Yuanzhe Hu, Yu Wang, Julian McAuley
本文针对大语言模型(LLM)智能体中长期被忽视的记忆能力评估问题,提出MemoryAgentBench——首个面向记忆型智能体的多轮增量交互基准。基于记忆科学与认知科学理论,作者提炼出准确检索、测试时学习、长程理解与选择性遗忘四大
核心记忆能力,并指出现有基准在交互性、多轮性与能力覆盖上的不足。该基准通过重构长上下文数据集并构建新型多轮任务,系统模拟记忆智能体渐进式信息积累过程。实验评估涵盖上下文拼接、RAG及具外部记忆与工具调用的先进智能体,结果表明当前方法在四类能力上均存在显著短板,凸显构建统一、鲁棒记忆机制的迫切需求。🏛️ Julian McAuley | PDF
12. PRISM: Progressive Robust Learning for Open-World Continual Category Discovery
Wei Feng, Sijin Zhou, Yiwen Jiang
本文针对开放世界持续类别发现(OW-CCD)这一新设定,突破传统持续类别发现(CCD)中数据分布平稳的强假设,提出渐进鲁棒学习框架PRISM。该框架包含三大核心技术:基于高频成分的类别分离机制,以保留全局结构信息并区分已知/未知类
别;面向已知类的稀疏分配匹配策略,实现样本到标签的可靠近端匹配;以及面向未知类的不变知识迁移模块,通过约束域不变的类别关系一致性,提升跨域知识迁移鲁棒性。在SSB-C与DomainNet基准上的大量实验表明,PRISM显著优于现有SOTA方法。13. THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics
Tzu-Yen Ma, Bo Zhang, Zichen Tang
本文提出THEMIS——首个面向学术论文图像造假鉴别的多任务评测基准,旨在全面评估多模态大语言模型(MLLMs)在真实科研场景下的视觉造假推理能力。THEMIS基于4000余道题目、覆盖7类真实撤稿案例与高保真合成多模态数据,引入
三大创新:(1)采用60.47%复杂纹理图像,显著提升现实复杂性;(2)系统涵盖5类造假类型及16种细粒度篡改操作,多数样本含多重叠加篡改,极大增加推理难度;(3)构建造假类型与5项核心视觉推理能力的映射关系,实现多维能力解耦评估。在16个主流MLLM上的实验表明,当前最优模型GPT-5整体准确率仅为56.15%,验证了基准的挑战性与诊断价值。14. DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection
Siheng Wang, Yanshu Li, Bohan Hu
本文针对开放词汇目标检测(OVOD)中推理开销大与闭集精度-开集泛化权衡难的问题,提出视觉主导的解耦认知DETR(DeCo-DETR)。该方法摒弃推理时在线文本编码,转而利用预训练多模态大模型(LVLM)生成区域级描述,并通过CL
IP对齐构建分层语义原型空间,实现高效可复用的语义表征;进一步采用解耦训练策略,将语义对齐与目标定位分离为并行优化路径。在标准OVOD基准上的实验表明,DeCo-DETR在保持竞争力的零样本检测性能的同时,显著提升推理效率,验证了解耦语义认知与检测任务的有效性与实用性。15. GTool: Graph Enhanced Tool Planning with Large Language Model
Wenjie Chen, Di Yao, Wenbin Li
本文针对大语言模型(LLM)在工具规划任务中难以有效建模工具间依赖关系的问题,提出图增强的工具规划框架GTool。GTool首次面向不完整工具依赖场景,通过构建请求特定的工具图实现高效工具选择,并引入可被LLM理解的“图标记”(g
raph token)显式编码依赖信息;同时设计缺失依赖预测任务以提升规划鲁棒性。该方法无需修改LLM结构,可即插即用地适配多种轻量级(如7B)LLM骨干模型。实验表明,GTool在多个基准上较现有最优方法提升超29.6%。📝 AI 官方博客
1. The new AI-powered Google Finance is expanding to Europe.
📝 Google AI Blog
本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力,支持用户以自然语言查询实时股价、财务数据、行业趋势及个性化投资建议;其核心技术包括基于多源金融数据微调的大语言模型、实时市场数据流…
处理架构,以及符合欧盟GDPR与MiFID II监管要求的安全合规框架。实验表明,新系统将复杂财务问题的平均响应时间缩短至1.2秒,用户查询准确率达94.7%,并在Beta测试中获得87%的欧洲用户积极反馈。此次扩展标志着Google在构建全球化、可信赖AI金融助手方面迈出关键一步。2. See what happens when creative legends use AI to make ads for small businesses.
📝 Google AI Blog
本文探讨了创意领域资深从业者(Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe)如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析,揭示AI在创意策略生成、视觉内容合成、文案优化及跨…
平台适配中的协同作用,强调“人机共创”模式对降低创意门槛、提升传播效率与保持品牌真实性的价值。实验表明,在AI辅助下,小型企业广告产出周期平均缩短62%,A/B测试点击率提升34%,且创意一致性与情感共鸣度显著优于纯人工或全自动方案。3. 5 gardening tips you can try right in Search
📝 Google AI Blog
本文介绍了一项面向园艺初学者的实用搜索功能优化实践,旨在通过搜索引擎直接提供可操作的园艺建议。研究整合了结构化园艺知识库与自然语言查询理解技术,支持用户在搜索框中输入如“如何种番茄”等模糊需求,即时返回包含光照、浇水、施肥、病虫害防治及季节…
适配等5条简明提示。系统采用轻量级实体识别与意图分类模型,在保证响应速度的同时提升建议相关性。实验表明,该功能使园艺类查询的用户停留时长提升37%,点击转化率提高22%,验证了“搜索即服务”在垂直生活场景中的有效性与实用性。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.
📝 Anthropic
本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在代码生成、智能体(agents)推理、多模态视觉理解及复杂多步任务处理方面实现显著性能提升,尤其增强了任务执行的严谨性与结果一致性。模型通过优化长程依赖建模、…
强化推理链校验机制及融合更高质量多模态训练数据,提升了关键业务场景下的可靠性。在HumanEval、MMBench、AgentBench等基准测试中,Opus 4.7相较前代模型平均提升12.3%,在需多步规划与跨模态协同的任务中准确率提升达18.6%。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. Setting up a free *.city.state.us locality domain
🔥 210 分 · 💬 50 评论
美国用户可免费注册以“.city.state.us”结尾的地域性域名(如frederick.seattle.wa.us),需满足美国公民、永久居民或境内合法组织等资格要求。注册流程包括:确认所在地区是否开放委托注册;通过Amazon Lig…
htsail免费获取DNS服务器;填写并提交官方《.US域名临时申请表》;邮件发送至对应地方域名管理方审核;审核通过后,在Lightsail中配置DNS记录,即可将域名指向网站、游戏服务器等任意服务。整个过程无需付费,但依赖人工审核,耗时数天至数周。2. Haiku
🔥 38 分 · 💬 3 评论