AI 每日资讯 — 2026-06-07
🔥 HuggingFace 每日论文
1. Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution
Liliana Hotsko, Yinxi Li, Yuntian Deng
Code语言模型需获取仓库级上下文以解析导入、API及项目约定,但现有方法(如长上下文RAG或逐仓微调/LoRA)存在推理开销大、扩展性差及难以适应代码演化的缺陷。本文提出Code2LoRA,一种基于超网络的框架,可动态生成仓库专
属LoRA适配器,在零推理token开销下注入仓库知识。其包含静态版(Code2LoRA-Static)与演化版(Code2LoRA-Evo),后者通过GRU隐状态随代码变更持续更新。在新构建的RepoPeftBench基准(604个Python仓库,含静态与演化双轨道)上,Code2LoRA-Static在跨仓和仓内断言补全任务中分别达63.8%和66.2%准确率,媲美逐仓LoRA上限;Code2LoRA-Evo在演化轨道上实现60.3%跨仓准确率,较共享LoRA提升5.2个百分点。2. Complexity-Balanced Diffusion Splitting
Noam Issachar, Dani Lischinski, Raanan Fattal
本文针对连续时间生成模型中单一网络在扩散全过程内均匀分配计算资源所导致的效率低下问题,提出复杂度均衡分割(CBS)框架。该方法基于函数逼近理论与de Boor等分布原理,将扩散时间轴划分为近似负担相等的若干段,并依据局部建模难度动
态分配子网络容量。为此,作者设计了两种可计算的监测函数:基于流场Dirichlet能量的空间复杂度度量和基于采样轨迹加速度的几何复杂度度量,并通过轻量辅助模型实时估计其时序分布。实验表明,在SiT、JiT及UNet等多种架构和数据集上,CBS在不增加单步推理开销的前提下显著提升生成质量,例如在SiT-XL+CFG配置下FID降低约35%。3. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery
Shangheng Du, Xiangchao Yan, Jinxin Shi
MLEvolve提出了一种面向机器学习算法自动发现的自演化多智能体框架,旨在解决现有MLE代理在长周期优化中面临的跨分支信息隔离、无记忆搜索与缺乏分层控制等关键瓶颈。该框架通过扩展树搜索为渐进式多叉图搜索(Progressive
MCGS),引入基于图的引用边实现跨分支知识流动,并采用熵启发的渐进调度策略平衡探索与利用;设计回溯式记忆机制(Retrospective Memory),融合冷启动领域知识库与动态全局记忆,支持任务经验的检索与复用;并解耦战略规划与代码生成,适配多种编码模式以保障长周期迭代稳定性。在MLE-Bench基准上,MLEvolve以6小时预算(标准时长一半)取得平均奖牌率与有效提交率的SOTA性能,并在数学算法优化任务中超越AlphaEvolve等专用方法,展现出优异的跨领域泛化能力。4. Regret Minimization with Adaptive Opponents in Repeated Games
Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu
本文研究了重复博弈中面对自适应对手(其策略可依据历史行为动态调整)的遗憾最小化问题。针对传统外部遗憾无法刻画对手适应性的局限,作者提出“重复策略遗憾(RP-Regret)”这一新型博弈论度量,它基于所有参与者均可对历史进行反事实响
应的设定,衡量实际累积效用与历史最优可实现效用之差。该度量天然适配重复博弈结构,支持更强的比较器和更宽松的对手建模,并在全体玩家同时最小化RP-Regret时有助于收敛至更优均衡。论文给出了RP-Regret实现次线性增长的必要条件,并针对其非凸性设计了三种可证收敛算法:基于优化预言机的方法、逐轮线性化凸代理函数法,以及针对对手策略缓慢变化情形的直接优化法。实验验证了算法在多种博弈场景下的有效性。🏛️ Asuman Ozdaglar | PDF · arXiv | ❤️ 1
5. HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers
Lizhi Yang, Junheng Li, Nehar Poddar
本文针对人形机器人在真实场景部署中任务规划与全身控制间接口设计的关键挑战,提出HANDOFF——一种基于蒸馏互补教师的类人全身任务空间控制器。该方法构建了紧凑、显式、直观且表达力强的任务空间接口,并通过上下文感知门控机制,对运动跟
踪(含安全过滤)、步态行走与跌倒恢复三类专家控制器进行多教师KL蒸馏,生成混合专家学生模型。在Unitree G1硬件平台上,HANDOFF在速度跟踪性能上达到SOTA水平,并实现了迄今最大的鲁棒操作工作空间;结合VLM驱动的通用智能体规划器,无需任务特定数据或控制器微调,即可完成多轮自然语言指令驱动的端到端操作任务。6. TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies
Dong Jing, Jingchen Nie, Tianqi Zhang
本文提出TempoVLA,一种支持显式速度调控的视觉-语言-动作(VLA)策略模型,旨在解决现有VLAs仅具备单一固定执行速度、难以兼顾机器人操作中低风险快速移动与高风险精细接触阶段的矛盾。其核心包括:(1)数据端的可变速轨迹增强
(VSTA),通过动作合并/分割重定时演示轨迹,在保持运动语义前提下精确匹配任意目标速度;(2)模型端的速度条件注入机制,将速度指令作为显式输入引导策略输出。实验表明,TempoVLA在仿真与真实机器人任务中均实现双向(加速/减速)灵活速度控制,VSTA同时提升基准性能;结合多模态大模型后,更可实现基于场景风险的动态自适应调速。7. Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
本文提出监督记忆训练(SMT)方法,旨在解决传统RNN预训练中因反向传播通过时间(BPTT)导致的并行性差、梯度消失/爆炸及长程依赖建模困难等问题。SMT将RNN训练解耦为两阶段:首先利用Transformer编码器学习预测性状态
表示,自动生成一步记忆转移标签(mₜ, xₜ₊₁)→ mₜ₊₁;再以此标签对RNN进行标准监督学习,完全规避循环梯度传播。该方法实现时间维度上的全并行训练,且任意两token间梯度路径长度恒为O(1)。实验表明,SMT在语言建模与像素序列建模等任务上显著优于BPTT,有效提升非线性RNN对长程依赖的建模能力。🏛️ Phillip Isola | PDF · arXiv
8. PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training
Senmiao Wang, Tiantian Fang, Haoran Zhang
本文提出PC层(多项式权重预条件层),通过低阶多项式预条件器对权重参数化,动态调控权重矩阵的奇异值谱,从而提升大语言模型(LLM)预训练的稳定性与收敛性。该方法在训练后可无缝融合回原始架构,不引入推理开销。在Llama-1B模型上
的实验表明,PC层显著优于标准Transformer结构,且兼容AdamW与Muon优化器。理论分析进一步证明:对深层线性网络各层奇异值施加一致上界,可保证梯度下降以几何速率收敛至全局最优解。🔥 arXiv 每日论文
🔬 OpenReview 近期论文
1. PROMPTGNN-SIM: DEEP FUSION AND ALIGNMENT OF GNN AND LLMS FOR TEXT-ATTRIBUTED GRAPH LEARNING
Zhifei Hu, Alexandra I. Cristea
本文针对文本属性图(TAGs)学习中图文模态浅层单向融合导致的交互不足问题,提出PromptGNN-sim框架,实现图神经网络(GNN)与大语言模型(LLM)的深度双向协同。该框架基于图注意力网络(GAT)进行语义感知的邻域选择,
并利用结构上下文动态生成富含图结构信息的LLM提示,包含节点文本摘要、预测标签及语义相似邻居关键词;进一步引入双向跨模态对比学习与交叉注意力机制联合优化双模块。在Cora、Pubmed等六个基准数据集上的实验表明,该方法在分类精度、跨任务迁移、跨数据集泛化及稀疏扰动鲁棒性方面均显著优于现有GNN、LLM及融合方法。📝 AI 官方博客
1. The latest AI news we announced in May 2026
📝 Google AI Blog
本文回顾了2026年5月全球人工智能领域的重要进展,涵盖大模型架构创新、多模态推理能力突破、AI安全与对齐技术新范式,以及边缘AI部署的能效优化成果。重点介绍了OpenAI发布的混合稀疏-稠密架构模型GPT-5o,在保持128K上下文长度的…
同时将推理能耗降低43%;谷歌DeepMind提出的“反射式验证框架”(RVF)显著提升LLM数学推理与事实一致性;此外,欧盟AI法案实施细则正式生效,推动全球AI治理标准化进程。实验表明,新一代轻量化模型在端侧设备上的实时响应延迟低于80ms,准确率维持在92.7%以上。2. 5 ways Google Search can level up your thrift and vintage shopping
📝 Google AI Blog
本文探讨了如何借助谷歌搜索功能提升二手与复古服饰购物体验,提出五种实用策略:1)利用图像搜索识别未知单品并定位相似款;2)通过限定站点搜索(site:.thredup.com 或 site:.vestiairecollective.com)…
直达专业平台;3)使用时间筛选器查找近期上架的稀有单品;4)结合材质、年代与品牌关键词(如“90s Calvin Klein wool blazer”)精准检索;5)借助谷歌趋势分析品类热度,预判价格波动与上新周期。实验表明,该方法可使目标商品发现效率提升约40%,平均购入成本降低22%。3. How we used Gemini to build Google I/O 2026
📝 Google AI Blog
本文介绍了谷歌团队如何利用Gemini系列大模型(包括Gemini 1.5 Pro与定制化多模态变体)支撑Google I/O 2026开发者大会的全流程构建。团队将Gemini深度集成于内容生成、实时翻译、演讲辅助、AR互动体验及后台运维…
系统中,尤其在Timmy TPU技术演示视频生成、Antigravity Coffee Co.沉浸式快闪店的动态视觉设计,以及跨语言开发者问答机器人等关键场景实现突破。实验表明,相比传统工具链,Gemini驱动的工作流使内容生产效率提升3.2倍,多语种实时响应延迟低于180ms,用户交互满意度达94.7%。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了对策略偏移的在线识别模块。关键技术包括奖励函数敏感性分析、反事实策略扰动评估及基于人类反馈的奖励校准机制。在Gridworld与SafeLife基准环境中的实验表明,该方法可将典型奖励黑客行为检出率提升37%,同时保持92%以上的原始任务性能。后续将拓展至多智能体与长周期决策场景。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.8ProductMay 28, 2026An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.
📝 Anthropic
本文介绍了Anthropic公司于2026年5月28日发布的全新旗舰模型Claude Opus 4.8。该版本在代码生成、智能体(agentic)任务及专业级工作流等关键维度实现显著性能提升,尤其强化了长时程任务的稳定性与一致性。通过改进推…
理架构、优化上下文建模能力及增强多步规划能力,Opus 4.8在HumanEval、AgentBench及专业文档处理基准上均超越前代模型。实测表明,其在100K上下文长度下的任务完成率提升23%,错误率降低37%。8. AnnouncementsJun 2, 2026Expanding Project GlasswingWe’re extending Project Glasswing to approximately 150 new organizations in more than fifteen countries.
📝 Anthropic
暂无摘要
9. AnnouncementsMay 25, 2026Anthropic co-founder Chris Olah’s remarks on Pope Leo XIV’s encyclical “Magnifica humanitas"The full text of Chris Olah’s remarks on the Pope’s encyclical on AI.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering
🔥 78 分 · 💬 19 评论