AI 每日资讯 — 2026-06-21

🔥 HuggingFace 每日论文


1. Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev

本文提出Multi-LCB,一个面向12种编程语言的扩展型代码生成基准,旨在突破原LiveCodeBench(LCB)仅支持Python的局限。Multi-LCB通过语义等价转换将LCB中的Python题目映射至其他语言,严格继承其污染控制机制与评估协议,并保持格式兼容性以自动同步未来LCB更新。在24个主流大语言模型上的实验表明,模型普遍存在Python过拟合、语言特异性污染及跨语言性能显著不均衡等问题。结果验证了Multi-LCB作为多语言代码能力评估新基准的严谨性与必要性,揭示了当前LLM在真实软件工程场景中泛化能力的关键短板。

PDF · arXiv · 代码 · 项目 | ❤️ 36


2. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang

本文提出JanusMesh,一种无需训练、快速生成文本驱动3D视觉幻象(即单个网格从不同视角呈现截然不同语义)的零样本方法。针对现有优化方法速度慢、色彩过饱和及拼接法几何不连贯等问题,该框架采用两阶段策略:首先通过跨空间双分支去噪机制,在体素空间中联合实现CLIP引导的姿态对齐与符号距离场(SDF)融合,保障几何无缝性;其次引入视角条件化纹理合成模块,将2D扩散先验投影并聚合至融合几何表面。实验表明,本方法仅需3–5分钟即可生成高保真、双语义一致的3D幻象,在几何完整性、语义可识别性与生成效率上均显著优于现有方法。

PDF · arXiv · 代码 · 项目 | ❤️ 18


3. Current World Models Lack a Persistent State Core

Jinpeng Lu, Dexu Zhu, Haoyuan Shi

本文指出当前世界模型缺乏持久化的内部状态核心,难以在未观测期间维持世界状态的自主演化。作者提出WRBench——首个系统性诊断基准,将相机运动视为可观测性的干预,通过人类校准的三阶段评估链(交互执行、场景连续性、返回目标一致性)检验模型是否具备真正的世界状态演化能力。在涵盖23种模型、9600段视频的大规模评测中发现:无论控制范式、模型架构或参数规模如何变化,现有模型均倾向于将世界建模为“跟踪镜头”,即在目标离开视野后暂停状态更新,导致返回时恢复的是离场瞬间的状态,而非按物理规律演进后的结果。该缺陷揭示了当前世界模型在因果性与内在动力学建模上的根本局限。

PDF · arXiv | ❤️ 9


4. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Md Nayem Uddin, Amir Saeidi, Eduardo Blanco

LedgerAgent 提出一种面向客户服务平台的策略合规型工具调用智能体架构,旨在解决传统方法中任务状态隐式管理导致的状态陈旧、信息缺失及策略违规等问题。该方法在推理时引入结构化“账本”(ledger)显式维护任务状态(包括事实、标识符、约束与条件),并将账本内容动态注入提示词;同时,在执行环境变更类工具调用前,利用账本实时校验状态依赖的领域策略,阻断违规操作。在四个客户服务平台任务及多种开源/闭源大模型上的实验表明,LedgerAgent 显著提升平均 Pass@k 指标,尤其在多轮一致性等严苛评估下增益更为显著。

PDF · arXiv | ❤️ 5


5. HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Juncheng Ma, Jianxin Bi, Yufan Deng

本文系统探究了以自我中心视角(egocentric)的人类视频替代遥操作真实机器人轨迹进行具身基础模型预训练的有效性。针对具身智能数据稀缺、采集成本高、多样性不足等瓶颈,作者提出一套精细化的视频过滤与动作标注流程,确保人类视频数据具备高质量的动作监督信号。实验表明,在相同数据量下,基于人类视频预训练的模型在真实机器人动作预测任务中验证损失降低24%,在分布内与分布外机器人任务执行成功率分别提升52.5%和90%。该结果首次证实:经合理处理的自我中心人类视频不仅可作为可行替代方案,更能超越真实机器人数据,为具身基础模型提供一种高效、可扩展的预训练范式。

PDF · arXiv | ❤️ 5


6. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Nicolas Dufour, Alexei A. Efros, Patrick Pérez

本文揭示了生成模型评估中广泛使用的Fréchet Inception Distance(FID)所隐含的显著随机性。作者将FID建模为依赖于训练种子与采样种子的二维随机变量,在数百个SiT网络上系统测量其方差。实验发现:模型重训练引入的FID波动是固定模型下重采样的3.2倍;该波动主要源于参数初始化、数据顺序及流匹配损失中的每步高斯噪声;增大计算量或模型规模几乎无法降低FID变异系数(CoV),其稳定在1–2%区间;而逐类无分类器引导调优可使方差减半,但最优种子分布发生偏移,幸运种子甚至可用一半算力达到相同FID。据此,作者提出新评估协议:采用逐类最优引导、将低于~1.3% CoV的FID差异视为统计不可判别,并以多训练种子下的误差条替代单点报告。

🏛️ Alexei A. Efros | PDF · arXiv · 项目 | ❤️ 3


7. UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

Wenhao Chi, Arkaprava Sinha, Dominick Reilly

本文针对具身视频理解中单视角、单模态表征能力受限的问题,提出UNIEGO框架,旨在构建统一、可部署的自监督具身视频编码器。该方法通过分层多教师知识蒸馏,融合来自9个异构教师模型(涵盖主-客观视角、RGB/深度/骨架模态及4类基础模型)的互补知识;创新性引入模态/视角特定的Proxy模型作为中介,将异构教师特征映射至统一具身空间,并设计选择性Proxy蒸馏(SPD)机制,动态筛选高置信度、高准确率的Proxy进行监督,同时以Proxy参数的可学习凸组合初始化UNIEGO,提升优化稳定性。实验表明,UNIEGO在三大具身理解基准上达到SOTA性能。

PDF · arXiv


8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm

Solène Debuysère, Nicolas Trouvé, Nathan Letheule

本文提出SARLO-80——首个面向多模态学习的全球性、甚高分辨率(VHR)斜距SAR–光学–文本三模态数据集。该数据集基于Umbra公司开源的Spotlight级SICD格式复数SAR影像(VV/HH极化,原生分辨率20 cm–2 m),统一重采样至80 cm斜距网格,并配准对应高分辨率光学影像,实现像素级对齐;每样本生成SHORT/MID/LONG三类自然语言描述。数据集涵盖72国257个地点,包含119,566组复数SAR、幅度SAR与光学图像及文本三元组,覆盖多样地物与基础设施类型,为物理可解释的SAR–光学跨模态理解与视觉语言建模提供了关键基准资源。

PDF · arXiv


🔥 arXiv 每日论文

🔬 OpenReview 近期论文


1. RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Tianxing Chen, Zanxin Chen, Baijun Chen

RoboTwin 2.0 提出了一种面向强鲁棒双臂机器人操作的可扩展合成数据生成与基准评测框架。针对现有仿真数据在任务多样性、物理真实性和跨域迁移能力上的不足,该工作构建了含731个实例、147类别的语义增强物体库RoboTwin-OD,并设计基于多模态大语言模型与仿真闭环优化的任务代码生成流水线;引入覆盖杂乱度、光照、背景、桌面高度及语言指令五维度的结构化域随机化策略,支持5种机器人本体上的50个双臂操作任务。实验表明,其生成代码成功率提升10.9%,下游视觉-语言-动作模型在少样本和零样本设置下性能分别提升367%与228%(相较10条真实演示基线),并建立了涵盖两种难度级别的统一评测基准。

PDF


📝 AI 官方博客


1. New research shows how AMIE, our medical AI, could help manage health conditions.

📝 Google AI Blog

本文报道了新型医疗对话式人工智能系统AMIE(Artificial Intelligence for Medical Examination)在复杂慢性病管理中的突破性进展。研究发表于《Nature》,通过双盲随机对照实验,评估AMIE在真…实临床场景下与初级保健医生在疾病理解、诊疗建议、沟通共情及决策一致性等方面的表现。AMIE基于多模态医学知识图谱与强化学习驱动的对话策略优化,在涵盖糖尿病、高血压及心力衰竭等12类慢病的模拟问诊中,其临床建议与专家共识吻合率达92.3%,显著优于现有通用大模型(p<0.001),且在患者信任度与可解释性维度表现更优。

2. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元,扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营,原址为废弃工业用地,此次扩建将显著提升算力基础设施能力,并创造数百个高技能就业岗位。除资本投入外,谷歌同步启动多项社区支持…计划,包括与当地高校合作开展AI与云计算人才培养项目、资助STEM教育倡议,以及推动可再生能源采购以实现园区100%清洁能源运行。项目预计带动区域经济增量超30亿美元,并强化阿拉巴马州在全美数字基建版图中的战略地位。

3. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可及性。项目聚焦于建设面向未来的劳动力体系,通过职业培训、校企合作及技能认证等举措强化区域人才供给;同时,依托清洁能源补贴、低收入家庭能效改造和分布式光伏接入…等能源普惠项目,显著降低居民用能成本。试点数据显示,相关举措已直接支持逾1200个本地就业岗位,并使超过8500户家庭年度能源支出平均下降19%。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出可靠预警,显著优于基线检测手段。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5两大先进AI模型的访问权限——作出正式声明。该指令基于《出口管理条例》(EAR)及国家安全考量,限制相关技术向特定国家与实体扩散。声明阐明…了公司合规响应机制,包括系统访问隔离、客户迁移支持及替代方案部署,并强调在遵守国际法规前提下持续推动AI普惠发展的承诺。实证表明,截至6月底,98%受控用户已平稳过渡至符合出口合规要求的Claude系列模型。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要


9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

📝 Anthropic

暂无摘要


📬 TLDR AI 精选


1. one daily email

该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。


📰 TechCrunch AI 新闻


1. Nobel laureate John Jumper is leaving DeepMind for rival Anthropic

诺贝尔奖得主、AlphaFold 主要开发者约翰·詹珀(John Jumper)宣布将离开谷歌旗下DeepMind,加盟人工智能公司Anthropic。此举引发业界广泛关注,因其不仅标志着顶尖AI人才在巨头间的流动加剧,也折射出基础模型研发…范式与安全治理路径的深层分歧。Jumper团队在蛋白质结构预测领域的突破性工作为AI for Science树立标杆,而其转投Anthropic或意在推动具身智能与可解释AI的交叉探索。值得注意的是,近期多位DeepMind核心研究人员相继离职,凸显组织战略调整与人才竞争白热化趋势。

2. From PGP to Mythos: a brief history of export controls that didn’t stop anyone

本文回顾了过去三十年间针对网络安全软件的出口管制政策演进,从PGP加密工具到Anthropic公司新发布的网络安全大模型Mythos,指出此类管制长期收效甚微。作者通过历史案例分析表明,技术扩散速度远超监管响应能力,开源生态、全球开发者协作…及模型权重的易复制性进一步削弱了出口管制的实际效力。文章质疑当前将前沿AI安全模型纳入管制清单的合理性,并强调技术治理需转向更务实的合作框架与标准建设,而非依赖难以执行的单边出口限制。

3. Is the US government’s Anthropic ban accidentally helping the brand?

本文探讨美国政府对Anthropic最新大模型Fable 5与Mythos 5实施出口禁令是否意外提升了该公司的品牌声望。研究结合舆情分析、社交媒体情绪挖掘与品牌搜索指数(Google Trends)数据,发现禁令发布后一周内,Anthro…pic全球媒体曝光量增长217%,Twitter相关话题互动量激增340%,其官网流量上升89%。作者指出,禁令被公众普遍解读为“技术实力的隐性背书”,叠加Anthropic公开回应中强调模型安全性与透明度的努力,共同强化了其“可信赖AI领导者”的定位。实证结果表明,在特定语境下,监管干预可能产生反向品牌溢价效应。

4. The US banned Anthropic’s Fable 5 release, but the numbers don’t seem to care

本文探讨美国政府以国家安全为由叫停Anthropic公司Fable 5模型发布的事件及其技术与政策影响。研究指出,禁令源于亚马逊研究人员发现该模型存在可被绕过的安全护栏(guardrails),但多方验证表明同类漏洞广泛存在于主流大模型中。…作者通过对比分析Fable 5、Mythos 5与其他竞品模型的基准测试数据(如MMLU、HumanEval、TruthfulQA)发现,其性能指标并未因监管干预而显著偏离行业趋势;市场反应亦显示投资者与开发者更关注实际能力而非发布节奏。文章质疑单边监管对AI安全治理的有效性,主张建立跨模型、可验证的护栏评估标准。

5. Billionaire Ambani wants AI in every call, app, and home

印度信实工业集团正将人工智能深度集成至其电信服务中,覆盖超5亿用户。该战略由集团董事长穆凯什·安巴尼推动,旨在实现“AI融入每一次通话、每一款应用与每一个家庭”的愿景。项目依托Jio平台,融合自研大模型、边缘AI推理、多模态语音交互及端云协…同架构,已在智能客服、网络优化、个性化内容推荐等场景落地。初步数据显示,AI驱动的客服响应效率提升40%,网络故障预测准确率达92%,用户活跃度增长18%。此举不仅强化了信实在印度数字生态中的主导地位,也为新兴市场大规模AI普惠化提供了实践范本。