AI 每日资讯 — 2026-06-22
🔥 HuggingFace 每日论文
1. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang
本文提出JanusMesh,一种无需训练、快速生成文本驱动3D视觉幻觉(即单个网格从不同视角呈现截然不同语义)的框架。方法分为两阶段:首先通过跨空间双分支去噪机制,将3D潜在表示动态解码至体素空间,联合CLIP引导的方向对齐与符号
距离场(SDF)融合,保障几何无缝一致性;其次引入视角条件纹理合成模块,将视角特异的2D扩散先验投影并聚合到融合几何上。实验表明,该方法仅需3–5分钟即可生成高保真、双语义3D幻觉,在几何完整性、语义可识别性与运行效率上显著优于现有方法。2. Current World Models Lack a Persistent State Core
Jinpeng Lu, Dexu Zhu, Haoyuan Shi
本文指出当前世界模型缺乏持久化的内部状态核心,难以在未被观测时持续演化物理世界状态。作者提出WRBench——首个系统性诊断基准,将相机运动视为可观测性的干预,通过人类校准的三阶段评估链(交互执行、场景连续性、返回目标一致性)检验
模型是否具备真正的世界状态演化能力。在涵盖23种模型、9600段视频的广泛实验中发现:无论控制范式、模型架构或参数规模如何,现有模型均表现为“跟踪镜头”式行为,即在目标离开视野后不推进事件演化,返回时仍恢复至离场时刻的状态。该缺陷揭示了世界模型向通用人工智能迈进的关键瓶颈。3. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
Md Nayem Uddin, Amir Saeidi, Eduardo Blanco
LedgerAgent 提出了一种面向策略合规型工具调用智能体的结构化状态管理方法,旨在解决客服领域中任务状态隐式维护导致的决策偏差与策略违规问题。该方法将用户交互与工具返回中提取的事实、标识符、约束及条件显式存入独立的“账本”(
ledger),并在推理时动态注入提示词;同时利用账本实时校验状态依赖型策略,在执行环境变更类工具前阻断违规调用。在四个客服场景及多种开源/闭源大模型上的实验表明,LedgerAgent 显著提升了平均 Pass@k 指标,尤其在多轮一致性等严苛评估下增益更为突出。4. HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
Juncheng Ma, Jianxin Bi, Yufan Deng
本文系统探究了以第一人称视角人类视频(egocentric human video)替代遥操作真实机器人轨迹(teleoperated real-robot trajectories)作为具身基础模型预训练数据的有效性。针对现有方
法受限于真实机器人数据采集成本高、多样性低的问题,作者设计了一套严谨的过滤与标注流程,对人类视频进行动作语义对齐与质量筛选。实验表明,在相同数据量和统一后训练/验证协议下,基于人类视频预训练的模型在真实机器人动作预测任务中验证损失降低24%,在分布内与分布外机器人任务执行成功率分别提升52.5%和90%。该结果证实,高质量处理的第一人称人类视频不仅可替代真实机器人数据,更能实现更优的具身泛化能力,为具身智能提供了一条高效、可扩展的预训练新范式。5. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
Nicolas Dufour, Alexei A. Efros, Patrick Pérez
本文揭示了生成模型评估中广泛使用的Fréchet Inception Distance(FID)所隐含的显著随机性。作者将FID建模为依赖于训练种子与采样种子的二维随机变量,在数百个SiT网络上系统量化其方差。实验发现:模型重训练
引入的FID波动是固定模型下重采样的3.2倍;该波动主要源于参数初始化、数据顺序及流匹配损失中的逐步高斯噪声;增大计算量或模型规模几乎无法降低FID变异系数(CoV),其稳定在1–2%区间;而单元级无分类器引导调优可使方差减半,但最优种子分布发生偏移,幸运训练种子甚至可用一半算力达到相同FID。据此,作者提出新评估协议:采用单元级最优引导、将低于~1.3% CoV的FID差异视为统计不可判别,并以多训练种子下的误差条替代单点报告。🏛️ Alexei A. Efros | PDF · arXiv · 项目 | ❤️ 4
6. MemoryWAM: Efficient World Action Modeling with Persistent Memory
Sizhe Yang, Juncheng Mu, Tianming Wei
本文提出MemoryWAM,一种具备高效持久记忆能力的世界动作模型(WAM),旨在解决现有WAM在非马尔可夫环境中难以兼顾长时记忆与推理效率的根本矛盾。MemoryWAM采用混合记忆架构,融合近期帧、事件边界锚帧与压缩的长程摘要标
记(gist tokens),并设计定制化注意力机制,实现短时细节与长时语义的协同检索。实验表明,其在仿真与真实世界中的长视野、记忆依赖型操作任务上,显著优于主流视觉-语言-动作(VLA)及WAM基线,同时降低推理延迟与GPU显存占用。7. UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
Wenhao Chi, Arkaprava Sinha, Dominick Reilly
本文针对自我中心视频理解中单视角、单模态表征能力有限的问题,提出UNIEGO框架,旨在构建一种可仅由自我中心视频驱动的统一表征学习范式。该方法设计了分层多教师蒸馏架构:首先引入模态与视角特定的Proxy模型,将来自9个异构教师(涵
盖自我/第三人称视角、RGB/深度/骨架模态及4种基础模型)的知识映射至统一的自我中心特征空间;继而提出选择性Proxy蒸馏(SPD),依据样本级置信度与正确性动态筛选可靠监督信号,并以Proxy参数的可学习凸组合初始化学生模型,提升优化稳定性。实验表明,UNIEGO在三大自我中心视频理解基准上均达到SOTA性能。8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm
Solène Debuysère, Nicolas Trouvé, Nathan Letheule
本文提出SARLO-80——首个面向多模态学习的全球性、甚高分辨率(VHR)斜距SAR–光学–文本三模态数据集。该数据集基于Umbra公司开源的Spotlight模式SICD格式复数SAR影像(VV/HH极化,原生分辨率20 cm
–2 m),统一重采样至80 cm斜距网格,并配准对应高分辨率光学影像;采用局部坐标映射实现像素级对齐,每样本生成SHORT/MID/LONG三类自然语言描述。数据集涵盖72国257个地点,包含119,566组复数SAR、幅度SAR与光学影像及文本三元组,覆盖多样地物与基础设施。数据已划分固定训练/验证集并公开发布。🔥 arXiv 每日论文
📝 AI 官方博客
1. New research shows how AMIE, our medical AI, could help manage health conditions.
📝 Google AI Blog
《自然·社会》刊发的新研究证实,谷歌开发的医疗对话式AI系统AMIE在复杂慢性病管理任务中,表现与初级保健医生相当。该系统基于多模态大模型架构,融合临床指南、真实世界电子健康记录及医患对话数据进行端到端训练,具备疾病推理、风险分层与个性化干…
预建议能力。研究采用双盲随机对照设计,在涵盖糖尿病、高血压等六类常见慢病的模拟诊疗场景中,由专业评审团评估其临床合理性、沟通质量与决策安全性。结果显示,AMIE在诊断准确性(89.2% vs. 88.7%)、患者共情评分(4.6/5 vs. 4.5/5)及治疗方案合规性(93.1% vs. 92.4%)方面均非劣于人类医师(p<0.001)。2. We’re strengthening our presence in Alabama through new investments and community support.
📝 Google AI Blog
谷歌宣布将在2026—2027年投资15亿美元,扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营,原址为废弃工业用地,此次扩建将显著提升算力基础设施能力,并创造数百个高技能就业岗位。除资本投入外,谷歌同步启动多项社区支持…
计划,包括与当地高校合作开展AI与云计算人才培养项目、资助STEM教育倡议,以及推动可再生能源采购以实现园区100%清洁能源运行。项目预计带动区域经济增量超30亿美元,并强化阿拉巴马州在全美数字基建版图中的战略地位。3. Our new community investments in Virginia support local jobs and expand energy affordability.
📝 Google AI Blog
本文介绍了公司在弗吉尼亚州开展的新一轮社区投资计划,旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍,通过职业培训、校企合作及技能认证支持青年和转型从业者;同时资助分布式清洁能源接入、低收入家庭能效升级及社区微电网…
试点等能源公平项目。实证数据显示,首批投资已带动超1,200个本地就业岗位,并使3.5万户家庭年度能源支出平均降低18%。该模式为能源企业参与区域可持续发展提供了可复制的政企协同实践路径。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(Reasoning Interpolation)的早期预警方法,用于在强化学习训练过程中提前识别奖励欺骗(Reward Hacking)现象。核心思想是利用重要性采样(Importance Sampling),结合…
经微调的“捐赠者”预填充(donor prefills)生成语义连贯的中间推理轨迹,并通过插值分析策略行为在奖励函数边界附近的异常偏移。该方法无需修改训练流程或访问真实奖励梯度,仅依赖离线策略快照即可实现高精度预测。在多个基于LLM的RLHF任务中,本方法平均提前37%的训练步数检测到奖励欺骗,误报率低于8.2%,显著优于基线探测器。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.
📝 Anthropic
本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5两大先进AI模型的访问权限——作出正式声明。该指令基于《出口管理条例》(EAR)及国家安全考量,限制相关技术流向特定国家与实体。声明阐明了…
公司合规响应机制,包括立即中止服务接入、启动替代方案评估,并强调在遵守国际法规前提下持续支持全球科研与公益应用。文中还概述了过渡期技术支持框架与透明度承诺,旨在平衡安全监管与技术创新可持续性。8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.
📝 Anthropic
暂无摘要
9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。