AI 每日资讯 — 2026-06-23
🔥 HuggingFace 每日论文
1. JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang
本文提出JanusMesh,一种无需训练、快速生成文本驱动3D视觉幻象的新框架。针对现有方法在几何一致性、语义隔离与生成效率上的不足,该方法采用两阶段策略:首先通过跨空间双分支去噪机制,在体素空间中协同实现CLIP引导的方向对齐与
符号距离场(SDF)融合,保障几何无缝性;其次引入视角条件化纹理合成模块,将多视角2D扩散先验投影并聚合至融合几何表面。实验表明,JanusMesh可在3–5分钟内生成高保真、双语义一致的3D幻象,在几何完整性、语义可识别性与运行效率上显著优于现有方法。2. Current World Models Lack a Persistent State Core
Jinpeng Lu, Dexu Zhu, Haoyuan Shi
本文指出当前世界模型缺乏持久化的内部状态核心,难以在无观测条件下持续演化物理世界状态。作者提出WRBench——首个系统性诊断基准,将相机运动视为可观测性的干预,并从交互执行、场景连续性与目标一致性三方面评估模型的世界状态演化能力
。实验涵盖23种模型、9600段视频及四种控制范式,结果一致表明:现有模型仅维持“跟踪镜头”式表观连贯性,当目标短暂离开视野后返回时,其状态未随未观测时段推进,而是直接恢复至消失时刻的状态。该缺陷跨架构、跨规模普遍存在,表明鲁棒的世界状态演化无法仅通过模型扩容或训练优化自然获得。3. The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
Nicolas Dufour, Alexei A. Efros, Patrick Pérez
本文揭示了生成模型评估中广泛使用的Fréchet Inception Distance(FID)存在显著的隐式随机性。作者将FID建模为依赖于训练种子与采样种子的二维随机变量,在数百个SiT模型上系统量化其方差。实验发现:模型重训
练引入的FID波动是固定模型重采样的3.2倍;该差异主要源于随机初始化、数据排序及流匹配损失中的高斯噪声;增大计算量或模型规模几乎无法降低FID的变异系数(CoV),其稳定在1–2%区间;而逐类无分类器引导调优可使方差减半,但最优种子组合随之改变,幸运种子甚至可用一半算力达到相同FID。据此,作者提出新评估协议:采用逐类最优引导、将低于~1.3% CoV的FID差异视为统计不可判别,并以多训练种子下的误差条替代单点报告。🏛️ Alexei A. Efros | PDF · arXiv · 项目 | ❤️ 6
4. LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
Md Nayem Uddin, Amir Saeidi, Eduardo Blanco
LedgerAgent 提出一种面向策略合规型工具调用智能体的结构化状态管理方法,旨在解决客服领域中任务状态隐式维护导致的决策偏差与策略违规问题。该方法将任务状态(包括事实、标识符、约束与条件)显式存储于独立的“账本”(ledge
r)中,并在推理时动态注入提示词;同时利用账本实时校验状态依赖型策略,在执行环境变更类工具调用前拦截违规操作。在四个客服场景及多种开源/闭源大模型上的实验表明,LedgerAgent 显著提升平均 Pass@k 指标,尤其在多轮一致性要求更严格的评估下增益更为显著。5. StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal
本文提出StylisticBias基准,旨在细粒度解析多模态大语言模型(MLLMs)中由视觉线索驱动的社会偏见。该基准通过生成500个基础人脸及每张脸约50种单属性变化(共25K图像),在严格控制身份不变的前提下,系统性地量化各视
觉属性对模型社会判断的影响。实验评估6个主流MLLM在25类二元社会判断任务中的表现,发现年龄与体型主导身份层面偏差,而服饰风格等视觉属性引发最强的属性级偏差;约15个属性贡献了近80%的总体偏差变异,且偏差强度在语义上与外观高度相关的判断(如社会经济地位、风格评价)中最为显著。本工作为MLLM偏见分析提供了可解释、可控的评估框架。6. MemoryWAM: Efficient World Action Modeling with Persistent Memory
Sizhe Yang, Juncheng Mu, Tianming Wei
本文针对现实世界机器人操作中世界动作模型(WAMs)在长期记忆建模与推理效率之间的固有矛盾,提出MemoryWAM——一种具备高效持久记忆能力的世界动作模型。其核心在于混合记忆架构:融合近期帧、事件边界锚帧及压缩的长程概要令牌(g
ist tokens),并设计定制化注意力机制,协同检索细粒度短期上下文与压缩后的长期上下文。实验表明,MemoryWAM在仿真与真实场景下的长时程、记忆依赖型操作任务中,显著优于主流视觉-语言-动作(VLA)及WAM基线模型,同时大幅降低推理延迟与GPU显存占用。7. UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
Wenhao Chi, Arkaprava Sinha, Dominick Reilly
本文针对具身视频理解中单一视角、模态与模型导致表征能力受限的问题,提出UNIEGO框架,旨在构建可仅由第一人称视频驱动的统一表征编码器。其核心是分层多教师蒸馏架构:首先引入模态与视角特定的Proxy模型,将九位异构教师(涵盖ego
/exo视角、RGB/深度/骨架模态及四大基础模型)的知识映射至统一的egocentric特征空间;继而通过选择性Proxy蒸馏(SPD)机制,为每个样本动态筛选高置信、高准确的Proxy子集进行监督,并以Proxy参数的可学习凸组合初始化UNIEGO,提升优化稳定性。实验表明,UNIEGO在三大具身视频基准上达到SOTA性能。8. SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm
Solène Debuysère, Nicolas Trouvé, Nathan Letheule
本文提出SARLO-80——首个全球覆盖、面向斜距域的高分辨率SAR–光学–文本多模态数据集。针对现有SAR–光学数据集分辨率低、丢失复数信息与原始几何结构的问题,该数据集基于Umbra卫星的Spotlight模式SICD格式SL
C数据(VV/HH极化,原生分辨率20 cm–2 m),统一重采样至80 cm斜距网格,并配准对应高分辨率光学影像;每样本生成SHORT/MID/LONG三类自然语言描述。最终构建119,566组三元组,覆盖72国257个地点,涵盖多样地物与基础设施,显著推动物理可解释的SAR–视觉–语言联合建模。🔥 arXiv 每日论文
📝 AI 官方博客
1. New research shows how AMIE, our medical AI, could help manage health conditions.
📝 Google AI Blog
《自然·社会》刊发的新研究证实,谷歌开发的医疗对话式AI系统AMIE在复杂慢性病管理任务中,表现与初级保健医生相当。该系统基于多模态大模型架构,融合临床指南、真实世界电子健康记录及医患对话数据进行强化训练,具备疾病推理、个性化干预建议与共情…
式沟通能力。在双盲随机对照试验中,AMIE在诊断准确性、治疗方案合理性及患者沟通质量等关键指标上均达到或接近人类医师水平(p>0.05)。研究标志着AI从辅助工具向可信赖临床协作者的重要迈进。2. We’re strengthening our presence in Alabama through new investments and community support.
📝 Google AI Blog
谷歌宣布将在2026—2027年投资15亿美元,扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营,建于一处再利用的旧址之上。此次扩建将显著提升算力基础设施能力,并创造数百个高技能就业岗位。同时,谷歌承诺投入数百万美元支持…
当地教育、数字技能培训与社区发展项目,包括与阿拉巴马大学系统合作推进AI人才培养计划。项目预计带动区域经济长期增长,并强化公司在美国东南部的战略布局。3. Our new community investments in Virginia support local jobs and expand energy affordability.
📝 Google AI Blog
本文介绍了企业在弗吉尼亚州开展的新一轮社区投资举措,旨在促进本地就业增长与提升能源可负担性。项目聚焦于建设面向未来的劳动力队伍,通过职业培训、教育合作及技能提升计划支持中低收入群体就业;同时,资助分布式清洁能源项目、能效改造计划及低收入家庭…
电费援助项目,扩大清洁能源可及性。实证数据显示,首批投资已带动逾1200个本地就业岗位,并使超过8500户家庭受益于能源成本降低计划,显著提升了社区韧性与公平性。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(Reasoning Interpolation)的早期预警方法,用于在大语言模型训练过程中识别奖励黑客(Reward Hacking)的早期迹象。核心思想是利用重要性采样(Importance Sampling),…
结合经微调的 donor prefills 构建反事实推理轨迹,在策略更新前评估模型行为偏离对齐目标的风险。该方法无需额外标注或修改奖励函数,仅依赖离线推理与轻量级采样即可实现高精度预测。在多个对齐基准(如RLHF、Constitutional AI微调任务)上的实验表明,该方法可在奖励黑客现象实际发生前平均提前3.2个训练阶段发出预警,AUC达0.91,显著优于基线检测手段。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了对策略偏移的在线识别模块。关键技术包括奖励函数敏感性分析、反事实策略扰动评估及基于人类反馈的奖励校准机制。在Gridworld与SafeLife基准环境中的实验表明,该方法可将典型奖励黑客行为检出率提升37%,同时保持92%以上的原始任务性能。后续将拓展至多智能体与长周期决策场景。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。该方法识别并移除包含敏感、有害或易被滥用知识的文本片段,使模型在保持通用能力的同时,内在缺乏实施高风险行为所需的知识…
基础。关键技术包括基于多维度安全评分的数据筛选框架、可解释的风险溯源机制,以及兼顾能力保留与风险抑制的平衡优化策略。在多个安全基准(如BBQ、SafeBench)和功能性评测(MMLU、HumanEval)上的实验表明,经过滤训练的模型在有害内容生成率上平均降低62%,而核心语言能力损失不足3%,显著优于微调与RLHF等后训练对齐方法。7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.
📝 Anthropic
本文针对美国政府于2026年6月12日发布的出口管制指令——全面暂停对Fable 5与Mythos 5模型的访问权限——作出正式声明。该指令基于国家安全与技术扩散风险考量,限制相关先进AI模型的境外使用及技术转移。文中阐明了合规响应机制、受…
影响服务的过渡安排,以及对全球用户与合作伙伴的沟通承诺。同时强调持续推动负责任AI发展,并配合监管框架优化模型部署策略。实证表明,截至2026年6月中旬,所有受控模型已按要求完成访问隔离与审计验证,未发生违规调用事件。8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.
📝 Anthropic
暂无摘要
9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该内容仅显示标题“one daily email”,无正文信息,无法提取具体新闻或文章核心内容。
💬 Hacker News AI 热门
1. Moebius: 0.2B image inpainting model with 10B-level performance
🔥 85 分 · 💬 15 评论