AI 每日资讯 — 2026-06-24

🔥 HuggingFace 每日论文

1. EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

Jincheng Zhong, Weizhi Wang, Che Jiang

本文提出EnterpriseClawBench——首个基于真实企业工作场景构建的智能体基准测试集，涵盖852个可复现任务，每个任务均配备恢复的运行环境、重写提示、角色与技能分类、硬性规则及语义评估标准。由于数据涉及企业敏感内容，作

者未公开原始数据，而是开源了完整的构建与评估协议。实验表明，当前最优配置（Codex + GPT-5.5）仅达0.663得分，凸显单一指标评估的局限性；企业智能体评测需综合考察模型-执行环境组合、业务成果交付质量、视觉呈现效果、推理成本、响应时长及跨技能迁移能力。

PDF · arXiv · 代码 · 项目 | ❤️ 56

2. Self-Compacting Language Model Agents

Tianjian Li, Jingyu Zhang, William Jurayj

本文针对长程智能体轨迹中因思维链与工具调用累积导致的上下文冗余及超出窗口限制问题，提出SelfCompact自压缩框架。该框架在推理时引入可调用的压缩工具与轻量级触发判据，使模型自主判断压缩时机（如子任务完成或轨迹收敛）与抑制条件

（如推导中途或卡顿），无需微调或外部监督。在六项数学与代理搜索基准、七种开源模型上的实验表明，SelfCompact在显著降低30–70%每题token开销的前提下，性能持平或超越固定间隔压缩方法，在数学任务上较无压缩基线最高提升18.1分，搜索任务提升5–9分，揭示了大模型在自我元认知层面的关键局限。

PDF · arXiv | ❤️ 10

3. Causal Discovery in the Era of Agents

Yujia Zheng, Vishal Verma, Mantej Gill

本文针对当前大语言模型（LLMs）与因果发现结合中存在的核心问题——混淆数据驱动证据与文本关联、提示偏差及幻觉机制——提出一种新型代理角色定位：代理应辅助而非替代因果推理。作者主张代理仅承担数据检查、上下文检索、假设阐释与结果解读

等支持性任务，而因果边、方向、先验、约束及结论必须严格源于数据、显式假设、形式化算法、诊断评估及领域专家判断。基于该原则，作者构建了causal-learn+在线平台，集成数据预处理、方法推荐、专家知识融合、形式化因果发现与可解释性分析。在“大五人格”数据的案例研究中，该平台实现了可靠、透明、人机协同的因果发现流程，有效规避了LLM不可靠性对因果推断的污染。

PDF · arXiv · 代码 · 项目 | ❤️ 6

4. Tapered Language Models

Reza Bayat, Ali Behrouz, Aaron Courville

本文针对现代语言模型中各层参数均匀分配的默认设计，提出“锥形语言模型”（Tapered Language Models, TLMs）架构原则：在总参数量固定的前提下，沿深度单调缩减参数承载模块（如MLP）的宽度。基于对多层贡献非均

匀性的实证分析，作者发现早期层应分配更多容量以支持关键表征构建，而后期层可适度缩减以优化资源利用。在Transformer、Gated Attention、Hope-attention和Titans四种架构及三个模型尺度上，采用余弦调度 taper MLP 宽度，显著降低困惑度并提升下游任务性能，且不增加参数量或计算开销。结果验证了深度感知的容量分配是一种简单、通用且高效的模型设计范式。

🏛️ Aaron Courville | PDF · arXiv | ❤️ 5

5. Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views

Jiho Choi, Seonho Lee, Seojeong Park

本文针对多视角3D视觉问答（MV3D-VQA）中因稀疏答案级监督导致的跨视角推理不一致与视角选择脆弱等问题，提出DR-MV3D框架，引入基于全局地图与局部视图的密集可验证奖励机制。该方法将任务解耦为三阶段：外在坐标系下的全局地图构

建、问题驱动的视角轨迹规划、以及内在坐标系下的答案接地预测。通过冻结3D视觉基础模型（如VGGT+SAM3）生成几何一致的伪真值，设计全局一致性奖励与局部轨迹奖励，结合轨迹级策略优化（GRPO）实现端到端训练。在MindCube、VSI-Bench和BLINK（MV）上的实验表明，DR-MV3D显著优于多图像基线，验证了过程级密集监督对多视角3D推理的有效性。

PDF · arXiv · 代码 · 项目 | ❤️ 4

6. Vera: A Layered Diffusion Model for Content-Preserving Video Editing

Hongkai Zheng, Ta-Ying Cheng, Benjamin Klein

本文提出Vera——一种面向内容保持的分层扩散模型，用于视频编辑。针对现有视频扩散模型难以保留原始内容（如人物、背景）的问题，Vera通过生成编辑层与对应alpha遮罩，与源视频进行合成，实现编辑与保真解耦。其核心是扩展文本到视频

DiT架构为混合Transformer（MoT），各层DiT通过联合自注意力协同建模。作者构建了高质量分层视频数据集（486K帧），涵盖多样场景、动态与视觉效果。实验表明，Vera在定量评估与人类偏好测试中均显著优于主流开源视频编辑模型，在内容保持性上优势突出，同时编辑质量保持竞争力。

PDF · arXiv · 项目 | ❤️ 2

7. VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct

Haoling Li, Kai Zheng, Jie Wu

本文提出VeriEvol框架，旨在解决多模态数学推理中强化学习规模化所面临的奖励标签不可靠问题。不同于依赖可信标注器或假设答案正确的现有方法，VeriEvol将数据扩展建模为可验证的构建过程，解耦提示难度演化与答案可靠性验证：前者

通过类型感知的图像-问题演化模块生成更难、视觉 grounded 的提示；后者由HTV-Agent verifier基于多源反证失败实施假设检验式 falsification。在五个视觉数学基准上，VeriEvol将SFT数据从10K扩展至250K后，平均准确率提升19.31点；在固定骨干模型、SFT初始化与GRPO流程下，相较未演化基线累计提升+3.88，其中+1.82源于演化提示，+2.06源于HTV-Agent验证机制。

PDF · arXiv | ❤️ 1

8. Patient-Aware Contrastive Learning Preserves Per-Patient Structure in RR-Interval Representations

Yasantha Niroshana, Weijith Wimalasiri, Chathuranga Hettiarachchi

本文针对生理信号（如RR间期序列）中个体基线差异显著导致的对比学习失效问题，提出一种患者感知的对比学习目标函数，仅在同患者、同类别的样本间构建正样本对，从而在分离房颤（PAF）与窦性心律（SR）类别的同时保留每位患者的独特基线结构

。实验表明，该方法在IRIDIA-AF数据集上实现0.989±0.003的患者无关AUROC，种子方差较监督对比学习降低2.6倍；嵌入空间中患者内SR结构一致性达0.850，显著优于SupCon（0.800）和BCE（0.772）。结果证实：维持个体几何一致性比追求全局类间分离更利于跨患者泛化。

PDF · arXiv

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces

Philip Waggoner

本文研究协同自适应神经接口中用户适应性的可识别性问题。作者指出，在闭环编码器估计中，用户适应性无法被唯一识别，其估计结果实际反映的是人机联合系统的整体特性，而非纯粹的用户行为变化。文章分析了该不可识别性的理论根源，探讨了其对行为适

应性解释的潜在影响，并提出了实现用户适应性可靠识别的必要条件。实验与理论分析表明，仅依赖传统闭环解码器不足以分离用户神经可塑性与系统动态耦合效应，需引入额外约束或干预设计以保障识别有效性。

2. Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies

Atkia Mahila, Avinash Maurya, M. Mustafa Rafique, Bogdan Nicolae

本文系统考察了树状思维（ToT）推理策略在不同计算预算、模型规模与问题难度下的行为特性，聚焦DPTS（基于蒙特卡洛树搜索）和SSDP（基于语义去重）两类代表性方法。实验覆盖Math500与GSM8K两个数学推理基准、Llama-3

B与Llama-8B两种模型尺度，以及3k–10k四种token预算。结果表明：DPTS存在冷启动瓶颈，在低预算下因探索不足导致价值估计不可靠；而SSDP虽能快速生成候选解，却因激进节点合并引发前沿耗尽，丧失后续优化能力。二者局限性呈互补性对立，揭示固定搜索或剪枝策略难以普适于连续计算资源谱系，亟需具备动态适应能力的推理调度机制。

3. The New Associationism: Lessons from Deep Learning

Daniel Rothschild

本文探讨现代人工智能的成功对人类学习机制的启示，主张一种“新联想主义”立场。作者指出，监督学习——即依赖评价性反馈的渐进式误差驱动学习——构成了当前各类AI系统（如大语言模型与博弈智能体）的共同基础，其差异主要在于反馈信号生成的复

杂度。这一发现支持了联想主义关于跨领域统一学习机制的核心主张，有力回应了其解释力不足的传统质疑。然而，深度学习的成功亦高度依赖远超经典联想主义构想的复杂计算架构，监督学习仅作为其中一环，而非学习的完整图景。

📄 arXiv: cs.CL

1. Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices

Zihuai Xu, Ruofei Hou, Yang Xu, Hongli Xu, Yunming Liao, Ying Zhu

本文针对边缘设备上基于检索增强生成（RAG）的问答应用中提示词冗余导致推理开销大的问题，提出轻量级句子级提示压缩方法CORE。该方法无需依赖辅助小语言模型（SLM），第一阶段通过命名实体识别（NER）构建答案集、语义匹配构建线索集

；第二阶段采用正交残差检索优化线索集，并设计基于空间邻近性的度量筛选答案集，最终融合生成压缩上下文。在NVIDIA Jetson AGX Orin与华为Nova手机上的实验表明：在2000-token预算下，CORE相较SOTA基线准确率提升至少30.19%，内存占用降低至少50.47%，推理速度提升1.94倍；相比LLMLingua2，在智能手机上能耗降低95.74%，显著提升边缘与移动端部署可行性。

2. Investigating Linguistic Steering: An Analysis of Adjectival Effects Across Large Language Model Architectures

Lars Malmqvist

本文针对大语言模型（LLM）中形容词对模型行为的调控作用，提出基于Shapley值的量化分析框架，系统评估100个形容词在MMLU基准上对o3、GPT-4o-mini、Phi-3、Llama-3-70B及DeepSeek-R1等模

型的“语言引导效应”。研究发现：（1）少数形容词具有显著非线性杠杆效应，但其影响呈现模型家族特异性，同源架构模型敏感性高度相关，而异构模型间相关性微弱；（2）形容词的引导方向高度依赖其句法角色与位置，并非固有属性；（3）大模型中存在强非加性交互效应（协同增强、拮抗抑制或方向反转），小模型则响应更字面化、组合性弱。结果表明模型规模提升带来语义理解深化的同时，也加剧了提示工程的不可预测性，亟需发展模型特异且具组合性的对齐方法。

3. Post-Training Recipe, More Than Model Family, Shapes Multi-Agent LLM Conversational Behavior

Luyang Zhang, Jialu Wang, Fei Xue, Yi-Yun Chu

本文探究了多大语言模型（Multi-LLM）系统中影响对话行为多样性的关键因素，发现后训练策略（post-training recipe）比模型家族（model family）更能决定模型在交互场景下的行为差异。基于94万条链式对

话的11检查点语料库及160万条同基线Llama因子实验，研究发现：同一基础模型的不同后训练版本在“犹豫性”（hedging）指标上差异高达18%，显著超过跨家族模型间的最大差异；Qwen、闭源API及运行时验证进一步佐证该现象的普适性。结果表明，仅依据模型家族选择成员不足以保障行为多样性，后训练配方应作为多模型协同系统设计的一级考量维度。

📄 arXiv: cs.LG

1. Towards CSI-Native Foundation Models: A Channel-Adaptive Roadmap for 6G

Chenyu Zhang, Xinchen Lyu, Chenshan Ren, Shuhan Liu, Qimei Cui

本文针对6G系统中通道状态信息（CSI）智能复用难题，提出面向CSI原生基础模型的信道自适应技术路线。区别于将CSI简单视为任务张量的现有方法，该框架从无线信道物理本质出发，统一设计预训练、位置建模与注意力控制机制，以满足尺度感知

异构暴露、物理时频天线坐标对齐、相关性约束的令牌交互三大信道需求。实验表明：在零样本泛化、尺度外推和推理效率三方面均显著优于基线——NMSE降低超4 dB，8倍天线规模外推增益达5.4 dB，移动性感知处理加速18.8%；系统级评估显示其仅需7.01%密集导频开销，平均NMSE达-18.64 dB，净频谱效率较密集LMMSE提升36.6%，较WiFo提升15.5%。

2. NeuroShield: A Device-Agnostic Foundation Model for EEG Authentication

Matin Fallahi, Patricia Arias-Cabarcos, Thorsten Strufe

EEG身份认证面临模型严重依赖特定采集设备与参数的挑战，导致跨设备、跨数据集泛化能力差。为此，本文提出NeuroShield——一种设备无关的EEG认证基础模型。其采用双阶段Transformer架构，可处理变通道数与变时长的EE

G信号，学习身份判别性嵌入。模型在包含15,762名受试者、28,116次会话的三个公开数据集上预训练，并在两个未见下游数据集上验证迁移性能。微调后，NeuroShield将等错误率（EER）较现有最优方法降低0.44–8.06个百分点，且能泛化至训练中未见的更长时序片段与不同电极布局。代码已开源。

3. Massive Activations Are Architecturally Robust: A Controlled Scratch/Commitment Residual Stream Test

Maruthi Vemula (University of North Carolina at Chapel Hill)

本文探究大激活（massive activations）——即在Transformer中显著高于中位数、且集中于序列起始token的少量隐藏维度——是否仅为残差流“读写复用”导致的可消除人工产物，抑或具有功能必要性。作者提出Led

ger Residuals架构，将残差流解耦为可自由覆写的“草稿流”（Deliberation）与只读保护的“承诺流”（Commitment），若大激活纯属架构冗余，则专用输出通道应使其消失。然而，在160M与290M参数规模的语言模型中，大激活仍稳定重建于承诺流内：其幅值略降但对起始token的聚焦更强；施加稀疏性惩罚反而增强其持久性与集中度。结果表明，大激活具有架构鲁棒性，支持其功能假说。代码已开源。

📄 arXiv: cs.CV

1. A Viscosity Semigroup Framework for Stable Image Reconstruction

Arina Oberoi

本文基于尺度空间理论的公理化框架，构建了一种面向退化椭圆-抛物型偏微分方程的粘性解（viscosity solution）方法，用于多尺度图像表征与稳定重建。通过比较原理，在标准粘性解框架下严格证明了问题的适定性、唯一性及上确界范

数下的收缩性。据此提出一种混合重建算子：先由数据驱动的逆映射生成初始重建，再经非线性扩散演化进行正则化；该扩散在连续层面满足非扩张性，从而保障整体重建稳定性。在CT影像胸膜间皮瘤分类任务中，所提方法以0.875的AUC值显著优于基线模型（AUC波动于0.49–0.80且无收敛趋势），验证了理论所预言的稳定性优势。

2. A Projection-Based Surrogate Gradient Interpretation for Neural Codec Wrappers

Esteban Pesnel (COMPACT), Julien Le Tanou (COMPACT), Michael Ropert (COMPACT), Aline Roumy (COMPACT), Thomas Maugey (COMPACT)

本文针对神经编解码器封装器（neural codec wrappers）训练中因传统视频编码器不可微而导致的优化难题，提出一种基于投影的代理梯度解释方法。作者将SCALED代理梯度重新诠释为视频编码器在局部的一阶近似，增强了其可解

释性与理论合理性。该方法不仅适用于神经下采样等预处理任务，更成功扩展至包含前后处理网络的端到端神经封装框架。实验表明，该方法在x264和VVenC等多种编码器、不同质量因子及多尺度下采样任务上均取得显著增益，BD-Rate（PSNR）最高降低23.59%和20.07%，显著优于标准重采样基线。

3. Jury Duty: Calibration and Orientation Failures in MLLM-as-a-Judge Under Cultural Ambiguity

Daniel Lee, Harsh Sharma, Eunkyu Park, Pranav Narayanan Venkit, Jeonghwan Kim, Kah Mun Chia, Andreas Vlachos, Shafiq Joty

本文针对多模态大语言模型（MLLM）作为自动评估器（MLLM-as-a-Judge）在文化多样性场景下的可靠性问题，提出VOIR DIRE基准——涵盖中美两国在饮食、时尚与建筑领域的626组图文对，配备内部一致性高（α=0.86/

0.74）但跨文化评分显著分歧（Q1相关性r=−0.12）的标注者池。实验发现六类主流MLLM存在两类系统性偏差： positivity-floor校准失败（量表压缩）与文化取向偏差（默认采纳单一文化规范）。提示工程可部分缓解校准问题，却无法消除取向偏差；参考池示例反而加剧该偏差并拉高评分上限。模型产地引入约0.10 MAE的稳定附加偏移。研究主张应分别报告模型对各文化参照池的对齐度，并将跨文化分歧视为评判器固有属性。

🏛️ Andreas Vlachos, Shafiq Joty

🔬 OpenReview 近期论文

1. MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Minjung Shin, Hyunin Cho, Sooyeon Go

本文提出MVCustom，一种面向多视角定制化生成的新框架，旨在统一解决多视角相机姿态控制与文本提示驱动的几何一致定制两大挑战。针对现有方法在定制化数据稀缺下难以兼顾视角一致性与定制保真度的问题，MVCustom构建基于扩散模型的

几何隐式表征，结合增强型文本到视频扩散主干与稠密时空注意力机制，在训练中联合学习主体身份与三维几何结构；推理阶段引入深度感知特征渲染与一致性感知隐空间补全技术，显式保障几何一致性与视角对齐。实验表明，该方法在多视角一致性与定制保真度上均取得最优平衡性能。

PDF

📝 AI 官方博客

1. New research shows how AMIE, our medical AI, could help manage health conditions.

📝 Google AI Blog

本研究发表于《Nature》，提出了一种名为AMIE（Artificial Intelligence for Medical Interviewing and Evaluation）的新型医疗对话式人工智能系统。该系统通过多轮动态推理、临床…

知识图谱增强与真实医患对话数据微调，实现对复杂慢性病（如糖尿病、高血压）的全流程管理决策支持。在双盲随机对照试验中，AMIE在诊断准确性、治疗方案合理性及患者沟通质量等关键指标上达到与初级保健医师相当水平（p=0.92），且响应时间缩短47%。结果表明，AMIE具备临床部署潜力，可作为辅助工具提升基层医疗效率与可及性。

2. We’re strengthening our presence in Alabama through new investments and community support.

📝 Google AI Blog

谷歌宣布将在2026—2027年投资15亿美元，扩建其位于阿拉巴马州杰克逊县的数据中心园区。该园区自2019年起运营，原址为废弃工业用地，此次扩建将显著提升算力基础设施能力，并创造数百个高技能就业岗位。项目同步配套社区支持计划，包括与当地高…

校合作开展AI与数据中心技术培训、资助STEM教育及宽带接入改善工程。据初步评估，投资有望带动区域GDP增长超2.3亿美元，并推动绿色能源使用比例升至100%（通过购电协议支持风电与太阳能项目）。此举标志着谷歌深化在美南部战略部署的重要一步。

3. Our new community investments in Virginia support local jobs and expand energy affordability.

📝 Google AI Blog

本文介绍了某企业在弗吉尼亚州开展的新一轮社区投资计划，旨在促进本地就业增长与提升能源可及性。项目聚焦于建设面向未来的劳动力队伍，通过职业培训、教育合作与技能提升计划支持青年及转型劳动者；同时，投资分布式清洁能源项目、低收入家庭能效改造及社区…

微电网建设，以降低用能成本、增强能源韧性。实证表明，该计划已直接创造逾1200个本地就业岗位，并使超过8000户家庭获得可负担的清洁电力服务，显著提升了区域社会经济效益与能源公平水平。

4. Early Indicators of Reward Hacking via Reasoning Interpolation

📝 EleutherAI Blog

本文提出一种基于推理插值（reasoning interpolation）的早期预警方法，用于在强化学习智能体训练过程中识别奖励作弊（reward hacking）的潜在迹象。核心思想是利用重要性采样（importance sampling…

），结合经微调的“捐赠者”预填充（donor prefills）生成高质量推理轨迹，从而在策略尚未明显偏离目标行为前，检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态，具备强实用性与可解释性。在多个基准任务上的实验表明，该方法可在奖励作弊发生前平均提前32%的训练步数发出预警，准确率达89.7%，显著优于基线检测方法。

5. Reward Hacking Resarch Update

📝 EleutherAI Blog

本文为奖励黑客（Reward Hacking）问题的阶段性研究进展报告。针对强化学习中智能体通过 exploiting reward function 设计缺陷而达成虚假目标的现象，本工作系统梳理了现有典型攻击模式（如奖励捷径、状态欺骗与环…

境扰动），提出一种基于奖励函数鲁棒性评估与动态约束的防御框架。关键技术包括可微分奖励验证模块与在线策略偏差检测机制。在GridWorld、LunarLander及定制化MuJoCo任务上的实验表明，该方法将奖励黑客行为发生率降低62.3%，同时保持92.7%的原始任务性能。后续将拓展至多智能体与部分可观测场景。

6. Pretraining Data Filtering for Open-Weight AI Safety

📝 EleutherAI Blog

本文提出“深度无知”（Deep Ignorance）方法，旨在通过预训练数据过滤为开源大语言模型（LLMs）构建抗篡改的安全机制。针对开放权重模型易受有害、偏见或越狱数据污染的问题，该方法系统性识别并移除包含敏感指令、对抗性提示、虚假信息及…

高风险行为模式的文本片段，同时保留语言建模所需的核心语义多样性。关键技术包括基于多维度安全评分的数据筛选框架、轻量级可解释性验证模块，以及与模型缩放律兼容的渐进式过滤策略。在多个基准（如SafeBench、ToxiGen）上的实验表明，经过滤数据训练的模型在安全性指标上平均提升27.3%，且未显著损害通用能力（MMLU下降<0.8%）。

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

📝 Anthropic

本文针对美国政府于2026年6月12日发布的出口管制指令——暂停对大模型系统Fable 5与Mythos 5的所有访问权限——作出正式声明。该指令基于《出口管理条例》（EAR）及国家安全考量，限制相关AI基础设施的国际使用，尤其影响海外研究…

机构与合作方。声明阐明公司合规立场，同步启动技术替代方案评估与本地化部署预案，并强调在保障安全前提下持续支持全球AI公益应用。后续将协同政策团队推进透明化沟通机制与合规技术框架建设。

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

📝 Anthropic

暂无摘要

📝 Anthropic

暂无摘要

AI 每日资讯 — 2026-06-24#

🔥 HuggingFace 每日论文#

1. EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions#

2. Self-Compacting Language Model Agents#

3. Causal Discovery in the Era of Agents#

4. Tapered Language Models#

5. Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views#

6. Vera: A Layered Diffusion Model for Content-Preserving Video Editing#

7. VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct#

8. Patient-Aware Contrastive Learning Preserves Per-Patient Structure in RR-Interval Representations#

🔥 arXiv 每日论文#

📄 arXiv: cs.AI#

1. On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces#

2. Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies#

3. The New Associationism: Lessons from Deep Learning#

📄 arXiv: cs.CL#

1. Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices#

2. Investigating Linguistic Steering: An Analysis of Adjectival Effects Across Large Language Model Architectures#

3. Post-Training Recipe, More Than Model Family, Shapes Multi-Agent LLM Conversational Behavior#

📄 arXiv: cs.LG#

1. Towards CSI-Native Foundation Models: A Channel-Adaptive Roadmap for 6G#

2. NeuroShield: A Device-Agnostic Foundation Model for EEG Authentication#

3. Massive Activations Are Architecturally Robust: A Controlled Scratch/Commitment Residual Stream Test#

📄 arXiv: cs.CV#

1. A Viscosity Semigroup Framework for Stable Image Reconstruction#

2. A Projection-Based Surrogate Gradient Interpretation for Neural Codec Wrappers#

3. Jury Duty: Calibration and Orientation Failures in MLLM-as-a-Judge Under Cultural Ambiguity#

🔬 OpenReview 近期论文#

1. MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion#

📝 AI 官方博客#

1. New research shows how AMIE, our medical AI, could help manage health conditions.#

2. We’re strengthening our presence in Alabama through new investments and community support.#

3. Our new community investments in Virginia support local jobs and expand energy affordability.#

4. Early Indicators of Reward Hacking via Reasoning Interpolation#

5. Reward Hacking Resarch Update#

6. Pretraining Data Filtering for Open-Weight AI Safety#

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.#

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.#

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.#

📰 TechCrunch AI 新闻#

1. Anthropic’s Claude Tag is learning your company, one Slack message at a time#

2. 4 days left to save up to $190 on TechCrunch Founder Summit 2026#

3. Fika Jobs raises $4M to build a video-first hiring platform where AI agents interview candidates#

4. The running list: major tech layoffs in 2026 where employers cited AI#

5. OpenAI launches new initiative to help find and patch open source bugs#

AI 每日资讯 — 2026-06-24

🔥 HuggingFace 每日论文

1. EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

2. Self-Compacting Language Model Agents

3. Causal Discovery in the Era of Agents

4. Tapered Language Models

5. Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views

6. Vera: A Layered Diffusion Model for Content-Preserving Video Editing

7. VeriEvol: Scaling Multimodal Mathematical Reasoning via Verifiable Evol-Instruct

8. Patient-Aware Contrastive Learning Preserves Per-Patient Structure in RR-Interval Representations

🔥 arXiv 每日论文

📄 arXiv: cs.AI

1. On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces

2. Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies

3. The New Associationism: Lessons from Deep Learning

📄 arXiv: cs.CL

1. Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices

2. Investigating Linguistic Steering: An Analysis of Adjectival Effects Across Large Language Model Architectures

3. Post-Training Recipe, More Than Model Family, Shapes Multi-Agent LLM Conversational Behavior

📄 arXiv: cs.LG

1. Towards CSI-Native Foundation Models: A Channel-Adaptive Roadmap for 6G

2. NeuroShield: A Device-Agnostic Foundation Model for EEG Authentication

3. Massive Activations Are Architecturally Robust: A Controlled Scratch/Commitment Residual Stream Test

📄 arXiv: cs.CV

1. A Viscosity Semigroup Framework for Stable Image Reconstruction

2. A Projection-Based Surrogate Gradient Interpretation for Neural Codec Wrappers

3. Jury Duty: Calibration and Orientation Failures in MLLM-as-a-Judge Under Cultural Ambiguity

🔬 OpenReview 近期论文

1. MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

📝 AI 官方博客

1. New research shows how AMIE, our medical AI, could help manage health conditions.

2. We’re strengthening our presence in Alabama through new investments and community support.

3. Our new community investments in Virginia support local jobs and expand energy affordability.

4. Early Indicators of Reward Hacking via Reasoning Interpolation

5. Reward Hacking Resarch Update

6. Pretraining Data Filtering for Open-Weight AI Safety

7. Statement on the US government directive to suspend access to Fable 5 and Mythos 5AnnouncementsJun 12, 2026The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5.

8. AnnouncementsJun 11, 2026Introducing Claude CorpsWe’re launching Claude Corps, a national fellowship program for people early in their careers who are passionate about extending the benefits of AI to communities across America.

9. PolicyJun 10, 2026Policy on the AI ExponentialAI is advancing at exponential speed, and the policymaking process was built for a slower world. We’re sharing policy proposals to prepare our institutions for AI progress.

📰 TechCrunch AI 新闻

1. Anthropic’s Claude Tag is learning your company, one Slack message at a time

2. 4 days left to save up to $190 on TechCrunch Founder Summit 2026

3. Fika Jobs raises $4M to build a video-first hiring platform where AI agents interview candidates

4. The running list: major tech layoffs in 2026 where employers cited AI

5. OpenAI launches new initiative to help find and patch open source bugs