AI 每日资讯 — 2026-05-29
🔥 HuggingFace 每日论文
1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
Fangfu Liu, Kai He, Tianchang Shen
本文针对交互式视频生成中多智能体世界建模的挑战,提出Gamma-World——首个支持任意数量、可独立控制且排列对称的生成式多智能体世界模型。其核心包括:(1)Simplex Rotary Agent Encoding,一种无参数
的3D RoPE扩展,将智能体映射为旋转角空间中正则单形的顶点,实现身份唯一性与排列等价性;(2)Sparse Hub Attention,通过可学习中心token稀疏化跨智能体注意力,将计算复杂度从O(N²)降至O(N);(3)基于知识蒸馏的因果扩散学生模型,结合KV缓存实现24 FPS实时响应式生成。在多玩家虚拟环境中实验表明,该方法显著提升时序一致性、跨视角一致性和交互真实性。2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
Minki Kang, Shizhe Diao, Ryo Hachiuma
本文针对多模态智能体推理中“思考—行动鸿沟”(Thinking-Acting Gap)问题,提出Agent eXplorative Policy Optimization(AXPO)方法。该鸿沟表现为工具调用稀疏(仅约30%的轨迹
尝试工具)且高错误率(工具调用轨迹中约40%全错),严重削弱强化学习信号。AXPO通过固定错误轨迹中的思考前缀、基于不确定性选择高潜力前缀,并对工具调用及其后续进行重采样,显著提升工具使用质量。在九个多模态基准上,SFT+AXPO在8B参数规模下平均Pass@1和Pass@4分别提升1.8个百分点,且Pass@4性能超越32B基线模型,实现4倍参数效率提升。3. From Pixels to Words – Towards Native One-Vision Models at Scale
Haiwen Diao, Jiahao Wang, Penghao Wu
本文提出NEO-ov——一种原生的、端到端的“单视觉”基础模型,旨在突破当前视觉语言模型(VLMs)依赖分离图像编码器与语言解码器、多阶段对齐所导致的像素信号碎片化与早期像素-词交互缺失问题。NEO-ov完全摒弃外部编码器、适配器
及后融合模块,通过统一架构实现跨帧时空建模与像素级词元对齐。在多图像、视频理解与空间智能任务上显著提升细粒度视觉感知能力,性能逼近甚至超越主流模块化VLMs。研究还提供了系统性架构分析与可复现训练范式,推动原生多模态建模发展。代码与模型已开源。4. Self-Improving Language Models with Bidirectional Evolutionary Search
Guowei Xu, Zhenting Qi, Huangyuan Su
本文提出双向进化搜索(BES),以解决现有语言模型自改进方法中稀疏验证信号与单向自回归扩展导致探索受限两大瓶颈。BES耦合前向候选演化与后向目标分解:前向搜索引入重组、变异等进化算子,突破单一模型生成路径的熵约束;后向搜索将任务递
归分解为可验证子目标,提供密集中间反馈以引导前向搜索。理论分析表明,BES可突破传统扩展搜索的窄熵壳限制,并指数级降低找到正确解所需的样本量。实验显示,BES在主流后训练算法失效的困难任务上实现稳定提升,并在三类开放性问题求解基准上显著超越现有推理时搜索方法。5. Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents
Suji Kim, Kangsan Kim, Sung Ju Hwang
本文针对小型计算机使用代理(CUAs)在特定软件领域性能薄弱且错误分布不均的问题,提出无需人工标注的领域专业化框架LearnWeak。该方法利用更强的参考代理识别学生代理在目标域中的具体弱点,自动生成针对性任务与监督信号,并引入误
差感知的训练目标,分别建模规划与执行错误,实现行为级精准优化。在OSWorld基准上,LearnWeak使EvoCUA-8B和OpenCUA-7B在八个领域平均提升11.6和11.1个百分点,显著优于现有自主轨迹生成与训练方法,验证了“学生感知”在数据合成与训练中的关键作用。🏛️ Sung Ju Hwang | PDF · arXiv · 代码 · 项目 | ❤️ 32
6. OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration
Xinchen Zhang, Bowei Liu, Jiale Liu
本文针对多模态大语言模型中视觉输出可靠性验证的挑战,提出OmniVerifier-M1——一种基于显式结构化重校准的多模态元验证器。作者发现:(1)符号化验证输出(如边界框)作为元验证依据优于文本解释,可支持高效、免判别器的规则化
强化学习奖励;(2)将二元判断与元验证目标解耦优化,显著优于联合优化,因其输出结构与学习动力学存在本质差异。基于此,OmniVerifier-M1在多个基准上实现鲁棒验证与细粒度错误定位,并支撑M1-TTS生成系统实现动态区域级自修正。实验表明该方法显著提升验证的可靠性、可解释性与可控性。7. PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
Yangyi Huang, Ruotian Peng, Zeju Qiu
本文针对参数高效微调(PEFT)方法评估中忽视预训练能力保留的问题,从稳定性—可塑性权衡视角出发,提出PEFT-Arena基准,联合评测下游任务性能与通用能力保持能力。实验发现,在相同参数预算下,正交微调在稳定性-可塑性帕累托前沿
上表现最优。通过权重空间的谱分析与激活空间的表征保真度度量,揭示了不同PEFT方法在奇异值结构利用和表征等距性保持上的差异;遗忘现象被归因于非等距表征扭曲。进一步分析表明,标准监督微调(SFT)检查点常偏离最优目标-保留平衡点,据此提出基于路径回溯的后处理优化策略,验证了其提升潜力。8. Multi-Adapter Representation Interventions via Energy Calibration
Manjiang Yu, Hongji Li, Junwei Chen
本文针对现有表征干预方法在大语言模型对齐中采用固定干预策略、导致良性样本性能下降的问题,提出基于能量校准的多适配器表征干预方法(MARI)。MARI引入竞争式多适配器机制,由多个专业化专家建模非线性修正模式,自适应地为不同样本确定
干预方向与强度;并设计基于能量的门控模块,利用模型内部传播动力学判别是否适用干预。在多种模型架构与参数规模上的实验表明,MARI在TruthfulQA、BBQ及安全基准上达到最优对齐效果,同时在MMLU、ARC等通用能力评测中保持甚至提升性能。🔥 arXiv 每日论文
📄 arXiv: cs.AI
1. Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture
Eduardo de la Cruz Fern'andez, Marcelo Karanik, Sascha Ossowski
本文提出一种可定制的大型语言模型(LLM)架构,旨在从文本中识别并量化人类价值观的强度,兼顾显性与隐性表达。该架构包含三个协同模块:基于任意价值理论基础文献生成结构化价值定义、依据定义对文本进行细粒度标注、以及结合修辞与语义证据评
估文本对各价值的支持或抵制程度。通过解耦价值概念化与检测过程,该方法摆脱了对特定价值理论或复杂提示工程的依赖,具备良好可扩展性与可复现性。在ValueEval数据集上的实验表明,多种LLM实例均取得优异检测性能,验证了该流程的通用性与鲁棒性。2. Soro: A Lightweight Foundation Model and Chatbot for Tajik
Stanislav Liashkov, Haitz S'aez de Oc'ariz Borde, Azizjon Azimi, Khushbakht Shaymardonov, Shuhratjon Khalitbekov, Bonu Boboeva
本文提出Soro——一套面向塔吉克语的轻量级基础模型与对话系统,专为塔吉克斯坦资源受限环境(如低算力、弱网络连接)下的实际部署而设计。基于开源Gemma 3检查点,我们采用纯塔吉克语持续预训练(19亿词元,涵盖网页文本、PDF文档
及课程对齐教育材料),并结合4万条教师风格指令微调。针对塔吉克语评估缺失问题,我们构建并开源了覆盖常识、语言能力及升学考试领域的专用基准测试集。实验表明,Soro在各项塔吉克语基准上显著超越同规模Gemma 3基线,同时保持优异的英语泛化能力;FP8与INT4量化版本在大幅降低内存占用的同时几乎无损塔吉克语性能,已支持塔吉克斯坦教育领域试点及规模化部署。3. On the Origin of Synthetic Information by Means of Steganographic Inheritance
Ching-Chun Chang, Isao Echizen
本文针对合成信息溯源这一信息科学中的根本性难题,提出基于隐写遗传(steganographic inheritance)的谱系追踪机制。该方法在生成式AI产出“后代”信息时,由投影器提取父代特征,并通过隐写编码器将其不可见地嵌入子
代;后续可通过隐写解码器从子代中提取特征并与候选父代库比对,实现亲缘关系识别。理论分析刻画了系统谱系识别准确率与投影器及隐写系统性能的关系,实验验证了其在多种处理操作与语义变换下的鲁棒性。该框架为构建可追溯、可问责的合成信息生态提供了新范式。📄 arXiv: cs.CL
1. ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment
Zhipeng Bian, Jieming Zhu, Qijiong Liu, Wang Lin, Guohao Cai, Zhaocheng Du, Jiacheng Sun, Zhou Zhao, Zhenhua Dong
本文针对个性化封面图像生成这一尚未充分探索但对用户参与度至关重要的任务,提出ICG框架。该框架创新性地融合多模态大语言模型(MLLM)驱动的语义提示与基于用户行为建模的个性化偏好对齐机制:通过元令牌提取标题与参考图的语义特征,结合
用户嵌入进行上下文精炼,并将个性化表征注入扩散模型;采用无需标注数据的多奖励学习策略,联合优化公共美学/相关性奖励与自训练的个性化偏好模型;并设计轻量适配器实现MLLM与扩散模型的端到端协同训练。实验表明,ICG在图像质量、语义保真度与个性化程度上显著优于现有方法,有效提升下游推荐准确率与用户吸引力,且具备即插即用特性,兼容主流预训练检查点。🏛️ Zhou Zhao
2. LCO: LLM-based Constraint Optimization for Safer Agentic LLMs in Real-world Tasks
Jiayong Wan, Jiawei Chen, Zhaoxia Yin, Liu Shuyuan, Hang Su
本文针对大语言模型(LLM)作为自主智能体在真实任务中因持续环境交互引发的“上下文内奖励黑客行为”(ICRH)问题,提出无需微调的LLM-based Constraint Optimization(LCO)框架。LCO包含两个核心
模块:自省模块引导模型在执行前主动推理并整合安全约束;进化采样模块利用LLM驱动的交叉与变异操作,在保障任务性能前提下将行为约束于安全解空间。实验表明,LCO在输出优化与策略优化两类场景中均显著缓解ICRH:在推文互动优化任务中,GPT-4的毒性增长率(TGR)降低39%;在策略优化基准上,ICRH发生率下降15.23%,且未损害任务效果。3. Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models
Jaehoon Kang, Yejin Lee, Yoonji Park, Kyuhong Shim
本文针对提示驱动的文本到语音(TTS)模型在细粒度及句内说话风格控制方面的局限性,提出两种新方法:其一,通过对比风格提示在嵌入空间中构建方向向量并进行线性插值,实现跨语句的连续风格迁移;其二,针对自回归解码器中早期token对注意
力的强偏好问题,引入KV缓存交换与滑动窗口注意力掩码机制,支持单句内时变风格过渡。实验表明,跨语句插值在性别转换任务中成功率高达99–100%,可实现最高36 Hz音高调节与1.6音节/秒语速变化;句内过渡则保持0.81–0.91的说话人相似度,并获得3.48–4.48分(5分制)的感知平滑度评分。📄 arXiv: cs.LG
1. Personalized Observation Normalization for Federated Reinforcement Learning in Simulation Environments with Heterogeneity
Yiran Pang, Zhen Ni, Xiangnan Zhong
本文针对异构仿真环境中联邦强化学习(FedRL)面临的观测分布不一致与参数更新失衡问题,提出个性化观测归一化(PON)方法。PON为每个智能体维护独立的、在线更新的均值与方差统计量,实现本地状态输入的自适应归一化,避免聚合时因尺度
差异导致的梯度干扰。理论分析与实验表明,跨智能体共享归一化参数会加剧分布偏移,验证了个性化统计的必要性。在异构MuJoCo任务上的实验显示,PON显著提升收敛速度与最终策略性能,优于现有基线方法。2. IGADA-IoT: IoT Sensor Energy Optimization in Wireless Sensor Networks Driven by Automatic Data Augmentation
Mingchun Sun, Rongqiang Zhao, Muhammad Abdul Munnaf, Jie Liu
本文针对无线传感器网络(WSNs)中物联网传感器能耗优化问题,提出一种信息间隙引导的自动数据增强框架IGADA-IoT。该框架通过分层多生成器协同调度机制(HMGCS)动态匹配异构生成器能力与动态信息缺口,并设计信息缺口-模型性能
联合评估与闭环优化方法(IGMP-EC),实现增强决策的精准化与鲁棒性,有效缓解欠增强与过增强风险。实验表明,IGADA-IoT在多个下游模型上的平均准确率提升7.27%,较先进数据增强方法提升8.67%,较单生成器方案提升7.24%;在UCR Archive公开数据集及真实IoT部署场景中均验证了其高精度与强泛化能力。3. A Simple State Space Model Excels at Multivariate Time Series Classification
Hassan Saadatmand, Geoffrey I. Webb, Hamid Rezatofighi, Mahsa Salehi
本文针对多变量时间序列分类(TSC)任务,系统评估了结构化状态空间模型(SSM)的设计选择,首次在大规模基准(含59个数据集、最大达6000万样本/5万时序步长/82类)上对比了对角SSM(S4D)与输入依赖型SSM(Mamba系
列)。实验发现,轻量级S4D在精度与效率上均显著优于复杂Mamba变体。基于此,作者提出MS4及其归一化版本MS4N:前者引入线性输入投影与通道混合机制,后者通过轻量归一化稳定状态动态。二者在15种基线模型中持续领先,MS4N更以约一半至十分之一的参数量,达到或超越更大规模深度模型的性能,证实轻量结构化SSM是TSC中替代复杂架构的有效新范式。📄 arXiv: cs.CV
1. From Affect to Complex Behavior: Advancing Multimodal Human-Centered AI at the 10th ABAW Workshop & Competition
Dimitrios Kollias, Panagiotis Tzirakis, Alan Cowen, Stefanos Zafeiriou, Irene Kotsia, Eric Granger, Marco Pedersoli, Simon Bacon, Jens Madsen, Soufiane Belharbi, Muhammad Haseeb Aslam, Chunchang Shao, Guanyu Hu
本文介绍了第10届Affective & Behavior Analysis in-the-Wild(ABAW)研讨会与竞赛的组织框架与技术进展。该活动聚焦于真实场景下人类情感与行为的建模与理解,提出涵盖连续情感(效价-唤醒度)、
离散情感(表情与动作单元识别)、情感模仿强度估计、矛盾/犹豫识别及细粒度暴力检测等多元挑战,并依托大规模野外数据集构建综合基准。论文轨道涵盖姿态与运动估计、多模态情感建模、新型数据集与评估协议、公平性与鲁棒性研究等方向。实验表明,所提方法显著提升了复杂行为理解的精度与泛化能力,推动了以人为中心的多模态AI系统发展。🏛️ Stefanos Zafeiriou
2. Fine-Tuning Vision-Language Models for Understanding Current Damage and Scoring Priority with Quality Guard Agent
Takato Yasuno
本文针对日本桥梁检测中人工损伤评级(a–e级)存在显著评估者间差异、且资深工程师老龄化导致检测能力下降的问题,提出一种基于微调视觉-语言模型(VLM)的自动化损伤理解与修复优先级评分方法。采用QLoRA技术在最多4000对桥梁损伤
图像与文本记录上微调LLaVA-1.5-7B模型,并设计规则驱动的五级优先级评分引擎;实验表明2000样本即可实现近优验证损失,3000样本时语义相似度达峰值0.6909;结合torch.compile与批处理(batch_size=8),单图推理耗时降至10.06秒,较基线提速70.2%;进一步引入两阶段Quality Guard机制,利用微调后的Swallow-8B小语言模型过滤低质量VLM输出,有效避免因图像损坏或识别失败导致的错误评分。3. Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures
Yongjin Cui, Xiaohui Fan, Huajun Chen
本文针对具有异构注意力结构(如协同注意力)的Transformer模型,提出了一种通用可解释性分析方法。异构注意力通过融合多源异质信息提升模型能力,但也为可解释性带来新挑战。作者将注意力结构划分为同构与异构两类,聚焦后者,构建了兼
顾语义与逻辑层面的双维度解释框架,并设计了系统性实验分析范式。在多个代表性模型(如跨模态与多任务Transformer)上的实验表明,该方法能有效识别关键跨源注意力路径、揭示信息融合机制,并支持细粒度推理过程追溯,显著提升了异构注意力行为的透明性与可理解性。🔬 OpenReview 近期论文
1. From Lab to Line: Deployment-Aware NMR–Text Expert Routing for Real-Time Apple Moldy Core Disease Screening and Explanation
Yang Lv, Yin Li, Yehui Han
本文针对苹果霉心病(AMCD)在工业分选场景下的实时、可解释诊断难题,构建了首个面向小样本多模态学习的LF-NMR–文本专家数据集AppleNMR-MM V1.0(n=237),提出任务感知混合专家模型(T-MoE),依据预测不确
定性与算力预算动态路由NMR与文本专家;并设计基于检索增强生成(RAG)的多智能体协同链式推理框架(MACCT),融合SOP、病理记录与批次日志实现证据驱动的分诊–诊断–解释全流程。为对齐产线约束,创新提出以出口贸易法规为依据、以经济收益为导向的部署评估指标TAAPM。实验表明,T-MoE在AUC(0.863)和F1(0.750)上显著优于单模态基线,TAAPM达972.84,RAG解释器获92%专家通过率与4.07/5质量评分,整体方案具备产线落地可行性与可信性。2. Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
Yumin Choi, Dongki Kim, Jinheon Baek
本文针对多模态大语言模型(MLLMs)中提示优化仍局限于文本模态的局限性,首次提出“多模态提示优化”新问题,旨在联合优化文本与非文本(如图像、视频、分子结构等)提示对。为此,作者设计了统一框架——多模态提示优化器(MPO),通过保
持模态间对齐的更新机制实现联合优化,并引入基于贝叶斯先验的候选提示选择策略,利用历史评估结果指导高效搜索。在跨模态(图像、视频、分子)的广泛实验中,MPO显著优于现有纯文本提示优化方法,验证了多模态提示优化对释放MLLM潜力的关键作用。3. Why Keep Your Doubts to Yourself? Trading Visual Uncertainties among Vision-Language Models
Jusheng Zhang, Yijia Fan, Kaitong Cai
本文针对视觉-语言模型(VLM)多智能体系统中因信息不对称导致的协调成本高昂、不确定性建模粗粒化等问题,提出Agora框架。该框架将认知不确定性结构化为可交易资产(感知、语义、推理三类),并基于理性经济规则构建去中心化不确定性交易
市场;引入市场感知型代理(扩展Thompson采样)驱动低成本协作与均衡收敛。在MMMU、MMBench等五个多模态基准上的实验表明,Agora较最优基线提升8.5%准确率,同时降低超3倍计算成本,验证了市场机制在构建经济可行、可扩展的多智能体视觉智能系统中的理论优势与实践有效性。4. TopoWeaver-R1: Reinforcing Difficulty-Aware Topology Evolution in Multi-Agent Competition-Level Code Generation
Siyu Wang, Ruotian Lu, Zhihao Yang
本文针对多智能体系统(MAS)在竞赛级代码生成任务中因固定交互拓扑导致的冗余通信与高令牌开销问题,提出TopoWeaver-R1——一种基于强化学习优化的动态拓扑演化框架。该方法以LLM编排智能体为核心,依据查询实时推断任务难度与
智能体角色,构建密度感知、分层有向无环图(DAG)拓扑,并通过执行反馈与历史信息持续演化拓扑结构。在三个竞赛级及两个基础代码数据集上的实验表明,TopoWeaver-R1在准确率上达到SOTA,最高提升14.6%,同时降低拓扑密度13%、令牌消耗68%。该工作实现了从静态拓扑到细粒度难度感知、反馈驱动的动态演化拓扑的范式转变。5. Latent Fourier Transform
Mason Long Wang, Cheng-Zhi Anna Huang
本文提出潜空间傅里叶变换(LatentFT),一种面向生成式音乐模型的新型频域控制框架。该方法将扩散自编码器与潜空间傅里叶变换相结合,依据时间尺度分离音乐模式;通过在训练中对潜空间频域特征进行掩码,获得可解释、可操控的表示。推理时
,用户可通过指定潜空间频率来保留或修改特定时间尺度的音乐特性,实现高质量的音乐变奏与融合。实验与听感评估表明,LatentFT在条件遵循性与音频质量上均优于基线模型,并揭示了不同音乐属性在潜频谱中的区域性分布。🏛️ Cheng-Zhi Anna Huang | PDF
📝 AI 官方博客
1. Catch up on 12 major I/O 2026 moments
📝 Google AI Blog
本文回顾了2026年Google I/O开发者大会的12个关键发布时刻,涵盖人工智能、操作系统演进与开发者工具三大主线。重点包括:Gemini 2.5模型的端侧实时推理能力升级、Android 17引入的AI原生交互框架(AIFramewo…
rk)、ChromeOS与Fuchsia内核的深度协同进展,以及全新开源工具链Jetpack Compose AI Extension。通过实测数据显示,新AI框架使典型应用响应延迟降低63%,端侧大模型推理功耗下降41%。文章结合现场演示截图与技术架构图,系统梳理了各发布背后的技术路径与生态影响,为开发者提供落地参考。2. Catch up on the Dialogues stage at Google I/O 2026.
📝 Google AI Blog
本文报道了2026年谷歌I/O大会“Dialogues”主题论坛的核心内容,聚焦Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)的主旨对话。皮查伊围绕AI技术演进、负责任创新、多模态交互进展及AI在教育、医疗与可持续发…
展等关键领域的落地实践展开深入阐述;重点介绍了Gemini系列模型的最新突破,包括实时语音-文本-视觉协同理解能力、轻量化端侧部署方案,以及强化隐私保护的联邦学习架构。对话还回应了全球监管趋势与伦理挑战,强调以开放协作推动AI普惠。该论坛为业界提供了前瞻性的技术路线图与治理思考。3. We’re announcing new community investments in Missouri.
📝 Google AI Blog
本文宣布谷歌在密苏里州启动新一轮社区投资计划,聚焦于培育下一代技术人才与推动清洁能源发展。项目包括与当地教育机构合作开展计算机科学教育与职业培训,提升青少年及在职人员的数字技能;同时资助分布式能源、能效升级和可再生能源接入等示范性能源项目。…
初步试点已在圣路易斯和堪萨斯城落地,预计三年内覆盖超5万名学生与200家中小企业,并助力该州减少年度碳排放约1.2万吨。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的萌芽迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,预测其潜在的奖励作弊倾向。该方法无需修改训练过程或访问真实奖励函数,仅依赖离线推理数据即可实现高精度预警。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前3.2个训练阶段发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为关于奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化代理奖励函数时偏离设计者真实意图的现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数可解释性与行为一致性的双维度检测框架…
,并初步实现了在Gridworld与MiniGrid环境中的验证。实验表明,该方法能有效识别约78%的隐式奖励篡改行为,较基线方法提升23%。后续将拓展至高维连续控制任务,并探索基于反事实推理的鲁棒奖励建模机制。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.8ProductMay 28, 2026An upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work.
📝 Anthropic
本文介绍了Anthropic于2026年5月发布的Claude Opus 4.8——Opus系列模型的重大升级版本。该模型在编程能力、智能体(agentic)任务及专业级工作场景中显著提升性能,尤其强化了长周期任务的稳定性与一致性。通过改进…
推理架构、扩大上下文窗口并优化多步规划能力,Opus 4.8在HumanEval、SWE-bench及专业文档处理基准上均取得新SOTA。实验表明,其代码生成准确率提升12.3%,复杂任务完成率提高18.7%,且在持续运行超10万token任务时仍保持99.2%的逻辑连贯性。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该网页仅显示标题“one daily email”,无其他正文内容,无法提取具体新闻或文章信息。
💬 Hacker News AI 热门
1. YouTube to automatically label AI-generated videos
🔥 1198 分 · 💬 708 评论
YouTube将于2026年5月起自动识别并标注高度逼真的AI生成视频,同时优化人工披露标签的位置与形式:长视频标签移至播放器下方、短视频则以画中画形式叠加显示。若创作者未主动申报但系统检测到显著AI生成内容,平台将自动加标;创作者可申诉修…
正,但使用YouTube自研AI工具(如Veo)或含C2PA元数据的视频除外。标注不影响推荐或变现。2. Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue
🔥 82 分 · 💬 44 评论