AI 每日资讯 — 2026-05-06

Wed, 06 May 2026 22:47:57 +0800

AI 每日资讯 — 2026-05-06 🔥 HuggingFace 每日论文 1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories Yuwen Du, Rui Ye, Shuo Tang 本文提出OpenSeeker-v2，一种仅通过监督微调（SFT）即可实现前沿搜索能力的开源搜索智能体。针对当前搜索代理依赖庞大工业级预训练+持续预训练+强化学习流水线的问题，作者设计三项轻量数据合成策略：扩大知识图谱规模以增强探索广度、扩展工具集以提升功能覆盖、严格低步长过滤以提升轨迹质量。仅用10.6k高质量、高难度、信息丰富的搜索轨迹训练，30B参数规模的OpenSeeker-v2在BrowseComp（46.0%）、BrowseComp-ZH（58.1%）、Humanity's Last Exam（34.6%）和xbench（78.0%）上全面超越采用CPT+SFT+RL复杂流程的商用模型Tongyi DeepResearch，成为首个由纯学术团队基于SFT达成SOTA的同规模ReAct范式搜索代理。 PDF · arXiv · 代码 | ❤️ 35 2. SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment Joseph Breda, Fadi Yousif, Beszel Hawkins 本文提出SymptomAI——一种面向日常症状评估的对话式AI代理系统，旨在解决现有大语言模型在真实患者场景中症状识别与鉴别诊断（DDx）性能不明的问题。研究通过Fitbit应用部署五个AI代理，对13,917名参与者开展端到端症状访谈与DDx，构建了覆盖真实疾病分布与多样化表达的大规模对话语料。基于1,228例临床确诊样本及517例由专家小组耗时250+小时标注的黄金标准数据，SymptomAI的DDx准确率显著优于独立临床医生（OR=2.47, *p*<0.001）；采用主动症状采集策略的智能体表现亦远超用户主导式基线（*p*<0.001）。结果在普通美国人群样本（*n*=1,509）中得到外部验证，证实其泛化能力。 PDF · arXiv | ❤️ 3 3. A Benchmark for Interactive World Models with a Unified Action Generation Framework Jianjie Fang, Yingshan Lei, Qin Wan

AI 每日资讯 — 2026-05-05

Tue, 05 May 2026 19:00:07 +0800

AI 每日资讯 — 2026-05-05 🔥 HuggingFace 每日论文 1. MolmoAct2: Action Reasoning Models for Real-world Deployment Haoquan Fang, Jiafei Duan, Donovan Clay MolmoAct2 是一种面向真实世界部署的开源视觉-语言-动作（VLA）推理模型，旨在解决现有VLA系统在开放性、硬件依赖性、推理延迟与任务成功率等方面的实用瓶颈。其核心包括：专用于空间与具身推理的VLM骨干网络MolmoER；覆盖多平台的三大新开源数据集（含迄今最大规模开源双臂操作数据集MolmoAct2-BimanualYAM）；轻量级开放动作分词器OpenFAST；融合流匹配连续动作专家与离散token VLM的新型架构；以及自适应深度推理机制MolmoThink，仅对时序间变化场景区域重预测深度token，显著降低延迟并保持几何感知能力。实验表明，MolmoAct2在多平台任务中显著提升成功率与实时性，具备工业级部署潜力。 PDF · arXiv · 代码 · 项目 | ❤️ 113 2. AcademiClaw: When Students Set Challenges for AI Agents Junjie Yu, Pengrui Lu, Weiye Si 本文提出AcademiClaw——首个面向学术场景的双语基准测试集，包含80个源自大学生真实学术流程（如课程作业、科研项目、竞赛与个人开发）的复杂长周期任务。任务经230份学生提案筛选，覆盖25+专业领域，其中16项需CUDA GPU执行。所有任务在隔离Docker环境中运行，采用融合六种互补技术的多维评分体系，并辅以五类安全审计。实验表明，当前最优大模型通过率仅55%；深入分析揭示了模型能力在不同学科间的显著断层、行为策略的模型间差异，以及token消耗与输出质量间的弱相关性，为AI代理的学术能力评估提供了细粒度诊断信号。 PDF · arXiv · 代码 | ❤️ 7 3. PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments Ruoqi Liu, Imran Q.

Tech News on Pan'Log

AI 每日资讯 — 2026-05-06

AI 每日资讯 — 2026-05-05