2026年3月5-6日,第五届高能物理数据长期保存与利用(DPHEP)合作研讨会在欧洲粒子物理研究中心(CERN)举办,来自全球高能物理机构的约75位科研人员参加了会议。会议聚焦HEP领域数据、软件、硬件及知识保存,探讨AI、认知科学的应用价值,梳理全球该领域发展现状、共性问题与解决方案,全球科研机构学者分享了最新实践与成果。国家高能物理科学数据中心是DPHEP国际合作的创始单位,本次派出三位专家参加研讨会并介绍了中国高能物理领域科学数据相关工作。

研讨会核心目标为复盘DPHEP发展现状、探索新技术在保存领域的落地、梳理高能物理数据保存共性问题、界定硬件与知识保存标准,同时围绕大型实验数据价值、数据可用性、数据开放路径等关键科学问题展开探讨。
会议提出几个核心问题:
1. 大型实验产生的数据是否具有长期科学价值?
2. 多年前实验产生的数据是否仍然能够支持新的物理研究?
3. 技术更新和人员流动对数据可用性产生何种影响?
4. 人工智能和认知科学能否帮助长期保存知识和实验经验?
围绕这些问题,会议进行了报告分享和专题讨论,包括实验数据保存现状、开放数据平台、跨机构数据存储、软件环境维护以及知识保存机制等。
会议分享了历史经典实验遗产数据的复活利用成果。上世纪的大型电子—正电子对撞机(LEP)实验数据在实验结束25年后通过持续维护软件环境和相关工具(如CERNLIB等),这些历史数据仍然可以被重新分析,从而产生新的物理结果。专家们认为,数据保存不仅仅是存储文件,还包括软件、文档和分析流程的完整保留。如果缺乏这些信息,即使数据文件仍然存在,也难以进行有效分析。
正在运行中的大型强子对撞机LHC的实验分享了数据保存与开放的规模化实践,形成10PB级的开放数据,形成稳定开放渠道和长期保存体与应用的运行体系。这些工作表明大型科学实验正逐步从封闭式数据管理向开放科学模式转变。
全球多机构也带来了特色保存实践,包括通用数字仓库框架的建设,统一元数据、持久标识符以及跨机构长期保存等。国家高能物理科学数据中心为北京正负电子对撞机(BEPCII)上的BESIII实验数据搭建全维度保存框架,构建数据生态系统,同时发布大亚湾中微子实验数据、LHAASO开放数据集;美国BNL推出RHIC数据保存计划,打造“基础设施+AI助手+文档系统”三位一体体系,为领域转型提供参考;MINERvA实验开放全周期中微子数据,英国伯明翰大学则开展CERN气泡室近60年原始摄影数据的数字化保存与科学再利用探索。


在技术体系与平台建设方面,CERN推出符合OAIS标准的数据保存平台,提供“保存即服务”,其开放数据门户上线冷存储系统,平衡数据访问性能与存储成本;EOSC-EDEN项目制定跨领域通用保存规范,推动OAIS、FAIR等原则的落地;K4GeneratorsConfig、REANA等工具与平台实现实验模拟基准测试自动化、开放数据复用效率提升,REANA还探索了大语言模型在工作流编写中的辅助应用。
AI与分析保存的融合创新成为本次会议亮点,研究人员利用大语言模型从论文中提取数据集使用信息。国家高能物理科学数据中心推出DORA框架,BNL、REANA也分别推出SciBot、AI辅助工作流。这些工具实现AI在知识访问、分析辅助、数据全生命周期编排的全链条应用,其中中国的DORA框架在国内大科学装置中验证了AI就绪数据集的构建能力。DORA框架等成果进一步丰富了领域技术体系,为全球跨机构协作提供了新实践。会议还明确分析保存为核心支柱,依托各类工具实现“可执行出版物”,搭建起数据与知识保存的桥梁,为AI技术应用提供天然接口。
政策层面,会议梳理了实施现状与优化方向。2025年国际未来加速器委员会(ICFA)发布《高能物理数据保存与开放科学最佳实践推荐》(国家高能物理科学数据中心是该《最佳实践》的主要作者之一),聚焦FAIR原则落地,计划针对全球大型高能物理实验进行实施情况评估并每1-2年并跟踪进展,推动行业标准完善。
会议在讨论中总结了当前数据保存面临的几大挑战:
1. 技术更新带来的兼容性问题,软件平台、操作系统和硬件架构不断更新,旧软件难以长期运行。
2. 知识流失问题,随着研究人员离开合作组,许多关键技术细节可能失传。
3. 数据规模巨大,大型实验数据量达到PB甚至EB级,对存储和访问提出挑战。
4. 长期资金与组织机制,数据保存需要持续投入,但实验结束后往往缺乏稳定支持。
本次研讨会形成了若干共识:
1. 数据保存必须从实验初期开始规划,而不是在实验结束后再进行补救。
2. 开放数据将成为未来趋势,通过开放数据促进科研合作和科学教育。
3. 跨实验合作至关重要,各实验应共享数据保存经验和技术方案。
4. 人工智能将成为重要工具,在数据管理、知识整理和分析自动化方面发挥作用。
研讨会为全球科学数据保存领域带来重要启示:历史数据再利用是挖掘科学价值的关键,格式标准化与软件适配可释放历史数据的新价值;开放数据生态建设需要技术、政策、工具协同,向分析和知识开放延伸;AI与认知科学的深度融合将成为长期知识保存的核心驱动力,AI就绪数据集的构建将成为新目标。
本次研讨会的报告链接如下,报告可供下载:
https://indico.cern.ch/event/1529317/timetable/#20260305.detailed