Login | Register | 中文

先导专项江门中微子实验数据管理办法 (试行版)

文档编号:JUNO- G-001
发布时间:2016年5月
1、项目简介

       江门中微子实验(JUNO)是一个位于广东省江门市的地下中微子实验室,分别与阳江和台山核电站相距53公里等距离。它把一个大型液体闪烁体探测器放置于地下700米深处,在低本底的实验条件下进行中微子实验。江门中微子实验将建造一个有效质量为2 万吨的低本底、高透明度的球形液体闪烁体探测器,称为中心探测器。中心探测器拥有约17,000 只20 英寸高量子效率光电倍增管,用于探测中微子产生的闪烁光,能量分辨率达到前所未有的3%。中心探测器浸泡在圆柱形的水池中(灌装有约2 万吨高纯水),水池兼做水契仑柯夫测器和屏蔽体,水池顶部为约5600 平方米的宇宙线径迹探测器。

       江门中微子实验的首要物理目标是利用反应堆中微子振荡确定中微子质量顺序。同时,可以精确测量中微子6 个振荡参数中的3 个,并达到好于1% 的国际最好水平,并进行超新星中微子、地球中微子、太阳中微子、大气中微子、惰性中微子等多项国际领先的交叉前沿研究。

       中微子的质量顺序在宇宙演化、太阳及超新星中微子的产生与传播、各种长基线中微子振荡等方面有重要影响。精确测量中微子振荡参数,使检验中微子混合矩阵的幺正性、发现新物理成为可能,对中微子物理的未来发展具有重要意义。中微子是研究天体和地球内部的探针,将在检验超新星爆发机制、验证地球物理模型、研究太阳物理等方面发挥关键作用。

       1.1数据处理和计算需求

       JUNO实验计划在2020年取数运行,每年将产生约2 PB原始数据,这些数据将通过网络传输到高能物理研究所计算中心。为了消除实验条件变化对探测器的影响,会定期对探测器进行刻度实验,刻度实验产生的数据也将传回。完成探测器刻度后,将对原始数据进行重建,将其转化为物理分析使用的重建数据。同时,JUNO实验还将产生大量模拟数据,供实验研制和物理研究使用。

       JUNO实验的离线计算系统用于:模拟数据产生、探测器刻度和数据重建;存放实验的原始数据、重建数据、蒙特卡罗数据,以及数据归档;为物理学家提供良好的分析计算环境。初步估算,该系统规模将达到不少于 10,000 个 CPU 核计算能力、10PB 磁盘存储能力、30PB 数据归档能力,计算和存储设备之间将使用 40 Gbps 骨干高速交换网络进行互连。不仅如此,为了加快数据处理的速度,系统将通过分布式计算的技术整合JUNO合作组的成员单位的计算资源,以使不同计算站点协同工作、数据共享以及统一的计算任务分发。

2、数据传输

       江门实验现场部署数据传输系统将在线数据获取系统DAQ中的数据传输到远程的高能所warehouse,高能所的数据传输系统再将数据relay到其他合作单位的warehouse。数据传输的实施架构如图2-1所示。

图 2‑1 JUNO数据传输实施架构

 
        江门数据传输系统的设计将采用模块化设计,每个模块之间都有相应的接口进行通信,同时每个模块都具有单独的管理接口,其中fetcher模块负责从DAQ磁盘中获取数据并将其放入本地的local数据盘,examiner模块从该数据盘中获取数据后compressor模块将数据进行压缩,并提交给shipper模块进行传输至远程的数据接收站点,数据首先传送至远程接收服务器的local盘中,经过unwrapper后,placer模块将解压后的数据传送至warehouse。整个过程结束后,Acknowledger模块通知远端
的传输源服务器将本地的local盘清空。

        此外,数据传输系统中还需要包含监控模块、日志分析模块以及配置模块用于系统管理、分析与配置。

 

图 2‑2数据传输模块交互图

3、数据管理

       JUNO实验数据经过在线系统传输到高能所计算中心存储以后,将进行离线数据处理,完成对在线获取的实验数据的处理,分析以及管理。JUNO离线数据处理的主要任务可分为三大部分:实验/MC数据处理、工具库管理和数据管理。其中,实验/MC数据处理、工具库管理依托于离线计算环境,完成对实验数据的处理和分析;数据管理是指对事例数据、刻度数据和软件版本信息的管理。

       3.1事例数据管理

       物理数据在不同的数据处理阶段以不同的格式和内容存在,主要有下列几种形式:原始数据,重建数据,分析数据,蒙特卡罗真实数据,显示数据等。其中原始数据可分为实验原始数据和模拟原始数据,其中实验原始数据是从探测器中获取到的,而模拟原始数据是由物理产生子产生的蒙特卡罗真实数据(MC Truth)经过探测器模拟过程最终产生的。原始数据经过重建后产生重建数据,这些重建数据又经过预定的选择条件的筛选,最终形成物理分析使用的分析数据。
事例数据管理是记录JUNO事例数据的信息及数据的处理过程,管理本地和分布式计算资源上的数据副本,并通过数据集的方式实现数据的批量处理。事例数据管理的主要对象是原始数据、重建数据、分析数据、MC数据和作业数据。

       3.2刻度数据管理

       离线刻度通过对刻度数据的分析精确获取描述探测器工作状态的各项参数,进而用于提高重建等算法的计算精度。刻度管理首先根据数据获取、分析计划制订相应的刻度计划,制定刻度针对的数据,使用的软件版本,继而由负责刻度的人员完成刻度。
       刻度数据管理是记录刻度常数文件信息及制定刻度常数的处理过程。刻度数据管理的主要对象是刻度常数文件和刻度程序版本信息。其中,刻度常数文件包括CD刻度、WP刻度和TT刻度等。

       3.3软件版本信息管理

       在物理实验周期内,离线数据处理软件会持续的改进和优化,数据结果也将不断提升质量。物理工作者在采用某项数据时,需要了解该数据的来源历史,使用相同版本的软件才能获取确定的重复结果。这对物理成果的交叉检验等工作具有重要意义。
软件版本信息管理,是指在离线数据处理的模拟、刻度、重建以及物理分析等各个阶段,将所采用的软件版本信息与新生成的数据关联保存。其中既包含事例数据的处理历史信息,也包含刻度数据与软件版本的对应关系,保证用户能够对各项数据精确溯源。

4、数据质量

       数据质量检查是数据处理的核心,既用于及时反映探测器的运行状态,又为物理分析提供可靠的数据输入。数据处理和质量检查主要分两个阶段,分别在江门实验现场的计算机集群和高能所的计算机集群上进行,检查结果以ROOT文件、图片、数据库等多种方式保存。

       4.1江门实验现场数据质量监控

       江门实验现场将建设小规模的离线计算机集群。探测器获取的实验数据通过数据传输软件以事例流的方式或数据文件的方式传送到离线服务器,进行实时或准实时的数据处理。数据处理在JUNO离线软件框架下进行,使用固定版本的快速重建和分析算法及刻度常数,分析结果以直方图的形式保存在ROOT文件中,来自同一个run的直方图合并保存,探测器单通道的信息和整体信息定义不同的目录结构分别存放。部分直接反映探测器性能的直方图转为图片格式,通过网页显示,为实验现场值班人员提供参考。

       4.2 离线数据处理及质量检查

       高能所计划建设大规模的离线计算机集群。实验数据以文件的方式实时传输到高能所,自动触发数据处理软件提交作业到后台计算节点上运行。离线数据处理同样在JUNO离线软件框架下进行,使用固定版本的完整重建和分析算法及最新的刻度常数,分析结果包含了更多物理级别的信息,通过ROOT文件及其包含的直方图进行保存。直接反映物理性能的直方图转为图片格式,创建xml文件对每个run及其对应的图片进行索引和管理,并通过网页显示或查找。此外,建立专门的数据质量数据库,定义一系列关键的物理量填入数据库,用于对探测器物理性能随时间的变化进行长期监控。性能变化曲线根据用户的需求进行选择和配置并动态生成,最终通过网页显示。

5、数据共享

       在分布式计算系统中,原始数据在中心站点采集,然后存放在中心存储系统。原始数据经过重建和刻度过程后生成可供物理分析的数据首先存放在中心存储系统,同时传输到合作单位的存储系统进行数据分享和冗余备份。另外,在分站点进行的蒙特卡罗模拟产生的数据存储在本地外,需要传回中心存储系统进行备份。数据的存储、处理和传输都是以数据集为单位,数据集是一组相同物理属性的数据文件。
       在分布式计算环境中,数据是分散存放在异地和异构的数据存储系统中,且文件数量巨大(百万以上)。为了方便用户使用数据和管理员管理数据,这就需要考虑搭建统一的数据获取和管理平台。

     (1)定义文件级和事例级的元数据,支持基于元数据对数据文件的管理和快速查询

     (2)定义数据集,支持基于数据集的数据处理、迁移和备份

     (3)实现基于用户和组的数据访问控制
  
     (4)统一管理数据文件在不同存储系统的分布和备份,并提供统一的上传、下载和删除的接口

     (5)提供统一的视图和界面供用户和其他系统访问和注册数据

       基于上述需求,分布式计算的数据管理系统,需要包含下面的基本功能模块:

     (1)File catalog  实现逻辑文件名和物理文件名的映射。物理用户无需关心底层的存储系统,只需通过逻辑文件名查询和获取文件。作业管理系统根据它查询文件的所在来决定作业的调度。数据管理员通过该功能对分布在不同地方的数据进行整体删除或迁移。

     (2)Metadata Catalog   根据文件的物理属性进行元数据的定义,允许用户和管理员通过元数据进行数据文件的查询。它和Dataset Catalog结合使得大批量的数据查询和操作成为可能。

     (3)Dataset Catalog     根据用户的需求将同一物理属性的数据文件注册成数据集,并提供相应的查询。这使得用户只需要通过数据集对大量的数据文件进行统一操作,作业管理系统通过数据集进行相关数据文件的查询,最后决定对用户任务的拆分以及实现最终物理结果文件的分类和注册。作业传输系统通过它自动处理大批量的数据传输请求和拷贝

       同时该数据管理系统需要提供一套完整的数据操作命令和供查询的Web界面,以及API接口供其它系统包括作业管理系统和数据传输系统与其通信。

6、数据处理软件

      JUNO离线数据处理软件采用统一的软件框架,模拟、刻度和重建等各实体以软件包形式存在,并以模块形式在框架中加载运行。框架与负责具体计算的各软件包采用模块化设计并分别独立开发,但它们又有效组成有机整体,便于统一管理、编译和运行。

      6.1软件开发管理

      JUNO实验软件开发者地理位置分散,同时离线软件各部分之间可通过模块化降低耦合,这允许开发者独立开展工作。但为能避免重复工作以提高效率,需要有一个集中的代码仓库,方便大家分享和整合工作成果。

      JUNO采用SVN代码管理系统,各开发者都需要将自己的增改上传服务器,用户能从服务器上获取所有版本的代码。同时,SNV提供的代码版本功能,能让我们通过历史版本比较,更清楚的了解各软件的发展历程,对软件的后续发展提供指引或参考。

      6.2软件编译与发布

      JUNO离线软件提供自动安装工具,帮助用户更方便的对软件编译和部署。用户使用推荐的操作系统版本,能够实现一键安装。同时,在集群服务器环境中,可由管理员在指定的发布区位置统一安装部署,普通用户仅需设置相应的运行环境,就可使用特定版本的离线软件。

       离线软件的众多软件包分别独立演进,每发展到特定阶段,有必要对所有软件包做集成测试和整体版本发布。公开发布的正式版本软件,才应该用于大规模的离线数据处理。通过软件版本与数据的关联,才能够实现计算结果可精确重复的目的。

       6.3软件使用

       JUNO离线软件系统在合作组内部开源,所有成员均能自由使用。如前所述,用户既可使用集群服务器系统上的统一发布版本,也可自己编译安装。未来我们可能还会考虑提供虚拟机镜像等方式,方便用户使用云资源等更多灵活方式。