Login | Register | 中文

国家高能物理科学数据中心完成运行监控系统升级

文章来源:

更新时间:2020-06-05 16:33

国家高能物理科学数据中心近期完成了运行监控系统升级并投入平稳运行,为提升数据中心运行效率,方便数据服务系统状态诊断提供了全新的技术。
国家高能物理科学数据中心汇集了一大批高能物理大型实验的数据,由于这些数据的规模巨大,大部分数据集在PB量级,而利用高能物理数据进行研究时需要访问整个数据集以便得到最大的统计量和足够的数据分析精度。因此用户很难将数据下载到本地进行处理。高能物理科学数据中心提供了强大的计算服务,方便用户直接在数据中心进行数据处理和科学研究。高能物理的原始数据一般来自国际国内不同地区的大型科学装置,数据中心需要高速稳定的网络进行数据交换和部分用户数据的下载传输。因此,高能物理科学数据中心需要对计算服务、数据访问、广域网数据传输等进行有效的监控统计。数据中心在服务系统中部署了一批专用探针用于实时采集各类运行状态的基础信息,采集得到的数据经过筛选整理后汇集到状态及统计信息数据库中。数据中心的运行状态的分析与可视化采用Grafana开源软件,该软件是一个功能强大的数据分析及可视化展示解决方案。
新版的运行监控系统分四个部分,分别展示了总体运行状况(Dashboard),广域网流量监控,数据处理运行状态和数据访问运行状态。
总体运行状态显示了数据中心各种数据处理机时、数据访问量及访问速度。图中可以看到,过去一周内为用户提供了270多万CPU小时的计算机时,处理了130多万个计算作业和115TB的数据,产生的新数据14.65TB。
 
图 1 总体运行状态

广域网流量监控显示数据中心与其它数据中心、科学实验装置及用户之间的数据交换,峰值时流量超过10Gb/s. 下图中可以看到流入和流出的数据分别达86.91TB和158TB。图中还能看到,IPv6的国际数据交换速度峰值已超过IPv4.
 
图 2 广域网流量

数据处理运行状态显示数据中心为各用户应用提供数据处理和计算的作业运行统计监控情况。在运行的计算作业数达2万左右。
 
图 3 数据处理运行状态

数据访问运行状态显示用户访问数据和访问元数据的状况。图中显示了数据访问的吞吐量,用户读取数据的峰值可达25GB/s, 元数据的访问频度达每秒1万次左右,数据访问频度平均达每秒2.47万次。
 
图 4 数据访问运行状

以上运行监控系统均可在数据中心网站上公开访问,网址为:https://www.nhepsdc.cn/monitoring. 网页还提供了交互方式选择查看不同时间段不同应用的运行状态统计。
升级后的运行监控系统提供了快捷直观的数据中心运行状态信息,保障数据中心的高效运行。