欧洲核子研究组织提出科学研究六大IT挑战

作者: 2014-09-12 08:40 来源:其他
放大 缩小

欧洲核子研究组织(CERN)与数家领先的IT企业联手于2001年共建了CERN开放实验室,旨在解决大型强子对撞机(LHC)带来的计算与数据管理问题。2014年5月22日,CERN开放实验室联合欧洲其他知名科研机构与科研计划,发布了题为《科学研究的未来IT挑战》的白皮书[1],以LHC和高能物理研究为主,分析了基于大科学装置的数据密集型科学研究未来面临的六大IT挑战,包括:

一、数据获取(在线)

已有及新增的大型科研计划正在以越来越快的速度产生越来越多的数据,而多数情况下仅有小部分数据具有意义,且现有数据系统的容量有限。因此,在线(实时)数据过滤与处理、高带宽网络、数据传输与存储成为众多重要实验室及科研计划的迫切需求。

二、计算平台(离线)

计算能力对于完成许多重要科研任务而言不可或缺。根据数据类型与分析的不同,科研设施采用了不同的计算模式。为充分发挥新兴计算平台的作用,需要做出多方面的努力,包括:持续对计算平台进行评估、基准测试和优化;修正、优化或是完全重新设计现有软件;促进科学家、实验人员与计算专家的紧密合作。

三、数据存储架构

LHC实验每年会产生几十PB的数据,数据的存储与管理成为一个关键挑战。目前,高能物理团体针对此类物理学数据开发了定制化的存储方案,并根据用户需求和市场趋势不断进行完善,提供更具扩展性和更有效的存储方案。其他学科也面临着同样的挑战,需要开发各类存储方案,包括长期磁带存档,本地非复制性存储与地理复制性存储等。

四、计算管理与配置

近几年,欧洲创建了若干大规模分布式科研信息化基础设施,实现了大量计算与存储资源的共享。首先部署的网格的计算资源配置与管理是对传统批量计算理念的扩展和精炼。而随着虚拟化的普及,云计算成为一种更有效的科学计算方案。CERN很早就开始提供网格计算与云计算服务,2013年7月起,CERN开始提供基于OpenStack平台的服务。

五、网络与链接

全球有超过5万台设备连到CERN网络。对从实验中获取数据而言,网络性能至关重要。例如,LHC实验产生的数据从探测器传输至第一级过滤系统的流量高达3 PB/s,必须要有高性能的网络才能让LHC计算网格良好运作。欧洲的主要数据提供商需要连接至欧洲的高性能网络及同等国际网络,以提供可靠、有弹性的服务。

六、数据分析

数十年来,CERN与其他国际研究实验室收集了大量科学数据与系统监控数据,面向科学与工程应用的数据分析技术需要解决技术、整合与教育方面的挑战,包括实现近实时处理与批量处理(包括预测分析)、“数据分析即服务”,以及培养下一代工程师,发展多领域的专业知识等。                                                     (张娟)



[1] CERN openlab Whitepaper on Future IT Challenges in Scientific Research. http://zenodo.org/record/8765/files/CERNopenlabWhitepaperonFutureICTChallengesinScientificResearchV1.4.pdf.

附件: