欧洲海洋局发布《海洋科学中的大数据》报告
4月5日,欧洲海洋局(EMB)发布《海洋科学中的大数据》报告,概述了大数据支持海洋科学的最新进展、挑战和机遇[1]。该报告制定了增加数字化和在海洋科学中应用大数据的发展目标,提出为气候科学和海洋生物地球化学、海洋保护绘制生境图、海洋生物观测和水产养殖部门的病虫害控制等面临的挑战与对策建议。
一、气候与海洋生物地球化学面临的挑战及建议
了解海洋中的物理、生物地球化学和生物过程将如何应对和影响未来的气候变化,是当前社会面临的最紧迫的重大挑战之一。大数据对于理解海洋生物地球化学在气候中的作用是非常重要的。目前相关数据分析模型正变得越来越复杂,应对海洋模型输出的多样性和复杂性是大数据研究的一项关键挑战。另一个挑战是数据采集。数据采集受到区域限制,未经允许,船上的科学家在进入国家专属经济区时必须关掉他们的仪器。国际层面正努力将海洋生物地球化学观测结果纳入区域和全球数据产品,并纳入国际气候谈判进程。然而,一个关键的瓶颈是由于数据格式不同、数据准确性以及科学家对数据共享背后的伦理原因缺乏了解,导致许多海洋气候观测尚未进入数据储存库并能够广泛获得。许多机构已经制定了数据采集、管理和存储的最佳做法,但这些做法尚未把数据全部集中管理起来。
为了更好地理解大数据在气候变化与海洋生物地球化学中的价值,报告建议:采用基于公平原则的全球运行数据标准;采用最佳做法协调和集中海洋观测;鼓励数据发起者和资助机构使用现有海洋数据基础设施,使所有海洋气候观测易于获取和互操作;加强海洋数据管理基础结构和电子基础结构之间的合作,以提供可视化和综合分析各种数据的无缝工具;采用新的分析工作流程,如“零下载”范式,科学家使用云计算处理和分析他们的数据;为继续提供准确的原位生物地球化学观测,并将其纳入气候研究和国际气候谈判提供长期资金;实施一项高水平的地表海洋二氧化碳测量协议,增加时空分辨率,以及在国家专属经济区的测量;在海洋科学家和工业界之间建立正式的伙伴关系,例如在政府支持下使用仪器和传感器,为高质量数据采集做出商业船只长期使用承诺;加强跨学科合作,例如海洋生态学家、生物地球化学和物理海洋学家、气候科学家、统计学家、社会经济学家、数据管理者和计算机科学家之间的合作。
二、海洋保护生境制图的挑战及建议
随着海洋观测站的发展和数据呈指数增长,大数据已成为海洋保护和人类活动管理不可缺少的信息。气候变化、不可持续的捕鱼、航运和污染的负面影响正在迅速增加,迫切需要保护沿海和近岸环境以及近海和深海地区的海洋生态系统,建议在广阔的深海空间范围内建立海洋保护区(MPA)的生态连贯网络。在绘制高分辨率的栖息地地图时,大数据将发挥重要的作用,这些地图可以将测深数据与其他多学科、大规模的栖息地数据结合起来。合并和集中大量的多样性数据是一个关键的挑战。机器学习有可能用真正自主的传感器取代一些海洋学设备,这些传感器能实时提取信息,但也会对人工因素导致的对水深和其他特征误判。
为增加使用大数据绘制局地尺度的海洋保护生境地图,报告建议:使用公平原则管理数据生命周期;基于研究对象的数据集成与分析;越来越多地采用机器学习进行数据处理、分析和建模,以减少人为干预;在每个潜在MPA站点设计网络和更大规模地集成数据采集和分析;继续开发新技术,包括卫星和宽带网络连接,以提高数据传输效率和实时或接近实时的数据传输;确保数据的完整性和准确性,并指导人们使用机器学习来最小化风险。
三、海洋生物观测的挑战及建议
实现广泛、协调和标准化的全球生物观测网络是未来10年海洋研究的一个关键目标,它将使与基本生物多样性变量和基本海洋变量相关的科学可行的数据产品成为可能,为海洋战略框架实施和其他海洋生物多样性管理立法提供关键数据。海洋生物学研究向大数据驱动学科的转变,需要建立真正的大数据集。处理复杂数据对海洋生物学家来说是一个突出的挑战。将大数据方法应用于生物数据具有许多优点,例如易于按比例放大采集仪器产生的数据,可减少数据采集和分析中的人为偏差。但也存在相当大的挑战,例如缺乏标准化的数据管理和存档实践,缺乏对数据机器学习算法及其结果分类的专业知识。
为将海洋生物研究转变为大数据驱动的学科,并改进海洋生物观测,报告建议:以标准化方式存储和保存生物数据;在现有生物研究基础设施和科学网络的基础上,建立可持续、全球连接的长期生物观测站网络;促进开放科学,建立研究人员之间信任的国际方案新倡议,并支持欧洲数据倡议,例如,地球观测生物多样性观测网络和基因组标准联盟的海洋生物多样性观测网络;提高现有海洋数据基础设施的技术和语义互操作性;加强海洋科学研究与欧洲开放科学的合作,通过探索更多的大数据应用案例,实现更大规模、跨学科的分析和社会相关的数据产品;仔细检查新生物数据源的准确性,包括图像、水声学和基因序列,并培训分类学专家,以确保高质量的数据注入到大数据应用中。
四、海洋与海洋提供食物的挑战及建议
渔业和水产养殖是快速增长的部门,需要进行可持续管理,以尽量减少环境影响,并实现零饥饿和水下生活的可持续发展目标。在水产养殖和野生捕获渔业的一系列应用中,大数据方法已显现出在可持续海产品生产的潜力。要在水产养殖中实现更大的数据应用,需要克服商业竞争者之间共享关键业务数据与提高预测模型的数据质量的关键问题。
针对海虱子暴发的预测和管理,报告建议:开发智能传感器,例如基于照相机的海虱计数器、自动鱼类监测系统和改进的自动环境监测系统,以提高生物和环境数据的时间分辨率,从而改进预测算法;改善传感器连通性和数据传输,以便更好地提取数据;在整个海洋数据价值链上使用基于公平原则的数据标准;让数字公司参与跨行业协作和技术交叉应用;在政府、行业、大学和数字部门之间开展有效合作,提供实时数据分析,预测海虱疫情;开发可行、可持续的商业模式,维护和扩大监控网络。
针对养殖鲑鱼逃逸自动监控,报告建议:使用基于公平的原则开发来自许多地点的自动数据采集、存储和处理设备;通过使用云计算资源获得数据并集中分析;利用深度学习算法保证获得高质量的图像;使用越来越多的结构化数据来训练算法并迭代改进分析;通过关键利益相关者的参与,将数据管理、云计算和机器学习整合到水产养殖监控和管理价值链中;制定专门的人员培训方案,支持跨学科项目,以发展和维持监测基础设施。 (吴秀平)
[1] Big Data in Marine Science. https://www.marineboard.eu/sites/marineboard.eu/files/public/publication/EMB_FSB6_BigData_Web_0.pdf