2020年11月20日,英国生物技术与生物科学研究理事会(BBSRC)发表了《数据密集型生物科学综述》报告[1]。报告指出,过去十年间,生物科学在研究和创新领域所利用的数据,其规模和复杂性发生了巨大的变化。BBSRC通过“英国生物科学前瞻”(Forward Look for UK Bioscience)项目的研究,认识到创新的数据驱动方法是开启生物学新认知和将先进技术所产生的数据价值最大化的关键途径。这些数据正在为研究人员探索新的研究问题,在前沿知识发现方面取得进展,以及应对人类健康、繁荣和可持续未来等面临的关键挑战等多个方面带来巨大的机遇。
随着下一代测序和高分辨率成像等变革性技术的不断发展,生物数据的数量和复杂性不断增加。目前,生物科学研究人员经常利用计算机分析和建模方法来“规模化”处理数据,并越来越多地受益于数据的获取和重复使用,从而大大加速知识发现过程。认识到生物科学研究人员可获得的数据量不断增加所带来的机遇,英国国家科研与创新署生物技术与生物科学研究理事会(UKRI-BBSRC)于2019年联合启动了一项针对该领域的调查研究,以支持英国的长期科技战略。该报告是调研成果之一,为数据分析方法在当代生物科学研究中的快速普及找到了有力证据。
一、关键建议
该报告的编写专家小组向UKRI-BBSRC提出了7项关键建议,以支持生物科学作为数据密集型科学的延续和扩展。
①技能:应采取特别行动,提高英国在生物科学领域的数学和计算能力。②专业化:应激励和培养专业人才,以支撑独立研究机构的数据密集型研究。③数字基础设施:应在为生物科学构建统一协调的数字基础设施方面发挥领导作用。④软件工具与资源:应大幅增加投资,为研究界提供高质量的软件和数据资源。⑤数据共享:应更新数据共享政策,以扩大其覆盖范围并改进其实施效果。⑥研究共同体协调和能力建设:应制定计划,通过在关键领域建立网络和战略投资来建设数据密集型生物科学研究能力。⑦多学科:应确保同行评审过程充分嵌入数据密集型研究,并形成一种工作模式。
二、数据密集型重点研究项目
报告还汇总了UKRI-BBSRC支持的8项数据密集型重点研究项目。
1、改善发展中国家生计的农业系统研究。该项目获得“全球挑战研究基金”(Global Challenges Research Fund)资助,将农业、社会和生态数据相结合,量化综合景观管理如何提高撒哈拉以南非洲热带景观农业的效益,并权衡土地损失和作物遭受虫害增多的可能性。该项目将有利于巩固英国与坦桑尼亚农村农民、农业综合企业、研究人员和政府的长期合作关系,并发现自然栖息地对生物多样性、土壤质量和作物产量带来好处的零散证据。
2、深度学习对抗牛结核病。深度学习是一种强有力的技术,可以从大规模数据中获取新知识。该项目将分析来自数千个牛群的数百万份牛奶的光谱数据,并将其与其他的牛结核病数据相结合,准确预测奶牛发生牛结核病的状况,为牛结核病的早期管理和诊断做出贡献。经估算,牛结核病每年会给英国乳业造成约1.75亿英镑(约合15.40亿元人民币)的损失。
3、微生物组数据驱动建模。厌氧消化是一种利用微生物群落将有机废物转化为甲烷的绿色能源技术。该项目使用数据驱动的方法来分析和模拟这些微生物组的功能和动态,目标是更好地控制这些微生物群并提高它们的效率,加强生物经济中资源的利用。
4、了解大脑的复杂性。该项目名为“果蝇大脑观测站”,获得了UKRI-BBSRC和美国国家科学基金会(NSF)的联合资助,旨在研究生物基因、大脑结构、功能和行为之间的复杂关系。各种类型数据的集成和建模,正在成为理解大量生物数据的关键要求,激发了研究的新途径,并使人们能够更丰富和更全面地了解生物系统的功能。
5、利用DNA测序技术的新软件。DNA测序技术的快速发展得到了新软件的支持,这些软件可有效地分析大量数据。该项目支持开发软件来分析最新的“长读”纳米孔测序技术产生的数据;也支持开发自适应采样技术,从更大的样本库中对单个分子进行测序,从而使研究人员能快速方便地靶向定位较大基因组的单个区域。这将帮助研究人员制备更长更完整的基因组,并将其应用于生物学、环境科学和生物医学等领域的研究。
6、描绘抗体类别转换机制和功能。该项目旨在研究改变抗体结构恒定区的机制和后果,这对新药或疫苗的设计具有重要意义。免疫学家和计算生物学家之间的跨学科合作,对于解答在不同B细胞状态和相关抗体变化中起作用的分子机制存在巨大差异等问题至关重要。
7、小麦基因组测序。UKRI-BBSRC支持的研究人员与国际科学家合作,在编辑和注释全球范围内具有重要农艺意义的小麦基因组方面发挥了重要作用。了解这些基因组的序列,使人们能够将小麦用作模型农作物物种,并改变其研究和育种的方式。重要性状的基因识别和网络控制可将农作物研究者与基础植物科学研究的庞大知识库联系起来。这些大量的数据集正在加速科学发现,并为研究人员提供工具,以满足全球对新的更高产、更可持续、抗病和更健康的小麦品种日益增长的需求。
8、了解基因的集体行为。在“后基因组学”时代,一个主要挑战是掌握如何协调哺乳动物所有基因的调控以产生特定的细胞类型的途径,这只能通过采用复杂的数据驱动方法才有可能实现。该项目支持血细胞分化研究,正在研究转录因子和染色质成分网络如何调节细胞命运,这对生物学和生物医学都将产生广泛而深远的影响。 (郑颖)
[1] Review of Data-Intensive Bioscience. https://www.ukri.org/wp-content/uploads/2020/11/BBSRC-201120-ReviewOfDataIntensiveBioscience.pdf