美国SIAM发布《生物医学中的数学问题》报告
2014年11月,美国工业与应用数学学会(SIAM)邀请美国国立卫生研究院(NIH)相关人员及参与NIH项目的数学家召开会议,讨论应用数学家参与生物医学数据分析的各种机会,并发布报告《生物医学中的数学问题》[1]。生物医学数据主要有临床数据、表型数据、图数据、基因组数据、网络数据和流式数据等6种数据,该报告介绍了这6种数据的特征、面临的挑战,以及分析这些海量数据需要的数学模型和算法。
1、临床数据。自2009年《复苏与再投资法案》后,美国联邦政府已投入190多亿美元来支持医院以及医疗保健机构将纸质病历转化为电子病历。电子病历采集的结构化数据和非结构化数据非常不一致,分析这些数据需要采用如自然语言处理工具等严格的统计方法,以处理数量庞大、稀疏、有噪音的数据集。
2、表型数据。应用数学在处理和分析临床的或实验室的表型数据时都面临可视化和分析等挑战。由于数学模型在处理和分析数据时需要的初始条件要比实际能提供的条件要多得多,方程组求解过程中存在大量的不确定性条件,因此,即使用线性模型处理表型数据,很难获得准确解;如果用复杂模型处理和分析表型数据,遇到的困难和挑战更大。
3、图数据。图数据主要有3个特征:节点之间的关联性、种类繁多、图数据计算的强耦合性。应用数学在图数据领域对数据进行有效表达、解释和学习中发挥重大作用。深层次的卷积神经网络模型、基于无监督的深度学习研究等方法在图数据领域得到很好的发展。对于图像的先验模型的研究可从多个角度进行,主要有统计方法、正则化几何建模方法、稀疏表示方法和图像形态分量分析方法等,但尚存在理论和算法上的挑战性问题。
4、基因组数据。高通量测序技术使基因组数据成为电子病历的标准特征。基因组数据不仅包括患者的基因组,还包括患者微生物的基因组。为准确地整理健康记录中的基因组数据,对多量程记录进行对比分析,需要借助新的分析方法。基因芯片的高通量表达数据为研究和揭示基因之间的相互作用,特别是基因表达的时空调控机制提供了基础。研究多基因的调控网络,并揭示有关的作用机理,一些新的海量数据分析方法,如聚类分析、贝叶斯网络分析、高维大规模统计推断、大规模多重检验为主导的全基因组关联分析方法、各种统计分析方法、高性能计算、各种统计分析算法在基因组数据中发挥重要作用。
5、网络数据。网络数据的不确定性、复杂性、涌现性特点给应用数学带来机遇和挑战。图论用于模拟分子、基因、神经元、人、医疗提供者以及医院之间的连通网络。动态网络分析依赖图论。图论用于网络数据,旨在理解网络的演化,以及通过机械模型推断因果关系。
6、流式数据。流式数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低,数据处理工具要具备高性能、实时性、可扩展、可在线处理和在线分析。决策树、聚类分析、规则挖掘、自组织图、神经网络、特征提取和可视化、遗传算法、蒙特卡罗模拟、记忆推理和文档挖掘等高级统计计算方法在流式数据领域得到发展和改善。
(刘小平)
[1]Mathematical Problems Lie at the Heart of Biomedical Science. http://sinews.siam.org/DetailsPage/tabid/607/ArticleID/363/Mathematical-Problems-Lie-at-the-Heart-of-Biomedical-Science.aspx.