基因组数据科学:40EB数据量

基因组数据科学通过计算和统计工具解读DNA序列中的功能信息。随着基因组研究的迅速增长,(美国)每年产生2至40EB的数据,但伦理责任也随之增加,涉及隐私和数据分享问题。研究人员使用计算工具来分析基因组数据,云计算在数据存储和处理中扮演重要角色。

随着对人类基因组的深入研究,我们逐渐认识到对所获得的基因组数据进行分析和解释,不仅有助于更深入地理解人类健康与疾病,同时也引发了有关隐私和伦理问题的讨论。

概况

  • 基因组数据科学是一门研究学科,依赖强大的计算和统计工具来解读DNA序列中隐藏的功能信息。
  • 据预测,在未来十年内,基因组研究将生成约2至40EB的数据。
  • 尽管我们对DNA测序的能力远远超越了解读其中信息的能力,但基因组数据科学将继续成为一个充满活力的研究领域,为我们提供了无限的探索空间。
  • 进行基因组数据科学研究伴随着一系列伦理责任,因为每个人的序列数据都涉及与隐私和身份相关的复杂问题。

它如何影响你

随着生物医学研究项目和大规模合作的迅速增长,产生的基因组数据量也在不断增加,每年将产生2至40EB的数据。研究人员正努力从如此复杂和大规模的数据集中提取有价值的信息,以更好地理解人类健康和疾病。

什么是基因组数据科学

基因组数据科学是一门研究学科,依赖强大的计算和统计工具来解读DNA序列中隐藏的功能信息。在基因组医学的背景下,这些数据科学工具有助于研究人员和临床医生了解DNA差异如何影响人类健康和疾病

基因组数据科学于1990年代兴起,它整合了两项实验室活动:

  • 实验:从研究生物体的基因组中生成基因组信息。
  • 数据分析:使用统计和计算工具分析和可视化基因组数据,包括数据处理、存储以及基于已有基因组数据进行预测的算法和软件。

这两项活动协助研究人员从庞大的基因组数据中获得深入洞察。

为什么基因组涉及如此大量的数据

人类基因组在21世纪初引起广泛关注,当时人类基因组计划成功生成了人类基因组中的化学碱基(“字母”)序列——A、C、G和T。人体的每个细胞都包含完整的基因组副本,即我们的DNA蓝图。实际上,大多数细胞拥有两个基因组副本,合在一起约有60亿个DNA字母。

如今,研究人员生成的基因组数据远远超过以往,旨在了解基因组如何发挥功能以及如何影响人类健康和疾病。这些数据来自世界各地数百万人的不同族群。单个人类基因组序列的数据就需要200GB的存储空间,大致相当于200份《大白鲨》电影的存储空间。据估计,到2025年,我们将需要约40EB的存储空间来存储全球生成的基因组序列数据。这几乎相当于《大白鲨》电影的近十亿张DVD!相比之下,5EB足以存储人类历史上说过的所有话语。

40EB有多大

在未来十年内,基因组项目将生成40EB的数据。图中包含400只鲨鱼,每只鲨鱼=0.1EB数据。

由于与人类基因组相关的复杂数据量巨大,基因组学现在被认为是一个“大数据”领域。

研究人员如何利用基因组数据

在探索人类基因组的深层结构时,科学家们需要借助特殊的计算和分析工具,以揭示隐藏在每个人DNA序列中的生物信息,同时有效管理在基因组研究项目中产生的大量数据。

首先,研究人员使用被称为“比对工具”(aligner)的软件工具,以确定DNA序列的各个部分在参考基因组序列中的位置。

接下来,通过“变异检测工具”(Variant Callers),科学家们能够识别个体的DNA序列与其它人类DNA序列不同的地方。这些基因组差异的大小各不相同,可能仅是一个DNA字母(被称为单核苷酸多态性),也可能是包括插入、删除等结构性变异,甚至更大的染色体异常。这些基因组差异可能对健康没有风险,也可能直接导致遗传性罕见疾病、癌症或其它更常见的疾病。

研究人员如何有效管理和存储如此庞大的基因组数据

精通计算机技术和基因组学的专家,通过使用多种计算机系统和软件,来有效地管理和存储基因组数据。随着时间的推移,越来越多的数据分析和协调中心加入研究网络,提供这些服务。

生成基因组数据需要大量的资金支持,机构如美国国家人类基因组研究所(NHGRI)每年提供超过1.25亿美元来支持多种基因组数据科学项目。

生成的数据资源通常向广泛的科学界开放,以促进进一步的数据分析。它们整理并提供有关人类基因组的各种信息,包括基因和DNA变异的位置等。

许多私人和商业云平台与政府和公共实体合作,如美国国家卫生研究院(NIH)的STRIDES(Science and Technology Research Infrastructure for Discovery, Experimentation, and Sustainability)计划。这些计划提供了存储和计算基础设施,用于托管基因组数据,并提供必要的安全性和隐私保护,特别是针对人类基因组数据。

基因组数据分享涉及哪些伦理、法律和社会影响

进行基因组研究伴随着一系列伦理责任,因为涉及个体的基因组序列信息,引发了复杂的隐私和身份问题。

  • 知情同意:通常,研究人员会寻求进行基因组测序的个体同意。然而,研究人员在获取知情同意时必须清晰地说明他们将如何使用和共享所产生的基因组序列数据。
  • 隐私:强大的计算工具能够从去标识化的基因组中提取序列数据,并在特殊情况下将其重新关联到进行测序的个体。调查人员可以利用这些工具,如识别犯罪现场留下DNA的罪犯。然而,使用基因组数据的社会利益必须超过潜在的风险。
  • 人工智能(AI:AI工具越来越帮助研究人员处理大量基因组序列数据,以寻找DNA中的隐藏模式。然而,由于AI算法通常缺乏透明度,应用这些算法于DNA数据时,可能会不自觉地引入偏见。基因组数据科学领域需要广泛的伦理研究,以应对当前基因组数据科学方法(依赖人类智能来解释结果)与新的AI方法之间的独特差异。虽然AI方法带来了许多有前景的优势,但它们与人类不同的工作方式需要受到仔细的伦理监督。

因此,数据科学家和基因组研究人员必须充分了解其研究的影响,并与伦理研究人员密切合作。

研究人员如何分享人类基因组数据

研究人员应根据研究参与者提供的同意来分享人类基因组数据。这些数据通常通过数据资源与科学界共享,有三种方式可供访问:

  • 开放访问或不受限制的访问:数据对公众开放,可用于任何研究目的。
  • 注册访问:介于开放访问和受控访问之间,研究人员可以为任何目的获取数据,但需要注册相关信息,并在使用数据时可能需要受到监控。
  • 受控访问数据分享:要求研究人员描述其研究目的,以便专门的数据访问委员会评估与参与者同意的一致性。只有在获得委员会批准后,研究人员才能访问这些数据。

基因组数据科学中的一些新兴话题是什么

人类基因组包含大量的基因组变异,即在个体之间DNA序列的特定位置存在差异。医疗系统和研究人员正在开发工具,用于识别这些DNA差异,并将其与医学相关信息关联,如疾病风险或特定药物治疗的适用性。研究人员还利用人工智能系统来解释基因组数据,以用于临床诊断,例如早期疾病诊断或基于基因组信息预测不同疾病的风险。

在过去的十年里,云计算已成为基因组数据存储和分析的不可或缺的工具。云计算降低了需要复制大型数据集的需求,提高了数据的安全性,并使研究人员更容易获取基因组数据科学资源。数据科学家们正在开发工具,以简化数据上传的过程,并确保数据的隐私和安全性。