医学与社会
2021年07月号

养活全世界:作物基因组学在前进

作者:生命新知

作物基因组学是确保全球粮食安全的关键因素。自从第一个植物基因组——拟南芥基因组序列,与随后的水稻基因组序列公布以来,已经过去了20年。目前人类已对100多种作物的基因组测序,植物基因组研究已经扩展到多个领域,未来几年有望在新技术和新方法推动下取得进一步进展。很可能会在作物基因组测序、基因图谱和多层次生物数据方面取得持续创新。将有望在生物组织的多个级别上整合基因组信息,进一步理解作物生物过程,反过来为实验结果落地提供动力。

世界持续面临粮食短缺的危机。全球贫困状况在经历几十年的持续下降后,从2015年开始,发生了逆转,并再次开始增加。目前,全世界的营养不良率徘徊在略低于9%的水平,但预计到2030年将增长到9.8%,届时将有近8.5亿人面临饥饿。此外,农业占据地球陆地表面积的38%,消耗约70%的淡水和1.2%的全球能源。

在农业资源消耗过大的情况下,造成粮食短缺的根本原因是多方面的,包括人口增长(到本世纪末或稳定在90~110亿)、气候变化、城市化、农业用地退化、对基于碳经济的化工产品的依赖以及日益严重的缺水。

养活世界上越来越多的饥饿人口仍然是人类面临的主要挑战之一。联合国制定了到2030年实现零饥饿的目标,必须以可持续的方式完成这项任务,在不断恶化的环境下确保作物产量的增长,同时减少养活日益增长的世界人口所需的资源。

这项全球目标的达成需要系统方法,包括数据驱动的新耕作方法、可持续实践和改良的新作物品种;在这方面,基因组学为21世纪的农业提供了基础工具和生物学见解。二十多年前,第一个植物的全基因组序列——拟南芥的全基因组序列发布;2002年,水稻成为第一个进行基因组测序的作物(图1)。在这些植物基因组序列发布后的20年里,在基因组学的帮助下人们加强了植物育种工作,提高了产量,能抵抗环境和病原体威胁,并开发了新品种。进入21世纪,基因组学将继续重塑作物,以满足当前和未来需求,就像上个世纪遗传学帮助推动作物改良一样。

技术和方法的进步进一步拓展了这一领域,使复杂作物基因组的测序成为可能,包括大型六倍体17千兆碱基(Gb)的小麦基因组。基因组测序,现在已经成为常规。新的工具已经允许对表观基因组信息进行分析,包括基因组在细胞核中的三维构象,以及转录组、代谢组和蛋白质组的信息现在已经很容易获得。同时,CRISPR-Cas9等技术可以更精确地编辑基因组,以评估基因功能,为作物改良设计新基因组。

这些新的技术和方法正在为未来几年作物基因组学的研究奠定基础。一个关键因素将是整合多个不同数据流,对作物生物学有新的见解,并将其应用于下游农业。

基因组测序的新时代

测序一直是基因组科学的基石,在过去的二十年中,已经对大约10种粮食作物和超过100种蔬菜和水果的基因组进行了测序(图1)。

新技术加上不同的测序策略,甚至可以获得基因组较大物种的序列,如玉米(2.3 Gb)、大麦(5.3 Gb)和豌豆(4.45 Gb),即使是多倍体作物基因组,如异源四倍体棉花(2.5 Gb)、六倍体小麦(17 Gb)和八倍体甘蔗(3.13 Gb),现在也可以用更大的设备进行探索,这将扩大关键作物物种的基因组研究范围,并使进一步的比较和遗传图谱研究成为可能。

尽管有大约20 000种植物可供人类食用,但全球粮食生产主要集中在一些大型作物上(例如,水稻、小麦、玉米和大豆),许多驯化粮食物种的基因组学仍有待探索。对于孤儿作物,虽然它们可能不具有全球重要性,但对当地经济和粮食系统至关重要,它们的基因组资源也需要探索。此外,现在可以更详细地研究主要作物的地方品种/传统品种和野生近亲。这些不太知名的孤儿作物,以及作物地方品种和野生近亲的基因组测序,在作物育种中对未来环境特别重要,因为其中一些种群和物种适应了特殊的甚至充满压力的环境,对适应气候变化可能越来越重要。

鉴于目前测序方法的简便性,现在也应该系统地发掘世界各地种子库中保存的大量作物的遗传多样性。据估计,在世界各地约1 700个种子库中可以找到约740万份种子,无论是在提高遗传知识方面还是在育种方面,都是无可比拟的资源。“3000水稻基因组计划”几年前发布了3010个水稻品种的基因组序列信息,已被证明是非常宝贵的;现在有人呼吁对国际水稻研究所种子库中保存的12.8万个品种进行测序,开发一个“数字基因库”,并帮助识别关键农艺基因的稀有等位基因。此外,还有一项3000个鹰嘴豆基因组测序计划,以推进这一关键发展中国家作物品种的遗传作图工作,而且像这样的更大规模的工作很可能还会增加。未来可利用这些大规模项目识别和探索等位基因,以应对气候变化或让作物适应当地环境。这种方法必然会将种群、进化和功能基因组学与过去的气候模拟和景观基因组学结合起来。相关工作已经在拟南芥以及水稻、玉米、高粱、珍珠谷子和非洲小米中开始;然而,要充分利用这种方法进行作物改良还有许多工作要做。

最后,为每个物种开发多个高质量参考基因组序列的能力将有助于解开泛基因组谜题。现在很清楚,一个物种基因组既包括核心基因组(其序列在整个物种中都有发现),也包括辅助基因组(可有可无的序列)。

例如,在水稻中,38%的基因被认为是可有可无的。对其他作物品种的泛基因组也进行了研究,包括六倍体小麦、大麦、大豆和番茄。尽管基因含量可变,但泛基因组的生物学重要性仍不清楚,如作物如何维持功能,以及基因的存在和(或)缺失在多大程度上与作物适应性变异有关?

当然,有证据表明泛基因组变异在关键作物基因和表型中的重要性。例如,在大豆中,泛基因组变异似乎与种子光泽、种子色素沉着和开花时间的基因有关;而在小麦中,抗病虫害基因的品种间基因含量存在差异。在番茄中,TomLoxC启动子区域的一个大的结构变体与水果风味差异有关。这些初步研究表明,在作物泛基因组中发现的存在(缺失)变异和结构多态性可能在适应和多样性中发挥关键作用,是阐明植物生物学和改良作物的一个令人兴奋的研究领域。

扩展遗传图谱

近二十年来,科学家对农艺性状的关键基因进行了鉴定,实现了重要基因座的图谱克隆和功能研究。在过去十年里,在20多种作物中,已经有超过1 000个已发表的全基因组关联研究(genome-wide association studies, GWASs),而且这些数字还在不断增加。作物基因组学研究领域已经相当成熟。事实上,作物品种中的GWASs几乎已成为常规,并大大增加了我们对作物性状遗传结构的理解。

但目前的GWAS作图方法常常忽略同一群体中一个或几个作物中发现的稀有等位基因。而另一种方法派上了用场——数量性状位点(quantitative trait locus, QTL),通过QTL 定位确定的水稻关键性状的因果等位基因,如粒径(GS3和qGL3)和开花时间(GHd7)在群体中的频率小于2%。

还应注意绘制野生近缘作物中的基因。这些野生物种抵御了病原体和害虫的攻击,能够抵抗自然野生环境中的土壤贫瘠、缺水和极端天气,并可能为作物改良提供新的基因。到目前为止,作物野生近缘种的遗传图谱和GWAS图谱还相对较少,这可能是未来几年的热门研究领域。

作物系统基因组学

虽然在鉴定农艺改良的关键基因方面取得了成功,但对基因功能及其如何确定农业表型的理解仍然滞后。在未来几年里,希望能更多地揭示性状的分子机制,并建立基因型和表型之间的联系,以利用这些知识进一步改良作物。

剖析表型背后的遗传机制具有复杂性,在这种情况下必须进一步使用系统基因组学方法。系统方法需要在全基因组范围内收集各种功能基因组和表观基因组信息,可用于推断基因功能和调控(图2)。

一个越来越令人兴奋的领域是在单细胞水平上分析功能基因组和表观基因组数据的能力。例如,研究细胞转录组在发育过程中或在压力下如何进化的能力,可以为植物细胞分化和生理反应的研究提供更高的分辨率。总之,新方法为探索细胞特性和基因调控的本质提供了新的见解,最终可以为基因组编辑的高精度工作提供信息,以了解潜在的机制和作物改良。

了解作物在农田中的表现仍然是一个重要,但几乎未被探索的领域,需要研究作物如何对不同时间尺度上的环境波动作出反应(从几秒钟波动的太阳斑到每月变化的季节模式),以便更清楚地了解植物如何在各种环境信号中维持功能。

整合田间环境、气候、历史/进化和表型信息,重建特定环境生态位中的作物适应和进化。这可能得益于行业与学术的合作,因为行业研究人员拥有来自世界各地田间试验的长达数十年、物候丰富的数据集,学术研究人员可以利用这些数据来研究作物适应的机制。

最后,随着越来越多的系统基因组学方法被采用,现在在作物物种中常规获得的基因组数据的数量、质量和类型将继续增长。原则上现在有数据来检验多层次的生物学相关性(图3),而当前需要解决如何挖掘这些巨大的数据集以获得新的生物学,以及如何跨多个尺度整合数据以获得新的生物学见解。跨组织规模的计算分析和数学建模本来就很困难。数据科学和人工智能的新方法,如机器学习,有助于揭示不同数据类型的模式,但不能立即揭示生物学机制。基于模型的分析可能让人们理解的更深刻。

从基因组到田间-推进转化

虽然基因组学加快了基因发现的步伐,但在将这些发现应用于育种计划方面仍有差距。例如,现在很容易发现GWAS关联,但将这些发现应用于开发新作物品种并没有那么有力。当然,将遗传图谱的结果转化到田间的例子很多,包括水稻的耐淹性。然而,有几个问题仍然阻碍着转化进展。例如,你如何将育种值达到GWAS峰值以上?如何将GWAS结果纳入基因组选择/预测模型?解决这些问题还需要注意模型和算法的开发,创新地整合各种类型的数据(基因组、表型、功能、表观基因组等),并考虑非线性相互作用,如基因型对环境的影响推进作物育种目标的基因组选择/基因组预测方法。

现在,分子遗传学家在揭示某些性状(开花时间、根系发育、光合作用、胁迫反应等)的遗传基础方面取得了进展,其任务是如何常规地将这些知识用于作物改良。

我们应该认识到,驯化和作物多样化的进化过程中的限制与机会共存。例如,有效群体规模的减少和正向选择的遗传搭便车不可避免地导致作物群体中有害多态性水平增加,同时也限制了可用于进一步作物改良的变异。人们越来越认识到有害的多态性在抑制作物产量方面的程度和作用,有人认为育种计划的目的是识别和清除驯化群体中的有害突变。相反,在进化过程中,作物在多种环境中的多样化导致了局部适应,这可以提供重要的遗传物质,帮助开发适合生态位生态系统的作物品种。

结论:

作物基因组学是21世纪头20年农业发展的关键驱动力。基因组测序和分析多层次功能基因组和表观基因组信息的能力对更清楚地理解植物生物学至关重要。令人兴奋的机会是整合多层次的数据,例如整合基因表达、代谢组和环境数据;或三维染色体构象与序列数据和进化信息。随着基因组技术和计算方法的不断发展,探索重要植物性状的能力将不断增强。基因组学将继续帮助人们最大限度地减少粮食短缺,并为可持续农业体系奠定基础、养活世界。

参考文献:Purugganan  MD, Jackson SA. Advancing crop genomics from lab to field[J]. Nature Genetics,2021,53:595-601.

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5