内容简介
《本草基因组学》教材第1版于2018年出版,受到学术界和大专院校的广泛关注。《本草基因组学》在对第1版进行修订的基础上对本草基因组学近年研究进行了跟进和总结,加强了概念性和理论性的介绍,并对未来的研究思路和方向进行了思考和探讨。《本草基因组学》**章至第九章为前半部分,第十章至第十八章为后半部分。前半部分包括绪论、结构基因组学、功能基因组学、表观基因组学和宏基因组学等,论述了本草基因组学的核心研究内容。后半部分包括药用模式生物、中药合成生物学、基因组辅助育种、DNA鉴定、中药体内过程组学研究、关键实验技术、生物信息学及数据库等内容,重点论述本草基因组学的主要应用,并引入了药用植物系统基因组、表型组、人工智能等前沿内容。
目录
目录
**章 绪论 1
**节 本草基因组学的产生和发展 1
第二节 本草基因组学研究内容 7
第三节 本草基因组学的应用 23
第二章 药用生物结构基因组 26
**节 药用生物核基因组概述 26
第二节 药用植物基因组 30
第三节 药用动物与药用真菌基因组 43
第三章 药用生物细胞器基因组 53
**节 药用植物叶绿体基因组 53
第二节 药用生物线粒体基因组 64
第四章 药用生物转录组研究 70
**节 转录组概述 70
第二节 RNA-seq转录组研究 71
第三节 全长转录组研究 77
第四节 单细胞转录组研究 86
第五节 空间转录组研究 97
第五章 药用生物蛋白质组研究 106
**节 蛋白质组学概述 106
第二节 药用植物蛋白质组 110
第三节 药用动物蛋白质组 117
第六章 药用植物代谢组学研究 121
**节 药用植物代谢组学研究策略 121
第二节 基于代谢组学的中药鉴定和质量评价 126
第三节 基于代谢组学的天然产物合成研究 132
第七章 天然产物生物合成途径解析 139
**节 天然产物生物合成途径研究策略 140
第二节 萜类生物合成途径 143
第三节 生物碱类生物合成途径 153
第四节 苯丙素类生物合成途径 159
第八章 表观基因组学 163
**节 表观基因组研究策略 163
第二节 非编码RNA 168
第三节 DNA甲基化 173
第四节 染色质三维结构 178
第九章 药用植物宏基因组学 183
**节 药用植物宏基因组学研究策略 183
第二节 药用植物根际微生物宏基因组 187
第三节 药用植物内生菌宏基因组 198
第十章 药用模式生物研究 205
**节 药用模式生物研究策略 206
第二节 药用模式真菌——灵芝 212
第三节 药用模式植物——丹参 218
第四节 其他相关模式生物 226
第十一章 中药合成生物学研究 232
**节 中药合成生物学体系创建 233
第二节 中药合成生物学体系优化策略 235
第三节 萜类合成生物学 240
第四节 生物碱合成生物学 245
第五节 黄酮合成生物学 248
第十二章 药用植物分子育种研究 254
**节 药用植物分子育种原理与方法 254
第二节 优质适产药用植物分子育种 258
第三节 抗逆药用植物分子育种 267
第十三章 中药分子鉴定 272
**节 DNA条形码鉴定 272
第二节 超级条形码鉴定 281
第三节 其他分子鉴定技术 285
第十四章 中药药物体内过程组学研究 290
**节 中药药物代谢组学 290
第二节 中药肠道宏基因组学 295
第三节 中药药物基因组学 302
第四节 中药药物蛋白质组学 308
第十五章 本草基因组学关键实验技术 315
**节 结构基因组学关键技术 315
第二节 转录组学关键技术 320
第三节 功能基因组研究关键技术 320
第四节 蛋白质组学关键技术 323
第五节 代谢组学关键技术 325
第六节 合成生物学关键技术 327
第十六章 生物信息学及数据库 330
**节 生物信息学编程基础 330
第二节 生物信息学常用分析方法 333
第三节 基因组相关数据库 337
第四节 生物信息学中的人工智能 343
第十七章 药用生物系统基因组学 349
**节 系统基因组学基本概念 349
第二节 药用生物系统基因组学研究与应用 352
第三节 研究的问题与发展方向 355
第十八章 表型组学 358
**节 植物表型组学的研究内容 358
第二节 植物表型组研究方法 361
第三节 中药植物表型组研究方法 363
重要参考文献 367
试读
**章绪论
“本草”是中草药的简称,也常用来指代中草药学。它以中医理论为指导,研究中草药的采集、炮制、性能、功效、应用等方面的知识,在中华民族抗击疾病的历史上发挥了不可替代的作用。基因组学与基因编辑技术等是各生命科学分支中*前沿且进展*迅速的学科,是分子生物学于20世纪中期出现后整个生命科学领域飞速进步的标志。在中医药学和生命科学研究策略重大变革的双重驱动下,本草基因组学这门学科应运而生。从狭义上讲,本草基因组学是利用组学技术研究中药基原物种的遗传信息及其调控网络的一门学科。从广义上讲,本草基因组学是从基因组水平研究中药及其与人体的相互作用,进而阐明中药防治人类疾病分子机制的一门前沿学科。广义的本草基因组学研究范围从药用生物本身延伸到中药治疗疾病过程中的体内变化,广泛扩展了多组学技术在中医药研究中的应用范畴。
本草基因组学研究策略以全基因组序列解析为基础,结合转录组、蛋白质组、代谢组等多组学技术及比较基因组学、群体基因组学等手段,极大提升了人们对天然产物的生物合成和调控、药用植物的生理和发育特征以及物种形成和进化历史的认识。作为本草基因组学的基础,药用物种基因组信息的解析包括样品采集、基因组调查、基因组测序与组装、注释和质量控制,以及构建本草基因组数据库等。本草基因组学的下游是与生产的结合,如新品种选育及合成生物学等。合成生物学为利用药用植物基因组信息进行药物改进和创新提供了工具,包括了从异源底盘中生物活性化合物的生物合成、药用植物代谢工程以及提高药用植物品质性状的合成生物学方法等各方面。本草基因组学的建立和发展为传统医学的创新开辟了新途径,为药材深入开发提供了新思路。
本草基因组学研究已引起国内外的广泛关注,《今日美国》(USATODAY)以“揭秘中国‘仙草’基因组”为题,对灵芝基因组研究进行了报道;《每日科学》(Science Daily)和美国国家科学基金会等以“栀子DNA显示植物是神奇的化学家”为题,报道了西红花苷生物合成途径被解析的过程;欧洲研究者在学术论文标题中直接使用了“Herbgenomics”这一专有名词;人民日报、光明日报和人民网等多家媒体也对“千种本草基因组计划”进行了广泛报道(图1-1)。本草基因组学在传统中医药与现代生命科学之间架起一座沟通的桥梁,将前沿组学技术引入中药研究,大大加速了中药现代化进程。
**节 本草基因组学的产生和发展
本草基因组学是中药学与基因组学相结合的交叉学科,经过十余年的快速发展,通过不断夯实研究基础,持续吸收和丰富研究内容,目前已成为涵盖药用生物多组学研究和中药与人体相互作用多组学研究的综合性学科,并广泛应用于中药合成生物学、中药分子鉴定和药用植物分子育种等领域,取得了令人瞩目的研究成果。
A.美国国家科学基金会对栀子基因组研究成果的报道;B.“Herbgenomics”作为专业名词在学术论文标题中使用;C.人民网报道“千种本草基因组计划”
一、本草基因组学的产生
植物被用作药物的历史贯穿人类繁衍生息的每一个时期。早期的药学工作主要基于自然物种,特别是药用植物。古罗马时期的著名希腊医生迪奥斯科里德斯在公元50至70年间完成了西方世界的**部系统的药理学著作De Materia Medica,其中记载了约500种药用植物、800种植物药以及100种动物或矿物药,并为其中的部分药物绘制了插图,使得后人可以从中考证记载的物种特征。该书作为药学知识的综合汇编和药学的重要工作,被人们使用了约1500年。在同一时期,中国药学著作是《神农本草经》。该书是对秦汉时期药学知识的总结,成书于东汉时期,是东方世界现存*早的药学专著,其中记载了365种药物(刻意选取以合一年天数,实际当时药物数量不止于此),包括252种药用植物。
然而,基于博物学的药物研究离现代医学的核心研究领域还有相当的距离。中世纪之后,欧洲进入了自然科学快速发展的文艺复兴时期。随着化学、物理和生物学的快速发展,以及解剖学和生理学的深入研究,在现代工业化进程的推动下,西医逐渐偏离了基于整体观点和思辨推理的传统医学,而转向利用以实验为主导的经验方法和各种自然科学提供的技术手段。这种转变培养了医学专业人员的科学意识,赋予医学领域自然科学的属性。由此,现代西医在思想基础上与传统医学开始分歧。对药用植物等传统药材的研究被统归为生药学。进入近代以来,发展中国家的传统药物研究在很大程度上遵循了西方医学模式,减少了以基原物种为核心方法的研究。
随着技术的进步,特别是以基因组学为代表的组学技术的进步,这一趋势发生了变化。2009年中国研究者提出本草基因组计划,即针对具有重大经济价值和典型次生代谢途径的药用植物进行结构基因组学和功能基因组学研究。该计划的结构基因组研究策略包括测序物种筛选、待测物种基因组预分析、测序平台选择、遗传图谱和物理图谱绘制、全基因组组装及生物信息学分析;功能基因组研究策略包括模式药用植物突变体库建立及其基因功能研究、药用植物有效成分合成及其调控研究、药用植物抗病抗逆等优良性状的遗传机制研究及优良品种选育。该计划中提到的研究方向和研究策略构成了狭义本草基因组学的主体内容。广义本草基因组学研究包括了更加丰富和深入的研究内容,如陈士林院士研究团队基于人类全基因组受体基因构建的细胞株系资源库及其相关的药理药效评价和药物筛选平台,从而结合多组学研究系统分析中药天然产物在人体内发挥作用的全过程。
本草基因组学领域的研究基础包括药用植物的基因组序列及其遗传背景的解析。在此基础上,本草基因组学整合了转录组学、蛋白质组学、代谢组学和群体遗传学等方法,以确定药材的关键品质性状,探索植物药物化合物合成和调控的关键基因,并通过正向或反向遗传学操作验证基因功能。这些研究对药材的准确鉴定、安全使用、品种选育、环境相互作用、栽培管理和质量控制,以及确保药材的高质量和可持续供应做出了重大贡献。基于基因组数据,以药用植物为重点的多个数据库已经建立,应用于这些数据的软件和算法也在不断优化创新。依托这些数据库为核心形成的大数据体系,中药产业**个全产业链大模型“本草智库”已经发布。“本草智库”大模型集中药知识获取、管理与服务于一体,创建覆盖中药全产业链的知识系统,是全球*个中药全产业链大模型(图1-2)。随着机器学习和人工智能的进步,这些数据的应用已经扩展到发现新化合物和鉴定药用植物的未知疾病靶点,为发现新药提供了可能。在药用植物基因组学的支持和合成生物学、药物靶点筛选等技术的蓬勃发展下,传统药用植物研究正在进入以新药开发为目标的时代(图1-3)。
2012年,本草基因组学研究团队应用光学图谱和新一代测序技术,完成了染色体水平的灵芝基因组精细图绘制,研究以“Featured image”形式发表在NatureCommunications,这是本草基因组计划提出以来取得的**个重大研究进展。灵芝基因组大小约43.3Mb,由13条染色体组成,预测编码16113个基因(图1-4)。灵芝基因组精细图的公布为进一步开展灵芝功能基因组学研究奠定了基础,并推动灵芝成为研究三萜合成与调控的模式真菌。
二、本草基因组学的发展
中国、美国、巴西、埃及、欧洲、印度、日本和韩国药典中共收录了910种药用植物和真菌;以此作为统计基础,截至2023年8月15日,共有202个物种测序完成并公开发表。其中,以《中国药典》测序物种*多,达到152种,其中专有物种73种。国际公认的药用物种受到了更多的关注,被列入三个或更多药典的物种中超过40%已经测序,而只被列入单一药典的物种中只有20%已经测序。被测序的物种来自83科,其中11科有不少于5种被测序的物种。豆科的数量*多,有11种,其次是蔷薇科、兰科和菊科,各有10种。测序基因组的长度从美国药典收载的药用菌(Antrodia camphorate)的33Mb到中国药典收载的油松(Pinus tabuliformis)的25.4Gb,平均长度为1.51Gb,中位数为0.74Gb。重复序列的组成是造成基因组长度变异的主要原因之一。与基因组大小和重复序列相比,药物基因组的注释基因数相对稳定,其变异系数为55%(基因组大小的变异系数为193%,而重复序列组成的变异系数为1109%)。值得注意的是,被注释的重复序列和蛋白质编码基因的数量受到组装质量、注释工具和基因组倍性的影响。菊花(Chrysanthemum morifolium)基因组中138749个蛋白质编码基因代表了其三倍体基因组,而对于柿(Diospyroskaki),超过150000个蛋白质编码基因代表了其整个六倍体基因组。
*初的基因组研究主要使用Sanger测序,这一时期测序的物种是药典中列出的少数几个**作物。第二代测序技术和相应算法的出现显著降低了测序成本和组装门槛,推动了**批药用植物基因组研究。大麻基因组是药用植物基因组学的**个典型研究案例,使用罗氏454和Illumina平台完成。该研究从基因组学和转录组学的角度证实了花腺毛是大麻素合成的主要位点,提出了四氢大麻酚(THCA)/大麻二酚(CBDA)的合成/缺失决定了大麻素的组成。作者进一步尝试分析高THCA和高CBDA菌株在基因组水平上的差异,然而结论性的结果受到不确定的装配结果等技术限制的阻碍。基于二代测序的基因组学研究有助于研究人员探索药用植物的各个方面,例如基因组特征、次生代谢物(secondarymetabolites/SMs)的合成和调控、生态习性、生理性状、适应进化和驯化以及性别决定等。然而相对来说,这一阶段基因组的组装质量相对较低(如平均contigN50小于100kb),这在一定程度上限制了药用植物基因组研究的推进。2015年,P and leton等人将长读测序技术成功应用于人类基因组的组装,显著影响了基因组组装的连续性,极大提升了人类基因组图谱的质量。向日葵(Helianthus annuus)、牵牛(Ipomoeanil)、木棉(Gossampinus malabarica)、罂粟(Papaver somniferum)、南方菟丝子(Cuscuta australis)等物种率先采用第三代基因组测序技术进行成功组装,开启了药用植物基因组研究的新时代并获得了一系列有意义的结果。菟丝子是一种常用的中草药,也是一种著名的寄生植物。研究发现,菟丝子与自养植物相比缺失了11.7%的共有保守同源基因家族,这些基因包括与根系发育、养分吸收、防御和开花调控相关的基因;与寄生吸器发育有关的基因是从与根、花和其他组织有关的基因进化演化而来的;基因复制和随后的新功能化驱动了菟丝子*特表型的获得。
随着测序技术的发展,许多具有重要药用价值的物种已被多次测序以取得更好的组装结果,例如,人参已有三个版本的基因组、三七有五个版本、丹参有五个版本、黄花蒿有两个版本的基因组组装。这些不断更新的基因组组装策略显著提升了本草基因组学的研究水平。以罂粟基因组为例,2012年,IanA.Graham团队通过正向遗传和BAC测序,确定了罂粟生物合成邻苯二甲酰异喹啉生物碱诺斯卡品的10个基因簇。2018年,叶凯研究组发布了高连续性的罂粟(P.somniferum)基因组,并在此基础上发现前面提到的诺斯卡品合成基因簇位于STORR基因和其他四个参与吗啡合成的基因附近。2020年,李秋实等人利用Hi-C将叶凯研究组的组装结果提升到更完整的染色体水平。2021年,叶凯研究组报告了罂粟(P.somniferum)、渥美罂粟(P.setigerum)和虞美人(P.rhoeas)三个物种的染色体水平基因组。根据这三个基因组的比较,他们更新了对STORR融合事件的理解,包括缺失以及可能的“融合,易位”(Fusion/Translocation,FT)事件。2023年,张仁纲等人使用等位基因感知方法重新分析了叶凯研究组的数据。他们提出了网状异源多倍体化,包括4个古老的二倍体基因组(A,B,C,D