摘要
60多年来,新DNA序列的合成生产正帮助研究人员了解和改造生物。在这里,我们总结了DNA从头合成的方法和注意事项,特别强调了允许大规模和低成本生产的最新技术。此外,本文还讨论了大规模从头DNA合成所支持的新兴应用,以及未来的挑战和机遇。
背景简介
DNA是生物信息的主要载体。人工合成DNA技术的发展让我们理解和改造生命的能力显着提高。尽管科学家最初尝试使用分子遗传学技术破译遗传密码,但直到人工合成寡核苷酸技术成形后,遗传密码才得到彻底破译。如今,人类已经掌握了合成完整病毒和细菌基因组的能力。
虽然有了这些进步,我们读取DNA的能力依然比我们编写它的能力要好。在过去的十年中,高通量测序技术,也称下一代测序(next-generation sequencing, NGS),彻底改变了对天然DNA序列的发现和理解,基于NGS的测序工具允许科学家以低成本和前所未有的规模,分析许多遗传和生化过程。然而,NGS虽能帮助我们产生更大规模的数据并提出假说,但以实验验证这些数据的能力仍然滞后,因此成为天然和合成生物学研究中的限速步骤。若以大规模和低成本去构建所需DNA序列,将会迅速推动生物学研究的进展。
若要实现新功能通常需对原有序列进行大量修改或合成全新序列,这些基因序列通过从头合成的方式最容易获得。其次,在遗传机制研究方面,合成序列通常优于天然序列,因为它们可以被设计用于“序列如何影响功能”的专门测试。最后,从天然序列中扩增或修饰的序列可能难以检索,因此合成是实验研究它们的唯一实用方法。
本文回顾了人工DNA合成技术的创新和应用。涵盖了大规模的单链DNA寡核苷酸(oligonucleotide,oligo)的合成,以及将这些寡核苷酸组装成更长的双链DNA构建体和其他新兴应用(图1)。
图1. 不同寡核苷酸和基因合成技术的长度和成本
根据长度和价格,比较了商业化寡核苷酸合成中,来自传统供应商(粉红色)和基于芯片技术的供应商(棕色)。并显示了商业供应商对克隆的、序列验证的基因(深绿色)和未纯化的DNA组装体(浅绿色)的基因合成成本,以及来自学术报告的寡核苷酸池(蓝色)的基因合成成本。
寡核苷酸合成
寡核苷酸合成历史悠久,始于1950年,随后在1980年实现自动化和商业化,并在1990年发展出基于高通量芯片的方法。本文主要为介绍当前的方法,了解它们的优势并且评估它们对下游基因合成的影响。
基于柱式合成的寡核苷酸:Todd、Khorana和他们的同事在1950年首次报道了该方法,使用了磷酸二酯、H-磷酸酯和磷酸三酯。如今,寡核苷酸的主要化学合成方法为基于固相亚磷酰胺的自动化合成,该化学方法由Marvin Caruthers在1980年首次开发(图2)。基于亚磷酰胺的寡核苷酸合成通常包括一个四步循环,每次将一个碱基添加到连接在固相支持物上不断增长的寡核苷酸链中。首先,通过使用三氯乙酸去除DMT,使附着在固体支持物上的二甲氧基三苯甲基(DMT)保护的核苷亚磷酰胺脱保护。随后,一个新的带有DMT保护的亚磷酰胺与生长中的寡链5'羟基偶联形成亚磷酸三酯。第三步,将剩余未反应的5'羟基进行乙酰化加帽,使未反应的寡核苷酸链对后续的核苷添加保持惰性,从而减轻缺失错误。第四步,用碘将亚磷酸盐氧化为磷酸盐,产生氰乙基保护的磷酸盐骨架,接着去除DMT保护基使循环继续。当添加单个碱基时,通常監測脱三苯甲基化步驟以跟踪耦合效率。在从3'到5'依次添加所有核苷后,将完整的寡核苷酸从固体支持物上去除,并去除碱基和磷酸骨架上的保护基团。
图2 亚磷酰胺法合成寡核苷酸
四步合成寡核苷酸是生产DNA寡核苷酸最常用的化学方法。
这种自动化过程可同时合成96-384条寡核苷酸,范围从10-100 nmol。多年来通过原材料、自动化工艺、加工和纯化方法的改进使得常规合成长度可达100 nt,每个核苷酸的成本约为0.05-0.15美元,错误率约为1/200或更佳。这个过程的长度和错误率受限于以下主要原因,首先合成循环中每个步骤的偶联率必须非常高,尤其是对于长寡核苷酸的生产,例如对于200 nt的寡核苷酸合成,即使循环每轮有99%的偶联率也将导致只有13%的最终产量。此外,脱嘌呤(尤其腺苷的脱嘌呤)可能在酸性脱三苯甲基化过程中发生,并且在长寡核苷酸的生产中尤为严重。在从碱基和磷酸骨架上最终去除保护基团的过程中,这些脱碱基位点会被切断,从而降低长寡核苷酸的产量。最后,即使是成功合成的寡核苷酸也包含错误,纯化寡核苷酸时发现主要错误是单碱基缺失,这是由于未能去除DMT或偶联、加帽步骤效率低下所致。更新的化学和改进工艺会不断出现,将进一步地增加寡核苷酸的长度和质量。
基于芯片合成的寡核苷酸:从1990年初期开始,Affymetrix开发了使用光化学在表面上进行空间定位聚合物合成的方法,为DNA芯片的发展铺路,他们使用基于掩模的光刻技术来选择性地去除光不稳定的核苷亚磷酰胺的保护基团。今天,几种技术共存以制造空间解耦合的DNA芯片。无掩模体系(例如,NimbleGen和LC Sciences)极大地简化了光刻技术,使用可编程微镜设备(类似于现代数字投影仪中的设备)来引导光化学合成。使用喷墨打印技术(如安捷伦)在芯片表面进行合成时使用标准的亚磷酰胺修饰核苷酸。此外,CombiMatrix(现为CustomArray)开发了基于半导体的电化学核苷酸生产,以选择性地脱核苷保护。还有其它已报导的微流控和芯片合成方法的扩展和变化,但尚未广泛使用或商业化。芯片合成的寡核苷酸被切割收集后,以“寡核苷酸池”的形式呈现,作为一种受欢迎且便宜的人工寡核苷酸来源,但供应商之间的规模、长度和错误率差异很大。由芯片合成的寡核苷酸比柱式合成的便宜2~4个数量级,成本从每个核苷酸1×10-5美元到1×10-3美元不等,具体取决于长度、规模和平台。
迪赢生物通过多年研发,成为国内率先掌握基于喷墨打印的高通量DNA合成技术的科技企业。单张芯片最大通量435w条,跻身国际前列,可为客户提供高度定制的DNA合成产品。
基因合成
短寡核苷酸(通常为5-50个核苷酸)提供了原始底物去构建更长的合成片段(通常200-3,000bp),这些合成方法统称为基因合成(此处的基因特指为基因长度,而非遗传学概念)。首次合成出的基因较短(80-200bp),为Gobind Khorana的团队使用T4 DNA连接酶将化学合成的寡核苷酸拼接在一起。另外则为基于聚合酶循环组装(PCA)的技术,为使用聚合酶通过非指数扩增的方式,将重叠寡核苷酸延伸到双链片段中。连接酶法和PCA方法通常都需依赖PCR反应分离及扩增出全长序列,并且经常一同联合使用。最近,Gibson及其同事开发了在体内和体外将寡核苷酸直接组装和克隆到质粒骨架中的一步法。经过迭代改进,这些方法作为大多数学术和商业基因合成工作的基础,得到了广泛的实践。
基于芯片的基因合成:尽管基于芯片的寡核苷酸池很便宜,但将它们用于基因合成仍存在一些挑战。首先,尽管池中可以产生的寡核苷酸数量很多,但对于大多数现有的基因合成方案来说,它们的单体浓度都相当低。其次,寡核苷酸池的错误率通常高于柱合成寡核苷酸的错误率。最后,产生的寡核苷酸数量过多会导致基因组装之间的干扰,使其难以扩大规模。
为了缓解这些问题,开发了两种方法,首先分离每个单个组装所需的寡核苷酸子池,从而克服对池复杂性和序列正交性的担忧(图 3),Kosuri等人使用预先设计的条形码,允许对仅参与特定组装的寡核苷酸进行PCR扩增,然后通过消化去除条形码,之后进行基因的标准组装。Quan等人使用定制的喷墨合成仪,在物理分离的微孔中合成寡核苷酸子集,然后在其中原位进行扩增和组装。这两种方法都扩大了寡核苷酸池通量(>10000个寡核苷酸)和使用了酶促纠错体系,这为近年来的商业化铺平了道路。最后,这些直接从大型池中一锅式组装基因库的两个报道均已得到尝试,但发现这些方法仅限于同时连接一个或两个寡核苷酸,并且动态范围存在很大的差异,与商业化生产还存在一定差距。
图3 处理微阵列寡核苷酸复杂性的不同策略
顶部,Kosuri等人使用PCR扩增条形码子池(从而消除背景复杂性),去除条形码序列,然后组装基因。底部,Quan等人使用定制合成仪将每个组装所需的寡核苷酸打印到单独的微图案孔中。利用能够实现芯片合成的空间分离,然后在微孔内扩增和组装这些基因。
克隆、纠错和验证:合成基因刚组装完毕时包含正确和错误序列的混合物(图 4),因此通常会将合成的基因克隆到大肠杆菌或酵母的质粒中,然后通过Sanger测序验证序列。
图4 纠错技术报告的错误率比较
错误率计算包含了寡核苷酸源和使用的纠错方法。空心圆圈表示起始错误率,实心圆圈表示组装基因的错误率(两个实心圆圈表示纠错前后的错误率)。ssDNA,单链DNA;dsDNA,双链 DNA;Column,柱合成寡核苷酸;Array,基于芯片的寡核苷酸池;Hyb,基于寡核苷酸杂交的纠错;Seq,基于NGS的纠错;Lig,基于高温连接/杂交的纠错;Nuclease,基于核酸酶的纠错。
大规模从头DNA合成的新兴应用
分子工具:2004年,合成DNA的第一个也是最大的用途之一是开发人类和小鼠的短发夹RNA文库(shRNA)。现今寡核苷酸池也被应用于外显子和其他靶向捕获和重测序以及研究遗传调控机制中,例如全基因组CpG甲基化、RNA编辑和等位基因特异性表达等。另一个有趣的用途是Larman等人创建了人类肽组噬菌体展示文库(413611个肽,使用约58 Mb的DNA),用于从患者样品中鉴定自身免疫靶标。最近,两个研究小组利用CRISPR介导的基因靶向与寡核苷酸池在人類細胞系中構建了全面的、匯集和條形碼的敲除文庫。寡核苷酸池使得这些分子工具更具实用性,期待将来寡核苷酸池在长度、质量和通量上都能有所提升。
蛋白质工程:蛋白质工程一直受益于合成能力的提高,例如DNA重组、定点突变和低成本基因合成。从头DNA合成提供了一个更强大的工具,通过及利用计算设计和宏基因组信息来设计新的蛋白质功能。例如,Bayer等人合成了89种甲基卤化物转移酶,这些酶存在于不同生物的宏基因组序列中,合成的酶显示出活性的显着改善。随着合成方法的改进,用于测量多重结构-功能关系的深度突变扫描技术的发展将使大规模设计合成基因库的快速表征成为可能。
基因重组:为了更好地理解和设计特定的遗传系统,研究人员已经开始重新设计和从头合成这些具有正交、定义明确的基因序列和调控元件。通过重组,研究人员希望在通路中包含已知元件并明确其意义,同时屏蔽所有未知控制元件,可以作为改进或移植这些遗传系统的更好起点。
全基因组合成:基因组的从头合成提供了完全控制生物体遗传密码的希望。由于病毒在健康和生物技术中的重要性,使得其基因组重建受到高度重视。2002年,Eckard Wimmer的小组首次通过合成重组完整cDNA生成了具有传染性的脊髓灰质炎病毒。从那时起,数十种RNA病毒已被化学重组,用于病毒减毒、历史重建、疫苗开发和病毒基因组研究。
DNA纳米技术:DNA作为一种化学聚合物, 紧凑的双链 DNA 的螺旋形式和简单的碱基配对规则使我们能够将 DNA 视为一种可靠的技术,最近已证明将数字信息直接编码为 DNA 序列,在三个维度上的数据密度超过了大多数其他技术,可应用在数据存储中。
未来发展
我们期望能达到的基因合成成本是多少?现今基因合成的成本与用于组装的柱合成寡核苷酸的成本数量级基本相同,如果基因合成转变为基于芯片的寡核苷酸,那么成本能下降3-5个数量级以与寡核苷酸池的成本持平(1美元可合成103-105bp),测试遗传假设将变得像设计和分析一样简单。便宜的基因合成有更大的潜在受益领域,包括农业、化学品、酶、材料和医学领域。
更大规模的合成生物学能否能帮助增加需求以刺激投资?即使在学术研究实验室中,测试单个生物构建体的功能的下游成本通常也远高于合成构建体本身的成本。因此,基因合成成本的降低不会极大地影响当前实验工作流程的通量和规模。然而,所进行的实验类型也可能发生显着变化。十年前,芯片首次被用于便宜的寡核苷酸池中,尽管最初使用这些只作为柱合成寡核苷酸的替代品,但后来研究人员很快地适应并使用生物信息学工具设计合成大规模的寡核苷酸文库和基于NGS的多重检测方案,以同时测试其功能结果,这些富有成效的实验在几年前对于研究人员来说是无法想象的。新实验方式的产生能推动合成生物学的进一步发展,本文中描述的初步进展值得期待,希望合成生物学技术未来能满足更多的需求。
迪赢生物提供高通量合成的寡核苷酸池(oligo pool), NGS靶向捕获探针和引物,基因合成,标准品等服务,欢迎各位老师洽询。