广泛分布的IS200/IS605转座酶家族编码了多种RNA Guide的核酸酶

1.本文从IS200/IS605转座子重建了CRISPR-Cas9系统的进化,发现IscB使用单个 ncRNA 进行RNA 引导的双链DNA切割并且可以用于人类细胞中的基因组编辑。还证明了由 IS200/IS605转座子编码的另一个TnpB蛋白也有RNA Guide的核酸酶活性,该蛋白推测为Cas12内切核酸酶的祖蛋白。

2.这项工作揭示了一类广泛的转座子编码的RNA引导的核酸酶,本文将其命名为OMEGA(专性移动元件引导活性),具有作为生物技术发展的巨大潜力。由于TpnB分布更为广泛,后续真核基因编辑只需要导入RNA即可引导内源性核酸酶进行基因编辑

3.同时TnpB的Spacer调控得当,可以表达单一核酸内切酶融合不同crRNA实现9~12bp Type IIS核酸内切酶,解决现有限制性内切酶瓶颈。

IscB蛋白(insertion sequence Cas9-like OrfB,参考文章Kapitonov VV et al. J Bacteriol. 2015 Dec 28;198(5):797-807.)是在IS200/IS605转座子的不同家族中编码的推定核酸酶,可能是RNA引导的核酸内切酶Cas9的祖先,但IscB的功能及其与任何RNA的相互作用仍未表征。原核RNA引导的防御系统CRISPR-Cas9(II型CRISPR-Cas)已被用于真核细胞中的基因组编辑,被认为是从IscB蛋白进化而来的。尽管其在原核生物中广泛分布并且与Cas9共享域组成和体系结构,但IscB的功能仍然未知。此外,鉴于尚未报道IscB与非编码RNA(ncRNA)或CRISPR阵列相关,Cas9系统中RNA引导活性的进化起源尚不清楚。

IscB长约400个氨基酸,含有通过插入桥螺旋(BH)和HNH内切核酸酶结构域分裂的RuvC内切核酸酶结构域,该结构与Cas9共享。对含有HNH或分裂RuvC核酸内切酶结构域的蛋白质进行了全面搜索,发现Cas9和IscB是唯一含有两个结构域的蛋白质。还显示IscB含有先前未鉴定的N末端,其与已知结构域缺乏明显的同源性,并且在Cas9中不存在,在其保守序列基序后表示PLMP。RuvC,BH和HNH结合域的聚类和系统发育分析强烈表明,所有现存的Cas9都来自单个祖先IscB。从每个簇中搜索与IscB基因相邻的CRISPR阵列,发现了六个不同的IscB组,包含16个簇(共603个),与CRISPR相关,与以前的观察相反。CRISPR相关的IscB分散在IscB系统发育树周围,这表明它们独立进化,一个关联事件导致Cas9谱系。总共鉴定了31个独特的CRISPR相关iscB基因座(共2811个)。首先检查了一组CRISPR相关的ISCB,类似于非CRISPR相关的ISCB(氨基酸同一性约为50%)。在大肠杆菌中异源表达来自该进化枝的代表性基因座并进行小RNA-seq,其显示不仅CRISPR阵列的表达,而且CRISPR阵列和IscB开放阅读之间的329碱基对(bp)基因间区域框架(ORF)。本文还纯化了IscB蛋白并对共纯化的RNA进行了测序,证明该蛋白与包含CRISPR阵列和该基因间区域的单个ncRNA组分相互作用。鉴于其与包含CRISPR直接重复(DR)和间隔区的ncRNA的相互作用,以及其与Cas9类似的结构域结构,测试了该IscB的RNA引导的核酸内切酶活性。使用先前建立的原型间隔区相邻基序(PAM)-发现测定,观察到特定PAM序列的消耗,表明CRISPR相关的ISCB是可重编程的RNA引导的核酸酶。发现IscB至少在功能上与CRISPR相关,并且可能在其他情况下,表明IscB系统更一般地共享核心祖先ncRNA基因,该基因易于进化成CRISPR阵列,并且在某些情况下是单独的反式激活CRISPR RNA。为了验证这一假设,比对了563个非冗余iscB基因座,并在iscB ORF的上游或下游搜索保守核苷酸(nt)序列。该分析揭示了ORF上游长度约300bp的高度保守的基因间区域,其5’末端的保守性下降,这对应于IS200/IS605转座子末端。共有CRISPR相关的IscB ncRNA和协方差折叠的RNA二级结构的比较揭示了高度的结构和序列相似性,特别是在共享的多干区域和假结中。推断wRNA中5′-最不保守的序列可能起指导序列的作用,因为预测紧邻下游的序列形成发夹,其结构类似于CRISPR相关IscB中DR/抗重复双链体形成的发夹ncRNA。

为了检测IscB是否能够切割与假定的wRNA指南互补的DNA,使用体外转录/翻译(IVTT)表达系统用KraIscB-1进行了体外质粒切割试验。发现KraIscB-1以wRNA依赖性方式切割靶标,具有ATAAA 3’靶标邻接基序(TAM)。使用不同的指南(Fn指南)重新定位KRAISCB-1切割同源靶标,暗示IscB是可重编程的RNA引导的核酸酶。接下来在体外对IscB进行了生物化学表征。我们通过鉴定TAM确定了86个(66%)选择的系统发育不同系统中的57个的活性。在这57个功能性ISCB中,5个可以在体外用相应的wRNA重建以实现有效的靶标切割,并且从中选择了AwaIscB用于详细的生物化学表征。证实了重组AwaIscB以可编程方式切割多个双链DNA(dsDNA)靶标的能力,并显示AwaIscB的活性依赖于镁,最适温度为35°至40°C。催化RuvC II残基(E157A)的突变消除了对非靶DNA链的核溶解活性,而HNH结构域催化突变体H212A消除了对靶链的核溶解活性。E157A和H212A突变(dAwaIscB)的组合消除了所有dsDNA核酸分解活性。切割产物的测序显示AwaIscB切割TAM上游3nt的靶链,类似于Cas9。非靶链的切割发生在TAM上游8或12 nt,产生长度为5或9 nt的5’突出端(切割不同cas9的平末端。会留粘性末端,但切割位点在识别位点内部,不能用于GoldenGate)。

RNA引导系统的显着优点是它们允许效应子通过简单地重编程RNA指导来靶向许多底物。IscB发展为使用多个指南的一种方法是与CRISPR阵列相关联。鉴于iscB基因座通常编码单个wRNA,因此不清楚这些系统通常如何或甚至是否实现这种模块化。通过搜索不直接与iscB ORF相邻的wRNA,发现了三种用于指导编码和切换的额外潜在机制:wRNA阵列,转座子扩增和独立的反式作用wRNA。wRNA阵列由多个wRNA组成,每个wRNA包含不同的指导,间隔高达200bp,并且在3356个独特的IscB/IsrB基因座中的15个(0.4%)中发现。转座子扩增涉及在多个位置插入几乎相同的IS200/IS605超家族转座子,导致每个基因组有多个基因座,每个基因座能够用独特的指导表达几乎相同的wRNA支架。相比之下,独立的wRNA更常见,并且在一些基因组中以多拷贝发现,其显示与iscB没有可检测的基因组关联。来自3356个独特IscB/IsrB基因座中的95个(2.8%)的顺式-wRNA几乎相同(≥95%序列同一性)到远端编码的独立wRNA,这意味着这些独立的wRNA可以编码反式编码的ISCB使用的指导。通过检查K.racemifer基因组中的10个独立的wRNA来测试这种可能性,其中9个被发现表达。在测试的6个独立的wRNA中,发现5个可以用来自相同基因组的远端编码的IscB介导RNA引导的DNA切割,证明单个IscB可以使用多个反式编码的wRNA。来自许多wRNA的指导,包括IscB相邻和反式编码,主要靶向原核基因组序列,表明IscB系统具有非缺失功能。

接下来研究了IscB,Cas9和其他同源蛋白之间的进化关系,以更广泛地了解RNA引导机制的进化。在寻找包含分裂的RuvC结构域的蛋白质时,检测到另一组较短的 350个氨基酸的IscB同源物,它们也编码在IS200/IS605超家族转座子中。这些蛋白质含有PLMP结构域和分裂的RuvC,但缺乏HNH结构域。将这些蛋白质IsrB(插入序列RuvC-like OrfB)重命名为强调它们独特的结构域,取代了之前的名称IscB1。除了IscB和IsrB之外,还鉴定了仅包含PLMP结构域和HNH结构域但不包含RuvC结构域的更小的蛋白质家族(约180个氨基酸),将其命名为IshB(插入序列HNH样OrfB)。为了研究这些蛋白质之间的关系,使用IQTREE 2从分裂的RuvC核酸酶和BH结构域的多重比对构建了最大似然(ML)树。在得到的树中,IsrB,IscB和Cas9形成了独特的,强烈支持的进化枝,这表明这些核酸酶中的每一个都起源于独特的进化事件。然后分析了每个蛋白质簇与IS200/IS605 tnpA基因,wRNAs,CRISPR-Cas适应基因(cas1,cas2,cas4和csn2),相应ORF上游和下游的CRISPR阵列之间的关联,以及CRISPR反重复。如上所述,iscB和isrB很少与CRISPR阵列相关,并且未发现与CRISPR-Cas适应基因相关。ISRB与结构上不同的wRNA相关。此外确定了两个不同的Cas9s组。第一种是新亚型II-D,一组相对较小的cas9s(~700个氨基酸),与任何其他已知的cas基因无关。第二个是从II-C亚型内分支的独特分支,其包括与tnpA相关的特别大的cas9s(>1700个氨基酸)。tnpA相关的II-C基因座通常包含异常长的DR(长度超过42bp),并且在一些情况下编码cas9和其他cas基因之间的HIRAN结构域蛋白。预测的转座子末端围绕这些基因座中的tnpA,cas获取基因和CRISPR阵列的各种组合。这些系统发育和关联分析证实IS200/IS605转座子编码的ISCB和ISRB与Cas9具有共同的进化历史。鉴于IsrB进化枝在树中的深部位置和缺乏HNH结构域,IsrB可能代表祖先状态,可能是从紧凑的RuvC核酸内切酶进化而来的。几乎所有ISRB都与wRNA相关;这表明这些系统在进化的早期阶段成为RNA引导的。IsrB随后获得了HNH结构域,可能是通过插入另一个移动元件或与编码IshB样蛋白的基因重组,建立了IscB家族。CRISPR阵列出现在IscB系统中多次独立的场合。这些短阵列由重复序列组成,这些重复序列可以通过复制祖先wRNA的片段而进化。得到的系统包括杂交CRISPR-wRNA,其由部分wRNA之前的CRISPR阵列组成。这些CRISPR相关的IscB蛋白可能在许多情况下也在RuvC-I和RuvC-II亚结构域之间获得REC样插入,通常与CRISPR结合同时或之后不久。特别是,一个CRISPR相关的IscB簇(簇2089)可能在标志性PLMP结构域丢失后建立了Cas9家族。此外,亚型II-D的tracrRNA,Cas9子树中的深分支显示与IscB wRNA显着相似,这表明Cas9 tracrRNA最初是从wRNA进化而来的。最后,在与CRISPR适应机制(cas1,cas2和可能的cas4)相关联后,Cas9多样化的爆发和通过水平基因转移在细菌之间的广泛分散随后,导致多种II型CRISPR亚型的进化。我们还探索了wRNA的进化历史。通过迭代构建一组跨越与ISCB和ISRB相关的所有主要RNA组的wRNA谱,我们发现不同的wRNA与几乎所有ISCB和ISRB相关。此外,不同的IsrB和IscB进化枝与不同的wRNA结构相关。从isrB到iscB的转变可能伴随着isrB相关的wRNA中转座子末端区域和多茎环之间的第二个假结,即衔接子假结的丢失。wRNA结构的复杂性与相关蛋白质大小之间的反比关系也反映在与大ISCB的进化枝相关的简化的wRNA结构和与大Cas9s相关的甚至更小的tracrRNA上。

除了产生丰富多样的II型CRISPR系统的进化事件的独特连续性之外,系统发育分析还揭示了IscB和相关蛋白进化中的其他几个事件导致了现存的多样性。首先在真核生物基因组中搜索了IscB同源物,并在陆地绿藻Ignatius tetrasporus UTEX B 2012的叶绿体基因组中鉴定了多个IscB基因座。尽管ORF在大多数这些基因座中被多个终止密码子破坏,但一个基因座编码完整的IscB(与相关的原核IscB具有约50%的氨基酸同一性)和转录活性的wRNA。该真核IscB用最小的NNG TAM切割DNA(实际应为原核生物的IscB,或者把叶绿体发展为一个遗传载体,或者部分质体基因已经转移到核基因。应该还有更多的转座子待发现,用于后续真核基因编辑。),其不同于其他表征的IscB TAM。其次研究了大型ISCB的进化枝,其中包含一个BH域,该域通过类似REC域的插入被分成两部分。假设这些插入可能会增强DNA解旋,类似于Cas9的REC叶,因此将促进真核染色质结构复杂景观中的基因组编辑。在人类基因组中的46个位点上,发现OgeuIscB在28个这些位点诱导插入缺失,效率高达4.4%。因此,OgeuIscB似乎是进一步开发基于IscB的基因组编辑工具的有希望的候选者。第三,通过实验表征了IscB的明显祖先IsrB的假定核酸酶活性。Kracemifer含有5个与天然表达的WRNA相关的ISRB。发现IsrB-wRNA RNP以指导和TAM特异性方式切割dsDNA底物的非靶链,这类似于IscB的活性。灭活HNH结构域。最后,试图确定IS200/IS605转座子是否一般含有RNA引导的核酸酶。除了独特的IscB和IsrB家族外,大多数IS200/IS605转座子编码另一个家族的RuvC样核酸内切酶TnpB,它被认为是V型CRISPR效应子Cas12s的祖先。此外,TnpB可能是编码在不同真核转座子中的较大蛋白质Fanzors的祖先。先前的工作已经鉴定了与古细菌和细菌中tnpB基因的3’末端重叠的ncRNA,但这些ncRNA的功能尚未表征。K.racemifer的小RNA-seq揭示了与相关tnpB ORF的3’末端重叠的ncRNA的天然表达,将其归类为不同的wRNA组。KraTnpB wRNA 3’末端的反向互补几乎与与一些KraIscBs相关的wRNA的5’相同,该区域对应于每个基因座中预测的转座子末端对含有与KraTnpB聚集的tnpB基因的非冗余基因座的分析显示,在基因座的3’末端,对应于IS200/IS605转座子末端,序列保守性下降。与小RNA-seq迹线的比较显示表达超出保守下降,表明转录物中可能存在指导序列。使用重编程的指导对来自该簇的多种TnpB蛋白的体外质粒切割测定证明了用5’TAM进行RNA引导的切割。从AmaTnpB重组纯化TnpB并证实其可重编程的RNA引导的dsDNA内切核酸酶活性。在识别dsDNA或ssDNA底物时,AmaTnpB强力切割含有靶的单链DNA(ssDNA)底物并且非特异性切割侧枝底物。

通过探索Cas9进化,发现了三种高度丰富但以前未表征的转座子编码核酸酶的可编程RNA引导机制:IscB,IsrB和TnpB,统称为OMEGA(专性移动元件引导活性),因为移动元素的定位和移动可能决定了他们指南的身份。虽然OMEGA系统的生物学功能尚不清楚,但有几个假设与现有证据相符,包括促进TNP催化,RNA引导转座或作为毒素的作用,转座子作为抗毒素,确保维持IS200/IS605插入。

TnpB家族比IscB家族更加丰富和多样化,在细菌和古细菌基因组中鉴定了超过100万个推定的tnpB基因座,使其成为最常见的原核基因之一。这些TNPB可能代表了未开发的丰富的各种RNA引导机制,不仅存在于原核生物中,而且存在于真核生物中。结合对叶绿体编码的IscB的鉴定,这些发现表明RNA引导系统扩展到真核基因组中可能是一种普遍现象,更广泛地说,RNA引导系统在功能上是多样的并且渗透到生命的所有领域。

RNA表达框构建方式:snoRNA启动子+(tRNA)+Spacer(12bp左右)+ωRNA+PolyT(6~10个)。

实验相关数据:

I. tetrasporus IscB:其TAM为NNG。

atgaatacaatcttggttttatcaagtattaaaataccgcttatgcccagtcatccagcacgggcacggcaattgatccaatcgggaaaagctaaagtttatcgacataatccatttacaatcattttgactgaacgcaaccaaggaaatattcaacctattgaatgcaaaattgatccaggtagtcaaactacaggaatggctttggttgttcaaggcaaaaaacaaacaaaagcacttttaggtattcatttaaaacatagaggcaaacatattacccaagccttgaaaaaacgaagtgttagtcgcaaatttcgtcgatcaagaaaaactcgttatcgaccaccccgttttttaaaccgaacacggccaatagggtggttaccgccatcaattaattcgcgtttaaacaacataaccaattgggttcgcaaacttaaagtttgggcacccttaagcagtattgaagttgaaaatgtcaaatttgatattcaaaagcttcagaatccagaaatccaaggtattgaataccaacaaggaacattaatgggttatgaagttcgtgaatatatattagaaaagttccacaagacgtgcgcgtattgcggtcaaaccaaagggcgtttagaaatagaccatattatccctaaaagcaaagggggtagtaaccgcatgagtaatttaacattagcttgtcaacgttgtaatcaaaaaaaaggaaaccaaagtcttacagaatttgttaaaaataaacaaaaattggagaaaatcaaagcacaatgcagaacttcctttaaagatgcagctattgtgaattccatgcgtaaagctttggtttcaactttaaaaaagttccacttaccagtgtattgttggtccagtggattaaccaaatacaaccgagtaagacaaaactatgaaaaacaccattggattgatgcagcttgtgttggaaattcaggttccaatgtttgtttaccgcgtaattcatccgtattaaccataactgcaatgggtcggggtaatcgaaaaaaatgccaaatgaataaatatggatttccaaaaagcaaacccaaacaggccaaacgtgtacacggtttggataccggtgattgggtaaaaatcagagctcttagccctgaacaaaatgccaatcgaaacgaaaaaaaccaaataactcgacctgtttacggtcgtgtaacagtaagagccactgggaactttgctgtgacgcccaaaaacggcaaacaagtttctattatgtataaatattgctttttgctgcaaaaaaatgatggttataactatacttag

I. tetrasporus IscB ωRNA:

gtcaatgacccattttcaataacacaatgagcaagcgaagcggggagttttgctccccaaatccagagctcctttacattgacccggctcagggacttctaagttcctacgttagcagttaatattataggtaccccagaatgcttcaccagttcgagggctctacggtaagtggttaaacaagtggaaggggttaaactagtgctgcttacataaacaactgcataacattgccaaggtgacgtgattcatactaagctctaagctagcatgagtcacaccaccatgcaagtgtgtaaatgcttttcgctcacttgcatgagagtgattgaaggtaact

OgeuIscB: 其TAM为NWRRNA。

ATGGCCGTGGTCTACGTGATCTCTAAGTCCGGCAAACCACTGATGCCCACCACCAGATGCGGCCACGTGCGGATCTTGCTCAAGGAAGGCAAGGCTAGAGTGGTGGAAAGAAAGCCCTTCACCATCCAGCTGACCTACGAGTCTGCCGAGGAAACCCAGCCTCTGGTGCTGGGCATTGACCCTGGCAGAACCAATATCGGTATGAGCGTGGTGACCGAGAGCGGAGAGAGCGTGTTCAACGCCCAAATCGAGACAAGAAACAAGGACGTGCCTAAGCTGATGAAGGACAGAAAGCAGTATAGGATGGCCCACAGAAGGCTGAAGCGGCGGTGCAAAAGACGGCGGAGAGCCAAGGCTGCCGGCACCGCCTTCGAGGAGGGCGAAAAGCAAAGACTGCTGCCTGGCTGCTTCAAGCCTATTACATGCAAGAGCATCCGGAACAAGGAAGCCAGATTCAACAACCGCAAGCGGCCTGTGGGATGGCTGACACCTACCGCCAATCACCTGCTGGTCACCCACCTGAACGTGGTTAAGAAGGTGCAGAAGATCCTGCCCGTGGCCAAGGTGGTGCTGGAGCTGAATCGGTTCAGCTTTATGGCCATGAACAACCCCAAGGTTCAGAGATGGCAGTACCAGCGGGGCCCTCTGTACGGCAAAGGCAGCGTGGAAGAGGCCGTGTCCATGCAGCAGGATGGACACTGCCTGTTTTGTAAACACGGCATCGACCACTACCACCACGTGGTCCCCAGAAGAAAGAACGGCAGCGAGACACTGGAAAACAGAGTGGGCCTTTGTGAAGAACACCATAGACTGGTGCACACAGATAAGGAGTGGGAGGCCAACCTGGCCAGCAAGAAGTCTGGAATGAACAAGAAATACCACGCCCTGTCTGTGCTGAACCAGATCATCCCCTACCTGGCTGATCAGCTGGCCGATATGTTCCCCGGAAATTTCTGCGTGACAAGCGGCCAAGACACCTATCTGTTTCGGGAAGAGCATGGCATCCCTAAGGACCACTACCTGGACGCCTACTGCATCGCCTGCAGCGCACTGACCGACGCCAAGAAGGTGAGCAGCCCTAAGGGCAGACCATACATGGTGCACCAGTTCAGAAGGCATGATAGACAGGCCTGTCACAAGGCCAATCTGAACCGGAGCTACTACATGGGCGGCAAGCTCGTTGCCACCAACCGGCACAAAGCTATGGACCAGAAAACTGACAGCCTGGAAGAGTACAGAGCCGCTCACAGCGCCGCTGACGTGTCTAAACTGACCGTGAAGCACCCTTCTGCTCAGTACAAGGATATGAGCAGAATCATGCCTGGCAGCATCCTGGTGAGCGGCGAGGGCAAACTGTTCACACTGAGCAGATCTGAGGGAAGAAACAAAGGCCAGGTGAACTACTTCGTGTCCACCGAGGGCATCAAGTACTGGGCCAGAAAGTGCCAGTATCTGCGGAACAACGGCGGACTGCAGATCTACGTG

OgeuIscB ωRNA :

GGCTCTTCCAACTTTATGGTTGCGACCGTAGGTTGAAAGAGCACAGGCTGAGACATTCGTAAGGCCGAAAGACCGGACGCACCCTGGGATTTCCCCAGTCCCCGGAACTGCATAGCGGATGCCAGTTGATGGAGCAATCTATCAGATAAGCCAGGGGGAACAATCACCTCTCTGTATCAGAGAGAGTTTTACAAAAGGAGGAACGG

AwaIscB:其TAM为ATGA。

AGCGTGTTCGTGCTGAACAAGCAGAAACGGCCTCTGATGCCCTGCAGCGAGAAGAGAGCCCGCCTGCTGCTGGAAAGAGGCAGAGCCGTGGTGGTGCGGCTGGTGCCATTCACCATCCGGCTGAAGGATAGAATCGGCGGCGTGCTGCAGCCCCTGAGACTGAAGCTGGACCCTGGCTCTAAGACAACCGGCATCGCCCTGGTGCGCGAGGTGGTGCGGCGGGACGAGAGCGTGGTTTGGCTGGCTGAACTGACACACAGAGGATATCAGATCAGCGAGGCCCTGAGAGCTAGAAGCGCCATGAGAAGAAGAAGAAGGTCCGCCAACCTGCGGTACAGAGCCCCTAGATTCCTGAATCGGACCAAGCCTAAGGGCTGGCTGGCCCCTAGCCTGAGACATAGAGTGGAAACCACCATTAACTGGGTCAAGAGACTGCGGAGACTGGCTCCTATCACGGAAATCACCCAGGAGCTGGTCAGGTTCGACCTGCAAGCCATGCAGCACCCCGAGATCAGCGGCATTGAGTACCAGCAGGGCGAGCTGGCTGGCTACGAGGTGCGGGAATACCTGCTGGAAAAGTGGCAGCGGACATGCGCCTACTGCGGCGCCCAGCAGGTGCCCCTCCAGATCGAGCACATCAGACCTAAGTCCGCCGGCGGAAGCAACAGATTGTCTAATCTCACCCTGGCTTGCGCCCCTTGCAACCACAAGAAGGGCGCTCAATCTATCGAGGCCTTCCTGAAGCACAAACTGGAACTGCTGAAACAGATCCAGGCCCAGGCACAAGCCCCTCTGAAAGACGCCGCCGCCGTGAACACCACCCGGTGGGCCCTGTTCAACGCCCTGAAGGCTACAGGCCTGCAGGTGAAAACCGGCAGCGGCGGACAGACCAAATACAACCGCCAGAGACTGGGCATCCCAAAGACCCACGCCCTGGACGCCGCTTGTGTGGGCAAGCTGGATGCCCTGCACAACTGGCAGATCCCTACACTGGCCATCAAGGCGATGGGCAGAGGCAGCTACCAGAGGACCAGACTGAATAGATTCGGCTTCCCCAGAGGCCACCTGATGAGACACAAGAGAATCCACGGTTTTCAGACCGGCGACAGAGTGATCGCACACATCCCCAGCGGCAAAAAGGCCGGAGTGCACGTGGGAAGAGTGGCCGTCCGAACCAGCGGATCTTTTAACATCCAAACAGCCACAGGCGTGATCCAGGGCATCGCCCACCGGCATTGTAGCGTGCTGCAGCGGGCCGACGGCTACGGCTACAGCTTCAACCTGACCCAGCCTGAGGAAGCCAGACTGGCTGCC

AwaIscB ωRNA :

GTCAACGAACCCCCGCCTTATGGCAGGGGCTTGTGAGGTGACTCGCAAGCCACGTTGACCAGGGAAAGCGGTAACCAACCCGCTCCGTTTACAATAGGTCGTCAAGACTCACCGGCGGATGCTTCCTCAGTCCGCCGCTCTGAAAGGTCAGGATTAGGCTGGCGCAAGGTAAAACGCCGAAGGTTCTGATCGCCGCTGCGAAGCGGGAGCCGGTTGTAGACAGTCCCGAGGGGAGCGAAGCCTTTGGGCTTCCGTTACTAGGCCCGTAAGGGCAGATGTTTGAGTGTGAATA

KraIscB-1:其TAM为ATAAA。

atgaacgtcgtctacgtcctctcgccggagagaacaccattaatgccctgtcaacctgccattgcgaggttgttgctgaaacaaggaaaagcaaaggtgaggcatcgaacgccctttacgattcagcttctcgcacagccagagcacgtgtacacacaaccgctgacccatggcgttgatacgggaagttccataatcggatcagccgtggctaatgagcatggacacgtcgtgtatctttcggaagtcgagatacgcaatgatattgcaaacactatgaaggaacgagcgagagcacgccgcaatcgtcgtcaacgcaagacacgctatcgccctgctcgctggctcaatcgcaagaaatcgatcaaaactggacgcttctcgcccaccatgagaagcaagattgatactcatctgcgagaaattcgctttatacggtccttgctgcccatcacgtctacgatactagaaacaggctcatttgatccttatgcactcagaaatcctgaagtcctgcaaaagaagtggctctaccagaggggcatcaactacggttttgccaataccaaagcctatgtgctcacacgagacggctacctctgtcagcagtgcaaagggaagtcaaaggaccgacggcttgaagttcaccacatcatcttcagaagtcgaaatggaagcgatgaggaagcgaatttactcactctctgcaaaacttgtcatgatggactccatgcaggcaccatcaccctgaaactcacaggcaagaaaaagggaaccttgcaacatgcgacccagatgaatagcatccgcattcagttactcaagcgtgttgaggcagaggaaacctggggctttgtcaccaaagagcatcgtcttctggtaggactccccaaagagcatatctttgatgcagccgtgattgcaacacgaggagtgaagccaaccttctataccacgagcgtgctctcaaaacactgtgtgtcagatggagattacaaacaaacgaaaggaaaacacggtcaacaacgagtgaacacaggtaagatcatgggatttcgcaagtttgataaggtgtactatttggggaaggagtactttatcaaggggagaatgtctaccggctacgcgatcctcatggacattgacggcaacaaaattgagttcaaaccacttcccaagtttgacaaaatgaagagagtaagtgcacgttcatcatggatgatgaaacaaagaaccacgccaaatccctcattctctatcacctcatctttgtctgcaagtgcgggaaaaaacgtttga

KraIscB-1 ωRNA :

GTGAACTACCACTGAGCTGAAGACGCAGTGGCTTCTTCGGAAGTCACTGAAGACGCAGACCAGGAGCTCCTTCGGAAGCTTGAGTTCACCAGACTCGTTTCCAGAAATGGGAACAGCGTTCGATTGGTCATGACACCTGCGGTTGACGCATCAGACCGCTGCTCTGTCGCTGAGGGTTAAGTAGGCTTGAGGAAAGGGCCGGTGCTCTCAGCGCAAAAAGCCTTTTGAACACTGTCGAGATGAAGCCGGATTCCCTTCGTGGTCACAGCGAAGGGATACGCACCACCCGGCGCTTGCCGGAGCATTTTCCGAAAGGAGTTTT

原文链接https://www.science.org/doi/10.1126/science.abj6856

转座子TnpB是RNA Guide的DNA核酸酶

插入序列(Insertion sequences, ISs)是一种广泛分布的可移动元件,IS200/IS605和IS607家族的ISs是最简单的可移动遗传元件,只包含其转座及其调控所需的基因。这些元件通常携带末端回文序列,编码对移动至关重要的tnpA转座酶,并通常编码必不可少的辅助tnpB基因。ISDra2 TnpA是一个非常小的Y1转座酶,切割滞后链5’TTGAT序列形成单链滚轮,然后插入到TTGAT的3’完成转座,从而不产生靶点复制(target site duplication)。虽然TnpA在IS200/IS605转座子移动中的作用已被充分证实,但TnpB的功能仍然知之甚少。有人认为,TnpB在转座调控中发挥作用,但其机制尚未确定。有趣的是,生物信息学分析表明,TnpB可能是CRISPR Cas9/Cas12核酸酶的前身。然而,TnpB的核酸酶活性和RuvC-motif在转座中的角色还没有被证明。

近期,来自立陶宛维尔纽斯大学的Tautvydas Karvelis和Virginijus Siksnys等人发现来自耐辐射球菌ISDra2的TnpB是一个RNA导向的核酸酶,相关文章发表在Nature:Transposon-associated TnpB is a programmable RNA-guided DNA endonuclease。作者首先发现在大肠杆菌中表达tnpB需要与tnpA一起,说明可能需要额外的转座子元素稳定它的表达,并且发现RNA有RNA与TnpB共纯化。因此,他们对共纯化的RNA进行测序,发现富集的RNA与RE序列匹配(命名为reRNA)。接下来,他们假设TnpB可以被reRNA引导并切割DNA,体外用TnpB RNP和reRNA复合物、体内用表达tnpB和reRNA复合物的质粒实验证明它在reRNA的引导下剪切靠近5’TTGAT转座子相关基序(transposon associated motif, TAM)的DNA。最后,他们证明TnpB可以被重新编程切割人类细胞中的DNA靶位点。

ISDra2 TnpB:

MIRNKAFVVRLYPNAAQTELINRTLGSARFVYNHFLARRIAAYKESGKGLTYGQTSSELTLLKQAEETSWLSEVDKFALQNSLKNLETAYKNFFRTVKQSGKKVGFPRFRKKRTGESYRTQFTNNNIQIGEGRLKLPKLGWVKTKGQQDIQGKILNVTVRRIHEGHYEASVLCEVEIPYLPAAPKFAAGVDVGIKDFAIVTDGVRFKHEQNPKYYRSTLKRLRKAQQTLSRRKKGSARYGKAKTKLARIHKRIVNKRQDFLHKLTTSLVREYEIIGTEHLKPDNMRKNRRLALSISDAGWGEFIRQLEYKAAWYGRLVSKVSPYFPSSQLCHDCGFKNPEVKNLAVRTWTCPNCGETHDRDENAALNIRREALVAAGISDTLNAHGGYVRPASAGNGLRSENHATLVV*

reRNA Bone:

GATTCAAGAATCCCGAAGTGAAGAATCTTGCCGTCCGTACATGGACTTGCCCGAACTGTGGGGAAACCCATGACCGAGACGAGAACGCTGCGCTGAACATTCGGCGTGAAGCGTTGGTGGCTGCGGGAATCTCAGACACCTTAAACGCTCATGGAGGCTATGTCAGACCTGCTTCGGCGGGCAATGGTCTGCGAAGTGAGAATCACGCGACTTTAGTCGTGTGAGGTTCAA

靶点构建:

reRNA Bone+16bp Spacer +HDV 。

靶点:TTGAT(TAM)+16bp Spacer,如EMX1靶点:TTGAT GTGATGGGAGCCCTTCTTCT。

后续展望:真核生物可通过内源性转座酶实现基因编辑,只需要导入特定RNA即可。同时ReRNA大部分序列是否存在核酶的功能,也就是后续ReRNA可以精小化。