指导rna的新型设计及其用途的制作方法-k8凯发

文档序号：35528663发布日期：2023-09-21 05:38阅读：16来源：国知局

导航：>>

指导rna的新型设计及其用途
1.相关申请的引用
2.本国际专利申请要求于2021年8月30日提交的国际专利申请号pct/cn2021/115423的优先权，其全部内容(包括任何序列表和附图)通过引用以其全文并入本文。
3.序列表
4.本技术含有已经以ascii格式电子递交的序列表，并且所述序列表通过引用以其全文特此并入。所述ascii副本创建于2022年8月27日，名称为132045-01019.xml，并且大小为294,574字节。

背景技术：

5.自从张锋教授团队开发rna碱基编辑器以来，2类vi型(cas13)效应蛋白和用于1类crrna前体(pre-crrna)加工的crispr相关蛋白(caspr，例如cas6)的crispr rna(crrna)结合特性已经与关联于此类cas蛋白和指导rna的异源功能性结构域(例如腺嘌呤脱氨基结构域)组合使用，以基于异源功能性结构域(例如腺嘌呤脱氨基结构域)的功能构成用于各种目的(例如，a至i碱基编辑)的crispr-cas系统。指导rna包含能够与关联于异源功能性结构域的cas蛋白形成复合物的同向重复序列和能够与靶rna杂交的间隔序列，由此将cas蛋白和关联的异源功能性结构域(例如腺嘌呤脱氨基结构域)靶向或募集到靶rna。然而，这样的crispr-cas系统的效率可能限制其在实践中的使用，例如治疗产品的商业开发。
6.本领域希望进一步改善这样的crispr-cas系统的效率。

技术实现要素：

7.本公开的一个方面提供了一种crispr-cas系统，所述crispr-cas系统包含：
8.(a)crispr rna(crrna)结合多肽或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述crrna结合多肽包含cas效应蛋白的crrna结合结构域，基本上由其组成，或由其组成，
9.(b)异源功能性结构域或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，以及
10.(c)指导rna(grna)或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述grna包含：
11.(i)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与所述crrna结合结构域形成复合物；以及
12.(ii)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
13.其中所述crrna结合多肽：
14.(1)连接(例如，融合)至所述异源功能性结构域，并且
15.(2)基本上缺乏加工或切割所述grna上的dr序列的能力(例如，具有所述cas效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)，并且
16.其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任
选地，所述5'和3'dr序列是相同的。
17.本公开的另一方面提供了一种指导rna(grna)，所述指导rna包含：
18.a)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与crispr rna(crrna)结合多肽形成复合物，所述crispr rna(crrna)结合多肽包含cas效应蛋白的crrna结合结构域，基本上由其组成，或由其组成；以及
19.b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
20.其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任选地，所述5'和3'dr序列是相同的。
21.在一些实施方式中，crrna结合多肽基本上缺乏加工或切割grna上的dr序列的能力(例如，具有cas效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)。
22.在一些实施方式中，crrna结合多肽连接(例如，融合)至异源功能性结构域。
23.本公开的另一方面提供了一种经修饰的cas13蛋白，所述经修饰的cas13蛋白的hepn1和hepn2结构域两者基本上从亲本或野生型cas13效应蛋白去除(例如，基本上缺乏所述亲本或野生型cas13效应蛋白的hepn1和hepn2结构域两者)，条件是所述经修饰的cas13蛋白不是minidcas13e.1-n180 c150。
24.在一些实施方式中，经修饰的cas13蛋白具有hepn1结构域的第一缺失或具有包含所述hepn1结构域的第一缺失，以及具有hepn2结构域的第二缺失或具有包含所述hepn2结构域的第二缺失，并且基本上缺乏加工或切割指导rna(grna)中能够与所述经修饰的cas13蛋白形成复合物的同向重复(dr)序列的能力(例如，具有所述亲本或野生型cas13效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)，所述指导rna包含：
25.a)所述同向重复序列；以及
26.b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列。
27.在一些实施方式中，(1)第一缺失比亲本或野生型cas13效应蛋白的hepn1结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述亲本或野生型cas13效应蛋白的所述hepn1结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基；以及(2)第二缺失比亲本或野生型cas13效应蛋白的hepn2结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述亲本或野生型cas13效应蛋白的所述hepn2结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基。
28.在一些实施方式中，亲本或野生型cas13效应蛋白是cas13a效应蛋白、cas13b效应蛋白、cas13c效应蛋白、cas13d效应蛋白、cas13e效应蛋白或cas13f效应蛋白。
29.本公开的另一方面提供了融合蛋白，所述融合蛋白包含：
30.a)如本文所述的经修饰的cas13蛋白；以及，
31.b)异源功能性结构域，例如脱氨酶结构域。
32.本公开的另一方面提供了一种crispr-cas13系统，所述crispr-cas13系统包含：
33.a)如本文所述的经修饰的cas13蛋白或如本文所述的融合蛋白或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)；以及
34.b)指导rna(grna)或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述grna包含：
35.i.能够与所述融合蛋白的经修饰的cas13蛋白形成复合物的同向重复(dr)序列；以及，
36.ii.能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列。
37.在一些实施方式中，grna包含
38.a)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与所述融合蛋白的所述经修饰的cas13蛋白形成复合物；以及
39.b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
40.其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任选地，所述5'和3'dr序列是相同的。
41.在一些实施方式中，cas效应蛋白是2类vi型(cas13)效应蛋白。
42.在一些实施方式中，crrna结合结构域基本上缺乏cas效应蛋白的hepn1结构域和/或hepn2结构域。
43.在一些实施方式中，crrna结合结构域基本上缺乏cas效应蛋白的hepn1和hepn2结构域两者。
44.在一些实施方式中，crrna结合结构域具有hepn1结构域的第一缺失或具有包含所述hepn1结构域的第一缺失，以及具有hepn2结构域的第二缺失或具有包含所述hepn2结构域的第二缺失。
45.在一些实施方式中，(1)第一缺失比cas13效应蛋白的hepn1结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述cas13效应蛋白的所述hepn1结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基；以及(2)第二缺失比cas13效应蛋白的hepn2结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比cas13效应蛋白的hepn2结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基。
46.在一些实施方式中，cas13效应蛋白是cas13a效应蛋白、cas13b效应蛋白、cas13c效应蛋白、cas13d效应蛋白、cas13e效应蛋白或cas13f效应蛋白。
47.在一些实施方式中，cas效应蛋白包含(1)seq id no:1-7、111-125和173中任一个的氨基酸序列，或(2)与seq id no:1-7、111-125和173中任一个的氨基酸序列具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基
酸序列。
48.在一些实施方式中，dr序列或5'和/或3'dr序列各自具有与seq id no:8-14和126-140中任一个的二级结构基本上相同的二级结构。
49.在一些实施方式中，dr序列或5'和/或3'dr序列各自由seq id no:8-14和126-140中任一个编码或包含seq id no:8-14和126-140中任一个。
50.在一些实施方式中，cas效应蛋白是2类vi-e型(cas13e)cas效应蛋白(例如，seq id no:1)，并且其中crrna结合结构域缺乏cas13e效应蛋白(例如，seq id no:1)的约180(例如，170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189或190)个n-末端残基，并且缺乏所述cas13e效应蛋白的约150(例如，140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159或160)个c-末端残基。
51.在一些实施方式中，crrna结合多肽包含seq id no:32、168-172和174中任一个的氨基酸序列。
52.在一些实施方式中，cas效应蛋白是caspr(用于1类crrna前体加工的crispr相关蛋白)。
53.在一些实施方式中，caspr是cas5d、cas6(例如，cas6e)或csf5。
54.在一些实施方式中，caspr包含(1)seq id no:141-151中任一个的氨基酸序列，或(2)与seq id no:141-151中任一个的氨基酸序列具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基酸序列。
55.在一些实施方式中，dr序列或5'和/或3'dr序列各自具有与seq id no:47和152-162中任一个的二级结构基本上相同的二级结构。
56.在一些实施方式中，dr序列或5'和/或3'dr序列各自由seq id no:47和152-162中任一个编码或包含seq id no:47和152-162中任一个。
57.在一些实施方式中，caspr是eccas6e；任选地，crrna结合多肽包含seq id no:51(eccas6e-h20l)的氨基酸序列。
58.在一些实施方式中，grna从5'至3'包含第一dr序列、第一间隔序列、第二dr序列、第二间隔序列和第三dr序列，其中所述第一间隔序列分别在所述第一间隔序列的5'端和3'端侧接所述第一和所述第二dr序列，并且所述第二间隔序列分别在所述第二间隔序列的5'端和3'端侧接所述第二和所述第三dr序列；
59.其中所述第一间隔序列和所述第二间隔序列各自分别能够与第一靶rna和第二靶rna杂交，并且分别将复合物引导或募集至所述第一靶rna和所述第二靶rna，并且其中所述第一靶rna和所述第二靶rna是相同或不同的。
60.在一些实施方式中，靶rna由真核dna编码。
61.在一些实施方式中，真核dna是非人哺乳动物dna、非人灵长类动物dna、人dna、植物dna、昆虫dna、鸟dna、爬行动物dna、啮齿动物dna、鱼dna、蠕虫/线虫dna、或酵母dna。
62.在一些实施方式中，靶rna是mrna。
63.在一些实施方式中，间隔序列的长度在15-100个核苷酸、15-80个核苷酸、15-60个核苷酸、25-50个核苷酸、30-50个核苷酸之间、约100个核苷酸、约80个核苷酸、约60个核苷酸、约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸、约30个核
苷酸、约20个核苷酸或约15个核苷酸。
64.在一些实施方式中，间隔序列与靶rna 90％-100％互补，和/或含有不超过1、2、3、4或5个与所述靶rna的连续或非连续错配。
65.在一些实施方式中，异源功能性结构域包含：报告蛋白或检测标记(例如，gst、hrp、cat、gfp、hcred、dsred、cfp、yfp、bfp)、蛋白靶向部分、dna结合结构域(例如，mbp、lex a dbd、gal4 dbd)、表位标签(例如，his、myc、v5、flag、ha、vsv-g、trx等)、转录激活结构域(例如，vp64或vpr)、转录抑制结构域(例如，krab部分或sid部分)、核酸酶结构域(例如，foki)、脱氨酶结构域(例如，adar1、adar2、apobec、aid或tad)、甲基化结构域、去甲基化结构域(例如，fto、alkbh5)、甲基转移酶结构域、甲基化读取蛋白结构域、转录释放因子、hdac、具有ssrna切割活性的部分、具有dsrna切割活性的部分、具有ssdna切割活性的部分、具有dsdna切割活性的部分、dna或rna连接酶结构域或其任何组合。
66.在一些实施方式中，异源功能性结构域包含脱氨酶结构域，例如腺苷脱氨酶结构域，例如双链rna特异性腺苷脱氨酶(例如，作用于rna的腺苷脱氨酶(adar)，例如adar1或adar2)、催化多肽样载脂蛋白b mrna编辑酶(apobec)、激活诱导的胞苷脱氨酶(aid)，或其功能性片段；或胞苷脱氨酶结构域，例如rescues(seq id no:56)，或其功能性片段。
67.在一些实施方式中，包含adar2
dd
的adar2或其功能性片段包含e488q突变或在对应于人adar2的e488的位置处的e至q取代突变，并且任选地进一步包含t375g突变或在对应于人adar2的t375的位置处的t至g取代突变。
68.在一些实施方式中，脱氨酶结构域是hadar2dd-e488q(seq id no:34)、hadar2dd-e488q/t375g(seq id no:163)或rescues(seq id no:56)。
69.在一些实施方式中，异源功能性结构域将靶rna中的腺苷(a)脱氨基为肌苷(i)和/或将靶rna中的胞苷(c)脱氨基为尿苷(u)。
70.在一些实施方式中，间隔序列包含与靶rna中的腺苷(a)相对的胱氨酸(c)错配和/或与靶rna中的胞苷(c)相对的腺苷(a)错配。
71.在一些实施方式中，胱氨酸或腺苷错配距离5'或3'dr序列约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸(例如，约15-25个核苷酸)。
72.在一些实施方式中，异源功能性结构域包含m6a相关调节结构域，例如m6a相关甲基转移酶结构域(例如，mettl3、mettl14、wtap、kiaa1429或其功能性片段)、m6a相关去甲基化结构域(例如，脂肪量和肥胖相关蛋白(fto)、alkbh5或其功能性片段)或其组合。
73.在一些实施方式中，异源功能性结构域与crrna结合多肽的n-末端、c-末端或内部融合或缀合。
74.在一些实施方式中，异源功能性结构域与crrna结合多肽的c-末端融合。
75.在一些实施方式中，crrna结合多肽和异源功能性结构域经由接头连接。
76.在一些实施方式中，接头包含gs或其2-15个重复(seq id no:85)、gsggggs(seq id no:29)或其2-4个重复(seq id no:86)、ggs或其5-10个重复(seq id no:87)、gggs(g3s)(seq id no:63)或其3-7个重复(seq id no:88)、ggggs(g4s)(seq id no:93)或其3-5个重复(seq id no:89)、gggggs(g5s)(seq id no:94)或其3-4个重复(seq id no:90)，或其混合物、或seq id no:33；任选地，接头的长度为约15、16、17、18、19、20、21、22、23、24、
25、26或27个残基。
77.在一些实施方式中，crrna结合多肽和/或异源功能性结构域连接到核定位信号(nls)序列或核输出信号(nes)。
78.在一些实施方式中，crrna结合多肽和/或异源功能性结构域连接到2或3个nls，例如seq id no:35。
79.在一些实施方式中，如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统包含在crrna结合多肽的n-末端和c-末端融合的各一个nls。
80.本公开的另一方面提供了一种包含第一和第二多核苷酸的多核苷酸，所述第一和第二多核苷酸分别编码如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统的蛋白组分和grna组分。
81.在一些实施方式中，蛋白组分的转录和grna的转录是在分开的或独立的启动子和/或增强子的控制下。
82.在一些实施方式中，蛋白组分的转录是在组成型启动子、诱导型启动子、广谱启动子(ubiquitous promoter)或组织特异性启动子的控制下。
83.在一些实施方式中，组成型启动子是rna pol ii启动子，例如cmv启动子、cb启动子、cbh启动子、efs启动子或cag启动子。
84.在一些实施方式中，grna组分的转录是在rna pol iii启动子，例如u6启动子的控制下。
85.在一些实施方式中，第一多核苷酸经密码子优化以在细胞(例如真核细胞或哺乳动物(例如人)细胞)中表达。
86.本公开的另一方面提供一种载体，所述载体包含如本文所述的多核苷酸。
87.在一些实施方式中，载体是质粒。
88.在一些实施方式中，载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(hsv)载体、aav载体或慢病毒载体。
89.在一些实施方式中，载体是aav载体，所述aav载体包含如本文所述的侧接5’itr(例如aav2 5’itr)和3’itr(例如aav2 3’itr)的多核苷酸。
90.在一些实施方式中，如本文所述的多核苷酸进一步包含促进蛋白组分的转录的内含子和/或外显子。
91.在一些实施方式中，载体进一步包含与编码蛋白组分的第一多核苷酸可操作地连接的polya信号序列的编码序列。
92.在一些实施方式中，载体在编码蛋白组分的第一多核苷酸中进一步包含5’utr和/或3’utr编码序列。
93.在一些实施方式中，载体进一步包含wpre序列。
94.本公开的另一方面提供了一种包含如本文所述的aav载体的重组aav(raav)病毒颗粒，所述aav载体包封在具有aav1、aav2、aav3a、aav3b、aav4、aav5、aav6、aav7、aavrh74、aav8、aav9、aav10、aav11、aav12、aav13、aav.dj、aav.php.eb或其突变体的血清型的衣壳内。
95.本公开的另一方面提供了一种递送系统，其包含(1)递送媒介物(vehicle)，和(2)如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，
如本文所述的多核苷酸，如本文所述的载体或如本文所述的raav病毒颗粒。
96.在一些实施方式中，递送媒介物是纳米颗粒(例如脂质纳米颗粒)、脂质体、外泌体、微泡或基因枪。
97.本公开的另一方面提供了一种细胞或其后代，所述细胞或其后代包含如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，如本文所述的多核苷酸，如本文所述的载体，如本文所述的raav病毒颗粒或如本文所述的递送系统。
98.在一些实施方式中，细胞或其后代是真核细胞(例如，非人哺乳动物细胞、非人灵长类细胞、人细胞或植物细胞)或原核细胞(例如，细菌细胞)。
99.本公开的另一方面提供了一种非人多细胞真核生物，所述非人多细胞真核生物包含如本文所述的细胞或其后代。
100.在一些实施方式中，非人多细胞真核生物是针对人遗传障碍的动物(例如，啮齿动物或灵长类动物)模型。
101.本公开的另一方面提供了一种药物组合物，所述药物组合物包含：
102.(i)如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，如本文所述的多核苷酸，如本文所述的载体，如本文所述的raav病毒颗粒，如本文所述的递送系统，或如本文所述的细胞或其后代；以及
103.(ii)药学上可接受的赋形剂。
104.本公开的另一方面提供了一种试剂盒，所述试剂盒包含
105.(i)如本文所述的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，如本文所述的多核苷酸，如本文所述的载体，如本文所述的raav病毒颗粒，如本文所述的递送系统，如本文所述的细胞或其后代或如本文所述的药物组合物；以及
106.(ii)使用组分(i)的说明。
107.本公开的另一方面提供了一种修饰靶rna的方法，所述方法包括使靶rna与如本文所述的经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，如本文所述的多核苷酸，如本文所述的载体，如本文所述的raav病毒颗粒，如本文所述的递送系统，如本文所述的细胞或其后代，如本文所述的药物组合物或如本文所述的试剂盒接触，其中间隔序列与所述靶rna的至少15个连续核苷酸基本上互补；其中crrna结合多肽与grna关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述复合物修饰所述靶rna(例如，使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基)。
108.在一些实施方式中，靶rna是mrna、trna、rrna、非编码rna、lncrna或核rna。
109.在一些实施方式中，靶rna具有与遗传疾病或障碍相关的突变或者具有或缺乏与表观遗传学相关的修饰。
110.在一些实施方式中，如本文所述的方法导致以下中的一项或多项：(i)体外或体内诱导细胞衰老；(ii)体外或体内细胞周期停滞；(iii)体外或体内细胞生长抑制；(iv)体外或体内诱导无能(anergy)；(v)体外或体内诱导凋亡；以及(vi)体外或体内诱导坏死。
111.本公开的另一方面提供了一种治疗有需要的受试者的病症或疾病的方法，所述方法包括向所述受试者施用如本文所述的经修饰的cas13蛋白、融合蛋白或crispr-cas13系统，如本文所述的多核苷酸，如本文所述的载体，如本文所述的raav病毒颗粒，如本文所述的递送系统，如本文所述的细胞或其后代，如本文所述的药物组合物或如本文所述的试剂
盒，其中间隔序列与与所述病症或疾病相关的靶rna的至少15个连续核苷酸基本上互补；其中crrna结合多肽与grna关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述复合物修饰所述靶rna(例如，使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基)，从而治疗所述受试者的病症或疾病。
112.在一些实施方式中，病症或疾病是遗传或表观遗传疾病或障碍。
113.在一些实施方式中，方法是体外方法、体内方法或离体方法。
114.应理解，本文所述的本公开的任何一个实施方式，包括仅在实施例或权利要求中、或仅在下文的一个方面/部分中描述的那些实施方式，可以与本公开的任何其他一个或多个实施方式组合，除非明确否认或认为不当。
附图说明
115.通过参考下面的详细描述和附图，将获得对本公开的某些特征和优点的理解，下面的详细描述阐述了说明性实施方式，其中可以利用本公开的原理，并且在这些附图中：
116.图1是代表性cas13e和cas13f家族成员的基因组基因座的示意图(未按比例绘制)。显示出cas编码序列(带尖端的长条)，随后是多个附近的同向重复序列(dr)(短条)和间隔序列(菱形)。
117.图2显示出与各个cas13e和cas13f蛋白相关的dr序列的推定二级结构。它们的编码序列从左到右分别由seq id no:104-110表示。
118.图3显示出代表性cas13a-cas13f蛋白的结构域结构。指示出cas蛋白的每个代表性成员上两个rxxxxh基序的总体大小和位置。
119.图4是示意图(未按比例绘制)，其显示出与hadar2
dd-e488q/t375g rna碱基编辑器(显示为“adar2dd”)以及其他转录控制元件融合的dcas13e.1的一系列渐进c-末端缺失构建体。
120.图5是示意图(未按比例绘制)，其显示出dcas13e.1的一系列渐进c-末端和任选的n-末端缺失构建体。
121.图6显示出与其中使用全长dcas13e.1突变体(全长dcas13e.1-r84a、h89a、r739a、r740a、h744a、h745a突变体，seq id no:139)代替那些截短的dcas13e.1的对照相比，包含相同hadar2
dd-e488q/t375g和所指示的截短的dcas13e.1的融合蛋白的rna碱基编辑活性百分比，由mcherry突变体转化回野生型mcherry的结果百分比表示。对于阴性对照，使用非靶向间隔序列(“nt”)代替靶向mcherry报告基因的指导rna的靶向间隔序列(5'-间隔子-dr-3'构型)。
122.图7显示出具有或不具有全长dcas13e.1或minidcas13e.1的基于hadar2
dd-e488q的碱基编辑器的示意图。
123.图8显示出图7中碱基编辑器基于rnaseq分析的转录组范围的a至i脱靶碱基编辑的结果。
124.图9显示出使用荧光报告系统的脱靶rna碱基编辑检测的示意图，所述荧光报告系统包括报告构建体和碱基编辑器表达构建体中的一种。为了更好地探索脱靶系统，还提供了设计用于脱靶位点1的另外的间隔序列，而没有dr序列。图9按出现的顺序分别公开了seq id no 96-97。
125.图10是脱靶rna碱基编辑检测实验的流程图。将报告构建体与各个碱基编辑器表达构建体共转移到hek293t细胞中，并在72小时分选经转染和培养的bfp和mcherry双阳性细胞。提取rna，rt-pcr后进行sanger测序，并分析基于脱靶的编辑效率/程度。
126.图11显示出由所指示rna碱基编辑器进行的a至i脱靶rna碱基编辑的rt-pcr检测。根据sanger测序的结果，分析了所指示rna碱基编辑器的脱靶碱基编辑效率。
127.图12是dmd外显子52缺失微基因报告系统的示意图。dmd外显子51疾病位点的治疗可以通过rna碱基编辑将提前终止密码子中的a改变为i(g)而由egfp报告基因表达来监测。
128.图13显示出具有单dr和双dr grna和四种nes/nls策略的minidcas13e.1-adarv1的a至i碱基编辑效率。
129.图14是与本公开的示例性碱基编辑器系统一起使用的报告系统的示意图。dmd外显子23x疾病位点的治疗可以通过改变taa》tgg以消除提前终止密码子来实现。报告子上的egfp在不消除提前终止密码子的情况下不能表达。图14按出现的顺序分别公开了seq id no 98、99和99。
130.图15显示出具有单dr和双dr指导rna的图14中碱基编辑器的a至i碱基编辑效率。48小时后进行egfp/(bfp

和mcherry

)比率的流式细胞术分析。结果显示，与相应的基于单dr(sdr)的编辑系统相比，所有基于双dr(ddr)的编辑系统都实现了更高的egfp荧光比率(即，更高的a-i编辑效率)。
131.图16是与本公开的示例性碱基编辑器系统一起使用的报告系统的示意图。dmd外显子54x疾病位点的治疗可以通过改变tag》tgg以消除提前终止密码子来实现。报告子上的egfp在不消除提前终止密码子的情况下不能表达。图16按出现的顺序分别公开了seq id no 100、101和101。
132.图17显示出具有单dr和双dr指导rna的图16中碱基编辑器的a至i碱基编辑效率。48小时后进行egfp/(bfp

和mcherry

)比率的流式细胞术分析。结果显示，与相应的基于单dr(sdr)的编辑系统相比，基于双dr(ddr)的编辑系统实现了更高的egfp荧光比率(即，更高的a-i编辑效率)。
133.图18是与本公开的示例性碱基编辑器系统一起使用的报告系统的示意图。报告子和碱基编辑器系统的示意图主要探讨了在不同核序列下双dr(ddr)和单dr(sdr)的碱基编辑差异。通过taa》tgg碱基编辑，使rna前体的选择性剪接正常化，全长蛋白被翻译，从而实现rpe65 q64x相关疾病的治疗。图18按出现的顺序分别公开了seq id no 102、103和103。
134.图19显示出基于sanger测序结果分析与不同碱基编辑系统相关联的碱基编辑效率的结果。结果显示，在不同核序列的组合下，所有双dr(ddr)grna碱基编辑系统比相应的单dr(sdr)grna碱基编辑系统实现更高的a至i碱基编辑效率。a1/a2(ta1a2》tgg)分别显示在两个a碱基处的碱基编辑。
135.图20a和20b显示出rt-pcr凝胶电泳的凝胶图像和全长mrna比例的分析。结果显示，在不同核序列(尤其是对于2xnls和3xnls1682)的组合下，双dr(ddr)grna碱基编辑系统实现的全长mrna(正确加工的mrna)的百分比高于单dr(sdr)grna碱基编辑系统实现的全长mrna的百分比或与其相当。
136.图21是显示实施例8中使用的报告子和碱基编辑系统的示意图。
137.图22显示eccas6e(“cas6e”)具有高dr加工活性，如egfp表达水平接近零所反映
的，而h20l突变消除了eccas6e的dr加工活性，导致egfp的高表达。
138.图23显示出eccas6e的h20l突变体保留与eccas6e基本相同的能力，以支持mcherry靶位点处rescues介导的碱基编辑。也就是说，h20l突变体几乎没有dr加工功能，但它仍保留对碱基编辑的高度适用性。
139.图24a显示出示例性报告质粒和表达质粒的示意性构建体，用于评估cas蛋白(全长cas13e.1和mnidcas13e.1)的dr序列加工能力。图24b是显示测试的cas蛋白的dr序列加工能力的直方图，由bfp阳性细胞中egfp阳性细胞的百分比表示。阴性对照：报告子，表明只有报告质粒被转染到宿主细胞中。所有值以平均值
±
s.d.表示(n＝3)。
140.图25显示出cas13e.1、cas13e.2、cas13e.3、cas13e.7和cas13f.2的功能性结构域结构。定义cas13e.1的催化位点的rxxxxh基序表示为r84-h89(包含端值)和r739-h745(包含端值)之间的区域，而cas13e.2、cas13e.3、cas13e.7和cas13f.2中的相应基序未单独示出。
141.图26a显示出用于评估碱基编辑器的rna碱基编辑效率的示例性报告质粒和表达质粒的示意性构建体，所述碱基编辑器各自包含截短的cas13蛋白(dcas13e.2-n150 c150、dcas13e.2-n180 c180、dcas13e.3-n180 c180、dcas13e.7-n150 c150、dcas13f.2-n150 c150、以及作为阳性对照的minidcas13e.1-n180 c150)和相同的人adar2
dd-e488q脱氨酶结构域。图26b是显示出测试的碱基编辑器的rna碱基编辑效率的直方图，由mcherry阳性细胞数与bfp和egfp双阳性细胞数的比率表示。阴性对照：具有非靶向(nt)间隔序列的minidcas13e.1-n180 c150。阳性对照：具有靶向间隔序列的minidcas13e.1-n180 c150。所有值以平均值
±
s.d.表示(n＝3)。
142.图27显示出示例性报告质粒和表达质粒的示意性构建体，用于评估dpspcas13b和ddpspcas13b的dr序列加工能力和具有双或单dr grna构型的基于ddpspcas13b的碱基编辑器的a至i碱基编辑效率。
143.图28是显示测试的cas蛋白的dr序列加工能力的直方图，由bfp阳性细胞中egfp阳性细胞的百分比表示。所有值以平均值
±
s.d.表示(n＝3)。
144.图29是显示出具有sdr或ddr grna构型的基于ddpspcas13b的碱基编辑器的a至i碱基编辑效率的直方图，由bfp阳性细胞中mcherry阳性细胞的百分比表示。阴性对照：报告子，表明只有报告质粒被转染到宿主细胞中。所有值以平均值
±
s.d.表示(n＝3)。
145.本文的附图仅是出于说明目的，并且不一定按比例绘制。
具体实施方式
146.除非另外定义，本文所用的全部技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同含义。
147.如本文所用，单数形式“一种/一个(a/an)”和“所述(the)”包括单数个指示物和复数个指示物两者，除非上下文中另外明确指明。
148.术语“任选的”或“任选地”意指随后描述的事件、情况或取代可能发生或可能不发生，并且所述描述包括所述事件或情况发生的情况以及所述事件或情况不发生的情况。
149.还需注意的是，权利要求书可以经撰写而排除任何任选的要素。因此，该陈述旨在作为使用与权利要求要素的叙述有关的排他性术语如“单独”、“仅”等或使用“否定型”限定
的前提基础。
150.本文中端点对数值范围的列举包括各个范围内纳入的所有数字和分数，以及所列举的端点。
151.本文中除实施例以外的数值的列举包括由所列举的数值中的任两个作为数值范围的端点构成的数值范围的列举。
152.本文所用的术语“约x-y”具有与“约x至约y”相同的含义。
153.与本文所用的参考数值及其语法等同形式相关的术语“约”或“大约”可以包括数值本身以及与该数值正负10％的一系列值。例如，“约10”或“大约10”的量包括10和9至11的任何量。例如，与参考数值相关的术语“约”或“大约”还可以包括与该值正负10％、9％、8％、7％、6％、5％、4％、3％、2％或1％的一系列值。
154.如本文所用，对“不是”值或参数的提及通常意指并描述“不同于”值或参数。例如，方法不是用于治疗x型癌症，意指所述方法用于治疗不同于x型的癌症。
155.如本文所用的术语“和/或”，例如“a和/或b”的短语旨在包括a和b两者；a或b；a(单独)；以及b(单独)。同样，如本文所用的术语“和/或”，例如“a，b和/或c”的短语旨在涵盖以下实施方式中的每一个：a，b和c；a，b或c；a或c；a或b；b或c；a和c；a和b；b和c；a(单独)；b(单独)；以及c(单独)。
156.如本文所用，“生物样品”可含有全细胞和/或活细胞和/或细胞碎片。生物样品可以含有(或源自)“体液”。本公开涵盖以下实施方式：其中体液选自羊水、房水、玻璃状液、胆汁、血清、母乳、脑脊液、耵聍(耳垢)、乳糜、食糜、内淋巴、外淋巴、渗出物、粪便、女性射出液体、胃酸、胃液、淋巴液、黏液(包括鼻腔引流和痰)、心包液、腹膜液、胸膜液、脓、稀黏液、唾液、皮脂(皮肤油)、精液、痰、滑液、汗、泪、尿、阴道分泌物、呕吐物和其一种或多种的混合物。生物样品包括细胞培养物、体液、来自体液的细胞培养物。体液可通过例如穿刺或其他收集或取样程序从哺乳动物生物获得。
157.术语“受试者”、“个体”和“患者”在本文中可互换地使用，它们是指脊椎动物，优选地哺乳动物，更优选地人。哺乳动物包括但不限于，鼠、猿、人、农场动物、竞技动物和宠物。还涵盖体内获得或体外培养的生物实体的组织、细胞及其后代。
158.术语“示例性”在本文中用于意指用作示例、实例或说明。本文被描述为“示例性”的任何方面或设计不一定被解释为优选于或优于其他方面或设计。相反，词语示例性的使用旨在以具体方式呈现概念。
159.源自物种的蛋白或核酸意指所述蛋白或核酸具有与所述物种中的内源蛋白或核酸或其部分相同的序列。源自所述物种的蛋白或核酸可以直接获得自所述物种的生物(例如通过分离)，或者可以例如通过重组产生或化学合成产生。
160.术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可互换地使用。它们是指任何长度的聚合形式的核苷酸，即脱氧核糖核苷酸或核糖核苷酸，或其组合，或其类似物。多核苷酸可以具有任何三维结构，并且可以执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段的编码区或非编码区、由连锁分析限定的基因座、外显子、内含子、信使rna(mrna)、转移rna、核糖体rna、短干扰rna(sirna)、短发夹rna(shrna)、微rna(mirna)、核酶、cdna、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离dna、任何序列的分离rna、核酸探针和引物。所述术语还涵盖具有合成骨架的核酸样结
构，参见例如eckstein,1991；baserga等人,1992；milligan,1993；wo 97/03211；wo 96/39154；mata,1997；strauss-soukup,1997；以及samstag,1996。多核苷酸可以包含一个或多个经修饰的核苷酸，例如甲基化的核苷酸和核苷酸的类似物。如果存在，则可在组装聚合物之前或之后赋予对核苷酸结构的修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可以在聚合后进一步修饰，例如通过与标记性组分缀合来修饰。
161.如本文所用，“互补性”是指通过传统的沃森-克里克(watson-crick)碱基配对或其他非传统类型来与另一种核酸形成氢键的能力。互补性百分比表示核酸分子中可与第二核酸形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个中约5、6、7、8、9、10个，分别为约50％、60％、70％、80％、90％和100％互补)。“完全互补”意指核酸序列的所有连续残基将与第二核酸序列中相同数量的连续残基氢键合。如本文所用的“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少约60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％的互补程度，或是指在严格条件下杂交的两个核酸。如本文所用，用于杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交，并且基本上不与非靶序列杂交的条件。严格条件通常是序列依赖性的，并且根据许多因素而变化。通常，序列越长，所述序列与其靶序列特异性杂交的温度越高。严格条件的非限制性实例详细描述于tijssen(1993),laboratory techniques in biochemistry and molecular biology-hybridization with nucleic acid probes[生物化学与分子生物学中的实验室技术-与核酸探针杂交]，第i部分，第二章“overview of principles of hybridization and the strategy of nucleic acid probe assay[杂交原理概述和核酸探针测定策略]”,爱思唯尔公司(elsevier),纽约中。当提及多核苷酸序列时，也设想互补或部分互补序列。这些序列优选能够在高严格条件下与参考序列杂交。通常，为了使杂交速率最大化，选择相对低严格的杂交条件：比热熔点(tm)低约20℃至25℃。tm是50％的特异性靶序列在限定的离子强度和ph的溶液中与完全互补探针杂交的温度。通常，为了要求至少约85％核苷酸互补性的杂交序列，选择高严格洗涤条件为低于tm约5℃至15℃。能够与给定序列杂交的序列称为给定序列的“互补序列”。
[0162]“杂交”是指其中一个或多个多核苷酸反应形成复合物的反应，所述复合物经由核苷酸残基的碱基之间的氢键而稳定。氢键可通过沃森克里克碱基配对、hoogstein结合或以任何其他序列特异性方式发生。能够与给定序列杂交的序列称为给定序列的“互补序列”。
[0163]
如本文所述，序列同一性与序列同源性相关。同源性比较可以通过眼睛，或者更通常地借助于容易获得的序列比较程序进行。这些可商购的计算机程序可以计算两个或更多个序列之间的同源性百分比(％)，也可以计算两个或更多个氨基酸或核酸序列共有的序列同一性。
[0164]
术语“多肽”、“肽”和“蛋白”在本文中可互换地使用，并且是指任何长度的氨基酸的聚合物。聚合物可以是直链的或支链的，它可以包含经修饰的氨基酸，并且它可以被非氨基酸中断。蛋白可具有一种或多种多肽。所述术语还涵盖已修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他操作，例如与标记组分缀合。如本文所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸和d或l光学异构体两者、以及氨基酸类似物和肽模拟物。如本文所用，术语“结构域”或“蛋白结构域”是指可以独
立于蛋白链的其余部分存在和发挥功能的蛋白序列的一部分。
[0165]
如本文所用，术语“变体”应当被认为意指具有不同于自然中发生的模式的特征的展示。如本文所用，多核苷酸或多肽“变体”应被解释为意指分别与参考多核苷酸或多肽不同的多核苷酸或多肽。多核苷酸的典型变体在核酸序列上不同于另一参考多核苷酸。变体的核酸序列的变化可以改变或不改变由参考多核苷酸编码的多肽的氨基酸序列。如下文的讨论，核苷酸变化可导致参考序列编码的多肽中的氨基酸取代、插入和/或缺失。多肽的典型变体在氨基酸序列上不同于另一参考多肽。通常，差异是有限的，因此参考多肽和变体的序列总体上非常相似，并且在许多区域中是相同的。变体和参考多肽在氨基酸序列上可以因任何组合的一个或多个取代、插入、缺失而不同。取代或插入的氨基酸残基可以是或不是由遗传密码编码的氨基酸残基。多核苷酸或多肽的变体可以是天然存在的，例如等位基因变体，或者它可以是已知不是天然存在的变体。多核苷酸和多肽的非天然存在的变体可以通过诱变技术、通过直接合成和通过本领域技术人员已知的其他重组方法制备。
[0166]
如本文所用，术语“野生型”是本领域技术人员理解的技术术语并且意指在自然界中出现的生物、菌株、基因或特性的典型形式，如与突变体或变体形式区分。“野生型”可以是基线。它可以从自然界中的来源分离而未被有意修饰。
[0167]
术语“非天然存在的”或“工程化的”可互换地使用并且表示人为的参与。当提及核酸分子或多肽时，所述术语意指所述核酸分子或多肽至少基本上不含与它们在自然界中天然关联并且在自然界中发现的至少一种其他组分。
[0168]
如本文所用，术语“基因组基因座”或“基因座(locus)”(复数基因座(loci))是染色体上基因或dna序列的特定位置。“基因”是指编码多肽或rna链的dna区段，所述多肽或rna链在生物中具有功能作用，因此是活生物中遗传的分子单位。出于本公开的目的，可以认为基因包括调节基因产物产生的区域，无论这样的调节序列是否与编码和/或转录序列相邻。因此，基因包括但不限于启动子序列、终止子、翻译调节序列(如核糖体结合位点和内部核糖体进入位点)、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。如本文所用，“基因组基因座的表达”或“基因表达”是将来自基因的信息用于合成功能性基因产物的过程。基因表达产物通常是蛋白，但在非蛋白编码基因如rrna基因或trna基因中，产物是功能性rna。所有已知的生命(真核生物(包括多细胞生物)、原核生物(细菌和古菌)和病毒)使用基因表达过程产生功能产物以生存。如本文所用，基因或核酸的“表达”不仅涵盖细胞基因表达，而且涵盖克隆系统和任何其他环境中核酸的转录和翻译。如本文所用，“表达”还指从dna模板转录多核苷酸的过程(例如转录成mrna或其他rna转录物)和/或随后将转录的mrna翻译成肽、多肽或蛋白的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸源自基因组dna，则表达可以包括mrna在真核细胞中的剪接。
[0169]
本文所用的“细胞”应理解为不仅指特定的单个细胞，而且指细胞的后代或潜在后代。由于某些修饰可能因突变或环境影响发生在后代中，因此事实上，这样的后代可能与亲本细胞不同，但仍包括在本文所用术语的范围内。
[0170]
如本文所用的术语“转导”和“转染”包括本领域已知使用感染原(例如病毒)或其他方式将dna引入细胞以表达感兴趣的蛋白或分子的所有方法。除了病毒或病毒样试剂之外，还有基于化学的转染方法，例如使用磷酸钙、树枝状聚合物、脂质体或阳离子聚合物(例如deae-葡聚糖或聚乙烯亚胺)的那些；非化学方法，例如电穿孔、细胞挤压、声致穿孔、光学
转染、刺穿染、原生质体融合、质粒递送或转座子；基于颗粒的方法，例如使用基因枪、磁转染或磁辅助转染、粒子轰击；和杂交方法，例如核转染。
[0171]
如本文所用的术语“转染的”或“转化的”或“转导的”是指将外源核酸转移或引入靶细胞中的过程。“转染的”或“转化的”或“转导的”细胞是已经用外源核酸转染、转化或转导的细胞。
[0172]
术语“体内”是指在获得细胞的生物的体内。“离体”或“体外”意指在获得细胞的生物的体外。
[0173]
如本文所用，“治疗(treatment或treating)”是用于获得有益的或所希望的结果(包括临床结果)的方法。出于本公开的目的，有益的或所希望的临床结果包括但不限于以下中的一种或多种：减轻由疾病引起的一种或多种症状、减少疾病的程度、稳定疾病(例如，预防或延迟疾病的恶化)、预防或延迟疾病的传播(例如，转移)、预防或延迟疾病的复发、降低疾病的复发率、延迟或减缓疾病的进展、改善疾病状态、提供疾病的缓解(部分或全部)、减少治疗疾病所需的一种或多种其他药物的剂量、延迟疾病进展、增加生活质量和/或延长存活。“治疗”还涵盖减少疾病(例如癌症)的病理结果。本公开的方法涵盖治疗的这些治疗方面中的任何一个或多个。
[0174]
如本文所用，当在通过改变原始蛋白获得改变的蛋白的上下文中提及时，术语“亲本”是指改变的蛋白所来源的原始蛋白。例如，截短的cas13e.1蛋白可以通过截短野生型cas13e.1的n-末端和/或c-末端残基而源自野生型cas13e.1，则野生型cas13e.1是截短的cas13e.1蛋白的亲本蛋白。
[0175]
如本文所用，当提及基本上去除cas13效应蛋白的hepn1和hepn2结构域两者时，短语“基本上去除”意指(1)hepn1和hepn2结构域中的每一个的不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个氨基酸未被去除而是保留在cas13效应蛋白上；以及(2)紧邻hepn1或hepn2结构域的功能性结构域的不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个氨基酸被去除。
[0176]
应当理解，本文所述的本公开的实施方式包括“由实施方式组成”和/或“基本上由实施方式组成”。
[0177]
下文描述了各种实施方式。应注意，具体实施方式并不旨在作为详尽的描述或作为对本文所论述的更广泛方面的限制。结合特定实施方式描述的一个方面不必限于该实施方式，并且可以用任何其他实施方式来实践。在整个本说明书中对“一个实施方式”、“实施方式”、或“示例实施方式”的提及意味着结合实施方式描述的特定特征、结构或特性被包括在本公开的至少一个实施方式中。因此，在整个本说明书的不同地方出现短语“在一个实施方式中”、“在实施方式中”或“示例实施方式”不一定全部是指相同的实施方式，但是可以指相同的实施方式。此外，在一个或多个实施方式中，特定特征、结构或特性可以以任何合适的方式组合，这对于本领域技术人员来说根据本公开将是清楚的。此外，虽然本文中所描述的一些实施方式包括一些而不是包括在其他实施方式中的其他特征，但是不同实施方式的特征的组合旨在落入在本公开的范围内。例如，在所附权利要求中，任何要求保护的实施方式可以以任何组合使用。
[0178]
本文引用的所有出版物、公开的专利文献和专利申请通过引用特此并入，其程度如同每个单独的出版物、公开的专利文献或专利申请特定地并且单独地指示通过引用并入一样。
[0179]
1.概述
[0180]
rna碱基编辑，作为利用crispr相关(cas)效应蛋白的crispr rna(crrna)结合特性的实际应用的一个实例，可以通过将rna碱基编辑器连接到将rna碱基编辑器带到特定rna靶位点的靶向结构域来实现。经常使用的靶向结构域之一是crispr-cas系统效应酶的变体，其已经被修饰以丧失指导rna指导的靶rna切割/rna酶活性，例如所谓的在rna酶催化结构域中具有点突变的死cas(dcas)。这样的修饰的cas仍然可以与其指导rna结合，其通过指导rna中的间隔序列靶rna与杂交而将cas-rna碱基编辑器带到特定的靶rna位点，从而允许rna碱基编辑器对靶rna处的靶核糖核苷酸进行修饰(例如，脱氨基)以实现碱基编辑。
[0181]
这样的靶向rna碱基编辑器至少有两个重要特性——靶向效率和脱靶活性。靶向效率涉及所希望的活性——靶向rna碱基编辑器如何有效地被带到靶rna并使靶位点处的靶核糖核苷酸脱氨基。脱靶活性涉及不希望的活性——靶向rna碱基编辑器多久使非预期的核糖核苷酸脱氨基，例如在脱靶位置处。
[0182]
本文所述的本公开部分地基于令人惊讶的发现，即crispr-cas系统的增强的适用性(例如，高达200％增强的靶向效率)可以通过使用经转录的指导rna和经修饰的cas蛋白来实现，所述经转录的指导rna具有侧接两个(而不是一个)dr序列的间隔序列，所述经修饰的cas蛋白能够维持指导rna的这样的dr构型(换言之，不通过加工或切割指导rna的dr序列破坏这样的dr构型)。
[0183]
虽然不希望受任何特定理论的束缚，但据信这些cas效应蛋白(例如，cas13或caspr)可被修饰以缺失涵盖部分或全部hepn结构域的n-末端和/或c-末端区域的大部分(不仅通过点突变使rxxxxh基序中的催化活性失活而使其rna酶活性缺陷)或引入氨基酸突变，从而基本上降低或消除这些cas效应蛋白加工初级转录物中的dr序列的能力，并且能够与具有侧接两个dr序列的间隔序列的经转录的指导rna共作用。
[0184]
本文所述的本公开进一步基于以下令人惊讶的发现，即以相同方式修饰的相同cas效应蛋白当连接到rna碱基编辑器时，基于对脱靶碱基编辑效率的转录组范围的评估，基本上降低碱基编辑器的固有脱靶活性。此外，如此修饰的cas效应蛋白令人惊讶地消除了相应的基于dcas的靶向rna碱基编辑器的约99％的脱靶活性，因此实现了优于(低于)传统的基于dcas的靶向rna碱基编辑器的脱靶碱基编辑2个数量级。
[0185]
本文所述的本公开另外地基于以下令人惊讶的发现，即通过将2-3个核定位序列(nls)融合到靶向rna碱基编辑器，例如通过在用作靶向结构域的经修饰的cas效应酶的两端融合一个nls，可以进一步增强本发明靶向rna碱基编辑器(基于经修饰的cas效应蛋白)的靶向效率。
[0186]
因此，在一方面，本公开提供了一种crispr-cas系统，所述crispr-cas系统包含：
[0187]
(a)crispr rna(crrna)结合多肽或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述crrna结合多肽包含cas效应蛋白的crrna结合结构域，基本上由其组成，或由其组成，
[0188]
(b)异源功能性结构域或其多核苷酸编码序列(例如，dna编码序列或rna编码序
列)，以及
[0189]
(c)指导rna(grna)或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述grna包含：
[0190]
(i)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与所述crrna结合结构域形成复合物；以及
[0191]
(ii)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
[0192]
其中所述crrna结合多肽：
[0193]
(1)连接(例如，融合)至所述异源功能性结构域，并且
[0194]
(2)基本上缺乏加工或切割所述grna上的dr序列的能力(例如，具有所述cas效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)，并且
[0195]
其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任选地，所述5'和3'dr序列是相同的。
[0196]
在另一方面，本公开提供了一种指导rna(grna)，所述指导rna包含：
[0197]
a)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与crispr rna(crrna)结合多肽形成复合物，所述crispr rna(crrna)结合多肽包含cas效应蛋白的crrna结合结构域，基本上由其组成，或由其组成；以及
[0198]
b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
[0199]
其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任选地，所述5'和3'dr序列是相同的。
[0200]
在一些实施方式中，crrna结合多肽基本上缺乏加工或切割grna上的dr序列的能力(例如，具有cas效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)。
[0201]
在一些实施方式中，crrna结合多肽连接(例如，融合)至异源功能性结构域。
[0202]
在另一方面，本公开提供了一种经修饰的cas13蛋白，所述经修饰的cas13蛋白的hepn1和hepn2结构域两者基本上从亲本或野生型cas13效应蛋白去除(例如，基本上缺乏所述亲本或野生型cas13效应蛋白的hepn1和hepn2结构域两者)，条件是所述经修饰的cas13蛋白不是minidcas13e.1-n180 c150。
[0203]
在一些实施方式中，经修饰的cas13蛋白具有hepn1结构域的第一缺失或具有包含所述hepn1结构域的第一缺失，以及具有hepn2结构域的第二缺失或具有包含所述hepn2结构域的第二缺失，并且基本上缺乏加工或切割指导rna(grna)中能够与所述经修饰的cas13蛋白形成复合物的同向重复(dr)序列的能力(例如，具有所述亲本或野生型cas13效应蛋白的所述能力的不超过50％、40％、30％、20％、10％、5％、2％或1％)，所述指导rna包含：
[0204]
a)所述同向重复序列；以及
[0205]
b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列。
[0206]
在一些实施方式中，(1)第一缺失比亲本或野生型cas13效应蛋白的hepn1结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述亲本或野生型cas13效应蛋白的所述hepn1结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、
34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基；以及(2)第二缺失比亲本或野生型cas13效应蛋白的hepn2结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述亲本或野生型cas13效应蛋白的hepn2结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基。
[0207]
在一些实施方式中，亲本或野生型cas13效应蛋白是cas13a效应蛋白、cas13b效应蛋白、cas13c效应蛋白、cas13d效应蛋白、cas13e效应蛋白或cas13f效应蛋白。
[0208]
在另一方面，本公开提供了一种融合蛋白，所述融合蛋白包含：
[0209]
a)如本文所述的经修饰的cas13蛋白；以及，
[0210]
b)异源功能性结构域，例如脱氨酶结构域。
[0211]
在另一方面，本公开提供一种crispr-cas13系统，所述crispr-cas13系统包含：
[0212]
a)如本文所述的经修饰的cas13蛋白或如本文所述的融合蛋白或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)；以及
[0213]
b)指导rna(grna)或其多核苷酸编码序列(例如，dna编码序列或rna编码序列)，所述grna包含：
[0214]
i.能够与所述融合蛋白的经修饰的cas13蛋白形成复合物的同向重复(dr)序列；以及，
[0215]
ii.能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列。
[0216]
在一些实施方式中，grna包含
[0217]
a)5'同向重复(dr)序列和3'同向重复(dr)序列，其各自能够与所述融合蛋白的所述经修饰的cas13蛋白形成复合物；以及
[0218]
b)能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，
[0219]
其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接所述5'和3'dr序列；任选地，所述5'和3'dr序列是相同的。
[0220]
在某些实施方式中，本公开的crispr-cas系统(例如，crispr-cas13系统)进一步包含或缀合至异源功能性结构域。异源功能性结构域可以是另一种共价或非共价连接的蛋白或多肽或其他分子(例如检测试剂或药物/化学部分)。这样的其他蛋白/多肽/其他分子可以通过例如化学偶联、基因融合或其他非共价连接(如生物素-链霉亲和素结合)来连接。这样的衍生蛋白不影响原始蛋白的功能，例如结合本公开的指导rna/crrna以形成复合物的能力，以及在与靶rna至少部分互补的crrna的指导下，在特定位点结合靶rna的能力。
[0221]
在某些实施方式中，异源功能性结构域包含核定位信号(nls，例如sv40大t抗原nls)以增强本公开的本发明经修饰的cas效应蛋白或本发明多肽(例如，基于cas13e和cas13f的crrna结合结构域)进入细胞核的能力。这样的衍生也可用于添加特定细胞或亚细胞位置的靶向分子或部分。这样的衍生还可用于添加可检测标记，以促进本发明crispr-cas系统的检测、监测或纯化。
[0222]
衍生可以通过在本发明crispr-cas系统的n-末端或c-末端，或在内部(例如，通过内部氨基酸侧链的内部融合或连接)，例如在包含crrna结合结构域的本公开的多肽与rna
碱基编辑器之间添加任何另外的部分来进行。
[0223]
在相关的第二方面，本公开还提供本发明crrna结合多肽的缀合物，所述crrna结合多肽与rna碱基编辑器和任选的部分例如其他蛋白或多肽、可检测标记或其组合缀合。这样的缀合的部分可包括但不限于定位信号、报告基因(例如，gst、hrp、cat、gfp、hcred、dsred、cfp、yfp、bfp)、标记(例如，荧光染料，如fitc或dapi)、nls、靶向部分、dna结合结构域(例如，mbp、lex a dbd、gal4 dbd)、表位标签(例如，his、myc、v5、flag、ha、vsv-g、trx等)、转录激活结构域(例如，vp64或vpr)、转录抑制结构域(例如，krab部分或sid部分)、核酸酶(例如，foki)、脱氨基结构域(例如，adar1、adar2、apobec、aid或tad)、甲基化酶、去甲基化酶、转录释放因子、hdac、ssrna切割活性、dsrna切割活性、ssdna切割活性、dsdna切割活性、dna或rna连接酶、其任何组合等。
[0224]
在某些实施方式中，缀合物可包括一个或多个(例如2或3个)nls，其可以位于或接近n-末端、c-末端、内部、或其组合。连接可以通过氨基酸(如d或e、或s或t)、氨基酸衍生物(如ahx、β-ala、gaba或ava)或peg连接来进行。
[0225]
在某些实施方式中，缀合不影响原始蛋白的功能，例如结合本公开的指导rna/crrna(下文描述)以形成复合物的能力，以及在与靶rna至少部分互补的crrna的指导下，在特定位点处结合所述靶rna的能力。
[0226]
上文大体描述了本公开，本公开各个方面的更详细描述在下文的单独部分中提供。然而，应理解，为了简洁和减少冗余，本公开的某些实施方式仅在一个部分下描述或仅在权利要求或实施例中描述。因此，还应理解，本公开的任何一个实施方式，包括仅在一个方面、部分下或仅在权利要求或实施例中描述的那些实施方式，可以与本公开的任何其他实施方式组合，除非特别否认或组合不当。
[0227]
2.示例性2类vi型crispr rna指导的rna酶及其衍生物
[0228]
本文所述的本公开提供了cas13效应蛋白，其可以被修饰(例如，通过n-末端和/或c-末端缺失)以不仅消除指导rna介导的rna酶活性，而且还消除基本上所有(例如，所有)加工初始长crispr序列(涵盖大部分crispr阵列的单个长转录物)以产生具有同向重复(dr)序列的crrna的能力。因此，虽然不希望受任何特定理论的束缚，但是本公开的含有crrna结合结构域的多肽可以与具有间隔子的指导rna共作用/复合，而不切割dr序列中的一个，所述间隔子侧接两个dr序列——间隔子的每个末端一个dr序列。
[0229]
在某些实施方式中，cas效应酶是2类vi-a型(cas13a或c2c2)、vi-b型(cas13b)、vi-c型(cas13c)、vi-d型(cas13d)、vi-e型(cas13e)或vi-f型(cas13f)效应蛋白。
[0230]
2类vi-e型和vi-f型效应蛋白(本文称为cas13e和cas13f)比其他cas13效应蛋白(例如cas13a-cas13d)小得多，使得它们可以更容易地与它们的crrna编码序列一起包装到小容量基因疗法载体(例如aav载体)中。此外，与cas13a、cas13b和cas13d效应蛋白相比，cas13e和cas13f效应蛋白在敲低rna靶序列方面更有效，并且在rna单碱基编辑方面更高效。因此，这些新的cas蛋白更理想地适用于基因治疗。
[0231]
因此，在某些实施方式中，cas效应蛋白是2类vi-e型(cas13e)或vi-f型(cas13f)cas效应蛋白。
[0232]
在某些实施方式中，cas效应蛋白包含seq id no:1-7、111-125和173中任一个的氨基酸序列、或直系同源物、同源物、各种衍生物(下文描述)，其中所述直系同源物、同源
物、衍生物维持seq id no:1-7、111-125和173中任一个的蛋白的至少一种功能。这样的功能包括但不限于结合本公开的指导rna/crrna以形成复合物的能力、以及在与靶rna至少部分互补的crrna的指导下，在特定位点处结合所述靶rna的能力。
[0233]
在某些实施方式中，本公开的cas13效应蛋白可以是：(i)seq id no:1-7、111-125和173中的任一个；(ii)具有seq id no:1-7、111-125和173中任一个的一个或多个氨基酸(例如，1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如，保守取代)的衍生物；或(iii)与seq id no:1-7、111-125和173中的任一个相比具有至少约80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的氨基酸序列同一性的衍生物。
[0234]
在一些实施方式中，cas13效应蛋白包含(1)seq id no:1-7、111-125和173中任一个的氨基酸序列，或(2)与seq id no:1-7、111-125和173中任一个的氨基酸序列具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基酸序列。
[0235]
在某些实施方式中，cas13效应蛋白、直系同源物、同源物、衍生物不是天然存在的，例如与天然存在的序列相比具有至少一个氨基酸差异。
[0236]
在某些实施方式中，本公开的含有crrna结合结构域的多肽基本上缺乏n-末端hepn结构域(例如，rxxxxh结构域)和/或c-末端hepn结构域(例如，rxxxxh结构域)。
[0237]
在某些实施方式中，cas效应蛋白是crispr 2类vi型效应子，其具有两个严格保守的rx4-6h(插入4至6个氨基酸的n-末端氨基酸r和c-末端氨基酸h)(rxxxxh至rxxxxxxh至)基序，这是高等真核生物和原核生物核苷酸结合(hepn)结构域的特性。含有两个hepn结构域的相似crispr 2类vi型效应蛋白先前已被表征，并且包括例如crispr cas13a(c2c2)、cas13b、cas13c和cas13d。如本文所用，n-末端hepn结构域也称为“hepn1”结构域，并且c-末端hepn结构域也称为“hepn2”结构域。
[0238]
hepn结构域经证明是rna酶结构域并赋予结合和切割靶rna分子的能力。所述靶rna可以是任何合适形式的rna，包括但不限于mrna、trna、核糖体rna、非编码rna、lncrna(长链非编码rna)和核rna。例如，在一些实施方式中，cas蛋白识别并切割位于开放阅读框(orf)的编码链上的rna靶标。
[0239]
任何cas13效应蛋白、其直系同源物、同源物、衍生物可以被修饰以缺失n-末端和/或c-末端hepn结构域，基本上仅留下cas效应蛋白、其直系同源物、同源物、衍生物的内部部分中的crrna结合结构域。
[0240]
在某些实施方式中，经修饰的cas13效应蛋白、其直系同源物、同源物、衍生物基本上缺乏n-末端hepn结构域(例如，rxxxxh结构域)和/或c-末端hepn结构域(例如，rxxxxh结构域)。
[0241]
在一些实施方式中，经修饰的cas13效应蛋白、其直系同源物、同源物、衍生物基本上缺乏cas效应蛋白的hepn1结构域(例如，rxxxxh结构域)和/或hepn2结构域(例如，rxxxxh结构域)。
[0242]
在一些实施方式中，经修饰的cas13效应蛋白、其直系同源物、同源物、衍生物基本上缺乏cas效应蛋白的hepn1和hepn2结构域两者。
[0243]
在一些实施方式中，经修饰的cas13效应蛋白、其直系同源物、同源物、衍生物具有hepn1结构域的第一缺失或具有包含所述hepn1结构域的第一缺失，以及具有hepn2结构域
的第二缺失或具有包含所述hepn2结构域的第二缺失。
[0244]
在一些实施方式中，(1)第一缺失比cas13效应蛋白的hepn1结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比所述cas13效应蛋白的所述hepn1结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基；以及(2)第二缺失比cas13效应蛋白的hepn2结构域大不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基，并且比cas13效应蛋白的hepn2结构域小不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个残基。
[0245]
在某些实施方式中，cas效应蛋白是2类vi-e型(cas13e)cas效应蛋白(例如，seq id no:1)，并且其中所述多肽缺乏所述cas13e效应蛋白(例如，seq id no:1)的约180(例如，170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189或190)个n-末端残基，并且缺乏所述cas13e效应蛋白的约150(例如，140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159或160)个c-末端残基。
[0246]
在一些实施方式中，crrna结合多肽包含seq id no:32、168-172和174中任一个的氨基酸序列。
[0247]
在一个实施方式中，crispr 2类vi型效应子是vi-e型和vi-f型crispr-cas效应蛋白，cas13e或cas13f。vi-e型和vi-f型crispr-cas效应蛋白与这些其他系统的效应子的直接比较显示出vi-e型和vi-f型crispr-cas效应蛋白甚至比先前鉴定的最小的vi-d型/cas13d效应子显著更小(例如，氨基酸少约20％)(参见图3)，并且在与其他先前描述的效应蛋白(包括系统发育上最接近的亲属cas13b)的一对一序列比对中具有小于30％的序列相似性。
[0248]
crispr 2类vi型效应子的这两个家族特别适合于治疗性应用，因为它们比其他效应子(例如，crispr cas13a、cas13b、cas13c和cas13d效应子)显著更小，这允许将编码效应子的核酸及它们的指导rna编码序列包装到具有大小限制的递送系统(如aav载体)中。
[0249]
在细菌中，vi-e型和vi-f型crispr-cas系统包括紧邻crispr阵列的单个效应子(分别为大约775个残基和790个残基)(参见图1)。所述crispr阵列包括长度典型地为36个核苷酸的同向重复(dr)序列，其在序列和二级结构中通常都非常保守(参见图2)。
[0250]
vi-e型和vi-f型效应子的crrna从5'端加工，使得dr序列通常在成熟的crrna的3'端处终止。
[0251]
cas13e和cas13f crispr阵列中含有的间隔子最常见的长度为30个核苷酸，大部分长度变化包含在29至30个核苷酸的范围内。然而，可以容忍宽范围的间隔子长度。例如，为了在功能性cas13e或cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用，间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间，或为约27、28、29、30、31、32或33个核苷酸。然而，为了在上述任一者的
dcas版本中使用，间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间，或为约46、47、48、49、50、51、52、53、54或55个核苷酸；或长度为15-100个核苷酸、15-80个核苷酸、15-60个核苷酸、25-50个核苷酸、30-50个核苷酸、约100个核苷酸、约80个核苷酸、约60个核苷酸、约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸、约30个核苷酸、约20个核苷酸或约15个核苷酸。
[0252]
示例性vi型crispr-cas效应蛋白在seq id no:1-7、111-125和173中列出。
[0253]
在cas13e.1中，由于基序侧翼的rr和hh序列，c-末端基序可具有两种可能性。在一个或两个这样的结构域处的突变可能产生cas13效应蛋白、其同源物、直系同源物、融合物、缀合物、衍生物或功能性片段的rna酶死亡版本(或“dcas”)，同时基本上保持它们结合指导rna和与所述指导rna互补的靶rna的能力。
[0254]
cas效应蛋白的相应dr编码序列在seq id no:8-14和126-140中列出。
[0255]
cas13e.1、cas13e.2、cas13f.1、cas13f.2、cas13f.3、cas13f.4和cas13f.5蛋白的天然(野生型)dna编码序列分别在seq id no:15-21中列出。
[0256]
针对另外的功能性实验生成了七种cas13e和cas13f蛋白(即，cas13e.1、cas13e.2、cas13f.1、cas13f.2、cas13f.3、cas13f.4和cas13f.5)，它们的经人密码子优化的编码序列分别在seq id no:22-28中列出。
[0257]
图1显示了七种crispr-cas13e和cas13f基因座结构。
[0258]
使用rnafold对crrna前体中的七个dr序列的rna二级结构进行了进一步分析。图2显示了结果。很明显，全部都共享了非常保守的二级结构。
[0259]
例如，在cas13e家族中，每个dr序列形成由以下组成的二级结构：4碱基对茎(5'-gcug-3')、随后是5 5个核苷酸的对称的凸起(不包括4个茎核苷酸)、进一步地随后是5碱基对茎(5
’‑
gcc c/u c-3’)和末端8碱基环(5'-cgauuugu-3'，不包括2个茎核苷酸)。
[0260]
同样地，在cas13f家族中，除了一个例外(cas13f.4)，每个dr序列形成由以下组成的二级结构：5碱基对茎(5’gcugu3’)、随后是5 4个核苷酸的接近对称的凸起(不包括4个茎核苷酸)、进一步地随后是6碱基对茎(5’a/g ccucg3’)和末端5碱基环(5’auuug3’，不包括2个茎核苷酸)。唯一的例外是cas13f.4的dr，其中第二阶梯短1个碱基对，并在第一凸起处添加了2个另外的碱基以形成大致对称的6 5凸起。
[0261]
由于dr序列的二级结构(包括阶梯、凸起和环结构的位置和大小)可能比形成这样的二级结构的特定核苷酸序列更重要，替代性或衍生性dr序列也可用于本公开的系统和方法中，只要这些衍生性或替代性dr序列具有与由seq id no:8-14和126-140中的任一个编码的rna的二级结构基本类似的二级结构即可。例如，衍生性dr序列可以在一个或两个茎中具有
±
1或2个碱基对(参见图2)，在凸起的一条或两条单链中具有
±
1、2或3个碱基，和/或在环区中具有
±
1、2、3或4个碱基。
[0262]
在一些实施方式中，2类vi型crispr-cas效应蛋白包括“衍生物”，所述衍生物具有如下氨基酸序列，所述氨基酸序列与seq id no:1-7、111-125和173中任一个的氨基酸序列具有至少约80％的序列同一性(例如，81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％)。与seq id no:1-7、111-125和173中的任一个共享显著蛋白序列同一性的这样的衍生性cas效应蛋白保留了
seq id no:1-7、111-125和173的cas的至少一种功能，例如与包含seq id no:8-14和126-140的dr序列中的至少一个的crrna结合并形成复合物的能力。例如，cas13e.1衍生物可分别与seq id no:1、2、3、4、5、6或7共享85％的氨基酸序列同一性，并保留分别与具有seq id no:8、9、10、11、12、13或14的dr序列的crrna结合并形成复合物的能力。
[0263]
这样的衍生性cas蛋白可以与相应的野生型cas蛋白(例如野生型cas13e.1)类似地通过例如n-末端和/或c-末端缺失进行修饰，以便基本上消除所有加工野生型cas(例如cas13e.1)天然的dr序列的能力，但基本上保留结合dr序列/指导rna以使得能够通过连接的rna碱基编辑器进行rna碱基编辑的能力。
[0264]
在一些实施方式中，与相应的野生型cas相比，衍生物包含保守氨基酸残基取代。在一些实施方式中，所述衍生物仅包含保守的氨基酸残基取代(即，所述衍生物中的所有氨基酸取代都是保守取代，并且没有不保守的取代)。
[0265]
在一些实施方式中，衍生物将不超过1、2、3、4、5、6、7、8、9或10个氨基酸插入或缺失包含到seq id no:1-7、111-125和173的任一种野生型序列中。只要保留野生型序列的至少一种功能，插入和/或缺失就可以聚集在一起，或在序列的整个长度上分开。这样的功能可以包括结合指导/crrna的能力、rna酶活性、结合和/或切割与指导/crrna互补的靶rna的能力。在一些实施方式中，插入和/或缺失不存在于rx4-6h基序中，或距rx4-6h基序5、10、15或20个残基内。
[0266]
在一些实施方式中，所述衍生物保留结合指导rna/crrna的能力。
[0267]
在一些实施方式中，所述衍生物保留指导/crrna激活的rna酶活性。
[0268]
在一些实施方式中，在所结合的在序列方面与至少一部分靶rna互补的指导/crrna存在下，所述衍生物保留结合靶rna和/或切割所述靶rna的能力。
[0269]
在其他实施方式中，由于例如rna指导的rna酶的一个或多个催化残基的突变，所述衍生物完全或部分丧失指导/crrna激活的rna酶活性。这样的衍生物有时称为dcas，如dcas13e.1等。
[0270]
因此，在某些实施方式中，所述衍生物可以经修饰以具有减弱的核酸酶/rna酶活性，例如，与相应的野生型蛋白相比，核酸酶灭活至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少97％或100％。可以通过本领域已知的几种方法减弱核酸酶活性，例如，将突变引入蛋白的核酸酶(催化)结构域中。在一些实施方式中，鉴定出核酸酶活性的催化残基，并且这些氨基酸残基可以被不同的氨基酸残基(例如，甘氨酸或丙氨酸)取代以减弱核酸酶活性。在一些实施方式中，所述氨基酸取代是保守性氨基酸取代。在一些实施方式中，所述氨基酸取代是非保守性氨基酸取代。
[0271]
在一些实施方式中，修饰包含在至少一个hepn结构域中的一个或多个突变(例如，氨基酸缺失、插入或取代)。在一些实施方式中，在至少一个hepn结构域中存在一个、两个、三个、四个、五个、六个、七个、八个、九个或更多个氨基酸取代。例如，在一些实施方式中，所述一个或多个突变包含在与以下对应的氨基酸残基处的取代(例如，丙氨酸取代)：seq id no:1的r84、h89、r739、h744、r740、h745，或seq id no:2的r97、h102、r770、h775，或seq id no:3的r77、h82、r764、h769，或seq id no:4的r79、h84、r766a、h771，或seq id no:5的r79、h84、r766、h771，或seq id no:6的r89、h94、r773、h778，或seq id no:7的r89、h94、r777、h782。
[0272]
在某些实施方式中，所述一个或多个突变或所述两个或更多个突变可以在包含hepn结构域的效应蛋白的催化活性结构域或与hepn结构域同源的催化活性结构域中。在某些实施方式中，所述效应蛋白包含一个或多个以下突变：r84a、h89a、r739a、h744a、r740a、h745a(其中氨基酸位置对应于cas13e.1的氨基酸位置)。本领域技术人员将理解，不同的cas13e和cas13f蛋白中的对应氨基酸位置可以突变成相同效果。在某些实施方式中，一个或多个突变完全或部分消除蛋白的催化活性(例如，改变的切割速率、改变的特异性等)。
[0273]
其他示例性(催化)残基突变包括：cas13e.2的r97a、h102a、r770a、h775a，或cas13f.1的r77a、h82a、r764a、h769a，或cas13f.2的r79a、h84a、r766a、h771a，或cas13f.3的r79a、h84a、r766a、h771a，或cas13f.4的r89a、h94a、r773a、h778a，或cas13f.5的r89a、h94a、r777a、h782a。在某些实施方式中，本文的任一r和/或h残基可以被g、v或i而不是a替代。
[0274]
与缺乏突变的对应野生型蛋白相比，这些突变中的至少一个的存在导致具有减少的或减弱的rna酶活性的衍生物。
[0275]
在某些实施方式中，如本文所述的效应蛋白是“死”效应蛋白，如死cas13e或cas13f效应蛋白(即dcas13e和dcas13f)。在某些实施方式中，所述效应蛋白在hepn结构域1(n-末端)中具有一个或多个突变或缺失。在某些实施方式中，所述效应蛋白在hepn结构域2(c-末端)中具有一个或多个突变或缺失。在某些实施方式中，所述效应蛋白在hepn结构域1和hepn结构域2中具有一个或多个突变或缺失。
[0276]
在一些实施方式中，vi型crispr-cas效应蛋白包括seq id no:1-7、111-125和173中任一个的氨基酸序列。在一些实施方式中，所述vi型crispr-cas效应蛋白或其衍生物或其功能性片段识别并切割所述靶rna，而无邻近原型间隔子或在原型间隔子侧翼的任何另外要求(即，原型间隔子邻近基序“pam”或原型间隔子侧翼序列“pfs”的要求)。
[0277]
在一些实施方式中，本公开的含有crrna结合结构域的多肽是全长亲本或野生型(seq id no:1-7、111-125和173)或衍生性vi型cas效应蛋白的“功能性片段”。
[0278]
如本文所用，“功能性片段”是指具有小于全长序列的、seq id no:1-7、111-125和173中任一个的亲本或野生型蛋白或其衍生物的片段。
[0279]
所述功能性片段中缺失的残基可以在n-末端、c-末端和/或内部。功能性片段保留亲本或野生型vi cas效应蛋白的至少一种功能、或其衍生物的至少一种功能。因此，功能性片段相对于所讨论的功能而特别定义。例如，其中所述功能是结合crrna和靶rna的能力的功能性片段，相对于rna酶功能而言可能不是功能性片段，因为丢失cas两端的rx4-6h基序可能不会影响其结合crrna和靶rna的能力，但可能消除破坏rna酶活性。
[0280]
在某些实施方式中，保留的功能包括通过与dr序列结合而与指导rna形成复合物的能力，然而加工dr序列的能力基本上丧失。
[0281]
在一些实施方式中，与全长序列seq id no:1-7、111-125和173相比，vi型crispr-cas效应蛋白或其衍生物或其功能性片段缺乏来自n-末端的约30、60、90、120、150或约180个残基。在某些实施方式中，vi型crispr-cas效应蛋白或其衍生物或其功能性片段缺乏亲本或wt cas，如wt cas13e.1(例如，seq id no:1)的约180(例如，170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189或190)个n-末端残基。
[0282]
在一些实施方式中，与全长序列seq id no:1-7、111-125和173相比，vi型crispr-cas效应蛋白或其衍生物或其功能性片段缺乏来自c-末端的约30、60、90、120或约150个残基。在某些实施方式中，vi型crispr-cas效应蛋白或其衍生物或其功能性片段缺乏所述cas13e效应蛋白(例如，seq id no:1)的约150个(例如，140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159或160个)c-末端残基。
[0283]
在一些实施方式中，crrna结合多肽包含seq id no:32、168-172和174中任一个的氨基酸序列。
[0284]
在一些实施方式中，与全长序列seq id no:1-7、111-125和173相比，vi型crispr-cas效应蛋白或其衍生物或其功能性片段缺乏来自n-末端的约30、60、90、120、150或约180(例如，170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189或190)个残基，并且缺乏来自c-末端的约30、60、90、120或约150(例如，140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159或160)个残基。
[0285]
灭活的cas或其衍生物或功能性片段可以与一个或多个异源/功能性结构域融合、缀合(例如，通过化学连接)或以其他方式关联(例如，经由融合蛋白、接头肽、“gs”接头等)。这些功能性结构域可以具有多种活性，例如，甲基化酶活性、去甲基化酶活性(例如，脂肪量和肥胖相关蛋白(fto)、alkbh5)、甲基转移酶活性(例如，mettl3、mettl14、wtap、kiaa1429)、转录激活活性、转录阻遏/抑制活性、转录释放因子活性、组蛋白修饰活性、rna切割活性、dna切割活性、核酸结合活性、碱基编辑活性和开关活性(例如，光诱导型)。在一些实施方式中，所述功能性结构域是kr
ü
ppel相关盒(krab)、sid(例如sid4x)、vp64、vpr、vp16、fok1、p65、hsf1、myod1、作用于rna的腺苷脱氨酶(如adar1、adar2)、apobec、胞苷脱氨酶(aid)、tad、小型-sog、apex和生物素-apex、或其功能性脱氨酶结构域(例如adar1dd或adar2dd)。
[0286]
在一些实施方式中，异源功能性结构域包含脱氨酶结构域，例如腺苷脱氨酶结构域，例如双链rna特异性腺苷脱氨酶(例如，作用于rna的腺苷脱氨酶(adar)，例如adar1或adar2)、催化多肽样载脂蛋白b mrna编辑酶(apobec)、激活诱导的胞苷脱氨酶(aid)，或其功能性片段；或胞苷脱氨酶结构域，例如rescues(seq id no:56)，或其功能性片段。
[0287]
在一些实施方式中，功能性结构域是碱基编辑结构域或rna碱基编辑器，例如adar1(包括其野生型或adar1
dd
版本，具有或不具有e1008q突变)、adar2(包括其野生型或adar2
dd
版本，具有或不具有e488q突变和/或t375g突变，或rescues(seq id no:56))、apobec或aid。
[0288]
在一些实施方式中，包含adar2
dd
的adar2或其功能性片段包含e488q突变或在对应于人adar2的e488的位置处的e至q取代突变，并且任选地进一步包含t375g突变或在对应于人adar2的t375的位置处的t至g取代突变。
[0289]
在一些实施方式中，脱氨酶结构域是hadar2dd-e488q(seq id no:34)、hadar2dd-e488q/t375g(seq id no:163)或rescues(seq id no:56)。
[0290]
在一些实施方式中，异源功能性结构域将靶rna中的腺苷(a)脱氨基为肌苷(i)和/或将靶rna中的胞苷(c)脱氨基为尿苷(u)。
[0291]
在一些实施方式中，异源功能性结构域包含m6a相关调节结构域，例如m6a相关甲
基转移酶结构域(例如，mettl3、mettl14、wtap、kiaa1429或其功能性片段)、m6a相关去甲基化结构域(例如，脂肪量和肥胖相关蛋白(fto)、alkbh5或其功能性片段)或其组合。
[0292]
在一些实施方式中，功能性结构域可以包含一个或多个核定位信号(nls)结构域或核输出序列(nes)。一个或多个异源功能性结构域可以包含至少两个或更多个nls/nes结构域。一个或多个nls/nes结构域可位于或接近或邻近所述效应蛋白(例如，cas13e/cas13f效应蛋白)的末端处，并且如果有两个或更多个nls/nes，则两者中的每一个可位于或接近或邻近所述效应蛋白(例如，cas13e/cas13f效应蛋白)的末端处。在某些实施方式中，第三个nls可位于在c末端与靶向cas部分融合的rna碱基编辑器的c末端。
[0293]
在一些实施方式中，至少一个或多个异源功能性结构域可以位于或接近所述效应蛋白的氨基末端处，并且/或者其中至少一个或多个异源功能性结构域位于或接近所述效应蛋白的羧基末端处。所述一个或多个异源功能性结构域可以与所述效应蛋白融合。所述一个或多个异源功能性结构域可以与所述效应蛋白相连。所述一个或多个异源功能性结构域可以通过接头部分与所述效应蛋白连接。
[0294]
在一些实施方式中，存在多个(例如，两个、三个、四个、五个、六个、七个、八个或更多个)相同或不同的功能性结构域。
[0295]
在一些实施方式中，所述功能性结构域(例如，碱基编辑结构域)进一步与rna结合结构域(例如，ms2)融合。
[0296]
在一些实施方式中，所述功能性结构域与接头序列(例如，柔性接头序列或刚性接头序列)关联或经由接头序列(例如，柔性接头序列或刚性接头序列)融合。示例性接头序列和功能性结构域序列在说明书末尾的表中提供。
[0297]
vi型crispr cas效应蛋白的工程化变体中基序和功能性结构域的氨基酸序列
[0298]
在某些实施方式中，异源功能性结构域与crrna结合多肽的n-末端、c-末端或内部融合或缀合。
[0299]
在某些实施方式中，异源功能性结构域与crrna结合多肽的c-末端融合。
[0300]
在某些实施方式中，crrna结合多肽和异源功能性结构域经由接头连接。
[0301]
在某些实施方式中，接头包含gs或其2-15个重复(seq id no:85)、gsggggs(seq id no:29)或其2-4个重复(seq id no:86)、ggs或其5-10个重复(seq id no:87)、gggs(g3s)(seq id no:63)或其3-7个重复(seq id no:88)、ggggs(g4s)(seq id no:93)或其3-5个重复(seq id no:89)、gggggs(g5s)(seq id no:94)或其3-4个重复(seq id no:90)，或其混合物、或seq id no:33；任选地，接头的长度为约15、16、17、18、19、20、21、22、23、24、25、26或27个残基。
[0302]
所述一个或多个功能性结构域在灭活的cas蛋白上的定位允许所述功能性结构域的正确的空间取向，从而以所归属的功能性效应影响靶标。可以通过使用一个或多个gs接头，例如上表中所列的那些来调节定位。
[0303]
在某些实施方式中，本公开的含有crrna结合结构域的多肽和/或异源功能性结构域连接到2或3个nls，例如seq id no:35。
[0304]
在某些实施方式中，本公开的含有crrna结合结构域的多肽在n-末端和c-末端与各一个nls融合。
[0305]
在一些实施方式中，功能性结构域(例如，nls或nes)位于cas/dcas的n-末端处。在
no:66)；hrnpa1 m9 nls，其具有序列nqssnfgpmkggnfggrssgpygggg qyfakprnqggy(seq id no:67)；来自输入蛋白-α的ibb结构域的序列rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv(seq id no:68)；肌瘤t蛋白的序列vsrkrprp(seq id no:69)和ppkkared(seq id no:70)；人p53的序列pqpkkkpl(seq id no:71)；小鼠c-abl iv的序列salikkkkkmap(seq id no:72)；流感病毒ns1的序列drlrr(seq id no:73)和pkqkkrk(seq id no:74)；肝炎病毒δ抗原的序列rklkkkikkl(seq id no:75)；小鼠mx1蛋白的序列rekkkflkrr(seq id no:76)；人聚(adp-核糖)聚合酶的序列krkgdevdgvdevakkkskk(seq id no:77)；以及人糖皮质激素受体的序列rkclqagmnlearktkk(seq id no:78)。在一些实施方式中，所述crispr相关蛋白包含至少一个(例如，1、2、3、4、5、6、7、8、9或10个)附接所述蛋白的n-末端或c-末端的核输出信号(nes)。在优选的实施方式中，附接c-末端和/或n-末端nls或nes，用于在真核细胞(例如，人细胞)中进行最佳表达和核靶向。
[0312]
在一些实施方式中，本文所述的本公开的含有crrna结合结构域的多肽在一个或多个氨基酸残基处突变以改变一种或多种功能性活性。例如，在一些实施方式中，本公开的含有crrna结合结构域的多肽在一个或多个氨基酸残基处突变以改变其解旋酶活性。在一些实施方式中，本公开的含有crrna结合结构域的多肽在一个或多个氨基酸残基处突变以改变其核酸酶活性(例如，内切核酸酶活性或外切核酸酶活性)。在一些实施方式中，本公开的含有crrna结合结构域的多肽在一个或多个氨基酸残基处突变以改变其与指导rna功能性关联的能力。在一些实施方式中，本公开的含有crrna结合结构域的多肽在一个或多个氨基酸残基处突变以改变其与靶核酸功能性关联的能力。
[0313]
在一些实施方式中，本文所述的本公开的含有crrna结合结构域的多肽可以经工程化以具有一个或多个氨基酸残基的缺失，以减小酶的大小，同时保留一种或多种所希望的功能性活性(例如，核酸酶活性和与指导rna功能上相互作用的能力)。截短型crispr相关蛋白可以有利地与具有负载限制的递送系统组合使用。
[0314]
在一些实施方式中，本文所述的本公开的含有crrna结合结构域的多肽可以与一种或多种肽标签，包括his标签、gst标签、v5标签、flag标签、ha标签、vsv-g标签、trx标签或myc标签融合。
[0315]
在本文的任一实施方式中，本文所述的本公开的含有crrna结合结构域的多肽与其他部分(例如rna碱基编辑器)之间的连接可以经由共价化学键在本公开的含有crrna结合结构域的多肽的n-末端或c-末端处，并且有时甚至在内部。所述连接可以通过本领域已知的任何化学连接来实现，所述化学连接例如肽连接、通过氨基酸(如d、e、s、t)的侧链或氨基酸衍生物(ahx、β-ala、gaba或ava)连接、或peg连接。
[0316]
3.用于1类crrna前体加工的示例性crispr相关蛋白(caspr)
[0317]
crispr簇含有位于同向重复(dr)序列之间的间隔序列(或“间隔子”)。细菌的crispr基因座中的天然间隔子是与先前的移动元件和靶标侵入核酸互补的序列。crispr簇最初被转录为称为crispr rna前体(crrna前体)的长初级转录物，其随后通过序列特异性crispr相关(cas)内切核酸酶加工为crispr rna(crrna)，所述序列特异性crispr相关(cas)内切核酸酶通常在同向重复发夹rna结构的碱基处将初始长初级转录物(crrna前体)切割成更小的成熟crrna。这样的序列特异性内切核酸酶在本文中统称为“caspr”(用于1类crrna前体加工的crispr相关蛋白)、“cas crrna前体加工/成熟内切核酸酶”或“crrna前体
加工cas效应蛋白”。
[0318]
大多数多亚基1类系统用称为cas6的crispr相关内切核酸酶加工crrna，所述crispr相关内切核酸酶共享结合crrna的保守结构基序。通常，cas6使用非金属离子依赖性机制在回文crispr重复序列内形成的茎环的3'侧上切割crrna。切割通常通过稳定来自位于易断裂磷酸上游的2'-oh基团的亲核攻击来催化。尽管来自不同物种的不同cas6酶在序列上倾向于不同，但该切割机制似乎是保守的，尽管存在一些结构和机制差异。通常，使用his残基来催化切割，尽管已显示当组氨酸不存在时(例如在亚型i-a中)其他残基如lys催化反应。在亚型i-b、i-e、i-d和i-f中，cas6与由回文crispr重复序列形成的稳定茎环进行结构和碱基特异性相互作用，并且典型地甚至在切割后仍保持结合以形成多亚基干扰复合物的组分。相反，亚型i-a、iii-a和iii-b的重复序列不太稳定，使得cas6从加工的crrna解离并进行多翻转crrna切割。
[0319]
iv型crispr系统也被归类为1类，因为它们被预测形成多亚基crrna指导的复合物。不同的iv-a型系统含有不同的cas6基因序列，包括命名为cas6e和cas6f的基因(在亚型i-e和i-f中观察到的cas6序列，在此通常也称为cas6)，和iv型特异性cas6样csf5。cas6同源物的存在表明iv-a型系统通过cas6介导的机制加工crrna。实际上，尽管存在多种机制，但cas6介导的crrna的非金属依赖性加工在包括iv型系统在内的各种1类系统中是保守过程。iv型crrna在预测的茎环结构的3'侧被切割，来自重复序列的碱基g22的2'羟基对易断裂磷酸进行亲核攻击。
[0320]
cas5家族蛋白在几种i型crispr-cas系统中发现。据报道，cas5d通过识别crispr重复区中的发夹结构和3'单链序列将crrna前体切割成单位长度。进一步显示，在crrna前体加工后，cas5d与crrna、csd1和csd2蛋白组装形成架构上类似于大肠杆菌级联的多亚基干扰复合物(用于抗病毒防御的crispr相关复合物)。结果表明，crrna呈递级联样复合物的形成可能是i型crispr亚型中的共同主题。(参见nam kh,haitjema c,liu x,ding f,wang h,delisa mp,ke a.cas5d protein processes pre-crrna and assembles into a cascade-like interference complex in subtype i-c/dvulg crispr-cas system[cas5d蛋白加工crrna前体并在亚型i-c/dvulg crispr-cas系统中组装成级联样干扰复合物].structure[结构].2012年9月5日；20(9):1574-84.doi:10.1016/j.str.2012.06.016.电子版2012年7月26日.pmid:22841292；pmcid:pmc3479641。)
[0321]
本文所述的本公开提供了caspr，其可以被修饰(例如，通过氨基酸突变)以基本上消除所有(例如，所有)加工初始长crispr序列(涵盖大部分crispr阵列的单个长转录物)以产生具有同向重复(dr)序列的crrna的能力。因此，虽然不希望受任何特定理论的束缚，但是本公开的含有crrna结合结构域的多肽可以与具有间隔子的指导rna共作用/复合，而不切割dr序列中的一个，所述间隔子侧接两个dr序列——间隔子的每个末端一个dr序列。
[0322]
在一些实施方式中，cas效应蛋白是caspr(用于1类crrna前体加工的crispr相关蛋白)。
[0323]
在某些实施方式中，经修饰的caspr缺乏加工dr序列的能力。在某些实施方式中，经修饰的caspr在其催化结构域中包含突变，其基本上消除了其加工dr序列的能力，而经修饰的caspr基本上保留了其结合具有dr序列的指导rna的能力。
[0324]
在一些实施方式中，caspr是cas5d、cas6(例如，cas6e)或csf5。
[0325]
在一些实施方式中，caspr包含(1)seq id no:141-151中任一个的氨基酸序列，或(2)与seq id no:141-151中任一个的氨基酸序列具有至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基酸序列。
[0326]
在某些实施方式中，caspr是cas6e或cas6f效应蛋白。在某些实施方式中，经修饰的cas6e或cas6f缺乏加工dr序列的能力。在某些实施方式中，经修饰的cas6e在其催化结构域中包含突变，例如h20l突变，其基本上消除其加工dr序列的能力，而经修饰的cas6e基本上保留其结合具有dr序列的指导rna的能力。在某些实施方式中，本公开的多肽中的经修饰的cas6e包含seq id no:51(eccas6e-h20l)的氨基酸序列。
[0327]
以下部分描述了可用于本公开的方法和系统中的三种原型caspr，但其他相关caspr，特别是与seq id no:142-151相关的那些在本公开的范围内。
[0328]
cas5d
[0329]
cas5d cas加工酶(caspr)是将crrna前体加工为crrna的1类i-c型caspr。它具有约250个残基，包括保守的43个残基n-末端区域。当加工crrna前体时，cas5d引发g26的2'-羟基基团(预测的发夹茎的3'端碱基)对易断裂磷酸二酯的分子内攻击，将前体3'切割为g26残基，产生5'-羟基和缺乏羟基基团的2'和/或3'端(可能是2'/3'环状磷酸二酯)。据信，对于crrna前体的结合和切割，需要切割位点下游4-8nt。在该g26位置用dg取代消除切割但不消除rna结合。
[0330]
已公布来自产琥珀酸曼氏杆菌(mannheimia succiniciproducens)的cas5d的高分辨率x射线结构(参见garside等人,rna 18(11):2020-2028,2012)。产琥珀酸曼氏杆菌cas5d与dvulg型cas蛋白的cas5d家族共享强序列相似性，来自嗜热栖热菌(thermus thermophilus)的cas5d直系同源物也是特异性结合并切割crrna前体的rna内切核酸酶。cas5d通过与1类i型crrna caspr cse3的结构比对的比较表明在不同crispr rna加工酶之间存在rna识别的保守机制。另外，一级序列比对揭示了嗜热栖热菌cas5d与产琥珀酸曼氏杆菌cas5d具有约40％同一性和约65％相似性，表示产琥珀酸曼氏杆菌cas5d的已知结构为具有至少约25％，或约35％-40％序列同一性，和/或至少约60％序列相似性的其他cas5d的结构的同源性建模形成了极好的基础。
[0331]
使用检索的spcas5d(i-c1)蛋白序列(seq id no:143)在ncbi nr数据库中进行blastp搜索，除了酿脓链球菌(streptococcus pyogenes)查询序列之外，至少100个同源序列在查询序列的全长上共享至少80％序列同一性，全部在链球菌(streptococcus)属内，并且大部分具有超过90％序列同一性。
[0332]
类似地，使用检索的bhcas5d(i-c2)蛋白序列(seq id no:144)在ncbi nr数据库中进行blastp搜索，除了耐盐芽孢杆菌(bacillus halodurans)c-125查询序列之外，至少100个同源序列在查询序列的全长上共享至少69％序列同一性。
[0333]
因此，本公开的一个方面提供了与seq id no:143或144共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的野生型1类i-c型或cas5d型caspr蛋白(例如，同源物、直系同源物、旁系同源物)，例如目前在ncbi nr数据库中可获得的并且可以使用seq id no:143或144作为蛋白查询序列容易地检索的那些。
[0334]
术语“同系物”和“同源物”在本文中可互换地使用并且是本领域熟知的。如本文所
用的“同系物”还包括属于同一种类的蛋白，所述蛋白执行与作为其同系物的蛋白相同或相似的功能。同源蛋白可以但不必是结构相关的，或仅是部分结构相关的。同源物还涵盖“直系同系物”/“直系同源物”和“旁系同系物”/“旁系同源物”，其分别由物种形成事件和扩增事件产生。即，蛋白的“直系同系物”是属于不同物种的蛋白，其执行与作为其直系同系物的蛋白相同或相似的功能，蛋白的“旁系同系物”是属于相同物种的蛋白，其源自基因扩增并执行与作为其旁系同源物的蛋白相同或相似的功能。直系同源/旁系同源蛋白可以不必是结构相关的，或仅是部分结构相关的。在特定的实施方式中，如本文提及的caspr蛋白的同系物或直系同系物或旁系同系物(例如cas5d、cas6或csf5)与本文的caspr效应蛋白具有至少40％、至少50％、至少60％、至少70％、至少80％、至少85％、至少90％、例如至少95％的序列同源性或同一性。
[0335]
在相关方面，本公开提供了1类i-c型或cas5d型变体/衍生物caspr蛋白，包括其功能性片段(例如，至少n-末端120、130、140、150、160、170、180、190、200、210或220个残基)，其与上述野生型cas5d caspr中的任一种共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多(例如100％)序列同一性。在某些实施方式中，其功能性片段保留了与相应野生型cas5d序列结合的dr序列结合的能力。在某些实施方式中，功能性片段包含高达99％、95％、90％、85％、80％、75％、70％、65％、60％、55％或50％的相应野生型cas5d序列。
[0336]
如本文所用，蛋白的“变体”具有不同于自然界中发生的模式的性质或特性。“衍生物”来源于蛋白并且可以具有与其所来源的蛋白相似的功能、不同的功能、部分功能。
[0337]
在相关方面，本公开提供了1类i-c型或cas5d型变体/衍生物caspr蛋白，其与上述野生型cas5d caspr中的任一种相比，含有至多1、2、3、4、5、6、7、8、9或10个氨基酸取代(例如保守取代)、添加或缺失。当存在多于1个取代(例如保守取代)、添加或缺失时，这些取代(例如保守取代)、添加或缺失可在连续或非连续残基上。
[0338]
在某些实施方式中，其变体/衍生物至少保留了所述变体/衍生物所来源的野生型1类i-c型或cas5d型蛋白的rna结合能力，例如结合crrna中的同源dr序列的能力。其1类i-c型或cas5d型变体/衍生物不包括所述变体/衍生物所来源的任何天然存在的或野生型cas5d。
[0339]
在某些实施方式中，其变体/衍生物进一步保留了所述变体/衍生物所来源的野生型1类i-c型或cas5d型将crrna前体加工为成熟crrna的能力，例如内切核酸酶活性。
[0340]
在某些实施方式中，与所述变体/衍生物所来源的野生型1类i-c型或cas5d型相比，其变体/衍生物保留了结合能力，但不保留将crrna前体切割为成熟crrna的能力(例如，内切核酸酶活性)。cas5d结构揭示了基于铁氧还蛋白结构域的架构和由y46、k116和h117残基形成的催化三联体。参见nam等人,structure[结构]20:1574-84,2012。因此，缺乏内切核酸酶活性的cas5d(来自耐盐芽孢杆菌)突变体(或“dcas5d”)可以通过突变催化三联体中三个残基中的任一个或多个来产生。可以基于与耐盐芽孢杆菌的催化三联体突变对应的催化三联体突变来产生来自不同物种的其他dcas5d。
[0341]
例如，bhcas5d和spcas5d的催化残基分别是y46/k116/h117和y48/k118/h119。因此，基于这些caspr的dcas5d蛋白可以是：死bhcas5d(y46a、k116a和/或h117a)，和死spcas5d(y48a、k118a和/或h119a)。在某些实施方式中，催化三联体残基的一个、两个或三
个残基被突变以产生“死”核酸酶，并且突变可以是但不限于ala，只要突变残基的侧链基本上不同于原始y、k或h残基。
[0342]
可以使用任何本领域认可的方法测试内切核酸酶活性或其缺乏，例如garside等人,rna 18(11):2020-2028,2012(通过引用并入本文)中所述的凝胶迁移率变动测定。
[0343]
seq id no:143和144的cas5d的dr编码序列是seq id no:154和155。其他1类i-c型或cas5d型内切核酸酶的dr序列可以从cas5d序列所来源的相应crispr基因座获得。
[0344]
在某些实施方式中，cas5d caspr、其变体或衍生物(包括dcas5d突变体)或其功能性片段不仅结合它们所属的crispr基因座的全长或天然dr发夹rna结构，而且结合dr发夹rna结构的截短版本。在某些实施方式中，截短版本包含天然dr发夹rna结构的茎和任选地茎3'的至少4-8nt(例如4、5、6、7或8nt)的单链序列。
[0345]
具有单链序列的截短dr可被cas5d加工，因此当cas5d的crrna前体加工活性用于在crrna前体转录物中加工和释放单个crrna时，所述具有单链序列的截短dr可用于多重靶向。然而，当不需要cas5d的加工功能时，截短dr可仅包含发夹区序列而不包含单链序列，但仍保留cas5d结合的能力。
[0346]
在相关方面，本公开提供了编码本文的1类i-c型或cas5d型caspr蛋白(包括野生型、其衍生物/变体(包括dcas5d突变体)或功能性片段)中的任一种的多核苷酸。
[0347]
在另一个相关方面，本公开提供了编码本文的1类i-c型或cas5d型caspr蛋白(包括野生型、其衍生物/变体(包括dcas5d突变体)和功能性片段)中的任一种的上述多核苷酸的反向互补序列。
[0348]
在某些实施方式中，多核苷酸不是编码本文野生型1类i-c型或cas5d型caspr蛋白的天然存在的多核苷酸。
[0349]
在某些实施方式中，多核苷酸是经密码子优化的，例如针对真核或哺乳动物表达(例如人表达)进行密码子优化。应当理解，虽然针对人的密码子优化是常规可获得的，但针对人以外的其他物种宿主的密码子优化，或针对特定器官的密码子优化是已知的。在一些实施方式中，对编码caspr的酶编码序列进行密码子优化以在特定细胞如真核细胞中表达。真核细胞可以是特定生物的细胞或源自特定生物的细胞，例如哺乳动物，包括但不限于如本文所讨论的人或非人真核生物或动物或哺乳动物，例如小鼠、大鼠、兔、狗、家畜或非人哺乳动物或灵长类动物。
[0350]
一般来说，密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列以增强在感兴趣的宿主细胞中的表达的方法：用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替代天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)。多种物种对特定氨基酸的某些密码子展现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使rna(mrna)的翻译效率相关，而所述信使rna(mrna)的翻译效率又被认为尤其依赖于经翻译的密码子的特性和特定的转移rna(trna)分子的可获得性。选定的trna在细胞中的优势通常反映出肽合成中最频繁使用的密码子。相应地，可以对基因进行定制以基于密码子优化在给定生物中实现最佳基因表达。密码子使用表易于获得，例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库”中，并且这些表能以多种方式进行调整。参见nakamura等人,“codon usage tabulated from the international dna sequence databases:status for the year 2000[从国际
dna序列数据库中制表的密码子使用：2000年的状态]”nucl.acids res.[核酸研究]28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，如基因制造(aptagen公司；宾夕法尼亚州雅各布斯(jacobus,pa))也是可获得的。在一些实施方式中，编码caspr的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于特定氨基酸最频繁使用的密码子。
[0351]
cas6
[0352]
cas6是六种高度保守的或核心的cas蛋白之一，并且是在许多古菌和细菌中发现的最广泛分布的cas蛋白之一。它是一种内切核糖核酸酶，其在同向重复序列中的每一个内以序列特异性方式切割crispr crrna前体的初级转录物，以释放crispr基因座编码的单个crrna。cas6与crispr重复元件的5'区域中的特定序列基序(例如，dr序列5'端的20-30个核苷酸)相互作用，并且在重复序列的3'区域内的限定位点处切割(其为dr序列5'端的约20-25个核苷酸)。然后对cas6切割产物进行进一步加工以产生较小的成熟psirna种类。
[0353]
强烈火球菌(pyrococcus furiosus)cas6的1.8埃晶体结构揭示了在其他rna结合蛋白中发现的两个铁氧还蛋白样折叠。预测的酶活性位点与trna剪接内切核酸酶的酶活性位点相似。与功能相似的大肠杆菌cse3(crispr-cas系统)蛋白一样，cas6是ramp(重复序列相关神秘蛋白)超家族蛋白的成员，其含有富含g的环并被预测为rna结合蛋白。cas6与许多其他ramp家族成员的区别在于预测的c-末端富含g的环中的保守序列基序(共有序列ghgxxxxxghg，其中h是疏水性的并且xxxxx具有至少一个赖氨酸或精氨酸)。
[0354]
基于rna凝胶迁移率变动测定，跨越切割位点的2nt突变显著降低pfcas6的切割活性，而不阻止cas6与dr rna结合。cas6切割位点位于可能的茎环结构内的连接处，所述茎环结构可以通过通常在crispr dr序列的5'和3'末端发现的弱回文序列之间的碱基配对形成。
[0355]
已经阐明了cas6结合和内切核酸酶切割的rna序列要求。rna凝胶迁移率变动测定显示crispr dr序列的5'区域中的序列，尤其是5'最多12nt，最重要的前8nt，对于pfcas6结合是重要的。同时，cas6的切割似乎涉及另外的元件，因为存在显著降低切割效率而不破坏pfcas6结合的突变。特别地，在切割位点处的2nt取代破坏切割但不破坏结合。dr的最后8nt取代，pfcas6结合位点和切割位点之间的小(4nt)插入或缺失，或6nt取代，特异性破坏切割。使用dna重复序列没有观察到切割活性。这些结果表明切割取决于沿重复序列长度的序列元件，并且可能取决于结合位点和切割位点之间的距离，并且与特定rna折叠如预测的发夹结构的要求一致。
[0356]
使用ssocas6(i-a)蛋白序列(seq id no:141)在ncbi nr数据库中进行blastp搜索，检索到前100个同源序列中的约16个，每个在查询序列的整个长度上共享至少80％序列同一性，最多超过95％同一性。
[0357]
使用检索的mmcas6蛋白序列(seq id no:142)在ncbi nr数据库中进行blastp搜索，除了海沼甲烷球菌(methanococcus maripaludis)查询序列外，3个其他同源序列在查询序列的整个长度上共享至少63％-70％序列同一性。
[0358]
使用检索的sacas6蛋白序列(seq id no:145)在ncbi nr数据库中进行blastp搜索，除了synechococcus a.查询序列外，另一个同源序列在查询序列的整个长度上共享至少70％序列同一性。
[0359]
使用检索的eccas6e蛋白序列(seq id no:146)在ncbi nr数据库中进行blastp搜索，除了大肠杆菌查询序列外，99个其他同源序列在查询序列的整个长度上共享至少97％序列同一性。
[0360]
使用检索的pacas6f蛋白序列(seq id no:147)在ncbi nr数据库中进行blastp搜索，除了铜绿假单胞菌(pseudomonas aeruginosa)查询序列外，约60个其他同源序列在查询序列的整个长度上共享至少97％序列同一性。
[0361]
使用检索的mtcas6蛋白序列(seq id no:148)在ncbi nr数据库中进行blastp搜索，除了结核分枝杆菌(mycobacterium tuberculosis)查询序列外，约35个同源序列在查询序列的整个长度上共享至少99％序列同一性，以及另50个左右在查询序列的至少50％-85％上共享至少99％序列同一性。
[0362]
使用检索的pfcas6蛋白序列(seq id no:149)在ncbi nr数据库中进行blastp搜索，除了强烈火球菌查询序列外，约4个序列在查询序列的整个长度上共享至少99％序列同一性，以及另50个左右在查询序列的至少90％上共享至少60％-70％序列同一性。
[0363]
因此，本公开的一个方面提供了与seq id no:141、142、145、146、147、148或149共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的野生型1类i型或cas6型caspr蛋白(例如，同源物、直系同源物、旁系同源物)，例如目前在ncbi nr数据库中可获得的并且可以使用seq id no:141、142、145、146、147、148或149作为蛋白查询序列容易地检索的那些。
[0364]
在相关方面，本公开提供了1类i型或cas6型变体/衍生物caspr蛋白，包括其功能性片段(例如，至少n-末端100、110、120、130、140、150、160、170、180、190或200个残基)，其与上述野生型cas6 caspr中的任一种共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性。在某些实施方式中，其功能性片段保留了与相应野生型cas6序列结合的dr序列结合的能力。在某些实施方式中，功能性片段包含高达99％、95％、90％、85％、80％、75％、70％、65％、60％、55％或50％的相应野生型cas6序列。
[0365]
在相关方面，本公开提供了1类i型或cas6型变体/衍生物caspr蛋白，其与上述野生型cas6 caspr中的任一种相比，含有至多1、2、3、4、5、6、7、8、9或10个氨基酸取代(例如保守取代)、添加或缺失。当存在多于1个取代(例如保守取代)、添加或缺失时，这些取代(例如保守取代)、添加或缺失可在连续或非连续残基上。
[0366]
在某些实施方式中，其变体/衍生物至少保留了所述变体/衍生物所来源的野生型1类i型或cas6型蛋白的rna结合能力，例如结合crrna中的同源dr序列的能力。其1类i型或cas6型变体/衍生物不包括所述变体/衍生物所来源的任何天然存在的或野生型cas6。
[0367]
在某些实施方式中，其变体/衍生物进一步保留了所述变体/衍生物所来源的野生型1类i型或cas6型将crrna前体加工为成熟crrna的能力，例如内切核酸酶活性。
[0368]
在某些实施方式中，与所述变体/衍生物所来源的野生型1类i型或cas6型相比，其变体/衍生物保留了结合能力，但不保留将crrna前体切割为成熟crrna的能力(例如，内切核酸酶活性)。
[0369]
发现在来自不同生物的cas6蛋白的一级序列中彼此分开的三个保守残基(y31、h46和k52)在来自强烈火球菌的cas6的晶体结构中聚集(carte等人,genes dev[基因与发
育]22:3489-3496,2008)，还发现其结构与古菌trna剪接内切核酸酶的构型相似。相对于野生型cas6，用丙氨酸取代三个三联体氨基酸中的任一个导致切割活性显著降低。y31a和h46a cas6突变体没有观察到切割活性。相对于野生型cas6，在k52a cas6突变体的最高测试浓度(500nm)下，切割活性降低约40倍。同时，基于凝胶迁移率变动测定，发现tyr31、his46和lys52并非结合crispr重复序列rna所需(carte等人,rna 16(11):2181-2188,2010)。因此，这三个保守氨基酸构成cas6切割crispr crrna所需的催化三联体。来自强烈火球菌和其他物种的缺乏切割活性的cas6突变体可以基于对强烈火球菌中y31、h46和k52的相应残基进行突变而容易地产生。
[0370]
四种cas6的催化残基至少包括：mtcas6：y29、k51；mmcas6：y34、k56；eccas6e：h18；以及pacas6f：y31、h36、k52。因此，基于这些caspr的dcas6蛋白可以是：死mtcas6(y29a和/或k51a)；死mmcas6(y34a和/或k56a)；死eccas6e：h18a；和死pacas6f：y31a、h36a和/或k52a。在某些实施方式中，催化残基的一个、两个或三个残基被突变以产生“死”核酸酶，并且突变可以是但不限于ala，只要突变残基的侧链基本上不同于原始(例如，y、k或h)残基。
[0371]
可以使用任何本领域认可的方法测试内切核酸酶活性或其缺乏，例如carte等人,rna 16(11):2181-2188,2010(通过引用并入本文)中所述的凝胶迁移率变动测定。
[0372]
seq id no:141、142、145、146、147、148和149的cas6的dr编码序列分别是seq id no:152、153、156、157、158、159或160。其他1类i型或cas6型内切核酸酶的dr序列可以从cas6序列所来源的相应crispr基因座获得。
[0373]
在某些实施方式中，cas6 caspr、其变体或衍生物(包括dcas5d突变体)或其功能性片段不仅结合它们所属的crispr基因座的全长或天然dr发夹rna结构，而且结合dr发夹rna结构的截短版本。在某些实施方式中，截短版本包含相应cas6的同源dr序列的最多5'8-12nt(例如，8、9、10、11或12nt)，例如相应cas6的同源dr序列的最多5'22-25nt。
[0374]
在相关方面，本公开提供了编码本文的1类i型或cas6型caspr蛋白(包括野生型、其衍生物/变体(包括dcas5d突变体)或功能性片段)中的任一种的多核苷酸。
[0375]
在另一个相关方面，本公开提供了编码本文的1类i型或cas6型caspr蛋白(包括野生型、其衍生物/变体(包括dcas5d突变体)和功能性片段)中的任一种的上述多核苷酸的反向互补序列。
[0376]
在某些实施方式中，多核苷酸不是编码本文野生型1类i型或cas6型caspr蛋白的天然存在的多核苷酸。
[0377]
在某些实施方式中，多核苷酸经密码子优化用于哺乳动物表达。
[0378]
csf5
[0379]
csf5也称为crispr-cas iv型cas6 crrna内切核酸酶(参见ozcan等人,nat microbiol.[自然微生物学]4(1):89-96,2019)。它将crispr crrna前体加工为成熟crrna，所述成熟crrna特异性地掺入到iv型crispr-核糖核蛋白(crrnp)复合物中。已经获得并研究了rna结合的csf5的结构。
[0380]
至少在澳洲马氏菌(m.australiensis)iv型crispr系统(ma cas6-iv)中，可以主要通过形状而不是碱基特异性相互作用来识别dr发夹rna结构的茎，因为如果保留沃森克里克和g-u摆动碱基对两者，则dr发夹rna茎的碱基处的碱基转换将不破坏碱基配对并且对于ma cas6-iv结合是可接受的。发夹的臂和环中的其他碱基转换同样表明，那些位置是通
过形状识别的，或对于结合根本不是必需的。
[0381]
ma cas6-iv和来自丁香固氮弧菌(aromatoleum aromaticum)(pdb 6h9i)的csf5之间的结构比较揭示，它们都含有通常在cas6蛋白中观察到的双rrm结构域支架。两种酶的c-末端rrm结构域含有结合crrna的基序(沟槽结合元件或gbe、β发夹和g环)，但csf5的c-末端结构域与ma cas6-iv的不同之处在于不存在规范rrm折叠的第二α螺旋(α2)。在csf5和ma cas6-iv两者中，n-末端rrm结构域的α1螺旋已被容纳推定活性位点残基的螺旋-转角-螺旋基序替换。然而，代替ma cas6-iv中观察到的将螺旋-环-螺旋连接至β2的小环序列，csf5插入了约40个氨基酸，称为含有两个另外螺旋的α螺旋指结构域(α-hfd)。这些螺旋中的一个与crrna茎环的小沟槽相互作用，为结合crrna提供另外的接触，其可提供对iv型crrna重复序列的另外特异性。
[0382]
使用检索的pacsf5蛋白序列(seq id no:150)在ncbi nr数据库中进行blastp搜索，除了铜绿假单胞菌查询序列外，约6个同源序列在查询序列的整个长度上共享至少80％序列同一性，其中4个共享超过98％同一性。
[0383]
因此，本公开的一个方面提供了与seq id no:150或151共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的野生型1类iv型或csf5型caspr蛋白(例如，同源物、直系同源物、旁系同源物)，例如目前在ncbi nr数据库中可获得的并且可以使用seq id no:150或151作为蛋白查询序列容易地检索的那些。
[0384]
在相关方面，本公开提供了1类iv型或csf5型变体/衍生物caspr蛋白，包括其功能性片段(例如，至少n-末端120、130、140、150、160、170、180、190、200、210或220个残基)，其与上述野生型1类iv型或csf5型caspr中的任一种共享至少约65％、69％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性。在某些实施方式中，其功能性片段保留了与相应野生型csf5序列结合的dr序列结合的能力。在某些实施方式中，功能性片段包含高达99％、95％、90％、85％、80％、75％、70％、65％、60％、55％或50％的相应野生型csf5序列。
[0385]
在相关方面，本公开提供了1类iv型或csf5型变体/衍生物caspr蛋白，其与上述野生型1类iv型或csf5型caspr中的任一种相比，含有至多1、2、3、4、5、6、7、8、9或10个氨基酸取代(例如保守取代)、添加或缺失。当存在多于1个取代(例如保守取代)、添加或缺失时，这些取代(例如保守取代)、添加或缺失可在连续或非连续残基上。
[0386]
在某些实施方式中，其变体/衍生物至少保留了所述变体/衍生物所来源的野生型1类iv型或csf5型蛋白的rna结合能力，例如结合crrna中的同源dr序列的能力。其1类iv型或csf5型变体/衍生物不包括所述变体/衍生物所来源的任何天然存在的或野生型1类iv型或csf5型。
[0387]
在某些实施方式中，其变体/衍生物进一步保留了所述变体/衍生物所来源的野生型1类iv型或csf5型将crrna前体加工为成熟crrna的能力，例如内切核酸酶活性。
[0388]
在某些实施方式中，与所述变体/衍生物所来源的野生型1类iv型或csf5型相比，其变体/衍生物保留了结合能力，但不保留将crrna前体切割为成熟crrna的能力(例如，内切核酸酶活性)。
[0389]
csf5和ma cas6-iv两者在n-末端rrm中在相同序列位置(h44)处含有组氨酸，但
csf5 h44在40个氨基酸插入物α-hfd内并且距易断裂磷酸几埃，并且不参与核酸酶活性。相反，位于csf5螺旋-转角-螺旋和g环上的精氨酸残基的突变(r23a、r38a、r242a)损害了切割。值得注意的是，这些精氨酸中的几个位于与ma cas6-iv的活性位点残基(his44和tyr31)相似的位置，支持了这样一种观点，即这些iv型cas蛋白依赖于相似的结构主题来结合和切割crrna底物，尽管它们的序列不同。参见taylor等人,rna biol.[rna生物学]16(10):1438-1447,2019。因此，缺乏内切核酸酶活性的csf5突变体(或“dcsf5”)可以通过突变对应于来自丁香固氮弧菌(pdb 6h9i)的csf5(包括来自不同物种的其他dcsf5)的催化三联体(r23、r38和r242)的三个残基中的任一个或多个而产生。
[0390]
可以使用任何本领域认可的方法测试内切核酸酶活性或其缺乏，例如garside等人,rna 18(11):2020-2028,2012(通过引用并入本文)中所述的凝胶迁移率变动测定。
[0391]
seq id no:150和151的csf5的dr编码序列分别是seq id no:161和162。其他1类iv型或csf5型内切核酸酶的dr序列可以从csf5序列所来源的相应crispr基因座获得。
[0392]
在某些实施方式中，csf5 caspr、其变体或衍生物(包括dcsf5突变体)或其功能性片段不仅结合它们所属的crispr基因座的全长或天然dr发夹rna结构，而且结合dr发夹rna结构的截短版本。在某些实施方式中，截短版本至少包含天然dr发夹rna结构的茎。在某些实施方式中，csf5 caspr、其变体或衍生物(包括dcsf5突变体)或其功能性片段与变体dr发夹rna结构结合，所述变体dr发夹rna结构基本上保留所有结构特征(例如茎、环、茎中的凸起等)但具有不同的核苷酸序列(例如，与野生型dr序列相比，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸序列差异)。
[0393]
在相关方面，本公开提供了编码本文的1类iv型或csf5型caspr蛋白(包括野生型、其衍生物/变体(包括dcsf5突变体)或功能性片段)中的任一种的多核苷酸。
[0394]
在另一个相关方面，本公开提供了编码本文的1类iv型或csf5型caspr蛋白(包括野生型、其衍生物/变体(包括dcsf5突变体)或功能性片段)中的任一种的上述多核苷酸的反向互补序列。
[0395]
在某些实施方式中，多核苷酸不是编码本文野生型1类iv型或csf5型caspr蛋白的天然存在的多核苷酸。
[0396]
在某些实施方式中，多核苷酸经密码子优化用于哺乳动物表达。
[0397]
功能性片段
[0398]
还提供了本发明caspr(例如，cas5d、cas6和csf5)(包括野生型、其变体和衍生物)的功能性片段。本公开的功能性片段保留或维持其所来源的全长蛋白的至少一种功能。例如，在一些实施方式中，保留的功能是结合至同源crrna，特别是其中负责caspr结合的dr序列或结构元件。在其他实施方式中，保留的功能是对crrna前体的催化活性。在一些实施方式中，保留了与dr序列的结合和催化活性两者。
[0399]
例如，在某些实施方式中，为了减小本发明caspr和一个或多个功能性结构域(参见下文)的融合蛋白的大小，可以截短caspr(例如cas5d、cas6和csf5)的c-末端，同时仍然保持其rna结合功能。例如，caspr的c-末端处的至少或不超过5个氨基酸、10个氨基酸、15个氨基酸、20个氨基酸、25个氨基酸、30个氨基酸、35个氨基酸、40个氨基酸、45个氨基酸、50个氨基酸、55个氨基酸、60个氨基酸、65个氨基酸、70个氨基酸、75个氨基酸、80个氨基酸、85个氨基酸、90个氨基酸或100个氨基酸可以被截短。
[0400]
在一些实施方式中，caspr(例如，cas5d、cas6和csf5)的n-末端可以被截短。例如，本发明caspr的n-末端处的至少或不超过5个氨基酸、10个氨基酸、15个氨基酸、20个氨基酸、25个氨基酸、30个氨基酸、35个氨基酸、40个氨基酸、45个氨基酸、50个氨基酸、55个氨基酸、60个氨基酸、65个氨基酸、70个氨基酸、75个氨基酸、80个氨基酸、85个氨基酸、90个氨基酸或100个氨基酸可以被截短。
[0401]
在一些实施方式中，本发明caspr的n-和c-末端都可以被截短。本文未特别列举但明确并入的是上述每个n-末端和每个c-末端缺失的排列和组合，例如至少/不超过5个残基的c-末端缺失以及至少/不超过5、10、15、20、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个残基的n-末端缺失；...以及，至少/不超过100个残基的c-末端缺失以及至少/不超过5、10、15、20、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个残基的n-末端缺失。
[0402]
拆分型蛋白
[0403]
在某些实施方式中，功能性片段是所谓的“拆分型蛋白”，因为它含有全长caspr酶的两个部分中的一个——rna结合结构域或内切核酸酶结构域，它们一起基本上构成功能性caspr。拆分应该总是使得催化结构域不受影响。使用拆分版本的caspr不仅可以增加特异性，而且还可以有利于递送(例如，更小的尺寸)。因此，在某些实施方式中，拆分型caspr可以作为核酸酶发挥作用。在另一实施方式中，拆分型caspr可以是核酸酶死亡caspr，其基本上是具有非常小的催化活性或没有催化活性的rna结合蛋白，这典型地是由于其催化结构域中的突变或完全缺乏催化结构域。核酸酶死亡拆分型caspr可与本文所述的其他异源功能性结构域融合，以将这样的异源功能性结构域靶向靶rna上的特定位点。
[0404]
在某些实施方式中，拆分型caspr的每一半可以与二聚化配偶体融合，例如雷帕霉素敏感性二聚化结构域，其允许产生对caspr活性进行时间控制的化学诱导拆分型caspr。例如，拆分型caspr rna结合结构域可以在靶位点处结合指导rna，并且拆分型caspr核酸酶结构域(或核酸酶结构域的核酸酶死亡版本)可以融合到异源功能性结构域，例如脱氨酶。因此，caspr可通过拆分成两个片段而成为化学诱导性，并且雷帕霉素敏感性二聚化结构域可用于caspr或其融合物的受控重组。
[0405]
保守取代
[0406]
在某些实施方式中，caspr(例如，cas5d、cas6和csf5)的衍生物或变体包括通过一个或多个保守取代(包括rna结合或催化结构域内部或外部的取代)而不同于野生型序列的蛋白。在某些实施方式中，取代不包括催化三联体残基的取代。在某些实施方式中，取代包括催化三联体残基的取代。
[0407]
这样的氨基酸取代可以基于氨基酸特性的差异或相似性来进行，例如残基的极性、电荷、溶解性、疏水性、亲水性和/或两亲性质。为此目的，氨基酸已基于它们所携带的官能团，即基于它们单独的侧链的特性分组在一起。典型地，如下所示的分组可用于保守取代。
[0408][0409]
同源性建模
[0410]
本文已经描述了许多本发明caspr蛋白序列，包括并入本文的公开可获得的数据库序列，其满足对本发明caspr(例如，seq id no:141-151)的某些阈值序列同一性要求。同源性建模可用于预测相关caspr(例如其同源物、直系同源物、旁系同源物、变体、衍生物和功能性片段)的结构，部分基于亚家族内某些caspr的已知结构以及相关caspr之间的序列同源性/同一性。
[0411]
例如，其他caspr直系同源物中的相应残基可通过zhang等人(nature[自然]490(7421):556-60,2012，通过引用并入文中)和chen等人(plos comput biol[美国科学公共图书馆计算生物学]11(5):el004248,2015，通过引用并入文中)的方法来鉴定。所述方法涉及获取一对查询蛋白并使用结构比对来鉴定对应于其实验确定的结构或同源性模型的结构代表。通过考虑全局和局部几何关系，结构比对进一步用于鉴定邻近和远端结构邻近物两者。每当结构代表的两个邻近物形成蛋白数据库中报告的复合物时，这就定义了用于对两个查询蛋白之间的相互作用进行建模的模板。通过将代表性结构叠加在模板中它们相应的结构邻近物上来创建复合物的模型。还参见dey等人,prot sci.[蛋白质科学]22:359-66,2013。
[0412]
4.rna指导物、指导rna(grna)或crrna
[0413]
在一些实施方式中，本文所述的crispr-cas系统包括至少一种rna指导物(例如，grna或crrna)。
[0414]
多种rna指导物的架构是本领域已知的(参见例如，国际公布号wo 2014/093622和wo 2015/070083，将各个文献的全部内容通过引用并入本文)。
[0415]
在一些实施方式中，本文所述的crispr-cas系统包括多种rna指导物(例如，一种、两种、三种、四种、五种、六种、七种、八种或更多种rna指导物)。在某些实施方式中，每种指导rna独立地包含能够与一个或多个靶rna杂交的(不同的)间隔序列，所述间隔序列在间隔序列的5'端和3'端侧接同向重复(dr)序列(例如，cas效应蛋白的天然同向重复序列)。
[0416]
在一些实施方式中，所述rna指导物包括crrna。在一些实施方式中，所述rna指导物包括crrna，但不包括tracrrna。
[0417]
来自多个crispr系统的指导rna的序列在本领域中通常是已知的，参见例如grissa等人(nucleic acids res.[核酸研究]35(网页服务器议题):w52-7,2007；grissa等
人,bmc bioinformatics[bmc生物信息学]8:172,2007；grissa等人,nucleic acids res.[核酸研究]36(网页服务器议题):w145-8,2008；以及moller和liang,peerj[同行评审科学期刊]5:e3788,2017；在crispr.i2bc.paris-saclayfr/crispr/blast/crisprsblast.php处的crispr数据库；以及可在以下处获得的metacrast：github.com/molleraj/metacrast)。将所有文献通过引用并入本文。
[0418]
在一些实施方式中，所述crrna包括同向重复(dr)序列和间隔序列(例如，间隔序列侧接各个dr序列的一个拷贝)。在某些实施方式中，所述crrna包含如下同向重复序列，基本上由其组成或由其组成，所述同向重复序列与间隔序列在所述间隔序列的5'端和3'端连接。
[0419]
在一些实施方式中，所述crrna包括第一同向重复(dr)序列、第一间隔序列、第二dr序列、第二间隔序列和第三dr序列，其中所述第一间隔序列在所述第一间隔序列的5'端和3'端侧接所述第一和所述第二dr序列，并且所述第二间隔序列在所述第二间隔序列的5'端和3'端侧接所述第二和第三dr序列，其中所述第一和第二间隔序列可以相同或不同，并且其中所述第一、第二和第三dr序列可以相同或不同。
[0420]
一般来说，cas蛋白与成熟的crrna形成复合物，所述成熟的crrna的间隔序列引导所述复合物与靶rna序列特异性结合，所述靶rna与所述间隔序列基本上互补和/或与所述间隔序列杂交。所得的复合物包含所述cas蛋白和与所述靶rna结合的成熟的crrna。
[0421]
所述cas13e和cas13f系统的同向重复序列通常非常保守，尤其是在末端处，在5'端处的cas13e的gctg和cas13f的gctgt与在3'端处的cas13e的cagc和cas13f的acagc反向互补。这种保守表明潜在地与基因座中的一种或多种蛋白相互作用的rna茎环结构的强碱基配对。
[0422]
在某些实施方式中，根据与dr序列相容的特定cas效应蛋白，本公开的指导rna中的每个dr序列具有与seq id no:8-14、126-140和153-162中的任一个的二级结构基本上相同的二级结构。
[0423]
在某些实施方式中，每个dr序列由seq id no:8-14、126-140和153-162中的任一个编码或包含seq id no:8-14、126-140和153-162中的任一个。
[0424]
在一些实施方式中，当在rna中时，同向重复序列包含5'-s1a-ba-s2a-l-s2b-bb-s1b-3'的一般二级结构，其中区段s1a和s1b是反向互补序列并形成第一茎(s1)，所述第一茎(s1)具有在cas13e中的4个核苷酸和在cas13f中的5个核苷酸；区段ba和bb不相互碱基配对，并形成对称的或接近对称的凸起(b)，并且各具有在cas13e中的5个核苷酸、以及分别在cas13f中的5个(ba)和4个(bb)或6个(ba)和5个(bb)核苷酸；区段s2a和s2b是反向互补序列并形成第二茎(s2)，所述第二茎(s2)具有在cas13e中的5个碱基对和在cas13f中的6或5个碱基对；并且l是在cas13e中的8个核苷酸的环和在cas13f中的5个核苷酸的环。参见图2。
[0425]
在某些实施方式中，s1a具有在cas13e中的gcug序列和在cas13f中的gcugu序列。
[0426]
在某些实施方式中，s2a具有在cas13e中的gcccc序列和在cas13f中的a/gccuc g/a序列(其中第一个a或g可以不存在)。
[0427]
在一些实施方式中，所述同向重复序列包含seq id no:8-14、126-140和152-162的核酸序列或由其组成。
[0428]
如本文所用，“同向重复序列”可指crispr基因座中的dna编码序列，或指在crrna
中由其编码的rna。因此，当在rna分子(如crrna)的上下文中提到seq id no:8-14、126-140和152-162中的任一个时，每个t应理解为代表u。
[0429]
在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列具有seq id no:8-14、126-140和152-162的多达1、2、3、4、5、6、7或8个核苷酸的缺失、插入或取代。在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列与seq id no:8-14、126-140和152-162具有至少80％、85％、90％、95％或97％序列同一性(例如，由于seq id no:8-14、126-140和152-162中核苷酸的缺失、插入或取代)。在一些实施方式中，所述同向重复序列包含如下核酸序列或由其组成，所述核酸序列与seq id no:8-14、126-140和152-162中的任一个不同，但可在严格杂交条件下与seq id no:8-14、126-140和152-162中的任一个的互补序列杂交，或可在生理条件下与seq id no:8-14、126-140和152-162中的任一个的互补序列结合。
[0430]
在某些实施方式中，所述缺失、插入或取代不改变seq id no:8-14、126-140和152-162的总体二级结构(例如，茎和凸起以及环的相对位置和/或大小不显著偏离原始茎、凸起和环的相对位置和/或大小)。例如，所述缺失、插入或取代可以在所述凸起或环区中，使得所述凸起的总体对称性大致保持相同。所述缺失、插入或取代可以在所述茎中，使得所述茎的长度不显著偏离原始茎的长度(例如，在两个茎的每一个中添加或缺失一个碱基对对应于总共4个碱基变化)。
[0431]
在某些实施方式中，所述缺失、插入或取代导致衍生性dr序列，所述衍生性dr序列可在一个或两个茎中具有
±
1或2个碱基对(参见图2)，在所述凸起的一条或两条单链中具有
±
1、2或3个碱基，和/或在所述环区中具有
±
1、2、3或4个碱基。
[0432]
在某些实施方式中，与seq id no:8-14、126-140和152-162中的任一个不同的任一上述同向重复序列保留在cas13蛋白或caspr中作为同向重复序列(作为seq id no:8-14、126-140和152-162的dr序列)发挥作用的能力。
[0433]
在一些实施方式中，所述同向重复序列包含如下核酸或由其组成，所述核酸具有seq id no:8-14、126-140和152-162中的任一个的核酸序列，且具有初始三个、四个、五个、六个、七个或八个3'核苷酸的截短。
[0434]
在一些实施方式中，所述cas效应蛋白包含seq id no:1的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:8的核酸序列或由其组成。
[0435]
在一些实施方式中，所述cas效应蛋白包含seq id no:2的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:9的核酸序列或由其组成。
[0436]
在一些实施方式中，所述cas效应蛋白包含seq id no:3的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:10的核酸序列或由其组成。
[0437]
在一些实施方式中，所述cas效应蛋白包含seq id no:4的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:11的核酸序列或由其组成。
[0438]
在一些实施方式中，所述cas效应蛋白包含seq id no:5的氨基酸序列，并且所述
crrna包含同向重复序列，其中所述同向重复序列包含seq id no:12的核酸序列或由其组成。
[0439]
在一些实施方式中，所述cas效应蛋白包含seq id no:6的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:13的核酸序列或由其组成。
[0440]
在一些实施方式中，所述cas效应蛋白包含seq id no:7的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:14的核酸序列或由其组成。
[0441]
在一些实施方式中，所述cas效应蛋白包含seq id no:111的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:126的核酸序列或由其组成。
[0442]
在一些实施方式中，所述cas效应蛋白包含seq id no:112的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:127的核酸序列或由其组成。
[0443]
在一些实施方式中，所述cas效应蛋白包含seq id no:113的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:128的核酸序列或由其组成。
[0444]
在一些实施方式中，所述cas效应蛋白包含seq id no:114的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:129的核酸序列或由其组成。
[0445]
在一些实施方式中，所述cas效应蛋白包含seq id no:115的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:130的核酸序列或由其组成。
[0446]
在一些实施方式中，所述cas效应蛋白包含seq id no:116的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:131的核酸序列或由其组成。
[0447]
在一些实施方式中，所述cas效应蛋白包含seq id no:117的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:132的核酸序列或由其组成。
[0448]
在一些实施方式中，所述cas效应蛋白包含seq id no:118的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:133的核酸序列或由其组成。
[0449]
在一些实施方式中，所述cas效应蛋白包含seq id no:119的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:134的核酸序列或由其组成。
[0450]
在一些实施方式中，所述cas效应蛋白包含seq id no:120的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:135的核酸序列或由其组成。
[0451]
在一些实施方式中，所述cas效应蛋白包含seq id no:121的氨基酸序列，并且所
述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:136的核酸序列或由其组成。
[0452]
在一些实施方式中，所述cas效应蛋白包含seq id no:122的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:137的核酸序列或由其组成。
[0453]
在一些实施方式中，所述cas效应蛋白包含seq id no:123的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:138的核酸序列或由其组成。
[0454]
在一些实施方式中，所述cas效应蛋白包含seq id no:124的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:139的核酸序列或由其组成。
[0455]
在一些实施方式中，所述cas效应蛋白包含seq id no:125的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:140的核酸序列或由其组成。
[0456]
在一些实施方式中，所述cas效应蛋白包含seq id no:141的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:152的核酸序列或由其组成。
[0457]
在一些实施方式中，所述cas效应蛋白包含seq id no:142的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:153的核酸序列或由其组成。
[0458]
在一些实施方式中，所述cas效应蛋白包含seq id no:143的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:154的核酸序列或由其组成。
[0459]
在一些实施方式中，所述cas效应蛋白包含seq id no:144的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:155的核酸序列或由其组成。
[0460]
在一些实施方式中，所述cas效应蛋白包含seq id no:145的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:156的核酸序列或由其组成。
[0461]
在一些实施方式中，所述cas效应蛋白包含seq id no:146的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:157的核酸序列或由其组成。
[0462]
在一些实施方式中，所述cas效应蛋白包含seq id no:147的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:158的核酸序列或由其组成。
[0463]
在一些实施方式中，所述cas效应蛋白包含seq id no:148的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:159的核酸序列或由其组成。
[0464]
在一些实施方式中，所述cas效应蛋白包含seq id no:149的氨基酸序列，并且所
述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:160的核酸序列或由其组成。
[0465]
在一些实施方式中，所述cas效应蛋白包含seq id no:150的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:161的核酸序列或由其组成。
[0466]
在一些实施方式中，所述cas效应蛋白包含seq id no:151的氨基酸序列，并且所述crrna包含同向重复序列，其中所述同向重复序列包含seq id no:162的核酸序列或由其组成。
[0467]
在经典的crispr系统中，指导序列(例如，crrna)与其对应的靶序列之间的互补程度可以是约50％、60％、75％、80％、85％、90％、95％、97.5％、99％或100％。在一些实施方式中，所述互补程度是90％-100％。在某些实施方式中，间隔序列含有不超过1、2、3、4或5个与所述靶rna的连续或非连续错配。
[0468]
指导rna的长度可以是约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、100、125、150、175、200或更多个核苷酸。例如，为了在功能性cas13e或cas13f效应蛋白、或其同源物、直系同源物、衍生物、融合物、缀合物或功能性片段中使用，间隔子可以在10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸、15-60个核苷酸、25-50个核苷酸之间、为约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸、或约30个核苷酸、或约27、28、29、30、31、32或33个核苷酸。然而，为了在上述任一者的dcas版本中使用，间隔子可以在10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间，或为约46、47、48、49、50、51、52、53、54或55个核苷酸；或长度为15-100个核苷酸、15-80个核苷酸、15-60个核苷酸、25-50个核苷酸、30-50个核苷酸、约100个核苷酸、约80个核苷酸、约60个核苷酸、约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸、约30个核苷酸、约20个核苷酸或约15个核苷酸之间。
[0469]
在某些实施方式中，间隔序列包含与靶rna中的腺苷(a)相对的胱氨酸(c)错配和/或与靶rna中的胞苷(c)相对的腺苷(a)错配。
[0470]
在某些实施方式中，胱氨酸或腺苷错配距离5'或3'dr序列约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸(例如，约15-25个核苷酸)。
[0471]
为了减少脱靶相互作用，例如，为了减少指导物与具有低互补性的靶序列相互作用，可以将突变引入所述crispr系统中，使得所述crispr系统可以区分具有大于80％、85％、90％或95％互补性的靶序列与脱靶序列。在一些实施方式中，所述互补程度为从80％至95％，例如，约83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％或95％(例如，区分具有18个核苷酸的靶标与具有1、2或3个错配的18个核苷酸的脱靶)。相应地，在一些实施方式中，指导序列与其对应的靶序列之间的互补程度大于94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或99.9％。在一些实施方式中，所述互补程度是100％。
[0472]
本领域已知不需要完全的互补性，前提是有足够的互补性发挥作用。可以通过引入错配(例如，间隔序列与靶序列之间的一个或多个错配，如1或2个错配(包括沿着间隔子/
靶标的错配的位置))来利用对切割效率的调节。错配(例如，双错配)位于越中心的位置(即，不在3'端或5'端处)，切割效率受到的影响越大。相应地，通过选择沿着所述间隔序列的错配位置，可以调节切割效率。例如，如果希望靶标切割小于100％(例如，在细胞群中)，可以在所述间隔序列中引入在间隔子和靶序列之间的1或2个错配。
[0473]
已证明vi型crispr-cas效应蛋白采用多于一种rna指导物，从而使这些效应子以及包括它们的系统和复合物能够实现靶向多个核酸的能力。在一些实施方式中，本文所述的crispr系统包括多种rna指导物(例如，两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、三十种、四十种或更多种rna指导物)。在一些实施方式中，本文所述的crispr系统包括单条rna链或编码单条rna链的核酸，其中所述rna指导物串联排列。所述单条rna链可以包括相同rna指导物的多个拷贝、不同rna指导物的多个拷贝、或其组合。本文所述的1类vi型crispr-cas效应蛋白的加工能力使这些效应子能够靶向多个靶核酸(例如，靶rna)而不丧失活性。在一些实施方式中，1类vi型crispr-cas效应蛋白可以与针对不同靶rna的多种rna指导物复合进行递送。在一些实施方式中，1类vi型crispr-cas效应蛋白可以与多种rna指导物共同递送，每种rna指导物对不同的靶核酸具有特异性。使用crispr相关蛋白进行多重复合(multiplexing)的方法描述于例如美国专利号9,790,490b2和ep 3009511 b1中，将各个文献的全部内容通过引用明确并入本文。
[0474]
crrna的间隔子长度可以在约10-60个核苷酸的范围内，如15-50个核苷酸、20-50个核苷酸、25-50个核苷酸或19-50个核苷酸。在一些实施方式中，指导rna的间隔子长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、或至少22个核苷酸。在一些实施方式中，所述间隔子长度为从15至17个核苷酸(例如，15、16或17个核苷酸)、从17至20个核苷酸(例如，17、18、19或20个核苷酸)、从20至24个核苷酸(例如，20、21、22、23或24个核苷酸)、从23至25个核苷酸(例如，23、24或25个核苷酸)、从24至27个核苷酸、从27至30个核苷酸、从30至45个核苷酸(例如，30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个核苷酸)、从30或35至40个核苷酸、从41至45个核苷酸、从45至50个核苷酸(例如，45、46、47、48、49或50个核苷酸)或更长。在一些实施方式中，所述间隔子长度为从约15至约42个核苷酸。
[0475]
在一些实施方式中，间隔序列的长度在15-100个核苷酸、15-80个核苷酸、15-60个核苷酸、25-50个核苷酸、30-50个核苷酸之间、约100个核苷酸、约80个核苷酸、约60个核苷酸、约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸、约30个核苷酸、约20个核苷酸或约15个核苷酸。
[0476]
在一些实施方式中，所述指导rna的同向重复序列长度为15-36个核苷酸、为至少16个核苷酸、为从16至20个核苷酸(例如，16、17、18、19或20个核苷酸)、为20-30个核苷酸(例如，20、21、22、23、24、25、26、27、28、29或30个核苷酸)、为30-40个核苷酸(例如，30、31、32、33、34、35、36、37、38、39或40个核苷酸)、或为约36个核苷酸(例如，33、34、35、36、37、38或39个核苷酸)。在一些实施方式中，所述指导rna的同向重复序列长度为36个核苷酸。
[0477]
在一些实施方式中，所述crrna/指导rna的总体长度比上文所述任一间隔序列长度长约36个核苷酸。例如，所述crrna/指导rna的总体长度可以在45-86个核苷酸、或60-86个核苷酸、62-86个核苷酸、或63-86个核苷酸之间。
[0478]
可以生成作为诱导型系统的组分的指导rna(例如，crrna)。所述系统的诱导型性
质允许对基因编辑或基因表达进行时空控制。在一些实施方式中，用于所述诱导型系统的刺激包括例如电磁辐射、声能、化学能和/或热能。
[0479]
在一些实施方式中，指导rna(例如，crrna)的转录可以通过诱导型启动子，例如四环素或强力霉素控制的转录激活(tet-开和tet-关表达系统)、激素诱导型基因表达系统(例如，蜕皮素诱导型基因表达系统)和阿拉伯糖诱导型基因表达系统来调节。诱导型系统的其他实例包括例如小分子双杂交转录激活系统(fkbp、aba等)、光诱导型系统(光敏色素、lov结构域或隐花色素)或光诱导型转录效应子(lite)。这些诱导型系统描述于例如wo 2016205764和美国专利号8,795,965中，将所述两个文献通过引用以其全文并入本文。
[0480]
化学修饰可以应用于crrna的磷酸骨架、糖和/或碱基。骨架修饰(如硫代磷酸酯)修饰磷酸骨架上的电荷并有助于寡核苷酸的递送和核酸酶抗性(参见例如，eckstein,“phosphorothioates,essential components of therapeutic oligonucleotides[硫代磷酸酯：治疗性寡核苷酸的必要组分],”nucl.acid ther.[核酸疗法],24,第374-387页,2014)；糖的修饰(如2'-o-甲基(2'-ome)、2'-f和锁核酸(lna))增强碱基配对和核酸酶抗性两者(参见例如，allerson等人“fully 2
’‑
modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering rna[与未经修饰的小干扰rna相比，完全2'修饰的寡核苷酸双链体具有改善的体外效力和稳定性],”j.med.chem.[药物化学杂志]48.4:901-904,2005)。化学修饰的碱基(如2-硫代尿苷或n6-甲基腺苷等)可允许更强或更弱的碱基配对(参见例如，bramsen等人,“development of therapeutic-grade small interfering rnas by chemical engineering[通过化学工程开发治疗级小干扰rna],”front.genet.[遗传学前沿],2012年8月20日；3:154)。另外，rna适于5’端和3’端两者与多种功能性部分(包括荧光染料、聚乙二醇或蛋白)缀合。
[0481]
可以对化学合成的crrna分子应用多种修饰。例如，用2'-ome修饰寡核苷酸以改善核酸酶抗性可以改变沃森-克里克(watson-crick)碱基配对的结合能。此外，2'-ome修饰可以影响寡核苷酸与转染试剂、蛋白或细胞中任何其他分子相互作用的方式。这些修饰的效果可以通过经验测试来确定。
[0482]
在一些实施方式中，所述crrna包括一个或多个硫代磷酸酯修饰。在一些实施方式中，所述crrna包括用于增强碱基配对和/或增加核酸酶抗性目的的一个或多个锁核酸。
[0483]
这些化学修饰的汇总可见于例如kelley等人,“versatility of chemically synthesized guide rnas for crispr-cas9 genome editing[用于crispr-cas9基因组编辑的化学合成的指导rna的多功能性],”j.biotechnol.[生物技术杂志]233:74-83,2016；wo 2016205764；和美国专利号8,795,965b2中；将各个文献通过引用以其全文并入。
[0484]
可以优化本文所述的rna指导物(例如，crrna)的序列和长度。在一些实施方式中，rna指导物的优化长度可以通过鉴定crrna的加工形式(即，成熟的crrna)或通过对crrna四环的经验长度研究来确定。
[0485]
所述crrna还可以包括一个或多个适配序列。适配子是具有特定的三维结构并可以与特定的靶分子结合的寡核苷酸或肽分子。所述适配子可以对基因效应子、基因激活子或基因阻遏子具有特异性。在一些实施方式中，所述适配子可以对蛋白具有特异性，而所述蛋白又对特定的基因效应子、基因激活子或基因阻遏子具有特异性并对其进行募集和/或
与其结合。所述效应子、激活子或阻遏子能够以融合蛋白的形式存在。在一些实施方式中，所述指导rna具有对相同的衔接蛋白具有特异性的两个或更多个适配序列。在一些实施方式中，所述两个或更多个适配序列对不同的衔接蛋白具有特异性。所述衔接蛋白可以包括例如ms2、pp7、qβ、f2、ga、fr、jp501、m12、r17、bz13、jp34、jp500、ku1、m11、mx1、tw18、vk、sp、fi、id2、nl95、tw19、ap205、φkcb5、φkcb8r、φkcb12r、φkcb23r、7s和prr1。相应地，在一些实施方式中，所述适配子选自特异性结合如本文所述的任一种衔接蛋白的结合蛋白。在一些实施方式中，所述适配序列是ms2结合环(5
’‑
ggcccaacaugaggaucaccca ugucugcaggggcc-3’，seq id no:79)。在一些实施方式中，所述适配序列是qβ结合环(5
’‑
ggcccaugcugucuaagacagcaugggcc-3’，seq id no:80)。在一些实施方式中，所述适配序列是pp7结合环(5
’‑
ggcccuaaggguuuauauggaaacc cuuagggcc-3’(seq id no:81)。对适配子的详细描述可见于例如nowak等人,“guide rna engineering for versatile cas9 functionality[针对多种cas9功能的指导rna工程化],”nucl.acid.res.[核酸研究],44(20):9555-9564,2016；和wo 2016205764中，将所述文献通过引用以其全文并入本文。
[0486]
在某些实施方式中，所述方法利用化学修饰的指导rna。指导rna化学修饰的实例包括但不限于在一个或多个末端核苷酸处掺入2'-o-甲基(m)、2'-o-甲基3'-硫代磷酸酯(ms)、或2'-o-甲基3'-硫基pace(msp)。与未经修饰的指导rna相比，这样的化学修饰的指导rna可以具有增加的稳定性和增加的活性，尽管中靶相对于脱靶特异性是不可预测的。参见hendel,nat biotechnol.[自然生物技术]33(9):985-9,2015，将所述文献通过引用并入。化学修饰的指导rna可进一步包括但不限于具有硫代磷酸酯键和锁核酸(lna)核苷酸的rna，所述锁核酸(lna)核苷酸包含在核糖环的2'与4'碳之间的亚甲基桥。
[0487]
本公开还涵盖用于递送多种核酸组分的方法，其中每种核酸组分对不同的感兴趣的靶基因座具有特异性，从而修饰多种感兴趣的靶基因座。复合物的核酸组分可以包含一个或多个蛋白结合rna适配子。所述一个或多个适配子能够结合噬菌体外壳蛋白。所述噬菌体外壳蛋白可以选自qβ、f2、ga、fr、jp501、ms2、m12、r17、bz13、jp34、jp500、ku1、m11、mx1、tw18、vk、sp、fi、id2、nl95、tw19、ap205、φcb5、φcb8r、φcb12r、φcb23r、7s和prr1。在某些实施方式中，所述噬菌体外壳蛋白是ms2。
[0488]
5.靶rna
[0489]
所述靶rna可以是任何感兴趣的rna分子，包括天然存在的和工程化的rna分子。
[0490]
在某些实施方式中，所述靶rna由真核dna编码。在某些实施方式中，所述真核dna是非人哺乳动物dna、非人灵长类动物dna、人dna、植物dna、昆虫dna、鸟dna、爬行动物dna、啮齿动物dna、鱼dna、蠕虫/线虫dna、酵母dna。
[0491]
在某些实施方式中，所述靶rna可以是mrna、trna、核糖体rna(rrna)、微小rna(mirna)、干扰rna(sirna)、核酶、核糖开关、卫星rna、微开关、微酶(microzyme)或病毒rna。
[0492]
在某些实施方式中，所述靶rna是mrna。
[0493]
在一些实施方式中，所述靶核酸与病症或疾病(例如，感染性疾病、遗传疾病或障碍、或癌症)相关。
[0494]
因此，在一些实施方式中，本文所述的系统可用于通过靶向这些核酸来治疗病症或疾病。例如，与病症或疾病相关的靶核酸可以是在患病细胞(例如，癌细胞或肿瘤细胞)中过表达的rna分子。所述靶核酸也可以是毒性rna和/或突变的rna(例如，具有剪接缺陷或突
变的mrna分子)。所述靶核酸还可以是对特定微生物(例如，致病性细菌)具有特异性的rna。
[0495]
6.复合物
[0496]
在本公开的一个方面，提供了一种包含与rna碱基编辑器连接(例如，融合)的本公开的crrna结合多肽(包含保留crrna结合结构域但基本上缺乏加工dr序列的能力的crrna结合结构域)的融合物/缀合物，所述融合物/缀合物又与包含用于与靶rna杂交的间隔序列的指导rna复合，其中所述间隔序列侧接与所述crrna结合结构域相容的两个dr序列。
[0497]
在某些实施方式中，所述指导rna包含设计成与靶rna至少部分互补的间隔序列，和侧接所述间隔序列两端的dr序列。
[0498]
在某些实施方式中，所述复合物进一步包含所述指导rna结合的靶rna。
[0499]
在某些实施方式中，所述dr序列不是天然存在的，即，不是seq id no:8-14、126-140和152-162中的任一个，这是由于例如在野生型序列中添加、缺失和/或取代至少一个核苷酸碱基。在某些实施方式中，所述间隔序列不是天然存在的，因为它不存在或不由存在于以下中的任何间隔序列编码：本发明cas13e或cas13f存在于其中的原核生物的野生型crispr基因座。当所述间隔序列与天然存在的噬菌体核酸不是100％互补时，它可能不是天然存在的。
[0500]
在相关方面，本公开还提供细胞，所述细胞包含本公开的任一复合物。
[0501]
在某些实施方式中，所述细胞是原核生物。
[0502]
在某些实施方式中，所述细胞是真核生物。当所述细胞是真核生物时，在所述真核细胞中的复合物可以是分离出cas13或caspr的原核生物中天然存在的cas13或caspr复合物。
[0503]
7.多核苷酸和载体
[0504]
在本公开的一个方面，提供了编码本文所述的蛋白组分(例如，本公开的异源功能性结构域和含有crrna结合结构域的多肽的融合物)和指导rna(例如，crrna)组分的核酸或多核苷酸。
[0505]
在一些实施方式中，所述核酸或多核苷酸是分离的。
[0506]
在一些实施方式中，所述核酸是合成的核酸。在一些实施方式中，所述核酸是dna分子。在一些实施方式中，所述核酸是rna分子(例如，编码蛋白组分的mrna分子)。在一些实施方式中，将所述mrna加帽、聚腺苷酸化、用5-甲基胞苷取代、用假尿苷取代、或其组合。
[0507]
因此，本公开的一个方面提供了包含第一和第二多核苷酸的多核苷酸，所述第一和第二多核苷酸分别编码本公开的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统的蛋白组分和grna组分。
[0508]
在某些实施方式中，所述蛋白组分的转录和指导rna的转录在单独的或分开的启动子和/或增强子的控制下。
[0509]
在一些实施方式中，所述第一多核苷酸可操作地连接到调节元件(例如启动子和/或增强子)。在一些实施方式中，所述启动子是组成型启动子。在一些实施方式中，所述启动子是诱导型启动子。在一些实施方式中，所述启动子是细胞特异性启动子。在一些实施方式中，所述启动子是生物特异性启动子。
[0510]
在某些实施方式中，蛋白组分的转录是在组成型启动子、诱导型启动子、广谱启动子或组织特异性启动子的控制下。
[0511]
合适的启动子是本领域已知的并且包括例如pol i启动子、pol ii启动子、pol iii启动子、t7启动子、u6启动子、h1启动子、逆转录病毒劳斯肉瘤病毒ltr启动子、巨细胞病毒(cmv)启动子、sv40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如，u6启动子可用于调节本文所述的指导rna分子的表达。
[0512]
在某些实施方式中，组成型启动子是rna pol ii启动子，例如cmv启动子、cb启动子、cbh启动子、efs启动子或cag启动子。
[0513]
在某些实施方式中，启动子是广谱启动子、组织特异性启动子、细胞类型特异性启动子、组成型启动子或诱导型启动子；任选地，其中启动子包含选自以下的启动子：cbh启动子、cba启动子、pol i启动子、pol ii启动子、pol iii启动子、t7启动子、u6启动子、h1启动子、逆转录病毒劳斯肉瘤病毒ltr启动子、巨细胞病毒(cmv)启动子、sv40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、延伸因子1α短(efs)启动子、β葡萄糖醛酸酶(gusb)启动子、巨细胞病毒(cmv)即早(ie)增强子和/或启动子、鸡β-肌动蛋白(cba)启动子或其衍生物如cag启动子、cb启动子、(人)延伸因子1α-亚基(ef1α)启动子、泛素c(ubc)启动子、朊病毒启动子、神经元特异性烯醇化酶(nse)、神经丝轻链(nfl)启动子、神经丝重链(nfh)启动子、血小板衍生生长因子(pdgf)启动子、血小板衍生生长因子b链(pdgf-β)启动子、突触蛋白(syn)启动子、突触蛋白1(syn1)启动子、甲基-cpg结合蛋白2(mecp2)启动子、ca2 /钙调蛋白依赖性蛋白激酶ii(camkii)启动子、代谢型谷氨酸受体2(mglur2)启动子、神经丝轻链(nfl)启动子、神经丝重链(nfh)启动子、β-珠蛋白小基因nβ2启动子、前脑啡肽原(ppe)启动子、脑啡肽(enk)启动子、兴奋性氨基酸转运蛋白2(eaat2)启动子、胶质纤维酸性蛋白(gfap)启动子和髓鞘碱性蛋白(mbp)启动子。
[0514]
在某些实施方式中，grna组分的转录是在rna pol iii启动子，例如u6启动子的控制下。
[0515]
在某些实施方式中，启动子是广谱启动子、组织特异性启动子、细胞类型特异性启动子、组成型启动子或诱导型启动子；任选地选自由以下组成的组：cbh启动子、cba启动子、pol i启动子、pol ii启动子、pol iii启动子、t7启动子、u6启动子、h1启动子、逆转录病毒劳斯肉瘤病毒ltr启动子、巨细胞病毒(cmv)启动子、sv40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、延伸因子1α短(efs)启动子、β葡萄糖醛酸酶(gusb)启动子、巨细胞病毒(cmv)即早(ie)增强子和/或启动子、鸡β-肌动蛋白(cba)启动子或其衍生物如cag启动子、cb启动子、(人)延伸因子1α-亚基(ef1α)启动子、泛素c(ubc)启动子、朊病毒启动子、神经元特异性烯醇化酶(nse)、神经丝轻链(nfl)启动子、神经丝重链(nfh)启动子、血小板衍生生长因子(pdgf)启动子、血小板衍生生长因子b链(pdgf-β)启动子、突触蛋白(syn)启动子、突触蛋白1(syn1)启动子、甲基-cpg结合蛋白2(mecp2)启动子、ca2 /钙调蛋白依赖性蛋白激酶ii(camkii)启动子、代谢型谷氨酸受体2(mglur2)启动子、神经丝轻链(nfl)启动子、神经丝重链(nfh)启动子、β-珠蛋白小基因nβ2启动子、前脑啡肽原(ppe)启动子、脑啡肽(enk)启动子、兴奋性氨基酸转运蛋白2(eaat2)启动子、胶质纤维酸性蛋白(gfap)启动子和髓鞘碱性蛋白(mbp)启动子；任选地，其中启动子是rna pol iii启动子。
[0516]
在某些实施方式中，rna pol iii启动子是u6、h1、7sk、或其变体。
[0517]
在某些实施方式中，第一多核苷酸经密码子优化以在细胞(例如真核细胞或哺乳动物(例如人)细胞)中表达。
[0518]
在一些实施方式中，核酸存在于载体(例如，病毒载体或噬菌体)中。
[0519]
因此，本公开的相关方面提供了包含本公开的多核苷酸的载体。
[0520]
在某些实施方式中，载体是克隆载体或表达载体。所述载体可以是质粒、噬菌粒、粘粒等。所述载体可以包括一个或多个允许所述载体在感兴趣的细胞(例如，细菌细胞或哺乳动物细胞)中繁殖的调节元件。在一些实施方式中，所述载体包括编码本文所述的crispr-cas系统的核酸。在一些实施方式中，所述载体包括多个核酸，每个核酸编码本文所述的crispr-cas系统的组分。
[0521]
在一方面，本公开提供与本文所述的核酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％同一性的核酸序列，即，编码如下的核酸序列：cas蛋白、衍生物、功能性片段、或包括seq id no:8-14、126-140和152-162的dr序列的指导
[0522]
/crrna。
[0523]
在另一方面，本公开还提供编码如下氨基酸序列或文中所述的任一crispr-cas系统的核酸序列，所述氨基酸序列与本文所述的氨基酸序列(如seq id no:1-7、111-125和141-151)具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％同一性。
[0524]
在一些实施方式中，所述核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文所述的序列相同。在一些实施方式中，所述核酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸，例如，连续或非连续核苷酸)与本文所述的序列不同。
[0525]
在相关的实施方式中，本公开提供如下氨基酸序列，所述氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文所述的序列相同。在一些实施方式中，所述氨基酸序列具有至少一部分(例如，至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基，例如，连续或非连续氨基酸残基)与本文所述的序列不同。
[0526]
为了确定两个氨基酸序列或两个核酸序列的同一性百分比，出于最佳比较目的对序列进行比对(例如，可以在第一和第二氨基酸或核酸序列的一者或两者中引入空位以用于最佳比对，并且出于比较目的可以忽略非同源序列)。一般来说，出于比较目的而比对的参考序列的长度应是参考序列长度的至少80％，并且在一些实施方式中是参考序列长度的至少90％、95％或100％。然后比较对应的氨基酸位置或核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置被与第二序列中的对应位置相同的氨基酸残基或核苷酸占据时，则分子在该位置处是相同的。将空位的数量和每个空位的长度考虑在内，两个序列之间的同一性百分比是所述序列共享的相同位置的数量的函数，需要引入所述空位以进行所述两个序列的最佳比对。出于本公开的目的，序列的比较和两个序列之间同一性百分比的确定可以使用具有空位罚分12、空位延伸罚分4、以及移码空位罚分5的blosum 62评分矩阵来完成。
[0527]
本文所述的蛋白(例如crispr-cas系统)可以作为核酸分子或多肽递送或使用。
[0528]
在某些实施方式中，编码crispr-cas系统的核酸分子经密码子优化以在宿主细胞或生物中表达。所述宿主细胞可以包括已建立的细胞系(如293t细胞)或分离的原代细胞。所述核酸可以经密码子优化以用于在任何感兴趣的生物(特别是人细胞或细菌)中使用。例如，所述核酸可以针对以下进行密码子优化：任何原核生物(如大肠杆菌)或任何真核生物，如人和其他非人真核生物，包括酵母、蠕虫、昆虫、植物和藻类(包括粮食作物、稻、玉米、蔬菜、水果、树木、草)、脊椎动物、鱼、非人哺乳动物(例如，小鼠、大鼠、兔子、狗、鸟(如鸡)、家畜(母牛或牛、猪、马、绵羊、山羊等)、或非人灵长类动物)。密码子使用表易于获得，例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库”中，并且这些表能以多种方式进行调整。参见nakamura等人,nucl.acids res.[核酸研究]28:292,2000(将所述文献通过引用以其全文并入本文)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，如基因制造(aptagen公司；宾夕法尼亚州雅各布斯)。
[0529]
在这种情况下，经密码子优化的序列的实例是经优化以在以下中表达的序列：真核生物，例如人(即，经优化以在人中表达)，或如本文所讨论的另一真核生物、动物或哺乳动物；参见例如，wo 2014/093622(pct/us 2013/074667)中的经sacas9人密码子优化的序列。尽管这是优选的，但应理解其他实例是可能的，并且针对人以外的宿主物种的密码子优化或针对特定器官的密码子优化是已知的。一般来说，密码子优化是指在维持天然氨基酸序列的情况下通过以下方式修饰核酸序列以增强在感兴趣的宿主细胞中的表达的方法：用该宿主细胞的基因中更频繁使用或最频繁使用的密码子替代天然序列的至少一个密码子(例如，约或超过约1、2、3、4、5、10、15、20、25、50或更多个密码子)。多种物种对特定氨基酸的某些密码子展现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使rna(mrna)的翻译效率相关，而所述信使rna(mrna)的翻译效率又被认为尤其依赖于经翻译的密码子的特性和特定的转移rna(trna)分子的可获得性。选定的trna在细胞中的优势通常反映出肽合成中最频繁使用的密码子。相应地，可以对基因进行定制以基于密码子优化在给定生物中实现最佳基因表达。密码子使用表易于获得，例如在kazusa.orjp/codon/上可获得的“密码子使用数据库”中，并且这些表能以多种方式进行调整。参见nakamura,y.等人“codon usage tabulated from the international dna sequence databases:status for the year 2000[从国际dna序列数据库中制表的密码子使用：2000年的状态]”nucl.acids res.[核酸研究]28:292(2000)。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，如基因制造(aptagen公司；宾夕法尼亚州雅各布斯)也是可获得的。在一些实施方式中，编码cas的序列中的一个或多个密码子(例如，1、2、3、4、5、10、15、20、25、50或更多个或所有密码子)对应于特定氨基酸最频繁使用的密码子。
[0530]
在某些实施方式中，所述载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(hsv)载体、aav载体或慢病毒载体。
[0531]
在某些实施方式中，所述载体是包含本公开的侧接5’itr(例如aav2 5’itr)和3’itr(例如aav2 3’itr)的多核苷酸的aav载体。
[0532]
在某些实施方式中，在本公开的载体中，本公开的多核苷酸进一步包含促进crispr-cas系统的蛋白组分的转录的内含子和/或外显子。
[0533]
在某些实施方式中，本公开的载体进一步包含与编码crispr-cas系统的蛋白组分的第一多核苷酸可操作地连接的polya信号序列的编码序列。
[0534]
在某些实施方式中，本公开的载体在编码crispr-cas系统的蛋白组分的第一多核苷酸中进一步包含5’utr和/或3’utr编码序列。
[0535]
在某些实施方式中，本公开的载体进一步包含wpre序列。
[0536]
在相关方面，本公开还提供了包含本公开的aav载体的重组aav(raav)病毒颗粒，所述aav载体包封在具有aav1、aav2、aav3a、aav3b、aav4、aav5、aav6、aav7、aavrh74、aav8、aav9、aav10、aav11、aav12、aav13、aav.dj、aav.php.eb或其突变体的血清型的衣壳内。
[0537]
8.递送
[0538]
通过本公开和本领域的知识，本文所述的crispr-cas系统或本文所述的其任一组分(cas蛋白、其衍生物、功能性片段或各种融合物或加合物，以及指导rna/crrna)、其核酸分子、和/或编码或提供其组分的核酸分子可以通过各种递送系统(如载体，例如质粒和病毒递送载体)使用本领域中任何合适的手段递送。这样的方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声、基因枪等。
[0539]
在本公开的一个方面，提供了一种递送系统，其包含(1)递送媒介物，和(2)本公开的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统、本公开的多核苷酸、本公开的载体或本公开的raav病毒颗粒。
[0540]
在某些实施方式中，crispr-cas系统和/或任一rna(例如，指导rna或crrna)和/或辅助蛋白可以使用合适的载体递送，所述载体例如质粒或病毒载体(如腺相关病毒(aav)、慢病毒、腺病毒、逆转录病毒载体和其他病毒载体、或其组合)。可以将所述蛋白和一种或多种crrna包装到一种或多种载体(例如，质粒或病毒载体)中。对于细菌应用，可以使用噬菌体将编码本文所述的crispr-cas系统的任一组分的核酸递送至细菌。示例性噬菌体包括但不限于t4噬菌体、mu、λ噬菌体、t5噬菌体、t7噬菌体、t3噬菌体、φ29、m13、ms2、qβ和φx174。
[0541]
在一些实施方式中，通过例如肌内注射、静脉内施用、经皮施用、鼻内施用、口服施用或粘膜施用将所述载体(例如，质粒或病毒载体)递送至感兴趣的组织。这样的递送可以经由单剂量或多剂量进行。本领域技术人员应理解，本文待递送的实际剂量可取决于多种因素而大幅变化，如载体选择、靶细胞、生物、组织、待治疗受试者的一般状况、所寻求的转化/修饰的程度、施用途径、施用模式、所寻求的转化/修饰的类型等。
[0542]
在某些实施方式中，所述递送经由腺病毒进行，其可以是含有至少1
×
105个颗粒(也称为颗粒单位，pu)的腺病毒的单剂量。在一些实施方式中，所述剂量优选地是至少约1
×
106个颗粒、至少约1
×
107个颗粒、至少约1
×
108个颗粒、和至少约1
×
109个颗粒的腺病毒。所述递送方法和所述剂量描述于例如wo 2016205764 a1和美国专利号8,454,972b2中，将所述两个文献通过引用以全文并入本文。
[0543]
在一些实施方式中，所述递送经由质粒进行。所述剂量可以是足够数量的质粒以引发响应。在一些情况下，质粒组合物中质粒dna的合适量可以是从约0.1至约2mg。质粒通常包括(i)启动子；(ii)编码靶向核酸的crispr-cas系统的序列，所述序列与启动子(例如，相同的启动子或不同的启动子)可操作地连接；(iii)可选择标志物；(iv)复制起点；以及(v)位于(ii)的下游并与其可操作地连接的转录终止子。质粒还可以编码crispr-cas系统的rna组分，但这些组分中的一种或多种可以替代地在不同的载体上编码。施用频率在医学或兽医学从业者(例如，医师、兽医师)或本领域技术人员的范围内。
[0544]
在另一实施方式中，所述递送经由脂质体或脂质转染配制品等进行，并且可以通
过本领域技术人员已知的方法制备。这样的方法描述于例如wo 2016205764和美国专利号5,593,972、5,589,466、和5,580,859中，将各个文献通过引用以其全文并入本文。
[0545]
在一些实施方式中，所述递送经由纳米颗粒(例如，脂质纳米颗粒(lnp))或外泌体进行。例如，已表明外泌体在递送rna方面特别有用。
[0546]
将crispr-cas系统的一种或多种组分引入细胞中的另外的手段是通过使用细胞穿透肽(cpp)。在一些实施方式中，细胞穿透肽与crispr-cas系统连接。在一些实施方式中，所述crispr-cas系统和/或指导rna与一种或多种cpp偶联以有效地将它们转运到细胞(例如，植物原生质体)内。在一些实施方式中，所述crispr-cas系统和/或指导rna由一种或多种环状或非环状dna分子编码，所述环状或非环状dna分子与一种或多种cpp偶联用于细胞递送。
[0547]
cpp是少于35个氨基酸的短肽，所述短肽源自能够以非受体依赖性方式跨细胞膜转运生物分子的蛋白或嵌合序列。cpp可以是阳离子肽、具有疏水性序列的肽、两亲性肽、具有富含脯氨酸且抗微生物的序列的肽、以及嵌合肽或二分肽。cpp的实例包括例如tat(其是1型hiv病毒复制所需的核转录激活蛋白)、穿膜肽、卡波西成纤维细胞生长因子(fgf)信号肽序列、整合素β3信号肽序列、聚精氨酸肽args序列、富含鸟嘌呤的分子转运蛋白和甜箭肽。cpp和使用它们的方法描述于例如等人,“prediction of cell-penetrating peptides[细胞穿透肽的预测],”methods mol.biol.[分子生物学方法],2015；1324:39-58；ramakrishna等人,“gene disruption by cell-penetrating peptide-mediated delivery of cas9 protein and guide rna[通过细胞穿透肽介导的cas9蛋白和指导rna的递送来破坏基因],”genome res.[基因组研究],2014年6月；24(6):1020-7；以及wo 2016205764 a1中；将各个文献通过引用以其全文并入本文。
[0548]
用于本文所述的crispr-cas系统的各种递送方法还描述于例如美国专利号8,795,965、ep 3009511、wo 2016205764和wo 2017070605中；将各个文献通过引用以其全文并入本文。
[0549]
在一些实施方式中，如本文所述的crrna结合多肽和/或异源功能性结构域和/或grna以raav颗粒的形式递送，所述raav颗粒通过能够包装rna的aav包装系统包装编码crrna结合多肽和/或异源功能性结构域和/或grna的rna，如例如pct/cn2022/075366中所述，其通过引用以其全文并入本文。在一些实施方式中，所述多核苷酸编码序列是rna编码序列。
[0550]
作为将单链(ss)dna序列包装为aav颗粒的载体基因组的替代，最近开发了将rna序列作为载体基因组包装到aav颗粒中的系统和方法，并可应用于本文。参见pct/cn2022/075366，将所述文献通过引用以其全文并入本文。
[0551]
当载体基因组为例如pct/cn2022/075366中的rna时，为了进行简单描述和声明，本文中描述的用于dna载体基因组的序列元件，当存在于rna载体基因组中时，一般应认为适用于rna载体基因组，除了dna序列中的脱氧核糖核苷酸是rna序列中相应的核糖核苷酸(例如dt相当于u，并且da相当于a)和/或dna序列中的元件被替换为在rna序列中具有相应功能的相应元件，或因其功能在rna序列中不需要而被省略，和/或引入rna载体基因组所必需的另外元件。
[0552]
如本文所用，编码序列(例如，作为本文中aav载体基因组的序列元件)被解释、理
解和认为覆盖并涵盖dna编码序列和rna编码序列两者。当它是dna编码序列时，可以从dna编码序列转录rna序列，并且任选地可以根据需要进一步从转录的rna序列翻译蛋白。当它是rna编码序列时，rna编码序列本身可以是供使用的rna序列(尽管rna编码序列似乎不编码某物)，或者rna序列可以例如通过rna加工由rna编码序列产生(尽管rna编码序列似乎不编码某物)，或者可以从rna编码序列翻译蛋白。
[0553]
例如，(例如，cas13，nls)编码序列(编码(例如cas13、nls)多肽)覆盖(例如，cas13、nls)多肽从其表达(经由转录和翻译间接地)的(例如，cas13、nls)dna编码序列或(例如，cas13、nls)多肽从其翻译(直接地)的(例如，cas13、nls)rna编码序列。
[0554]
例如，(例如，sgrna)编码序列(编码rna(例如，sgrna)的序列)覆盖rna序列(例如，sgrna序列或阵列)从其转录的(例如，sgrna)dna编码序列，或(例如，sgrna)rna编码序列(1)其本身就是供使用的rna序列(例如，sgrna序列或阵列)，或(2)例如通过rna加工从其产生sgrna序列或阵列。
[0555]
在rna aav载体基因组的一些实施方式中，5'-itr和/或3'-itr作为dna包装信号将是不必要的并且可以将其省略，但是可以引入rna包装信号。
[0556]
在aav rna载体基因组的一些实施方式中，驱动dna序列转录的启动子将是不必要的，并且可以至少将其部分省略。
[0557]
在aav rna载体基因组的一些实施方式中，polya信号序列将是不必要的并且可以将其省略，但是可以引入polya尾巴。
[0558]
类似地，可以将aav dna载体基因组的其他dna元件省略或替换为相应的rna元件和/或可以引入新的rna元件，以适应由raav颗粒递送rna载体基因组的策略。
[0559]
9.细胞及其后代
[0560]
在某些实施方式中，本公开的方法可用于将本文所述的crispr-cas系统引入细胞中，并引起所述细胞和/或其后代改变一种或多种细胞产物(如抗体、淀粉、乙醇、或任何其他所希望的产物)的产生。这样的细胞及其后代在本公开的范围内。
[0561]
在本公开的一个方面，提供了细胞或其后代，所述细胞或其后代包含本公开的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白、或crispr-cas13系统、本公开的多核苷酸、本公开的载体、本公开的raav病毒颗粒、或本公开的递送系统。
[0562]
在某些实施方式中，本文所述的方法和/或crispr-cas系统导致细胞的一种或多种rna产物的翻译和/或转录的修饰。例如，所述修饰可导致rna产物的转录/翻译/表达增加。在其他实施方式中，所述修饰可导致rna产物的转录/翻译/表达降低。
[0563]
在某些实施方式中，所述细胞是原核细胞。
[0564]
在某些实施方式中，所述细胞是真核细胞，如哺乳动物细胞，包括人细胞(原代人细胞或已建立的人细胞系)。在某些实施方式中，所述细胞是非人哺乳动物细胞，如来自非人灵长类动物(例如，猴)、母牛/公牛/牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小鼠、大鼠、仓鼠等)的细胞。在某些实施方式中，所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟，包括鸡、鸭、鹅)、爬行动物、贝类(例如，牡蛎、蛤蜊、龙虾、对虾)、昆虫、蠕虫、酵母等。在某些实施方式中，所述细胞来自植物，例如单子叶植物或双子叶植物。在某些实施方式中，所述植物是粮食作物，如大麦、木薯、棉花、落花生或花生、玉蜀黍、小米、油棕果、马铃薯、干豆、油菜籽或低芥酸菜籽(canola)、稻、黑麦、高粱、大豆、甘蔗、甜菜、向日葵和小麦。在某些实施方
式中，所述植物是谷类(大麦、玉蜀黍、小米、稻、黑麦、高粱和小麦)。在某些实施方式中，所述植物是块茎(木薯和马铃薯)。在某些实施方式中，所述植物是糖料作物(甜菜和甘蔗)。在某些实施方式中，所述植物是含油作物(大豆、落花生或花生、油菜籽或低芥酸菜籽、向日葵和油棕果)。在某些实施方式中，所述植物是纤维作物(棉花)。在某些实施方式中，所述植物是树木(如桃树或油桃树、苹果树或梨树、坚果树(如杏仁树或核桃树或开心果树)、或柑橘树(例如，橙树、葡萄柚树或柠檬树))、草、蔬菜、水果或藻类。在某些实施方式中，所述植物是茄属植物；芸苔属(brassica)植物；莴苣属(lactuca)植物；菠菜属(spinacia)植物；辣椒属(capsicum)植物；棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。
[0565]
相关方面提供使用本文所述的crispr-cas系统通过本公开的方法修饰的细胞或其后代。
[0566]
在某些实施方式中，所述细胞在体外、在体内或离体进行修饰。在某些实施方式中，所述细胞是干细胞。
[0567]
在本公开的另一方面，提供了包含本公开的细胞或其后代的非人多细胞真核生物。
[0568]
在一些实施方式中，非人多细胞真核生物是针对人遗传障碍的动物(例如，啮齿动物或灵长类动物)模型。
[0569]
10.药物组合物和试剂盒
[0570]
在本公开的一个方面，提供了一种药物组合物，所述药物组合物包含：
[0571]
(i)本公开的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统、本公开的多核苷酸、本公开的载体、本公开的raav病毒颗粒、本公开的递送系统、或本公开的细胞或其后代；以及
[0572]
(ii)药学上可接受的赋形剂。
[0573]
在本公开的另一方面，提供了一种试剂盒，所述试剂盒包含：
[0574]
(i)本公开的crispr-cas系统、grna、经修饰的cas13蛋白、融合蛋白或crispr-cas13系统、本公开的多核苷酸、本公开的载体、本公开的raav病毒颗粒、本公开的递送系统、本公开的细胞或其后代或本公开的药物组合物；以及
[0575]
(ii)使用组分(i)的说明。
[0576]
本公开的另一方面提供药物组合物或试剂盒，所述药物组合物或试剂盒包含本文所述的本发明crispr-cas系统的任意两种或更多种组分，例如经修饰的/截短的cas13e和cas13f蛋白、其衍生物、功能性片段或各种融合物或加合物、指导rna/crrna、其复合物、涵盖它们的载体、或涵盖它们的宿主。
[0577]
在某些实施方式中，所述试剂盒进一步包括使用其中涵盖的组分的说明，和/或与可在别处获得的其他组分组合的说明。
[0578]
在某些实施方式中，所述试剂盒进一步包含一种或多种核苷酸，例如对应于以下的核苷酸：可用于将指导rna编码序列插入载体中并将所述编码序列与所述载体的一种或多种控制元件可操作地连接的那些。
[0579]
在某些实施方式中，所述药物组合物或试剂盒进一步包含一种或多种缓冲液，所述缓冲液可用于溶解任一所述组分和/或为一种或多种所述组分提供合适的反应条件。这
样的缓冲液可以包括以下中的一种或多种：pbs、hepes、tris、mops、na2co3、nahco3、nab、或其组合。在某些实施方式中，所述反应条件包括适当的ph，如碱性ph。在某些实施方式中，所述ph在7-10之间。
[0580]
在某些实施方式中，任一种或多种所述试剂盒组分可以储存在合适的容器中。
[0581]
11.使用方法
[0582]
核酸的跟踪和标记
[0583]
细胞过程依赖于蛋白、rna和dna间的分子相互作用网络。准确检测蛋白-dna和蛋白-rna相互作用是理解这样的过程的关键。体外邻近标记技术采用与报告基团(例如，可光激活基团)组合的亲和标签，以在体外标记感兴趣的蛋白或rna附近的多肽和rna。在uv辐照后，所述可光激活基团与紧邻加标签分子的蛋白和其他分子发生反应，从而标记它们。随后可回收和鉴定经标记的相互作用分子。
[0584]
本发明crispr-cas系统的靶向部分可以例如用于将探针靶向选定的rna序列。这些应用也可以应用于动物模型中，用于疾病或难以培养的细胞类型的体内成像。跟踪和标记核酸的方法描述于例如美国专利号8,795,965、wo 2016205764和wo 2017070605中；将各个文献通过本文引用以其全文并入本文。
[0585]
rna分离、纯化、富集和/或耗竭
[0586]
本文所述的crispr系统(例如，crispr相关蛋白)可用于分离和/或纯化rna。经修饰的cas效应蛋白仍然保留与具有dr序列的指导rna结合的能力，并且可以与亲和标签融合，所述亲和标签可以用于分离和/或纯化rna-crispr相关蛋白复合物。这些应用例如可用于分析细胞中的基因表达谱。
[0587]
在一些实施方式中，本公开的crispr-cas系统(例如，crispr-cas13系统)可用于靶向特定的非编码rna(ncrna)，从而阻断其活性。在一些实施方式中，所述crispr相关蛋白可用于特异性富集特定rna(包括但不限于增加稳定性等)，或替代性地，特异性耗竭特定rna(例如，特定的剪接变体、同种型等)。
[0588]
这些方法描述于例如美国专利号8,795,965、wo 2016205764和wo 2017070605中；将各个文献通过本文引用以其全文并入本文。
[0589]
rna相关应用
[0590]
本文所述的crispr-cas系统可具有多种rna相关应用，例如，调节基因表达、降解rna分子、抑制rna表达、筛选rna或rna产物、确定lincrna或非编码rna的功能、诱导细胞休眠、诱导细胞周期停滞、减少细胞生长和/或细胞增殖、诱导细胞无能、诱导细胞凋亡、诱导细胞坏死、诱导细胞死亡和/或诱导程序性细胞死亡。对这些应用的详细描述可见于例如wo 2016/205764 a1中，将所述文献通过引用以其全文并入本文。在不同的实施方式中，本文所述的方法可以在体外、在体内或离体进行。
[0591]
例如，可以将本文所述的crispr-cas系统向患有疾病或障碍的受试者施用，以靶向处于患病状态中的细胞(例如，癌细胞或受感染原感染的细胞)并诱导所述细胞中的细胞死亡。例如，在一些实施方式中，本文所述的crispr-cas系统可用于靶向癌细胞并诱导所述癌细胞中的细胞死亡，其中所述癌细胞来自患有以下的受试者：威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、
甲基腺苷的功能及其在癌症中的作用].mol cancer[分子癌症].2019年12月4日；18(1):176.doi:10.1186/s12943-019-1109-9.pmid:31801551；pmcid:pmc6892141。)
[0601]
n6-甲基腺苷是最丰富的mrna内部修饰，并出现在小的非编码rna(ncrna)和长的非编码rna(lncrna)中。甲基基团在腺苷上的沉积通过多蛋白复合物进行，其中甲基转移酶样3(mettl3)作为催化核心，其是具有甲基转移酶活性的s-腺苷甲硫氨酸结合蛋白。甲基转移酶样14(mettl14)有助于mrna结合。此外，wtap蛋白(肾母细胞瘤1相关蛋白)是mettl3和mettl14酶的正确细胞甲基化活性的基础。众所周知，rna中的m6a修饰是动态和可逆的。在这种情况下，去甲基化潜力归因于fto(脂肪量和肥胖相关蛋白)和alkbh5(alkb同源物5)酶，这两种酶都从腺苷中氧化去除甲基基团。(he l,li h,wu a,peng y,shu g,yin g.functions of n6-methyladenosine and its role in cancer[n6-甲基腺苷的功能及其在癌症中的作用].mol cancer[分子癌症].2019年12月4日；18(1):176.doi:10.1186/s12943-019-1109-9.pmid:31801551；pmcid:pmc6892141。)
[0602]
因此，在一些实施方式中，异源功能性结构域包含m6a相关调节结构域，例如m6a相关甲基转移酶结构域(例如，mettl3、mettl14、wtap、kiaa1429或其功能性片段)、m6a相关去甲基化结构域(例如，脂肪量和肥胖相关蛋白(fto)、alkbh5或其功能性片段)或其组合。
[0603]
为了m6a相关的表观遗传调节的目的，在一些实施方式中，可以设计m6a相关的表观遗传调节剂，所述表观遗传调节剂包含(1)crrna结合多肽，所述crrna结合多肽包含cas效应蛋白的crrna结合结构域，基本上由其组成或由其组成，和(2)异源功能性结构域，所述异源功能性结构域可以是用于向靶rna提供m6a修饰的m6a提供部分或用于从靶rna消除m6a修饰的m6a消除部分。所述cas效应蛋白可以是如本文所述的任何cas效应蛋白，例如cas13效应蛋白或caspr。
[0604]
在一些实施方式中，m6a提供部分选自mettl3、mettl14、wtap、kiaa1429或其功能性片段或其组合。
[0605]
在一些实施方式中，m6a消除部分选自fto、alkbh5或其功能性片段或其组合。
[0606]
在一些实施方式中，可以进一步设计m6a相关的表观遗传调节系统，所述表观遗传调节系统包含m6a相关的rna调节剂和指导rna(grna)。grna可以包含能够与crrna结合结构域形成复合物的同向重复(dr)序列和能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列。此外，grna可以包含各自能够与crrna结合结构域形成复合物的5'同向重复(dr)序列和3'同向重复(dr)序列，以及能够与靶rna杂交并将所述复合物引导或募集到所述靶rna的间隔序列，其中所述间隔序列分别在所述间隔序列的5'端和3'端侧接5'和3'dr序列，并且所述5'和3'dr序列是相同或不同的。
[0607]
m6a相关的表观遗传调节系统可用于向靶rna提供m6a修饰或从靶rna消除m6a修饰。在一些实施方式中，靶rna可以是与m6a相关的表观遗传特性相关的mrna。
[0608]
靶rna上m6a的检测可通过本领域已知的常规方法进行，包括高通量测序(例如，merip-seq、miclip-seq)、比色法或lc-ms(例如，lc-ms/ms)。
[0609]
修饰方法
[0610]
在本公开的另一方面，提供了一种修饰靶rna的方法，所述方法包括使靶rna与本公开的经修饰的cas13蛋白、融合蛋白或crispr-cas13系统、本公开的多核苷酸、本公开的载体、本公开的raav病毒颗粒、本公开的递送系统、本公开的细胞或其后代、本公开的药物
组合物或本公开的试剂盒接触，其中间隔序列与所述靶rna的至少15个连续核苷酸基本上互补；其中crrna结合多肽与grna关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述复合物修饰所述靶rna(例如，使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基)。
[0611]
在一些实施方式中，靶rna是mrna、trna、rrna、非编码rna、lncrna或核rna。
[0612]
在一些实施方式中，靶rna具有与遗传疾病或障碍相关的突变或者具有或缺乏与表观遗传学相关的修饰。
[0613]
在一些实施方式中，本公开的方法导致以下中的一项或多项：(i)体外或体内诱导细胞衰老；(ii)体外或体内细胞周期停滞；(iii)体外或体内细胞生长抑制；(iv)体外或体内诱导无能；(v)体外或体内诱导凋亡；以及(vi)体外或体内诱导坏死。
[0614]
在一些实施方式中，方法是体外方法、体内方法或离体方法。
[0615]
治疗性应用
[0616]
在本公开的一个方面，提供了一种治疗有需要的受试者的病症或疾病的方法，所述方法包括向所述受试者施用本公开的经修饰的cas13蛋白、融合蛋白或crispr-cas13系统、本公开的多核苷酸、本公开的载体、本公开的raav病毒颗粒、本公开的递送系统、本公开的细胞或其后代、本公开的药物组合物、或本公开的试剂盒，其中间隔序列与与所述病症或疾病相关的靶rna的至少15个连续核苷酸基本上互补；其中crrna结合多肽与grna关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述复合物修饰所述靶rna(例如，使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基)，从而治疗所述受试者的病症或疾病。
[0617]
在一些实施方式中，病症或疾病是遗传或表观遗传疾病或障碍。
[0618]
在一些实施方式中，方法是体外方法、体内方法或离体方法。
[0619]
本文所述的crispr-cas系统可以具有多种治疗性应用。这样的应用可基于本发明crispr-cas系统的以下一种或多种体外和体内能力：诱导细胞衰老、诱导细胞周期停滞、抑制细胞生长和/或增殖、诱导凋亡、诱导坏死等。
[0620]
在一些实施方式中，crispr-cas系统可用于治疗各种疾病和障碍，例如遗传障碍(例如，单基因疾病)、可通过核酸酶活性(例如，pcsk9靶向、杜氏肌营养不良(dmd)、bcl11a靶向)治疗的疾病、以及多种癌症等。
[0621]
本文所述的crispr-cas系统还可用于治疗各种tau蛋白病，包括例如原发性和继发性tau蛋白病，如原发性年龄相关性tau蛋白病(part)/神经原纤维缠结(nft)优势型老年性痴呆(其中nft类似于在阿尔茨海默病(ad)中见到的那些，但没有斑块)、拳击性痴呆(慢性创伤性脑病)和进行性核上性麻痹。tau蛋白病的可用列表和治疗这些疾病的方法描述于例如wo 2016205764中，将所述文献通过引用以其全文并入本文。
[0622]
本文所述的crispr-cas系统还可用于靶向破坏顺式作用剪接代码的突变，所述突变可导致剪接缺陷和疾病。这些疾病包括例如，由smn1基因的缺失导致的运动神经元退行性疾病(例如，脊髓性肌萎缩)、杜氏肌营养不良(dmd)、17号染色体相关的额颞叶痴呆合并帕金森综合征(ftdp-17)、以及囊性纤维化。
[0623]
本文所述的crispr-cas系统可进一步用于抗病毒活性，特别是抗rna病毒。所述crispr-cas系统可以使用经选择以靶向病毒rna序列的合适的指导rna来靶向病毒rna。
[0624]
本文所述的crispr-cas系统还可用于在受试者(例如，人受试者)中治疗癌症。例如，本文所述的crispr-cas系统可以用靶向rna分子的crrna编程，所述rna分子是异常的(例如，包含点突变或者经可变剪接)并见于癌细胞中，以诱导癌细胞中的细胞死亡(例如，经由凋亡)。
[0625]
本文所述的crispr-cas系统还可用于在受试者(例如，人受试者)中治疗自身免疫疾病或障碍。例如，本文所述的crispr-cas系统可以用靶向rna分子的crrna编程，所述rna分子是异常的(例如，包含点突变或者经可变剪接)并见于负责引起自身免疫疾病或障碍的细胞中。
[0626]
此外，本文所述的crispr-cas系统还可用于在受试者中治疗感染性疾病。例如，本文所述的crispr-cas系统可以用靶向rna分子的crrna编程，所述rna分子由感染原(例如，细菌、病毒、寄生物或原生动物)表达，以靶向并诱导感染原细胞中的细胞死亡。所述crispr-cas系统还可用于治疗细胞内感染原感染宿主受试者细胞的疾病。通过对所述crispr相关蛋白进行编程以靶向由感染原基因编码的rna分子，可以靶向受感染原感染的细胞并诱导细胞死亡。
[0627]
本文所述的crispr系统的治疗性应用的详细描述可见于例如美国专利号8,795,965、ep 3009511、wo 2016205764和wo 2017070605中；将各个文献通过引用以其全文并入本文。
[0628]
12.示例性另外实施方式
[0629]
本公开提供了以下示例性另外实施方式。
[0630]
实施方式1.一种靶向rna碱基编辑器或其衍生物，所述靶向rna碱基编辑器包含：
[0631]
(a)多肽，所述多肽包含小簇状规则间隔短回文重复序列(crispr)-cas效应酶(“小cas效应酶”)的crrna结合结构域，基本上由其组成，或由其组成，
[0632]
(b)rna碱基编辑器，以及，
[0633]
(c)包含能够与靶rna杂交的间隔序列的rna指导序列，所述间隔序列在间隔序列的5'端和3'端侧接小cas效应酶天然的同向重复(dr)序列，
[0634]
其中所述多肽：
[0635]
(1)连接(例如，融合)到所述rna碱基编辑器，
[0636]
(2)基本上缺乏加工所述rna指导序列的同向重复(dr)序列的能力，以及，
[0637]
(3)与所述rna指导序列形成复合物(例如，通过所述crrna结合结构域与所述dr序列结合)，并且，
[0638]
其中当所述rna指导序列与所述靶rna杂交时，所述rna碱基编辑器使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基。
[0639]
实施方式2.如实施方式1所述的靶向rna碱基编辑器，其中所述小cas效应酶是2类vi-a型(cas13a或c2c2)、vi-b型(cas13b)、vi-c型(cas13c)、vi-d型(cas13d)、vi-e型(cas13e)或vi-f型(cas13f)cas效应酶。
[0640]
实施方式3.如实施方式1或2所述的靶向rna碱基编辑器，其中所述小cas效应酶包含seq id no:1-7中任一个的氨基酸序列。
[0641]
实施方式4.如实施方式2或3所述的靶向rna碱基编辑器，其中所述多肽基本上缺乏n-末端hepn结构域(例如，rxxxxh结构域)和/或c-末端hepn结构域(例如，rxxxxh结构
域)。
[0642]
实施方式5.如实施方式1所述的靶向rna碱基编辑器，其中所述小cas效应酶是2类vi-e型(cas13e)cas效应酶(例如，seq id no:1)，并且其中所述多肽缺乏所述cas13e效应酶(例如，seq id no:1)的约180(例如，170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189或190)个n-末端残基，并且缺乏所述cas13e效应酶的约150(例如，140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159或160)个c-末端残基。
[0643]
实施方式6.如实施方式1所述的靶向rna碱基编辑器，其中所述小cas效应酶是cas6e效应酶，任选地，所述多肽包含seq id no:51(eccas6e-h20l)的氨基酸序列。
[0644]
实施方式7.如实施方式1-5中任一项所述的靶向rna碱基编辑器，其中所述dr序列具有与seq id no:8-14中任一个的二级结构基本上相同的二级结构；或如实施方式6所述的靶向rna碱基编辑器，其中所述dr序列具有与seq id no:47的二级结构基本上相同的二级结构。
[0645]
实施方式8.如实施方式7所述的靶向rna碱基编辑器，其中所述dr序列由seq id no:8-14或47中的任一个编码。
[0646]
实施方式9.如实施方式1-8中任一项所述的靶向rna碱基编辑器，其中所述靶rna由真核dna编码。
[0647]
实施方式10.如实施方式9所述的靶向rna碱基编辑器，其中所述真核dna是非人哺乳动物dna、非人灵长类动物dna、人dna、植物dna、昆虫dna、鸟dna、爬行动物dna、啮齿动物dna、鱼dna、蠕虫/线虫dna、酵母dna。
[0648]
实施方式11.如实施方式1-10中任一项所述的靶向rna碱基编辑器，其中所述靶rna是mrna。
[0649]
实施方式12.如实施方式1-11中任一项所述的靶向rna碱基编辑器，其中所述间隔序列在15-60个核苷酸之间、25-50个核苷酸之间、约55个核苷酸、约50个核苷酸、约45个核苷酸、约40个核苷酸、约35个核苷酸或约30个核苷酸。
[0650]
实施方式13.如实施方式1-12中任一项所述的靶向rna碱基编辑器，其中所述间隔序列与所述靶rna 90％-100％互补，或含有不超过1、2、3、4或5个与所述靶rna的连续或非连续错配。
[0651]
实施方式14.如实施方式1-13中任一项所述的靶向rna碱基编辑器，其中所述rna碱基编辑器包含腺苷脱氨酶，例如双链rna特异性腺苷脱氨酶(例如，adar1或adar2)；催化多肽样载脂蛋白b mrna编辑酶(apobec)；激活诱导的胞苷脱氨酶(aid)，或其功能性片段。
[0652]
实施方式15.如实施方式14所述的靶向rna碱基编辑器，其中所述adar2包含e488q突变或e488q/t375g双突变，或其中其功能性片段包含任选地包含e488q突变或e488q/t375g双突变的adar2dd。
[0653]
实施方式16.如实施方式1-15中任一项所述的靶向rna碱基编辑器，其中所述rna碱基编辑器与所述多肽的c-末端融合。
[0654]
实施方式17.如实施方式16所述的靶向rna碱基编辑器，所述靶向rna碱基编辑器包含连接所述多肽和所述rna碱基编辑器的gs接头。
[0655]
实施方式18.如实施方式17所述的靶向rna碱基编辑器，其中所述gs接头包含gs或
其2-15个重复(seq id no:85)、gsggggs(seq id no:29)或其2-4个重复(seq id no:86)、ggs或其5-10个重复(seq id no:87)、gggs(g3s)(seq id no:63)或其3-7个重复(seq id no:88)、ggggs(g4s)(seq id no:93)或其3-5个重复(seq id no:89)、gggggs(g5s)(seq id no:94)或其3-4个重复(seq id no:90)，或其混合物、或seq id no:33；任选地，所述gs接头的长度为约15、16、17、18、19、20、21、22、23、24、25、26或27个残基。
[0656]
实施方式19.如实施方式1-18中任一项所述的靶向rna碱基编辑器，其中所述多肽和/或所述rna碱基编辑器连接到核定位信号(nls)序列或核输出信号(nes)。
[0657]
实施方式20.如实施方式19所述的靶向rna碱基编辑器，其中所述多肽和/或所述rna碱基编辑器连接到2或3个nls，例如seq id no:35。
[0658]
实施方式21.如实施方式20所述的靶向rna碱基编辑器，其包含在所述多肽的n-末端和c-末端融合的各一个nls。
[0659]
实施方式22.如实施方式1-21中任一项所述的靶向rna碱基编辑器，其中所述rna碱基编辑器将所述靶rna中的腺苷(a)脱氨基为肌苷(i)。
[0660]
实施方式23.如实施方式22所述的靶向rna碱基编辑器，其中所述间隔序列包含与所述靶rna中的腺苷(a)相对的胱氨酸(c)错配。
[0661]
实施方式24.如实施方式23所述的靶向rna碱基编辑器，其中所述胱氨酸错配距离5'或3'dr序列约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸(例如，约15-25个核苷酸)。
[0662]
实施方式25.如实施方式1-24中任一项所述的靶向rna碱基编辑器，其中所述衍生物仅包含保守氨基酸取代或与所述靶向碱基编辑器具有至少约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.2％、99.5％、99.7％或99.8％同一性；并且所述衍生物基本上保留了所述靶向碱基编辑器的所有功能(例如，结合所述指导rna的能力、允许所述指导rna与所述靶rna杂交的能力、使所述靶rna上的靶核糖核苷酸脱氨基的能力、以及避免加工所述rna指导序列的同向重复(dr)序列的能力)。
[0663]
实施方式26.如实施方式1-25中任一项所述的靶向rna碱基编辑器，其进一步包含或缀合至异源功能性结构域。
[0664]
实施方式27.如实施方式26所述的靶向rna碱基编辑器，其中所述异源功能性结构域包含：核定位信号(nls)、报告蛋白或检测标记(例如，gst、hrp、cat、gfp、hcred、dsred、cfp、yfp、bfp)、定位信号、蛋白靶向部分、dna结合结构域(例如，mbp、lex a dbd、gal4 dbd)、表位标签(例如，his、myc、v5、flag、ha、vsv-g、trx等)、转录激活结构域(例如，vp64或vpr)、转录抑制结构域(例如，krab部分或sid部分)、核酸酶(例如，foki)、脱氨基结构域(例如，adar1、adar2、apobec、aid或tad)、甲基化酶、去甲基化酶、转录释放因子、hdac、具有ssrna切割活性的多肽、具有dsrna切割活性的多肽、具有ssdna切割活性的多肽、具有dsdna切割活性的多肽、dna或rna连接酶、或其任何组合。
[0665]
实施方式28.如实施方式26或27所述的靶向rna碱基编辑器，其中所述异源功能性结构域在n-末端、c-末端或内部在所述靶向rna碱基编辑器中融合或缀合。
[0666]
实施方式29.一种多核苷酸，其包含编码实施方式1-28中任一项所述的靶向rna碱基编辑器的蛋白组分的第一多核苷酸，和编码rna指导序列的第二多核苷酸。
[0667]
实施方式30.如实施方式29所述的多核苷酸，其中所述靶向rna碱基编辑器的蛋白
组分的转录和所述rna指导序列的转录是在分开的或独立的启动子和/或增强子的控制下。
[0668]
实施方式31.如实施方式30所述的多核苷酸，其中所述靶向rna碱基编辑器的蛋白组分的转录是在组成型启动子、诱导型启动子、广谱启动子或组织特异性启动子的控制下。
[0669]
实施方式32.如实施方式31所述的多核苷酸，其中所述组成型启动子是rna pol ii启动子，例如cmv启动子、cb启动子、cbh启动子、efs启动子或cag启动子。
[0670]
实施方式33.如实施方式30-32中任一项所述的多核苷酸，其中所述rna指导序列的转录是在rna pol iii启动子，例如u6启动子的控制下。
[0671]
实施方式34.如实施方式29-33中任一项所述的多核苷酸，其中所述第一多核苷酸经密码子优化以在细胞(例如真核细胞或哺乳动物(例如人)细胞)中表达。
[0672]
实施方式35.一种载体，所述载体包含实施方式29-34中任一项所述的多核苷酸。
[0673]
实施方式36.如实施方式35所述的载体，所述载体是质粒。
[0674]
实施方式37.如实施方式35所述的载体，所述载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(hsv)载体、aav载体或慢病毒载体。
[0675]
实施方式38.如实施方式35所述的载体，所述载体是aav载体，所述aav载体包含实施方式29-34中任一项所述的侧接5’itr(例如aav2 5’itr)和3’itr(例如aav2 3’itr)的多核苷酸。
[0676]
实施方式39.如实施方式38所述的载体，其中实施方式29-34中任一项所述的多核苷酸进一步包含促进所述靶向rna碱基编辑器的蛋白组分的转录的内含子和/或外显子。
[0677]
实施方式40.如实施方式38或39所述的载体，所述载体进一步包含与编码所述靶向rna碱基编辑器的蛋白组分的第一多核苷酸可操作地连接的polya信号序列的编码序列。
[0678]
实施方式41.如实施方式38-40中任一项所述的载体，所述载体在编码所述靶向rna碱基编辑器的蛋白组分的第一多核苷酸中进一步包含5’utr和/或3’utr编码序列。
[0679]
实施方式42.如实施方式38-41中任一项所述的载体，所述载体进一步包含wpre序列。
[0680]
实施方式43.一种包含实施方式37-42中任一项所述的aav载体的重组aav(raav)病毒颗粒，所述aav载体包封在具有aav1、aav2、aav3a、aav3b、aav4、aav5、aav6、aav7、aavrh74、aav8、aav9、aav10、aav11、aav12或aav13的血清型的衣壳内。
[0681]
实施方式44.一种递送系统，其包含(1)递送媒介物，和(2)实施方式1-28中任一项所述的靶向rna碱基编辑器、实施方式29-34中任一项所述的多核苷酸、实施方式35-42中任一项所述的载体或实施方式43所述的raav病毒颗粒。
[0682]
实施方式45.如实施方式44所述的递送系统，其中所述递送媒介物是纳米颗粒、脂质体、外泌体、微泡或基因枪。
[0683]
实施方式46.一种细胞或其后代，其包含实施方式1-28中任一项所述的靶向rna碱基编辑器、实施方式29-34中任一项所述的多核苷酸、实施方式35-42中任一项所述的载体或实施方式43所述的raav病毒颗粒。
[0684]
实施方式47.如实施方式46所述的细胞或其后代，所述细胞或其后代是真核细胞(例如，非人哺乳动物细胞、人细胞或植物细胞)或原核细胞(例如，细菌细胞)。
[0685]
实施方式48.一种包含实施方式46或47所述的细胞的非人多细胞真核生物。
[0686]
实施方式49.如实施方式48所述的非人多细胞真核生物，所述非人多细胞真核生
物是针对人遗传障碍的动物(例如，啮齿动物或灵长类动物)模型。
[0687]
实施方式50.一种修饰靶rna的方法，所述方法包括使所述靶rna与实施方式1-28中任一项所述的靶向rna碱基编辑器接触，其中所述间隔序列与所述靶rna的至少15个核苷酸互补；其中多肽与所述rna指导序列关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述靶向rna碱基编辑器使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基。
[0688]
实施方式51.如实施方式50所述的方法，其中所述靶rna是mrna、trna、rrna、非编码rna、lncrna或核rna。
[0689]
实施方式52.如实施方式50或51所述的方法，其中所述靶rna在细胞内。
[0690]
实施方式53.如实施方式52所述的方法，其中所述细胞是癌细胞。
[0691]
实施方式54.如实施方式52所述的方法，其中所述细胞被感染原感染。
[0692]
实施方式55.如实施方式54所述的方法，其中所述感染原是病毒、朊病毒、原生动物、真菌或寄生物。
[0693]
实施方式56.如实施方案54所述的方法，其中所述细胞具有与遗传疾病或障碍相关的突变。
[0694]
实施方式57.如实施方式50-56中任一项所述的方法，所述方法导致以下一项或多项：(i)体外或体内诱导细胞衰老；(ii)体外或体内细胞周期停滞；(iii)体外或体内细胞生长抑制和/或细胞生长抑制；(iv)体外或体内诱导无能；(v)体外或体内诱导凋亡；以及(vi)体外或体内诱导坏死。
[0695]
实施方式58.一种治疗有需要的受试者的病症或疾病的方法，所述方法包括向所述受试者施用包含实施方式1-28中任一项所述的靶向rna碱基编辑器、实施方式29-34中任一项所述的多核苷酸、实施方式35-42中任一项所述的载体或实施方式43所述的raav病毒颗粒的组合物，其中所述间隔序列与与病症或疾病相关的靶rna的至少15个核苷酸互补；其中所述靶向rna碱基编辑器的多肽与所述rna指导序列关联以形成复合物；其中所述复合物与所述靶rna结合；并且其中在所述复合物与所述靶rna结合后，所述靶向rna碱基编辑器使所述靶rna中的靶核糖核苷酸碱基(例如，a或c)脱氨基，从而治疗所述受试者的病症或疾病。
[0696]
实施方式59.如实施方式58所述的方法，其中所述病症或疾病是癌症或感染性疾病。
[0697]
实施方式60.如实施方式59所述的方法，其中所述癌症是威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、胶质母细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。
[0698]
实施方式61.如实施方式58-60中任一项所述的方法，其是体外方法、体内方法或离体方法。
[0699]
实施例
[0700]
实施例1使用缩短的dcas13e.1-hadar2
dd
融合物进行的rna单碱基编辑
[0701]
为了确定可用于rna单碱基编辑的死cas13e.1(dcas13e.1或dcas13e，当在实施例和附图中提及时)的最小尺寸，生成了一系列五种表达dcas13e.1的渐进增大的c-末端缺失(截短)的构建体，每个构建体的c-末端减少30个残基(即，30个、60个、90个、120个和150个残基缺失)。所得构建体用于创建在各个c-末端处与高保真人adar2脱氨酶结构域-e488q/t375g突变体(图4中显示为“adad2dd”的hadar2
dd-e488q/t375g(seq id no:138))融合的dcas13e.1的编码序列。将这些构建体克隆到vysz15(“v15”)至vysz19(“v19”)表达质粒中(图4)。在所有这些构建体中，每个dcas13e.1-adar2dd融合蛋白在cmv启动子(pcmv)和增强子(ecmv)的调节下表达，并紧接进一步增强蛋白表达的内含子的下游。两个核定位序列(nls)位于融合蛋白的dcas13e.1部分的n-末端和c-末端，hadar2
dd-e488q/t375g通过接头与c-末端nls融合，并用ha标签在其c-末端处加标签。在efs启动子(pefs)的独立控制下的egfp编码序列存在于ha标签下游的polya序列的下游，以指示表达质粒的成功转染和表达。
[0702]
有趣的是，发现(图6)渐进c-末端缺失(截短)稳定地增加了融合蛋白的rna碱基编辑活性，使得具有150个c-末端残基缺失的融合蛋白(在v19中)展现了最高的rna碱基编辑活性。然而，c-末端缺失180个残基似乎已经消除了rna碱基编辑活性，这表明cas13e.1的c-末端的最大/最佳缺失可能在150-180个残基之间。
[0703]
基于该发现，基于具有150个c-末端残基缺失的c-末端截短的dcas13e.1产生了一系列n-末端缺失(截短)突变体。生成了七个这样的n-末端缺失(截短)突变体，分别具有30个、60个、90个、120个、150个、180个和210个残基缺失(截短)(图5)。图6中的结果显示，对于具有180个n-末端残基缺失和150个c-末端残基缺失的截短的dcas13e.1突变体，观察到最佳的rna碱基编辑活性，即从775个残基的亲本cas13e.1蛋白中总共缺失330个残基，以产生适用于产生与异源功能性结构域，例如脱氨酶结构域的融合蛋白的445个残基的最佳截短的dcas13e.1(“minidcas13e.1”，seq id no:32)。
[0704]
实施例2碱基编辑器的转录组范围的脱靶检测
[0705]
靶向rna碱基编辑器的一个关键的期望属性是其在一个或多个非预期rna位点避免脱靶碱基编辑的能力，并且尽可能地将碱基编辑功能限制于预期的靶rna序列。
[0706]
本实施例证明，本发明靶向rna碱基编辑器-minidcas13e.1(或实施例和附图中的“minicas13e”)-hadar2
dd-e448q(或实施例和附图中的“adar2dd_e448q”)融合蛋白的脱靶rna碱基编辑出乎意料地低。
[0707]
特别地，构建了与激活的adar2脱氨酶结构域hadar2
dd-e488q(seq id no:34)融合的全长dcas13e.1(seq id no:31)(dcas13e.1-hadar2
dd-e448q，seq id no:36)，和与相同的激活的adar2dd hadar2
dd-e488q(seq id no:34)融合的具有180个n-末端残基缺失和150个c-末端残基缺失的minidcas13e.1(seq id no:32)(minidcas13e.1-hadar2
dd-e448q，seq id no:37)(图7)。将全长dcas13e.1和minidcas13e.1蛋白各自在其n-末端和c-末端处与两个nls序列融合，并将hadar2
dd-e448q结构域通过gs接头(seq id no:33)在hadar2
dd-e448q的n-末端处与全长dcas13e.1或minidcas13e.1部分c-末端融合。此外，在能够表达egfp荧光蛋白以指示表达质粒的成功转染和表达的哺乳动物表达质粒上构建hadar2
dd-e448q、minidcas13e.1-hadar2
dd-e448q和dcas13e.1-hadar2
dd-e448q构建体。
[0708]
根据标准方法在24孔组织培养板中培养人hek293t细胞，然后将分别编码hadar2
dd-e448q、minidcas13e.1-hadar2
dd-e448q或dcas13e.1-hadar2
dd-e448q的表达质粒
(各自也表达egfp，参见上文)和仅编码egfp的对照表达质粒使用标准聚乙烯亚胺(pei)转染分别转染到hek293t细胞中。然后将经转染的细胞在37℃在co2下培养48小时。培养48小时后，通过流式细胞术分选培养的细胞以获得基于egfp信号的阳性转染细胞。
[0709]
接着，通过rnaseq文库构建和测序，分析四个样品的整个转录组“a至i”脱靶效果。令人惊讶地观察到(图8)，minidcas13e.1构建体使转录组范围的rna脱靶碱基编辑显著降低两个数量级——与minidcas13e.1-hadar2
dd-e448q相关的水平仅为dcas13e.1-hadar2
dd-e448q水平的约1％。
[0710]
实施例3经由荧光报告系统进行的minidcas13e.1-hadar2
dd-e448q碱基编辑器的rt-pcr脱靶碱基编辑检测
[0711]
本实施例通过荧光报告系统证明，minidcas13e.1-hadar2
dd-e448q融合蛋白比dcas13b-hadar2
dd-e448q具有更少的rna脱靶碱基编辑。hadar2
dd-e448q在实施例和附图中也称为adarv1。
[0712]
基于实施例2中的数据，选择具有高于平均脱靶碱基编辑效率的碱基位点，用于比较hadar2
dd-e448q(adarv1)在与或不与minidcas13e.1或dcas13b蛋白融合时的脱靶碱基编辑效率。简言之，构建报告质粒以转录图9中含有提前tag终止密码子-t2a-egfp mrna的mcherry-p2a-脱靶位点1。p2a和t2a的序列分别在seq id no:40和41中列出。egfp的表达依赖于经由碱基编辑将a转化为i以校正提前tag终止密码子。因此，egfp表达被用作碱基编辑效率的替代物。脱靶位点的编码序列在seq id no:38中列出。用于a至i碱基编辑的靶核苷酸“a”加双下划线。
[0713]
用于碱基编辑器的表达质粒包含在u6启动子调节下的不含dr编码序列的间隔(图9中的“sg”)编码序列(seq id no:39，靶向seq id no:38中列出的脱靶位点并含有“c”错配以增强a至i转化的碱基编辑效率)，在cbh启动子调节下的碱基编辑器编码序列和poly a序列，和在cmv启动子调节下的bfp荧光报告基因和poly a序列。碱基编辑器由(1)nes(seq id no:48)和gs接头(seq id no:33)下游的hadar2
dd-e448q(seq id no:34)，(2)nls-minidcas13e.1-nls-gs接头-hadar2
dd-e488q(seq id no:34)，或(3)dcas13b-nes-gs接头-hadar2
dd-e488q(seq id no:42)组成。
[0714]
根据标准方法在24孔组织培养板中培养人hek293t细胞，然后使用标准聚乙烯亚胺(pei)转染将表达质粒(表达bfp)和报告质粒(表达mcherry)转染到细胞中。然后将经转染的细胞在37℃在co2下培养48小时。约72小时后，通过流式细胞术分选培养的bfp和mcherry双阳性细胞。还使用facs检测egfp信号作为a至i rna碱基编辑的读数。
[0715]
使用rt-pcr测定“a至i”脱靶编辑的程度。特别地，从不同经转染的细胞样品中提取rna，并在rt-pcr后进行sanger测序。根据sanger测序的结果分析脱靶碱基编辑效率(图10)。
[0716]
结果(图11)显示minidcas13e.1或dcas13b蛋白与adarv1的融合蛋白实现了比单独的adarv1显著更低的脱靶rna碱基编辑效率，并且minidcas13e.1-hadar2
dd-e448q实现了比dcas13b-hadar2
dd-e448q低得多的脱靶碱基编辑效率。这些数据证明，就rna脱靶碱基编辑而言，本发明的基于minidcas13e.1的碱基编辑器优于类似构型的已知碱基编辑器。
[0717]
使用小cas效应酶的突变版本eccas6e-h20l代替minidcas13e.1(数据未显示)也获得了类似的结果，其具有相对低的脱靶a至i转化。
dr序列的串联体以释放单个间隔序列-dr序列或dr序列-间隔序列作为单个指导rna的能力)。另一种碱基编辑器是与adarv1连接的侧接n-末端和c-末端nls(seq id no:35)的本发明minidcas13e.1。gs接头在seq id no:33中列出。对于minidcas13e.1碱基编辑器，dr编码序列在seq id no:8中列出。对于eccas6e-h20l碱基编辑器，dr编码序列在seq id no:47中列出。
[0729]
如在实施例4中，将报告质粒和表达质粒转染到hek293细胞系中，并在转染后48小时用流式细胞术分析egfp

(“g ”)和bfp

/mcherry

(“br ”)的百分比。较高的比率表示更成功的碱基编辑。
[0730]
结果(图15)显示，对于分别基于eccas6e和cas13e.1的不同碱基编辑器和不同于实施例4的靶位点，与在其他方面具有相同的构型的单dr(sdr)grna构建体相比，双dr(ddr)grna构建体仍然实现了更高的a至i碱基编辑效率。
[0731]
实施例6对于dmd外显子54x疾病位点，具有双dr(ddr)的指导rna比具有单dr(sdr)的指导rna具有更高的碱基编辑效率
[0732]
如在实施例5中，该实施例证明，基于在另一个dmd致病位点(dmd外显子54x)获得的数据，ddr构建体与相应的sdr构建体相比具有更高的编辑效率。
[0733]
如在实施例5中，该dmd致病位点含有产生提前终止密码子tag的g》a突变，并且报告egfp的表达依赖于成功的rna碱基编辑以将tag终止密码子转化为tgg。dmd外显子54x(g》a)靶序列在seq id no:49中列出，突变t加双下划线。
[0734]
参考图16，如在实施例5中，设计涵盖dmd外显子54x(g》a)靶序列的报告质粒。同时，将sdr/ddr grna-eccas6e-h20l-adarv2构建体(如实施例5中的sdr/ddr grna-eccas6e-h20l-adarv1，除了adarv1被adarv2替换)用作本实施例中的碱基编辑器。将报告质粒与ddr或sdr碱基编辑器(eccas6e-h20l-adarv2)表达质粒共转移到hek293t细胞中。48小时后，用流式细胞术分析egfp/(bfp

和mcherry

)的比率。
[0735]
观察到(图17)，对于又另一个靶位点和基于不同脱氨酶结构域的又另一个碱基编辑器，双dr(ddr)构建体也比相应的单dr(sdr)构建体实现了更高的a至i碱基编辑效率。
[0736]
实施例7对于rpe65 q64x疾病位点，具有双dr(ddr)的指导rna比具有单dr(sdr)的指导rna具有更高的碱基编辑效率
[0737]
该实施例进一步证明，使用又另一个疾病位点——rpe65 q64x疾病位点突变(seq id no:50)，ddr相对于sdr的如实施例4-6中的令人惊讶的优势。rpe65q64x疾病位点突变导致异常的可变剪接，因此全长mrna的比例降低。因此，该疾病模型提供了rna前体碱基编辑的不同背景以增强翻译，而不是mrna碱基编辑以减轻翻译的提早终止。
[0738]
此外，如在实施例4(图18)中，再次验证了不同核进入序列在minidcas13e.1-adarv1系统中的影响。
[0739]
参考图18，如在前述实施例中，构建sdr和ddr grna构建体(seq id no:8的dr编码序列的一个或两个拷贝)用于每个测试的碱基编辑器。碱基编辑器的不同之处在于它们具有1xnes、1xnls、2xnls或3xnls，但在其他方面与本发明minidcas13e.1部分和adarv1部分类似。设计sdr和ddr grna的间隔序列以将ta(a1)a(a2)校正为tgg。
[0740]
将报告质粒分别与不同的碱基编辑器表达质粒一起转染到hek293细胞系中。培养72小时后，通过流式细胞术分选细胞以获得阳性转染细胞(bfp和egfp双阳性)。提取rna，在
rt-pcr后进行sanger测序或凝胶电泳。基于sanger测序分析了不同碱基编辑系统的a至i碱基编辑效率。
[0741]
结果(图19)显示，与不同的核进入序列无关，对于a1位点和a2位点，所有双dr(ddr)grna构建体都实现了比相应的单dr(sdr)grna构建体更高的a至i碱基编辑效率，再次证实了基于ddr-grna的碱基编辑系统的优越的碱基编辑效率。
[0742]
另一方面，基于rt-pcr凝胶电泳的凝胶图像的结果(图20a和20b)，大致发现通过双dr(ddr)grna碱基编辑系统实现的全长mrna(正确加工的mrna)的百分比高于通过单dr(sdr)grna碱基编辑系统实现的全长mrna的百分比或与其相当。
[0743]
总之，最佳的核进入序列组合似乎是2xnls和3xnls，如也在实施例4中发现的(图13)。
[0744]
实施例8h20基因座中的突变使eccas6e丧失dr加工能力
[0745]
该实施例证明，本发明的小cas效应酶如eccas6e中的某些突变导致它们丧失dr加工能力，但仍保留与dr序列和指导rna序列的结合。
[0746]
参考图21，对于报告构建体，将eccas6e dr编码序列(seq id no:47)插入到d2egfp(seq id no:52)编码序列的前面，使得使用egfp表达的阳性率来表示eccas6e突变体的dr切割/加工功能的丧失。egfp表达的阳性率越高，eccas6e突变引起的dr加工功能的丧失越严重。在mcherry(seq id no:53)编码序列中进行提前终止密码子突变，从而使用mcherry阳性率来反映碱基编辑效率。碱基编辑器表达构建体与先前的实施例类似地构建，其中cas部分是eccas6e(seq id no:55)或eccas6e-h20l(seq id no:51)，脱氨酶结构域是rescues(seq id no:56)，并且grna是具有eccas6e dr编码序列(seq id no；47)和靶向mcherry编码序列中的提前终止密码子(靶位点)的间隔编码序列(seq id no:54)的单dr构型。
[0747]
将报告质粒和碱基编辑器表达质粒转移到hek293t细胞中，并在72小时后通过流式细胞术分析egfp或mcherry的阳性率，分别指示eccas6e或eccas6e-h20l的dr加工能力和两种碱基编辑器的碱基编辑效率。
[0748]
结果(图22)显示，eccas6e(“cas6e”)蛋白表现出良好的dr切割/加工功能(参见egfp的阳性率几乎为0)，而eccas6e-h20l突变体(“cas6e(h20l)”)几乎完全丧失dr切割/加工功能，但在mcherry靶位点处仍表现出相当高的碱基编辑效率(图23)。
[0749]
实施例9：minidcas13e.1蛋白的dr序列加工能力的丧失的评估
[0750]
先前的数据已经证明，对于由包含minidcas13e.1(seq id no:32)或eccas6e-h20l(seq id no:51)的rna碱基编辑器介导的rna碱基编辑，与具有单dr序列的grna构建体相比，具有双dr序列的grna构建体实现了更高的rna碱基编辑效率。还已证明，eccas6e-h20l突变体丧失了其加工grna的dr序列的能力。因此，在该实施例中进一步研究了minidcas13e.1是否也丧失其dr序列加工能力。
[0751]
设计和构建：
[0752]
构建报告质粒和表达质粒用于对minidcas13e.1的dr序列加工能力进行荧光检测，如图24a所示。
[0753]
报告质粒包含在cmv启动子调节下的d2egfp荧光报告基因和polya序列以及在cmv启动子调节下的含提前终止密码子的mcherry荧光报告基因和polya序列。将cas13e.1dr编
码序列(seq id no:8)插入cmv启动子和d2egfp荧光报告基因之间。
[0754]
用于碱基编辑器的表达质粒包含5'-间隔子-dr-3'构型的grna编码序列，所述grna编码序列包含在u6启动子调节下的cas13e.1dr编码序列(seq id no:8)，在cbh启动子调节下的碱基编辑器编码序列和poly a序列，以及在cmv启动子调节下的bfp荧光报告基因和poly a序列。碱基编辑器由全长dcas13e.1(seq id no:31)或minidcas13e.1(seq id no:32)蛋白组成，所述蛋白在死cas蛋白的n-末端和c-末端侧接sv40 nls(seq id no:35)，经由gs接头(seq id no:33)连接到rescues脱氨酶结构域(人adar2
dd-e488q/v351g/s486a/t375a/s370c/p462a/n597i/l332i/i398v/k350i/m383l/d619g/s582t/v440i/s495n/k418e/s661t突变体，seq id no:56)。设计grna中包含的间隔序列的编码序列(seq id no:164)以靶向经转录的mcherry mrna上的提前终止密码子。来自bfp的蓝色荧光将指示表达质粒在宿主细胞中的成功转染和表达。
[0755]
在保留minidcas13e.1的天然dr序列加工能力的情况下，从报告质粒转录的cas13e.1dr-d2egfp转录物的cas13e.1dr转录物部分将被切割，导致后者d2egfp转录物部分的不稳定性和降解，因此没有或有很少的绿色荧光信号。在minidcas13e.1的天然dr序列加工能力降低或消除的情况下，d2egfp将被正确翻译并发射绿色荧光以指示minidcas13e.1的dr序列加工能力的成功降低或消除。
[0756]
转染和检测
[0757]
根据标准方法将hek293t细胞在24孔组织培养板中培养12小时，然后使用标准聚乙烯亚胺(pei)转染将报告质粒和表达质粒共转染到细胞中。然后将经转染的细胞在37℃在co2下培养72小时。然后通过流式细胞术分析培养的细胞。作为阴性对照，仅将报告质粒转染到细胞中。
[0758]
dr序列加工活性与bfp阳性细胞中egfp阳性细胞的百分比成反比。
[0759]
％egfp

/bfp

越高，dr序列加工能力越低。
[0760]
结果：
[0761]
流式细胞术结果(表1，图24b)显示全长dcas13e.1蛋白保留显著的dr序列加工能力，因为egfp阳性细胞在bfp阳性细胞中的百分比(8.3％)显著低于没有dr序列加工的阴性对照(37.2％)，而minidcas13e.1几乎完全丧失其dr序列加工能力，并且显示egfp阳性细胞在bfp阳性细胞中的百分比(36.7％)，与没有dr序列加工的阴性对照(37.2％)相当。因此，minidcas13e.1的n180 c150截短不仅消除了其亲本cas13e.1效应蛋白的rna切割活性，而且消除了其dr序列加工能力。
[0762]
表1.
[0763][0764]
上述结果再次提供了关于为什么当与包含minidcas13e.1的碱基编辑器组合使用时，具有双dr序列的grna构型在碱基编辑方面比具有单dr序列的grna构型更有效的合理解
释。
[0765]
实施例10：ddcas13b蛋白的dr序列加工能力的丧失的评估和基于ddcas13b的碱基编辑器的碱基编辑效率的评估
[0766]
按照评估minidcas13e.1和eccas6e-h20l蛋白的dr序列加工能力和基于minidcas13e.1和eccas6e-h20l的碱基编辑器的碱基编辑效率的相同程序，选择另一种2类vi型效应蛋白pspcas13b用于dr序列加工能力和碱基编辑效率的双重评估，以扩展双dr grna策略的适用性。
[0767]
设计和构建：
[0768]
将突变d369a k370a r380a引入到dpspcas13b(seq id no:174，来自repairv1)中以产生ddpspcas13b(seq id no:176)用于双重评估。
[0769]
构建报告质粒和表达质粒用于对dr序列加工能力和碱基编辑效率进行荧光检测，如图27中所示。
[0770]
报告质粒包含在cmv启动子调节下的d2egfp荧光报告基因和polya序列以及在cmv启动子调节下的含提前终止密码子的mcherry荧光报告基因和polya序列。将pspcas13b dr编码序列(seq id no:173)插入cmv启动子和d2egfp荧光报告基因之间。含有提前终止密码子的mcherry荧光报告基因在其mcherry编码序列中的位置w148处含有从tgg密码子(w)突变的w148*提前终止密码子tag，其导致提前终止以防止mcherry蛋白的表达和因此红色荧光的发射。
[0771]
用于碱基编辑器的表达质粒包含仅用于评估dr序列加工能力的5'-间隔子-dr-3'构型的grna编码序列和用于评估碱基编辑效率的5'-间隔子-dr-3'构型和5'-dr-间隔子-dr-3'构型(未示出)的grna编码序列，其中所述grna包含在u6启动子调节下的pspcas13b dr编码序列(seq id no:173)，在cmv启动子调节下的碱基编辑器编码序列和poly a序列，以及在cmv启动子调节下的bfp荧光报告基因和poly a序列。碱基编辑器由dpspcas13b(“d13b”，seq id no:174)或ddcas13b(“dd13b”，seq id no:176)蛋白组成，所述蛋白在死cas蛋白的c-末端处侧接nes(seq id no:48)，所述nes经由gs接头(seq id no:33)连接到adarv1脱氨酶结构域(seq id no:34)。将gslq的短接头插入在cas蛋白和nes之间。设计grna中包含的间隔序列(靶向间隔序列)的编码序列(seq id no:166)以靶向经转录的mcherry mrna上的w148*提前终止密码子，同时含有与针对w148处待编辑的提前终止密码子的靶标a的错配g对应的c。来自bfp的蓝色荧光将指示表达质粒在宿主细胞中的成功转染和表达。
[0772]
在保留ddpspcas13b的天然dr序列加工能力的情况下，从报告质粒转录的pspcas13b dr-d2egfp转录物的pspcas13b dr转录物部分将被切割，导致后者d2egfp转录物部分的不稳定性和降解，因此没有或有很少的绿色荧光信号。在ddpspcas13b的天然dr序列加工能力降低或消除的情况下，d2egfp将被正确翻译并发射绿色荧光以指示ddpspcas13b的dr序列加工能力的成功降低或消除。
[0773]
在经转录的mcherry mrna上的w148*提前终止密码子被a至i碱基编辑器成功编辑的情况下，mcherry蛋白将被正确翻译并发射红色荧光以指示a至i碱基编辑器成功的中靶a至i碱基编辑。
[0774]
转染和检测
[0775]
根据标准方法将hek293t细胞在24孔组织培养板中培养12小时，然后使用标准聚乙烯亚胺(pei)转染将报告质粒和表达质粒共转染到细胞中。然后将经转染的细胞在37℃在co2下培养72小时。然后通过流式细胞术分析培养的细胞。作为阴性对照，仅将报告质粒转染到细胞中。
[0776]
dr序列加工活性与bfp阳性细胞中egfp阳性细胞的百分比成反比。
[0777]
％egfp

/bfp

越高，dr序列加工能力越低。
[0778]
每个碱基编辑器的rna碱基编辑效率计算为mcherry阳性细胞(“r ”，指示在指定位置处的阳性碱基编辑)与bfp阳性细胞(“bfp ”，指示成功的共转染和共表达)的比率。
[0779]
结果：
[0780]
关于dr序列加工能力的流式细胞术结果(表2，图28)显示，与ddpspcas13b(其显示bfp阳性细胞中egfp阳性细胞的百分比高得多(13.90％))相比，dpspcas13b蛋白(1.85％)保留了显著的dr序列加工能力。因此，引入dpspcas13b的突变d369a k370a r380a消除了其亲本dpspcas13b蛋白的dr序列加工能力。
[0781]
关于a至i碱基编辑效率的流式细胞术结果(表2，图29)显示，类似于基于minidcas13e.1和eccas6e-h20l的碱基编辑器，基于ddpspcas13b的碱基编辑器使用双dr grna构型(42.93％)比使用单dr grna构型(17.17％)也实现了显著更高的a至i碱基编辑效率。
[0782]
表2.
[0783][0784][0785]
讨论：
[0786]
上述结果再次提供了关于为什么当与包含ddpspcas13b的碱基编辑器组合使用时，具有双dr序列的grna构型在碱基编辑方面比具有单dr序列的grna构型更有效的合理解释。
[0787]
与包含eccas6e-h20l或minidcas13e.1(其中dr序列加工能力丧失)的碱基编辑器组合使用时在碱基编辑方面具有双dr序列的grna构型比具有单dr序列的grna构型更有效，结合该证明，据信cas效应蛋白的dr序列加工能力的丧失有助于双dr grna构型的维持并且使双dr可能更高地募集死cas蛋白，当修饰死cas蛋白用于碱基编辑时，导致更高的碱基编辑效率。因此，提出通过去除cas效应蛋白的dr序列加工能力，具有双dr序列的高效指导rna构型可与基本上缺乏加工指导rna的dr序列的能力的这样的cas蛋白一起使用，用于各种目的，例如碱基编辑、转录调节、表观遗传修饰。
[0788]
实施例11：另外的截短的cas13蛋白的鉴定
[0789]
通过在n-末端和c-末端处截短构建cas13e.1的死亡版本(n180 c150截短)，并且当与脱氨酶结构域组合时，与其他截短模式相比，显示具有最佳rna碱基编辑效率以及小分
子大小，这使其成为构建用于例如碱基编辑、转录调节、表观遗传修饰的目的的各种rna工具的合适基础。
[0790]
在该实施例中，更多的一些cas13效应蛋白(cas13e.2、cas13e.3、cas13e.7和cas13f.2；图25)在n-末端和c-末端处截短。两种类型的截短n150 c150和n180 c180在本文中用于初步研究，分别代表从n-末端和c-末端缺失150个氨基酸和从n-末端和c-末端缺失180个氨基酸。
[0791]
据信，考虑到在参考cas13e.1上预测的关键催化位点rxxxxh基序的位置和申请人对那些cas13效应蛋白的功能性结构域结构的预测，所设计的截短也应足以缺失那些cas13效应蛋白的关键催化位点，导致死cas13蛋白作为rna靶向结构域，所述rna靶向结构域适于与各种异源功能性结构域关联，用于例如碱基编辑、转录调节、表观遗传修饰的目的。
[0792]
为了评估这样的截短的cas13蛋白作为rna靶向结构域的适用性，检测了通过将每个截短的cas13蛋白与adar脱氨酶结构域融合形成融合蛋白而形成的a至i碱基编辑器的rna碱基编辑效率。
[0793]
设计和构建：
[0794]
构建报告质粒和表达质粒用于对rna碱基编辑效率进行荧光检测，如图26a中所示。
[0795]
报告质粒包含在cmv启动子调节下的bfp-p2a-mcherry-w148x双荧光报告基因和poly a序列(seq id no:165)。来自bfp的蓝色荧光将指示报告质粒在宿主细胞中的成功转染和表达。双荧光报告基因在其mcherry编码序列中的位置w148处含有从密码子(w)突变的w148*提前终止密码子其导致提前终止以防止mcherry蛋白的表达和因此红色荧光的发射。
[0796]
用于碱基编辑器的表达质粒包含在u6启动子调节下的5'-dr-间隔子-dr-3'构型的grna编码序列，在cmv启动子调节下的碱基编辑器编码序列和poly a序列，以及在cmv启动子调节下的egfp荧光报告基因和poly a序列。碱基编辑器由侧接两个sv40 nls(seq id no:35)的截短的cas13(死cas13)蛋白组成，所述蛋白经由gs接头(seq id no:33)连接到人adar2
dd-e488q。所测试的截短的cas13包括dcas13e.2-n150 c150(seq id no:168)、dcas13e.2-n180 c180(seq id no:169)、dcas13e.3-n180 c180(seq id no:170)、dcas13e.7-n150 c150(seq id no:171)、dcas13f.2-n150 c150(seq id no:172)，以及作为阳性对照的实施例1中的minidcas13e.1-n180 c150(seq id no:32)。设计grna中包含的间隔序列(靶向间隔序列)的编码序列(seq id no:166)以靶向经转录的mcherry mrna上的w148*提前终止密码子，同时含有与针对w148处待编辑的提前终止密码子的靶标a的错配g对应的c。来自egfp的绿色荧光将指示表达质粒在宿主细胞中的成功转染和表达。作为阴性对照，使用非靶向间隔序列(“nt”)的编码序列(seq id no:167)代替靶向间隔序列的编码序列(seq id no:166)。
[0797]
在经转录的mcherry mrna上的w148*提前终止密码子被a至i碱基编辑器成功编辑的情况下，mcherry蛋白将被正确翻译并发射红色荧光以指示a至i碱基编辑器成功的中靶a至i碱基编辑。
[0798]
转染和检测：
[0799]
根据标准方法将hek293t细胞在24孔组织培养板中培养12小时，然后使用标准聚
乙烯亚胺(pei)转染将报告质粒和表达质粒共转染到细胞中。然后将经转染的细胞在37℃在co2下培养48小时。然后通过流式细胞术分析培养的细胞。每个碱基编辑器的rna碱基编辑效率计算为mcherry阳性细胞(“r ”，指示在指定位置处的阳性碱基编辑)与bfp/egfp双阳性细胞(“bg ”，指示成功的共转染和共表达)的比率。
[0800]
结果：
[0801]
流式细胞术结果(表3，图26b)显示所有5个本发明碱基编辑器(与dcas13e.2-n150 c150、dcas13e.2-n180 c180、dcas13e.3-n180 c180、dcas13e.7-n150 c150或dcas13f.2-n150 c150组合的hadar2
dd-e488q)实现显著的a至i转化，并且包含dcas13e.3-n180 c180的碱基编辑器甚至实现比阳性对照更高的a至i转化率。
[0802]
表3.每个本发明碱基编辑器与包含minidcas13e.1的碱基编辑器相比的rna碱基编辑效率
[0803][0804][0805]
讨论：
[0806]
因此，从上述得出结论，可以通过截短亲本cas13蛋白的n-末端和c-末端以生成死cas蛋白来构建适于与各种异源功能性结构域关联以用于例如碱基编辑、转录调节、表观遗传修饰的目的的较小rna靶向结构域。
[0807]
表4.去除hepn1和hepn2对a至i碱基编辑效率的影响的分析
[0808][0809]
*其中每个截短的cas13e.1蛋白与hadar2
dd-e488q/t375g而不是hadar2
dd-e488q融合。
[0810]
为了进行进一步的分析，来自表3和图6的n-末端和c-末端截短和hepn结构域以及相关的a至i碱基编辑效率列于上述同一表4中。通过比较n-末端和c-末端截短的长度与hepn1和hepn2结构域的长度，可以确定hepn1和/或hepn2结构域是完全去除或几乎完全去除，或不完全去除但保留大部分。例如，dcas13e.1-v1含有大部分hepn1(保留大部分)并且几乎没有hepn2(几乎完全去除)；dcas13e.1-v2不含hepn1(几乎完全去除)并且几乎不含hepn2(几乎完全去除)。
[0811]
观察到，当hepn1和hepn2结构域两者被完全或几乎完全去除时，dcas13e.1-v2(n180 c150)和dcas13e.3-v1(n180 c180)分别实现了67.43和79.17的相当高的碱基编辑效率。对于dcas13e.1-v2，长度为179个氨基酸的hepn1通过180个氨基酸的n-末端截短被完全去除，长度为155个氨基酸的hepn2通过150个氨基酸的c-末端截短被几乎完全去除。对于dcas13e.3-v1，长度为178个氨基酸的hepn1通过180个氨基酸的n-末端截短被完全去除，长度为187个氨基酸的hepn2通过180个氨基酸的c-末端截短被几乎完全去除。
[0812]
相反，当hepn1或hepn2结构域未被完全或几乎完全去除但保留大部分时，dcas13e.1-v1、dcas13e.2-v1、dcas13e.7-v1和dcas13f.2-v1中每一个的碱基编辑效率与完全或几乎完全去除hepn1和hepn2结构域两者的dcas13e.1-v2和dcas13e.3-v1相比相对较低。dcas13e.1-v1、dcas13e.2-v1、dcas13e.7-v1和dcas13f.2-v1中每一个保留大部分hepn1，dcas13e.7-v1还保留大部分hepn2。
[0813]
有趣的是，还注意到，hepn1和/或hepn2结构域的过度去除也可能不利地影响碱基编辑效率。例如，dcas13e.1-v3的210个氨基酸的n-末端截短不仅去除整个179个氨基酸的hepn1结构域，而且还去除整个idl结构域和hel1-1结构域的大部分，导致约10％的相当低的碱基编辑效率，dcas13e.2-v2的180个氨基酸的c-末端截短不仅去除整个156个氨基酸的hepn2结构域，而且还去除hel1-3结构域的大部分，导致16.57％的相当低的碱基编辑效率。
[0814]
因此，提出基本上完全去除cas13效应蛋白的hepn1和hepn2结构域两者，优选不更多和更少，将导致小的死cas13蛋白作为所需rna靶向结构域的高度适用性。
[0815]
实施例12：内源性靶rna的m6a相关表观遗传上调
[0816]
为了m6a相关的表观遗传上调的目的，在本实施例中设计并测试了m6a相关的表观遗传上调系统。
[0817]
设计用于m6a相关的表观遗传上调系统的表达质粒以在hek293t细胞中提供对m6a相关的内源性靶rna的m6a修饰，所述质粒包含在u6启动子调节下的5'-dr-间隔子-dr-3'构型的grna编码序列，在cbh启动子调节下的m6a相关的表观遗传调节剂编码序列和poly a序列，以及在cmv启动子调节下的bfp荧光报告基因和poly a序列。m6a相关的表观遗传调节剂由侧接两个sv40 nls(seq id no:35)的minidcas13e.1-n180 c150(seq id no:32)组成，其经由gs接头(seq id no:33)连接到m6a提供部分人mettl3(登录号：q86u44)。设计grna中包含的间隔序列(靶向间隔序列)以靶向m6a相关靶rna。来自bfp的蓝色荧光将指示表达质粒在hek293t细胞中的成功转染和表达。作为阴性对照，使用非靶向间隔序列(“nt”)代替靶向间隔序列。
[0818]
根据标准方法在24孔组织培养板中培养hek293t细胞12小时，然后使用标准聚乙烯亚胺(pei)转染将表达质粒共转染到细胞中。然后将经转染的细胞在37℃在co2下培养48小时。然后通过流式细胞术分析培养的细胞。从培养的细胞中提取rna，并通过用miclip-seq技术对提取的rna进行测序来确认将m6a修饰引入靶rna。
[0819]
实施例13：内源性靶rna的m6a相关表观遗传下调
[0820]
为了m6a相关的表观遗传下调的目的，在本实施例中设计并测试了m6a相关的表观遗传下调系统。
[0821]
设计用于m6a相关的表观遗传下调系统的表达质粒以在hek293t细胞中从m6a相关的内源性靶rna中消除m6a修饰，所述质粒包含在u6启动子调节下的5'-dr-间隔子-dr-3'构型的grna编码序列，在cbh启动子调节下的m6a相关的表观遗传调节剂编码序列和poly a序列，以及在cmv启动子调节下的bfp荧光报告基因和poly a序列。m6a相关的表观遗传调节剂由侧接两个sv40 nls(seq id no:35)的minidcas13e.1-n180 c150(seq id no:32)组成，其经由gs接头(seq id no:33)连接到m6a消除部分人fto(登录号：q9c0b1)。设计grna中包含的间隔序列(靶向间隔序列)以靶向m6a相关靶rna。来自bfp的蓝色荧光将指示表达质粒在hek293t细胞中的成功转染和表达。作为阴性对照，使用非靶向间隔序列(“nt”)代替靶向间隔序列。
[0822]
根据标准方法在24孔组织培养板中培养hek293t细胞12小时，然后使用标准聚乙烯亚胺(pei)转染将表达质粒共转染到细胞中。然后将经转染的细胞在37℃在co2下培养48小时。然后通过流式细胞术分析培养的细胞。从培养的细胞中提取rna，并通过用miclip-seq技术对提取的rna进行测序来确认m6a修饰从靶rna消除。
[0823]
***
[0824]
在不背离本公开的范围和精神的情况下，本公开的所述系统、要素、组合物、试剂盒、方法和用途的各种修改和变化对于本领域技术人员将是显而易见的。尽管已经结合特定的实施方式描述了本公开，但是将理解的是，能够进行进一步的修改，并且所要求保护的本公开不应当不当地受限于这样的特定实施方式。实际上，对于本领域技术人员显而易见的、用于执行本公开的所描述的方式的各种修改旨在落入本公开的范围内。本技术旨在覆盖一般而言依循本公开的原理的本公开的任何变化、用途或改编，且包括这样的偏离本公开的内容：其在本公开所属领域的已知惯常操作内、且可适用于此前所示的基本特征。
[0825]
序列
[0826]
cas蛋白序列：
[0827]
[0828][0829]
dr编码序列：
[0830][0831]
cas蛋白编码序列：
[0832]
atggcgcaagtgtcaaagcagacttcgaaaaagagagagttgtctatcgatgaatatcaaggtgctcggaaatggtgttttacgattgccttcaacaaggctcttgtgaatcgagataagaacgacgggctttttgtcgagtcgctgttacgccatgaaaagtattcaaagcacgactggtacgatgaggatacacgcgctttgatcaagtgtagcacacaagcggccaatgcgaaggccgaggcgttaagaaactatttctcccactatcgacattcgcccgggtgtctgacatttacagcagaagatgagttgcggacaatcatggaaagggcgtatgagcgggcgatctttgaatgcaggagacgcgaaactgaagtgatcatcgagtttcccagcctgttcgaaggcgaccggatcactacggcgggggttgtgtttttcgtttcgttctttgttgaacggcgggtgctggatcgtttgtacggtgcggtaagtgggcttaagaaaaacgaaggacagtacaagctgactcggaaggcgctttcgatgtattgcctgaaagacagtcgtttcacgaaggcgtgggacaaacgcgtgctgcttttcagggatatactcgcgcagcttggacgcatccctgcggaggcgtatgaatactaccacggagagcagggcgacaagaaaagagcaaacgacaatgaggggacgaatccgaaacgccataaagacaagttcatcgagtttgcactgcattatctggaggcgcaacacagtgagatatgcttcgggcggcgacacattgtcagggaggaggccggggcaggcgacgaacacaaaaagcacaggaccaaaggcaaggtagttgtcgacttttcaaaaaaagacgaagatcagtcatactatatcagtaagaacaatgttatcgtcaggattgataagaatgccgggcctcggagttatcgcatggggcttaacgaattgaaataccttgtattgcttagccttcagggaaagggcgacgatgcgattgcaaaactgtacaggtatcggcagcatgtggagaacattctggatgtagtgaaggtcacagataaggataatcacgtcttcctgccgcgatttgtgctggagcaacatgggattggcaggaaagcttttaagcaaagaatagacggcagagtaaagcatgttcgaggggtgtgggaaaagaagaaggcggcgaccaacgagatgacacttcacgagaaggcgcgggacattcttcaatacgtaaatgaaaattgcacgaggtctttcaatcccggcgagtacaaccggctgctggtgtgtctggttggcaaggatgttgagaattttcaggcgggactgaaacgcctgcaactggccgagcgaatcgacgggcgggtatattcaatttttgcgcagacctccacaataaacgagatgcatcaggtggtgtgtgatcagattctcaacagactttgccgaatcggcgatcagaagctctacgattatgtggggcttgggaagaaggatgaaatagattacaagcagaaggttgcatggttcaaggagcatatttcta
tccgcaggggtttcttgcgcaagaagttctggtatgacagcaagaagggattcgcgaagcttgtggaagagcatttggaaagcggcggcggacagagggacgttgggctggataaaaagtattatcatattgatgcgattgggcgattcgagggtgctaatccagccttgtatgaaacgctggcgcgagaccgtttgtgtctgatgatggcgcaatacttcctggggagtgtacgcaaggaattgggtaataaaattgtgtggtcgaatgatagcatcgagttgcccgtggagggctcagtgggtaacgaaaaaagcatcgtcttctcagtgagtgattacggcaagttatatgtgttggatgacgctgagtttcttgggcggatatgtgagtactttatgccgcacgaaaaagggaagatacggtatcatacagtttacgaaaaagggtttagggcatataatgatctgcagaagaaatgtgtcgaggcggtgctggcgtttgaagagaaggttgtcaaagccaaaaagatgagcgagaaggaaggggcgcattatattgattttcgtgagatactggcacaaacaatgtgtaaagaggcggagaagaccgccgtgaataaggtgcgtagagcgtttttccatcatcatttaaagtttgtgatagatgaatttgggttgtttagtgatgttatgaagaaatatggaattgaaaaggagtggaagtttcctgttaaatga(seq id no:15)
[0833]
atgaaggttgaaaatattaaagaaaaaagcaaaaaagcaatgtatttaatcaaccattatgagggacccaaaaaatggtgttttgcaatagttctgaatagggcatgtgataattacgaggacaatccacacttgttttccaaatcacttttggaatttgaaaaaacaagtcgaaaagattggtttgacgaagaaacacgagagcttgttgagcaagcagatacagaaatacagccaaatcctaacctgaaacctaatacaacagctaaccgaaaactcaaagatataagaaactatttttcgcatcattatcacaagaacgaatgcctgtattttaagaacgatgatcccatacgctgcattatggaagcggcgtatgaaaaatctaaaatttatatcaaaggaaagcagattgagcaaagcgatataccattgcccgaattgtttgaaagcagcggttggattacaccggcggggattttgttactggcatccttttttgttgaacgagggattctacatcgcttgatgggaaatatcggaggatttaaagataatcgaggcgaatacggtcttacacacgatatttttaccacctattgtcttaagggtagttattcaattcgggcgcaggatcatgatgcggtaatgttcagagatattctcggctatctgtcacgagttcccactgagtcatttcagcgtatcaagcaacctcaaatacgaaaagaaggccaattaagtgaaagaaagacggacaaatttataacatttgcactaaattatcttgaggattatgggctgaaagatttggaaggctgcaaagcctgttttgccagaagtaaaattgtaagggaacaagaaaatgttgaaagcataaatgataaggaatacaaacctcacgagaacaaaaagaaagttgaaattcacttcgatcagagcaaagaagaccgattttatattaatcgcaataacgttattttgaagattcagaagaaagatggacattccaacatagttaggatgggagtatatgaacttaaatatctcgttcttatgagtttagtgggaaaagcaaaagaagcagttgaaaaaattgacaactatatccaggatttgcgagaccagttgccttacatagaggggaaaaataaggaagagattaaagaatacgtcaggttctttccacgatttatacgttctcacctcggtttactacagattaacgatgaagaaaagataaaagctcgattagattatgttaagaccaagtggttagataaaaaggaaaaatcgaaagagcttgaacttcataaaaaaggacgggacatcctcaggtatatcaacgagcgatgtgatagagagcttaacaggaatgtatataaccgtattttagagctcctggtcagcaaagacctcactggtttttatcgtgagcttgaagaactaaaaagaacaaggcggatagataaaaatattgtccagaatctttctgggcaaaaaaccattaatgcactgcatgaaaaggtctgtgatctggtgctgaaggaaatcgaaagtctcgatacagaaaatctcaggaaatatcttggattgatacccaaagaagaaaaagaggtcactttcaaagaaaaggtcgataggattttgaaacagccagttatttacaaagggtttctgagataccaattcttcaaagatgacaaaaagagttttgtcttacttgttgaagacgcattgaaggaaaaaggaggaggttgtgatgttcctcttgggaaagagtattataaaatcgtgtcacttgataagtatgataaagaaaataaaaccctgtgtgaaactctggcgatggataggctttgccttatgatggcaagacaatattatctcagtctgaatgcaaaacttgcacaggaagctcagcaaatcgaatggaagaaagaagatagtatagaattgattattttcaccttaaaaaatcccgatcaatcaaagcagagtttttctatacggttttcggtcagagattttacgaagttgtatgtaacggatgatcctgaatttctggcccggctttgttcctactttttcccagttgaaaaagagattgaatatcacaagctctattcagaagggataaataaatacacaaacctgcaaaaagagggaatcgaagcaatactcgagcttgaaaaa
aagcttattgaacgaaatcggattcaatctgcaaaaaattatctctcatttaatgagataatgaataaaagcggttataataaagatgagcaggatgatctaaagaaggtgcgaaattctcttttgcattataagcttatctttgagaaagaacatctcaagaagttctatgaggttatgagaggagaagggatagagaaaaagtggtctttaatagtatga(seq id no:16)
[0834]
atgaatggcattgaattaaaaaaagaagaagcagcattttattttaatcaggcagagcttaatttaaaagccatagaagacaatatttttgataaagaaagacgaaagactctgcttaataatccacagatacttgccaaaatggaaaatttcattttcaatttcagagatgtaacaaaaaatgcaaaaggggaaattgactgcttgctgttgaaactaagagagctgagaaacttttactcgcattatgtccacaaacgagatgtaagagaattaagcaagggcgagaaacctatacttgaaaagtattaccaatttgcgattgaatcaaccggaagtgaaaatgttaaacttgagataatagaaaacgacgcgtggcttgcagatgccggtgtgttgtttttcttatgtatttttttgaagaaatctcaggcaaataagcttataagcggtatcagcggttttaaaagaaacgatgataccggtcagccgagaaggaatttatttacctatttcagtataagggagggatacaaggttgttccggaaatgcagaaacatttccttttgttttctcttgttaatcatctctctaatcaagatgattatattgaaaaagcgcatcagccatacgatataggcgagggtttattttttcatcgaatagcttctacatttcttaatataagtgggattttaagaaatatgaaattctatacctatcagagtaaaaggttagtagagcagcggggagaactcaaacgagaaaaggatatttttgcgtgggaagaaccgtttcaaggaaatagttattttgaaataaatggtcataaaggagtaatcggtgaagatgaattgaaggaactatgttatgcatttctgattggcaatcaagatgctaataaagtggaaggcaggattacacaatttctagaaaagtttagaaatgcgaacagtgtgcaacaagttaaagatgatgaaatgctaaaaccagagtattttcctgcaaattattttgctgaatcaggcgtcggaagaataaaggatagagtgcttaatcgtttgaataaagcgattaaaagcaataaggccaagaaaggagagattatagcatacgataagatgagagaggttatggcgttcataaataattctctgccggtagatgaaaaattgaaaccaaaagattacaaacgatatctgggaatggttcgtttctgggacagggaaaaagataacataaagcgggagttcgagacaaaagaatggtctaaatatcttccatctaatttctggacggcaaaaaaccttgaaagggtctatggtctggcaagagagaaaaacgcagaattattcaataaactaaaagcggatgtagaaaaaatggacgaacgggaacttgagaagtatcagaagataaatgatgcaaaggatttggcaaatttacgccggcttgcaagcgactttggtgtgaagtgggaagaaaaagactgggatgagtattcaggacagataaaaaaacaaattacagacagccagaaactaacaataatgaagcagcggataaccgcaggactaaagaaaaagcacggcatagaaaatcttaacctgagaataactatcgacatcaataaaagcagaaaggcagttttgaacagaattgcgattccgaggggttttgtaaaaaggcatattttaggatggcaagagtctgagaaggtatcgaaaaagataagagaggcagaatgcgaaattctgctgtcgaaagaatacgaagaactatcgaaacaatttttccaaagcaaagattatgacaaaatgacacggataaatggcctttatgaaaaaaacaaacttatagccctgatggcagtttatctaatggggcaattgagaatcctgtttaaagaacacacaaaacttgacgatattacgaaaacaactgtggatttcaaaatatctgataaggtgacggtaaaaatccccttttcaaattatccttcgctcgtttatacaatgtccagtaagtatgttgataatatagggaattatggattttccaacaaagataaagacaagccgattttaggtaagattgatgtaatagaaaaacagcgaatggaatttataaaagaggttcttggttttgaaaaatatctttttgatgataaaataatagataaaagcaaatttgctgatacagcgactcatataagttttgcagaaatagttgaggagcttgttgaaaaaggatgggacaaagacagactgacaaaacttaaagatgcaagaaataaagccctgcatggtgaaatactgacgggaaccagctttgatgaaacaaaatcattgataaacgaattaaaaaaatga(seq id no:17)
[0835]
atgtccccagatttcatcaaattagaaaaacaggaagcagctttttactttaatcagacagagcttaatttaaaagccatagaaagcaatattttagacaaacaacagcgaatgattctgcttaataatccacggatacttgccaaagtaggaaatttcattttcaatttcagagatgtaacaaaaaatgcaaaaggagaaatagactgtctgctattta
aactggaagagctaagaaacttttactcgcattatgttcataccgacaatgtaaaggaattgagtaacggagaaaaacccctactggaaagatattatcaaatcgctattcaggcaaccaggagtgaggatgttaagttcgaattgtttgaaacaagaaacgagaataagattacggatgccggtgtattgtttttcttatgtatgtttttaaaaaaatcacaggcaaacaagcttataagcggtatcagcggcttcaaaagaaatgatccaacaggccagccgagaagaaacttatttacctatttcagtgcaagagaaggatataaggctttgcctgatatgcagaaacattttcttctttttactctggttaattatttgtcgaatcaggatgagtatatcagcgagcttaaacaatatggagagattggtcaaggagccttttttaatcgaatagcttcaacatttttgaatatcagcgggatttcaggaaatacgaaattctattcgtatcaaagtaaaaggataaaagagcagcgaggcgaactcaatagcgaaaaggacagctttgaatggatagagcctttccaaggaaacagctattttgaaataaatgggcataaaggagtaatcggcgaagacgaattaaaagaactttgttatgcattgttggttgccaagcaagatattaatgccgttgaaggcaaaattatgcaattcctgaaaaagtttagaaatactggcaatttgcagcaagttaaagatgatgaaatgctggaaatagaatattttcccgcaagttattttaatgaatcaaaaaaagaggacataaagaaagagattcttggccggctggataaaaagattcgctcctgctctgcaaaggcagaaaaagcctatgataagatgaaagaggtgatggagtttataaataattctctgccggcagaggaaaaattgaaacgcaaagattatagaagatatctaaagatggttcgtttctggagcagagaaaaaggcaatatagagcgggaatttagaacaaaggaatggtcaaaatatttttcatctgatttttggcggaagaacaatcttgaagatgtgtacaaactggcaacacaaaaaaacgctgaactgttcaaaaatctaaaagcggcagcagagaaaatgggtgaaacggaatttgaaaagtatcagcagataaacgatgtaaaggatttggcaagtttaaggcggcttacgcaagattttggtttgaagtgggaagaaaaggactgggaggagtattccgagcagataaaaaaacaaattacggacaggcagaaactgacaataatgaaacaaagggttacggctgaactaaagaaaaagcacggcatagaaaatcttaatctgagaataaccatcgacagcaataaaagcagaaaggcggttttgaacagaatagcaattccaagaggatttgtaaaaaaacatattttaggctggcagggatctgagaagatatcgaaaaatataagggaagcagaatgcaaaattctgctatcgaaaaaatatgaagagttatcaaggcagttttttgaagccggtaatttcgataagctgacgcagataaatggtctttatgaaaagaataaacttacagcttttatgtcagtatatttgatgggtcggttgaatattcagcttaataagcacacagaacttggaaatcttaaaaaaacagaggtggattttaagatatctgataaggtgactgaaaaaataccgttttctcagtatccttcgcttgtctatgcgatgtctcgcaaatatgttgacaatgtggataaatataaattttctcatcaagataaaaagaagccatttttaggtaaaattgattcaattgaaaaagaacgtattgaattcataaaagaggttctcgattttgaagagtatctttttaaaaataaggtaatagataaaagcaaattttccgatacagcgactcatattagctttaaggaaatatgtgatgaaatgggtaaaaaaggatgtaaccgaaacaaactaaccgaacttaacaacgcaaggaacgcagccctgcatggtgaaataccgtcggagacctcttttcgtgaagcaaaaccgttgataaatgaattgaaaaaatga(seq id no:18)
[0836]
atgtccccagatttcatcaaattagaaaaacaagaagcagctttttactttaatcagacagagcttaatttaaaagccatagaaagcaatattttcgacaaacaacagcgagtgattctgcttaataatccacagatacttgccaaagtaggagattttattttcaatttcagagatgtaacaaaaaacgcaaaaggagaaatagactgtttgctattgaaactaagagagctgagaaacttttactcacactatgtctataccgatgacgtgaagatattgagtaacggcgaaagacctctgctggaaaaatattatcaatttgcgattgaagcaaccggaagtgaaaatgttaaacttgaaataatagaaagcaacaaccgacttacggaagcgggcgtgctgtttttcttgtgtatgtttttgaaaaagtctcaggcaaataagcttataagcggtatcagcggttttaaaagaaatgacccgacaggtcagccgagaaggaatttatttacctacttcagtgtaagggagggatacaaggttgtgccggatatgcagaaacattttcttttgtttgttcttgtcaatcatctctctggtcaggatgattatattgaaaaggcgcaaaagccatacgatataggcgagggtttattttttcatcgaatagcttctacatttcttaatatcagtgggattttaagaaatatggaattctatatttaccagagcaaaagactaaaggagca
gcaaggagagctcaaacgtgaaaaggatatttttccatggatagagcctttccagggaaatagttattttgaaataaatggtaataaaggaataatcggcgaagatgaattgaaagagctttgttatgcgttgctggttgcaggaaaagatgtcagagccgtcgaaggtaaaataacacaatttttggaaaagtttaaaaatgcggacaatgctcagcaagttgaaaaagatgaaatgctggacagaaacaattttcccgccaattatttcgccgaatcgaacatcggcagcataaaggaaaaaatacttaatcgtttgggaaaaactgatgatagttataataagacggggacaaagattaaaccatacgacatgatgaaagaggtaatggagtttataaataattctcttccggcagatgaaaaattgaaacgcaaagattacagaagatatctaaagatggttcgtatctgggacagtgagaaagataatataaagcgggagtttgaaagcaaagaatggtcaaaatatttttcatctgatttctggatggcaaaaaatcttgaaagggtctatgggttggcaagagagaaaaacgccgaattattcaataagctaaaagcggttgtggagaaaatggacgagcgggaatttgagaagtatcggctgataaatagcgcagaggatttggcaagtttaagacggcttgcgaaagattttggcctgaagtgggaagaaaaggactggcaagagtattctgggcagataaaaaaacaaatttctgacaggcagaaactgacaataatgaaacaaaggattacggctgaactaaagaaaaagcacggcatagaaaatctcaatcttagaataaccatcgacagcaataaaagcagaaaggcagttttgaacagaatcgcagttccaagaggttttgtgaaagagcatattttaggatggcaggggtctgagaaggtatcgaaaaagacaagagaagcaaagtgcaaaattctgctctcgaaagaatatgaagaattatcaaagcaatttttccaaaccagaaattacgacaagatgacgcaggtaaacggtctttacgaaaagaataaactcttagcatttatggtcgtttatcttatggagcggttgaatatcctgcttaataagcccacagaacttaatgaacttgaaaaagcagaggtggatttcaagatatctgataaggtgatggccaaaatcccgttttcacagtatccttcgcttgtgtacgcgatgtccagcaaatatgctgatagtgtaggcagttataaatttgagaatgatgaaaaaaacaagccgtttttaggcaagatcgatacaatagaaaaacaacgaatggagtttataaaagaagtccttggttttgaagagtatctttttgaaaagaagataatagataaaagcgaatttgccgacacagcgactcatataagttttgatgaaatatgtaatgagcttattaaaaaaggatgggataaagacaaactaaccaaacttaaagatgccaggaacgcggccctgcatggcgaaataccggcggagacctcttttcgtgaagcaaaaccgttgataaatggattgaaaaaatga(seq id no:19)
[0837]
atgaacatcattaaattaaaaaaagaagaagctgcgttttattttaatcagacgatcctcaatctttcagggcttgatgaaattattgaaaaacaaattccgcacataatcagcaacaaggaaaatgcaaagaaagtgattgataagattttcaataaccgcttattattaaaaagtgtggagaattatatctacaactttaaagatgtggctaaaaacgcaagaactgaaattgaggctatattgttgaaattagtagagctacgtaatttttactcacattacgttcataatgataccgtcaagatactaagtaacggtgaaaaacctatactggaaaaatattatcaaattgctatagaagcaaccggaagtaaaaatgttaaacttgtaatcatagaaaacaacaactgtctcacggattctggcgtgctgtttttgctgtgtatgttcttaaaaaaatcacaggcaaacaagcttataagttccgttagtggttttaaaaggaatgataaagaaggacaaccgagaagaaatctattcacttattatagtgtgagggagggatataaggttgtgcctgatatgcagaagcatttccttctattcgctctggtcaatcatctatctgagcaggatgatcatattgagaagcagcagcagtcagacgagctcggtaagggtttgtttttccatcgtatagcttcgacttttttaaacgagagcggcatcttcaataaaatgcaattttatacatatcagagcaacaggctaaaagagaaaagaggagaactcaaacacgaaaaggatacctttacatggatagagccttttcaaggcaatagttattttacgttaaatggacataagggagtgattagtgaagatcaattgaaggagctttgttacacaattttaattgagaagcaaaacgttgattccttggaaggtaaaattatacaatttctcaaaaaatttcagaatgtcagcagcaagcagcaagttgacgaagatgaattgcttaaaagagaatatttccctgcaaattactttggccgggcaggaacagggaccctaaaagaaaagattctaaaccggcttgataagaggatggatcctacatctaaagtgacggataaagcttatgacaaaatgattgaagtgatggaatttatcaatatgtgccttccgtctgatgagaagttgaggcaaaaggattatagacgatacttaaagatggttcgtttctggaataaggaaaagcataacattaagcgcgagttt
gacagtaaaaaatggacgaggtttttgccgacggaattgtggaataaaagaaatctagaagaagcctatcaattagcacggaaagagaacaaaaagaaacttgaagatatgagaaatcaagtacgaagccttaaagaaaatgaccttgaaaaatatcagcagattaattacgttaatgacctggagaatttaaggcttctgtcacaggagttaggtgtgaaatggcaggaaaaggactgggttgaatattccgggcagataaagaagcagatatcagacaatcagaaacttacaatcatgaaacaaaggattaccgctgaactaaagaaaatgcacggcatcgagaatcttaatcttagaataagcattgacacgaataaaagcaggcagacggttatgaacaggatagctttgcccaaaggttttgtgaagaatcatatccagcaaaattcgtctgagaaaatatcgaaaagaataagagaggattattgtaaaattgagctatcgggaaaatatgaagaactttcaaggcaattttttgataaaaagaatttcgataagatgacactgataaacggcctttgtgaaaagaacaaacttatcgcatttatggttatctatcttttggagcggcttggatttgaattaaaggagaaaacaaaattaggcgagcttaaacaaacaaggatgacatataaaatatccgataaggtaaaagaagatatcccgctttcctattaccccaagcttgtgtatgcaatgaaccgaaaatatgttgacaatatcgatagttatgcatttgcggcttacgaatccaaaaaagctattttggataaagtggatatcatagaaaagcaacgtatggaatttatcaaacaagttctctgttttgaggaatatattttcgaaaataggattatcgaaaaaagcaaatttaatgacgaggagactcatataagttttacacaaatacatgatgagcttattaaaaaaggacgggacacagaaaaactctctaaactcaaacatgcaaggaataaagccttgcacggcgagattcctgatgggacttcttttgaaaaagcaaagctattgataaatgaaatcaaaaaatga(seq id no:20)
[0838]
atgaatgctatcgaactaaaaaaagaggaagcagcattttattttaatcaggcaagactcaacatttcaggacttgatgaaattattgaaaagcagttaccacatataggtagtaacagggagaatgcgaaaaaaactgttgatatgattttggataatcccgaagtcttgaagaagatggaaaattatgtctttaactcacgagatatagcaaagaacgcaagaggtgaacttgaagcattgttgttgaaattagtagaactgcgtaatttttattcacattatgttcataaagatgatgttaagacattgagttacggagaaaaacctttactggataaatattatgaaattgcgattgaagcgaccggaagtaaagatgtcagacttgagataatagatgataaaaataagcttacagatgccggtgtgctttttttattgtgtatgtttttgaaaaaatcagaggcaaacaaacttatcagttcaatcaggggctttaaaagaaacgataaagaaggccagccgagaagaaatctattcacttactacagtgtcagagagggatataaggttgtgcctgatatgcagaaacattttcttttattcacactggttaaccatttgtcaaatcaggatgaatacatcagtaatcttaggccgaatcaagaaatcggccaagggggatttttccatagaatagcatcaaaatttttgagcgatagcgggattttacatagtatgaaattctacacctaccggagtaaaagactaacagaacaacggggggagcttaagccgaaaaaagatcattttacatggatagagccttttcagggaaacagttatttttcagtgcagggccaaaaaggagtaattggtgaagagcaattaaaggagctttgttatgtattgctggttgccagagaagattttagggccgttgagggcaaagttacacaatttctgaaaaagtttcagaatgctaataacgtacagcaagttgaaaaagatgaagtgctggaaaaagaatattttcctgcaaattattttgaaaatcgagacgtaggcagagtaaaggataagatacttaatcgtttgaaaaaaatcactgaaagctataaagctaaagggagggaggttaaagcctatgacaagatgaaagaggtaatggagtttataaataattgcctgccaacagatgaaaatttgaaactcaaagattacagaagatatctgaaaatggttcgtttctggggcagggaaaaggaaaatataaagcgggaatttgacagtaaaaaatgggagaggtttttgccaagagaactctggcagaaaagaaacctcgaagatgcgtatcaactggcaaaagagaaaaacaccgagttattcaataaattgaaaacaactgttgagagaatgaacgaactggaattcgaaaagtatcagcagataaacgacgcaaaagatttggcaaatttaaggcaactggcgcgggacttcggcgtgaagtgggaagaaaaggactggcaagagtattcggggcagataaaaaaacaaattacagacaggcaaaaacttacaataatgaaacaaaggattactgctgcattgaagaaaaagcaaggcatagaaaatcttaatcttaggataacaaccgacaccaataaaagcagaaaggtggtattgaacagaatagcgctacctaaaggttttgtaaggaagcatatcttaaaaacagatataaagatatcaaagcaaataaggcaatcacaatgtcctattatactgtcaaacaattatatgaagctggcaa
aggaattctttgaggagagaaattttgataagatgacgcagataaacgggctatttgagaaaaatgtacttatagcgtttatgatagtttatctgatggaacaactgaatcttcgacttggtaagaatacggaacttagcaatcttaaaaaaacggaggttaattttacgataaccgacaaggtaacggaaaaagtccagatttcgcagtatccatcgcttgttttcgccataaacagagaatatgttgatggaatcagcggttataagttaccgcccaaaaaaccgaaagagcctccgtatactttcttcgagaaaatagacgcaatagaaaaagaacgaatggaattcataaaacaggtcctcggtttcgaagaacatctttttgagaagaatgtaatagacaaaactcgctttactgatactgcgactcatataagttttaatgaaatatgtgatgagcttataaaaaaaggatgggacgaaaacaaaataataaaacttaaagatgcgaggaatgcagcattgcatggtaagataccggaggatacgtcttttgatgaagcgaaagtactgataaatgaattaaaaaaatga(seq id no:21)
[0839]
经密码子优化的cas蛋白编码序列：
[0840]
atggcccaggtgagcaagcagacctccaagaagagggagctgagcatcgacgagtaccagggcgcccggaagtggtgcttcaccattgccttcaacaaggccctggtgaaccgggacaagaacgacggcctgttcgtggaaagcctgctgagacacgagaagtacagcaagcacgactggtacgacgaagatacccgggccctgatcaagtgcagcacccaggccgccaacgccaaggctgaagccctgcggaactacttcagtcactaccggcatagccctggctgcctgaccttcaccgccgaggacgaactgcggaccatcatggagagagcctatgagcgggccatcttcgagtgcagaagaagagagacagaggtgatcatcgagtttcccagcctgttcgagggcgaccggatcaccaccgccggcgtggtgtttttcgtgagctttttcgtggaaagaagagtgctggatcggctgtatggagccgtgtccggcctgaagaagaatgagggacagtacaagctgacccggaaggccctgagcatgtactgcctgaaggacagcagattcaccaaggcctgggataagcgggtgctgctgttcagagacatcctggcccagctgggaagaatccccgccgaggcctacgagtactaccacggcgagcagggtgataagaagagagctaacgacaatgagggcacaaatcccaagcggcacaaggacaagttcatcgaatttgcactgcactacctggaagcccagcacagcgagatctgcttcggcagacgccacatcgtgcgggaagaggccggcgccggcgatgagcacaagaagcaccggaccaagggaaaggtggtggtggacttcagcaagaaggacgaggaccagagctactatatctccaagaacaacgtgatcgtgcggatcgacaagaacgccggccctagaagctaccggatgggcctgaacgagctgaagtacctcgtgctgctgagcctgcaggggaagggcgacgatgccatcgccaagctgtacagatacagacagcacgtggagaacatcctggatgtggtgaaggtgaccgataaggataaccacgtgttcctgccccgcttcgtgctggagcagcacggcatcggcagaaaggccttcaagcagcggatcgatggacgggtgaagcacgtgcggggcgtgtgggagaagaagaaggccgccaccaatgaaatgaccctgcacgagaaggccagagacatcctgcagtacgtgaacgaaaactgcacccggtccttcaaccctggcgaatacaacagactgctggtgtgcctggtgggcaaggacgtggagaactttcaggccggcctgaagcggctgcagctggccgaaaggatcgatggccgggtgtactccatcttcgcccagaccagcaccatcaatgagatgcaccaggtggtgtgcgaccagatcctgaaccggctgtgcagaatcggcgaccagaagctgtacgattacgtgggactgggcaagaaggacgaaatcgactacaagcagaaggtggcctggttcaaggagcacatcagcatccggagaggattcctgagaaagaagttctggtacgatagcaagaagggattcgcaaagctggtggaggaacacctggagtccggcggcggccagcgcgacgtgggcctggacaagaagtactaccacatcgacgccatcggcagattcgagggcgccaaccccgccctgtacgagaccctggccagagatcggctgtgcctcatgatggcccagtacttcctgggcagcgtgagaaaggaactgggcaacaagattgtgtggagcaacgacagcatcgaactgcctgtggaaggctctgtgggaaatgagaagagcatcgtgttctccgtgtctgactacggcaagctgtacgtgctggacgatgccgaattcctgggccggatctgcgaatacttcatgccccacgaaaagggcaagatccggtaccacacagtgtacgaaaagggctttagagcatacaacgacctgcagaagaagtgcgtggaggccgtgctggctttcgaagagaaggtggtgaaggccaagaagatgagcgagaaggaaggcgcccactacatcgacttccgggagatcctggcccagaccatgtgcaaggaggccgagaag
accgcagtgaacaaggtgagacgcgccttcttccaccaccacctgaagttcgtgattgacgagttcggcctgttcagcgacgtgatgaagaagtacggcatcgagaaggaatggaagttccctgtcaagtaa(seq id no:22)
[0841]
atgaaggtggagaacatcaaggaaaagtccaagaaggctatgtatctgatcaaccactatgaaggccctaagaagtggtgcttcgccatcgtgctgaatagggcctgcgacaactatgaggataacccccacctgttcagcaagagcctgctggaatttgaaaagaccagcagaaaggactggttcgacgaggagaccagggaactggtggagcaggccgacaccgagatccagcccaaccccaacctgaagcctaacaccaccgccaacagaaagctgaaggacatccggaactacttcagccaccactaccacaagaatgagtgcctgtacttcaagaacgacgaccctatccggtgcatcatggaggcagcctacgagaagtccaagatctacatcaagggcaagcagattgagcagtccgacatccccctccctgagctgtttgagtctagcggctggatcaccccagccggcatcctgctgctggccagcttctttgtggagagaggcattctgcacagactgatgggcaacatcggcggcttcaaggacaaccggggcgaatacggactgacccacgatatcttcaccacctactgcctgaagggcagctactccatcagagcccaggaccacgacgccgtgatgttcagagacatcctgggctacctgagcagagtgccgaccgagagctttcagcgcatcaagcagccacagatcagaaaggaggggcagctgagcgagcggaagacagacaagtttatcaccttcgccctgaactacctggaagattatggactgaaggatctggaaggctgcaaggcctgcttcgcccggagcaagatcgtgagagagcaggagaacgtggaaagcatcaatgacaaggagtacaagcctcacgaaaacaagaagaaggtggaaatccacttcgatcagtctaaggaagaccggttctacatcaaccggaacaacgtgatcctgaagatccagaagaaggacggccacagcaacatcgtgagaatgggcgtgtacgagctgaagtatctggtgctgatgtccctggtgggcaaggccaaggaagccgtggagaagatcgacaactacatccaggatctgagagaccagctgccctacatcgagggcaagaacaaggaagaaatcaaggagtacgtgagattcttccccagattcatcagatcccacctgggcctgctgcagattaacgatgaggagaagatcaaggcccggctggactatgtgaagacaaagtggctggacaagaaggagaagtccaaggagctggagctgcacaagaagggccgggatatcctgcggtacatcaacgagcggtgcgaccgggagctgaaccggaacgtgtacaaccggatcctggagctgctggtgagcaaggacctgaccggcttctaccgggagctggaggagctgaagcggaccagacggatcgataagaacattgtgcagaacctgtccggccagaagaccatcaacgccctgcacgaaaaggtgtgcgatctcgtgctgaaggagatcgagagcctggacaccgagaacctgcggaagtacctgggcctgatccccaaggaggagaaggaagtgacctttaaggagaaggtggacaggatcctgaagcagccggtgatctacaagggcttcctgcggtaccagttcttcaaggacgacaagaagagcttcgtgctgctggtggaagacgccctgaaggagaagggaggcggctgcgacgtgcccctgggcaaggagtactacaagatcgtgtccctggacaagtatgacaaggaaaataagaccctgtgcgagaccctggcaatggatagactgtgcctgatgatggcccggcagtattacctgagcctgaacgccaagctggcccaggaggcccagcagatcgaatggaagaaggaggatagcattgagctgatcatcttcacactgaagaatcctgaccagtccaagcagagcttctccatccggttcagcgtgcgggacttcaccaagctgtacgtgaccgacgaccccgaattcctggcccggctgtgcagctacttcttccccgtggagaaggagatcgaataccacaagctgtactctgaaggcattaacaagtacaccaacctgcagaaggaggggatcgaagccatcctggagctggagaagaagctgatcgaaagaaaccggatccagtccgccaagaactacctgagctttaacgaaatcatgaacaagagcggctacaacaaggatgagcaggatgacctgaagaaggtgaggaactccctgctgcactacaagctgatcttcgaaaaggagcacctgaagaagttctatgaagtgatgcggggcgagggaatcgagaagaagtggtccctgatcgtgtaa(seq id no:23)
[0842]
atgaatggcatcgagctgaagaaggaagaagccgccttctacttcaatcaggccgagctgaacctgaaggccattgaggacaacatcttcgacaaggagagacggaagacactgctgaacaacccccagatcctggccaagatggagaactttatcttcaatttccgggacgtgaccaagaacgccaagggcgaaatcgactgcctgctgctgaagctgagagagctgcggaacttttacagccactacgtgcacaagcgggacgtcagagaactgagcaagggcgagaagccgat
cctggagaagtactaccagttcgccatcgaatccaccggctctgagaacgtgaagctcgaaatcatcgaaaacgacgcctggctggccgacgccggcgtgctgttcttcctgtgcatcttcctgaagaagagccaggcaaacaagctgatcagcggcatcagcggcttcaagagaaacgacgacaccggccagcctcggagaaacctgttcacctacttctccatccgggagggctacaaggtggtgcccgaaatgcagaagcacttcctgctgttctccctggtgaaccacctgagcaaccaggacgattatatcgaaaaggcccaccagccctacgacatcggcgagggcctcttcttccaccggattgccagcaccttcctgaacatctccggaatcctgagaaacatgaagttctacacctatcagagcaagagactggtggagcagagaggcgagctgaagcgggaaaaggacatcttcgcctgggaagaaccgtttcagggcaattcctactttgagatcaacggccacaagggcgtgattggcgaagacgagctgaaggagctgtgctacgccttcctgatcggcaaccaggacgccaacaaggtggagggccggatcacccagttcctggagaagttcagaaacgccaacagcgtgcagcaggtgaaggacgacgagatgctgaagcctgaatatttccccgccaactactttgccgagagcggcgtgggccggatcaaggaccgggtgctgaacagactgaacaaggccatcaagagcaacaaggccaagaagggcgagatcatcgcctatgacaagatgagagaagtgatggctttcatcaataactctctgcccgtggacgagaagctgaagcccaaggattacaagagatacctgggcatggtgagattctgggatagagaaaaggacaatatcaagcgcgagttcgaaacgaaggagtggagcaagtatctgccctccaacttctggaccgccaagaacctggagagagtgtacggactggcccgggaaaagaacgcagagctgtttaacaagctgaaggccgacgtggagaagatggacgaaagagagctggaaaagtatcagaagatcaacgacgccaaggatctggccaacctgcggcggctggccagcgacttcggagtgaagtgggaggagaaggattgggacgagtactccggccagatcaagaagcagatcacagattcccagaagctgaccatcatgaagcagagaatcacagccggcctgaagaagaagcacggcatcgaaaacctgaacctgaggatcaccatcgacatcaacaagtccagaaaggccgtgctgaatcggatcgccatccccagaggatttgtgaagcggcacatcctgggctggcaggaatccgagaaggtgagcaagaagatcagagaagccgaatgcgagattctgctgagcaaggagtacgaggagctgagcaagcagttctttcagagcaaggactacgacaagatgacccgcatcaacggcctgtacgagaagaataagctgatcgccctgatggccgtgtatctgatggggcagctgagaatcctgttcaaggagcacaccaagctggacgacatcaccaagaccaccgtggatttcaagatcagcgacaaggtgaccgtgaagatccccttctccaactatccctccctggtgtacaccatgagcagcaagtacgtggacaatatcggcaactacggcttcagcaacaaggacaaggataagcccattctgggcaagatcgacgtgatcgagaagcagcggatggagtttatcaaggaggtgctgggattcgagaagtacctgtttgacgataagatcatcgacaagagcaagttcgccgacaccgccacccacatcagctttgccgaaatcgtggaagaactggtggagaagggctgggacaaggaccggctgacgaagctgaaggatgcccggaacaaggccctgcacggcgagatcctgaccggcaccagcttcgacgagacaaagtccctgatcaacgagctgaagaagtaa(seq id no:24)
[0843]
atgagccctgatttcatcaagctggagaagcaggaagcagccttctactttaaccagaccgagctgaacctgaaggccatcgaatccaatatcctggataagcagcagagaatgatcctgctgaacaaccccagaatcctggccaaggtgggcaacttcatcttcaatttccgggacgtgaccaagaacgcaaagggcgaaatcgactgcctgctgttcaagctggaggaactgcggaacttctacagccactacgtgcacaccgataacgtgaaggaactgtccaacggagagaagcctctgctggagcggtactaccagatcgccatccaggccacaagaagcgaggacgtgaagttcgagctgttcgagaccaggaacgagaacaagatcaccgacgcaggcgtgctgttcttcctgtgcatgttcctgaagaagagccaggctaataagctgatttccggcatcagcggcttcaagcggaacgaccccaccggccagcccagacggaacctctttacctacttctctgcccgggagggctacaaggccctgcctgacatgcagaagcacttcctgctgttcaccctggtgaactacctgagcaaccaggacgagtacatctccgagctgaagcagtacggagagatcggacagggagccttcttcaacagaatcgccagcaccttcctgaacatcagcggcatcagcggcaacaccaagttctacagctaccagagcaagagaatcaaggagcagcggggcgaactgaacagcgaaaaggacagcttcgagtggatcgagccctttcagggcaactcttatttt
gagatcaacggccacaagggcgtgatcggcgaagacgagctgaaggagctgtgctacgccctgctggtggccaagcaggacatcaatgccgtggagggaaagatcatgcagttcctgaagaagttcaggaacaccggcaacctgcagcaggtgaaggacgacgagatgctggaaatcgagtactttcccgccagctacttcaacgagagcaagaaggaggacatcaagaaggagatcctgggcagactggacaagaagatccggtcctgcagcgccaaggccgagaaggcctacgacaagatgaaggaggtgatggagtttatcaataacagcctgcccgccgaggagaagctgaagaggaaggactaccgcagatacctgaagatggtgagattctggtccagagaaaagggcaacatcgagagagagttcagaaccaaggagtggtccaagtacttcagcagcgacttctggagaaagaacaatctggaggatgtgtacaagctggccacccagaagaacgccgagctgttcaagaatctgaaggccgccgccgagaagatgggcgaaacagaattcgaaaagtaccagcagatcaacgatgtgaaggacctggccagcctgagacggctgacccaggatttcggcctgaagtgggaggagaaggattgggaggagtacagcgaacagatcaagaagcagatcaccgaccggcagaagctgacaatcatgaagcagcgggtgaccgccgagctgaagaagaagcacggcatcgagaatctgaacctcagaattaccatcgattccaacaagagcagaaaggccgtgctgaacagaatcgccattccccggggcttcgtgaagaagcacattctgggctggcagggcagcgaaaagatcagcaagaatatccgggaggccgagtgcaagatcctgctgtccaagaagtatgaggagctgtctcggcagttctttgaggctggcaacttcgacaagctgacccagatcaacggcctgtacgaaaagaataagctgaccgccttcatgtccgtctacctgatgggcagactgaacatccagctgaacaagcacacggagctgggaaatctgaagaagaccgaggtggacttcaagatttccgacaaggtgacagaaaagatccccttctcccagtaccctagcctggtgtacgctatgagccggaagtacgtggacaacgtggacaagtacaagttcagccaccaggacaagaagaagcccttcctgggcaagatcgacagcatcgaaaaggagagaatcgaattcatcaaggaggtgctggacttcgaagagtacctgtttaagaacaaggtgatcgacaagagcaagttcagcgataccgccacccatatctctttcaaggaaatctgcgacgagatgggcaagaagggctgcaaccgcaacaagctgaccgagctgaataacgctagaaacgccgcactgcacggagaaatccccagcgagaccagcttccgggaggccaagcccctgatcaacgaactgaagaagtaa(seq id no:25)
[0844]
atgagccctgacttcatcaagctggaaaagcaggaagccgccttctactttaatcagaccgagctgaacctgaaggccatcgagagcaacatcttcgacaagcagcagcgggtgatcctgctgaataacccccagatcctggccaaggtgggcgacttcatcttcaacttccgggacgtgaccaagaacgccaagggagaaatcgactgcctgctgctgaagctgcgggagctgagaaacttctacagccactatgtgtacaccgacgacgtgaagatcctgagcaacggcgagaggcccctgctggagaagtactaccagtttgccatcgaggccaccggatctgagaatgtgaagctggagatcatcgagagcaacaaccggctgaccgaagcgggcgtgctgttcttcctgtgcatgttcctgaagaagagccaggccaacaagctgatttccggcatctccggattcaagcgcaacgaccctaccggacagcctcggcggaacctgttcacctactttagcgtgcgggagggctacaaggtggtgcccgacatgcagaagcacttcctgctgttcgtgctggtgaaccacctgtccggccaggatgactatattgagaaggcccagaagccctacgacatcggcgaaggcctgttcttccacagaatcgccagcacctttctcaacatcagcggcatcctgagaaacatggaattctacatctaccagagcaagcggctgaaggagcagcagggagagctgaagagagagaaggacatcttcccttggatcgagcctttccagggcaacagctactttgagatcaacggaaacaagggcatcatcggcgaggacgaactgaaggaactgtgctacgccctgctggtggccggcaaggacgtgagagccgtggaaggaaagatcacccagttcctggagaagttcaagaacgccgataacgcccagcaggtggagaaggatgaaatgctggaccggaacaacttccctgccaattactttgccgaaagcaacatcggcagcatcaaggaaaagatcctgaatagactgggcaagaccgacgactcctacaacaagaccggcaccaagatcaagccctacgacatgatgaaggaggtgatggagttcatcaataattctctgcccgccgatgagaagctgaagcggaaggactaccggagatacctgaagatggtccggatctgggacagcgaaaaggacaatatcaagcgggagtttgagagcaaggaatggagcaagtatttcagcagcgacttctggatggccaagaacctggaaagagtgtacggcctggccagggaaaagaacgccgagctgt
ttaacaagctgaaggccgtggtggagaagatggacgagcgggagttcgaaaagtaccggctgatcaacagcgccgaagacctggccagcctgcggagactggccaaggacttcggcctgaagtgggaggagaaggactggcaggagtattctggccagatcaagaagcagatctccgacagacagaagctgacaattatgaagcagcggatcacagccgaactgaagaagaagcacggaatcgagaacctgaatctgcggatcaccatcgacagcaacaagtccagaaaggccgtgctgaaccggatcgccgtgccccggggcttcgtgaaggaacacatcctgggctggcaaggctctgaaaaggtgagcaagaagaccagagaagccaagtgcaagatcctgctgagcaaggagtacgaggaactgagcaagcagttctttcagacacggaattacgacaagatgacccaggtgaacggcctgtacgagaagaacaagctgctggccttcatggtggtgtacctgatggagagactgaacatcctgctgaacaagcccacagagctgaacgaactggaaaaggccgaagtggacttcaagatctccgacaaggtgatggccaagatccctttctctcagtaccccagcctggtgtatgcaatgagctccaagtacgccgacagcgtgggctcttacaagttcgaaaacgacgagaagaacaagccctttctgggcaagatcgacacaatcgagaagcagagaatggagttcatcaaggaggtgctgggcttcgaggaatacctgttcgagaagaagatcatcgataagagcgaattcgccgacaccgccacccacatcagcttcgacgagatctgcaacgagctgatcaagaagggctgggacaaggacaagctgaccaagctgaaggacgcccggaacgccgccctgcacggcgagatccccgccgagaccagcttccgggaggccaagcccctgattaacggcctgaagaagtaa(seq id no:26)
[0845]
atgaacatcatcaagctgaagaaggaggaagccgccttttactttaaccagacaatcctgaatctgagcggcctggacgagatcatcgagaagcagatcccccacatcatctccaataaggaaaacgccaagaaggtgattgataagatcttcaataacagactgctgctgaagagcgtggaaaactatatctacaacttcaaggacgtggccaagaacgcccggaccgaaatcgaagccatcctgctgaagctggtggagctgagaaacttctactcccactacgtgcacaacgacaccgtgaagatcctgtccaatggcgagaagcccatcctggaaaagtactaccagatcgccatcgaagccaccggctctaagaacgtgaagctggtcattatcgaaaacaacaactgcctgaccgactccggcgtgctgttcctgctgtgcatgttcctgaagaagagccaggccaacaagctgattagcagcgtgagcggctttaagcggaacgacaaggaaggccagcccagaaggaacctctttacttactatagcgtgagggaaggctacaaggtggtgccagacatgcagaagcacttcctgctgttcgccctggtcaaccacctgtccgagcaggacgaccacatcgagaagcagcagcagagcgacgagctgggcaagggcctgttcttccacagaatcgccagcacattcctgaatgaaagcggcatcttcaacaagatgcagttttacacctaccagagcaatcggctgaaggagaagcggggcgagctgaagcacgagaaggacaccttcacctggatcgagcctttccagggaaacagctacttcaccctgaacgggcacaagggcgtgatcagcgaggatcagctgaaggaactgtgctacacaatcctgatcgagaagcagaacgtggacagcctggagggcaagatcattcagttcctgaagaagtttcagaacgtgtctagcaagcagcaggtggatgaggacgagctgctgaagcgggaatacttccccgccaactacttcggccgggccggcaccggcaccctgaaggagaagatcctgaaccggctggacaagcggatggaccccaccagcaaggtgaccgacaaggcctatgacaagatgatcgaggtgatggagttcatcaacatgtgcctgcccagcgacgagaagctgcggcagaaggattaccggagatatctgaagatggtcagattctggaacaaggagaagcacaacatcaagagagaattcgacagcaagaagtggaccagattcctgcccaccgagctgtggaataagcggaacctggaggaagcctaccagctggcccggaaggagaacaagaagaagctggaggacatgaggaatcaggtgaggagcctgaaggagaacgacctggagaagtaccagcagatcaactatgtgaacgacctggaaaacctgcggctgctgtcccaagagctgggcgtgaagtggcaggagaaggactgggtggaatacagcggccagatcaagaagcagatcagcgataaccagaagctgacaatcatgaagcagagaatcaccgccgagctgaagaagatgcacggcatcgagaacctgaacctgagaatcagcatcgacaccaacaagtcccggcagactgtgatgaacagaattgccctgcccaagggcttcgtgaagaaccacattcagcagaacagcagcgagaagatcagcaagagaatcagagaggactactgcaagatcgagctgtccggcaagtacgaagagctgagcagacagtttttcgacaagaagaactttgacaagatgaccctgatcaacggactgtgcgagaagaataagctcatcgcctt
catggtgatttacctgctggagcggctgggcttcgagctgaaggagaagaccaagctgggcgagctgaagcagacccggatgacatataagatcagcgacaaggtgaaggaggacatccccctctcctactaccccaagctggtgtacgccatgaatcggaagtatgtggacaacatcgatagctacgccttcgccgcctacgagtctaagaaggccatcctggacaaggtggacatcattgagaagcagagaatggaattcatcaagcaggtgctgtgcttcgaggaatacatcttcgagaacagaatcatcgagaagagcaagttcaacgatgaggagacccacatcagcttcacccagatccacgacgaactgatcaagaagggcagagataccgaaaagctgagcaagctgaagcacgccagaaacaaggccctgcacggcgagatccccgacgggaccagctttgagaaggccaagctgctgatcaacgaaatcaagaagtaa(seq id no:27)
[0846]
atgaacgccatcgagctgaagaaggaagaggccgccttctacttcaaccaggccagactgaacatctctggcctggacgaaatcatcgagaagcaactgccacacatcggctctaacagagagaacgccaagaagactgtggacatgatcctggataaccccgaggtgctgaagaagatggaaaactacgtgttcaactcccgcgatattgccaagaatgcccggggcgagctggaggccctgctgctgaagctggtcgagctgagaaacttctatagccactacgtgcacaaggacgacgtcaagacactgagctacggtgagaagcctctgctggataagtactacgagatcgccatcgaagccaccggatccaaggacgtgcggctggagatcattgacgacaagaataagctgaccgacgccggagtgctgttcctgctgtgcatgttcctgaagaagagcgaggctaacaagctgatttccagcatccggggcttcaagaggaacgacaaggagggccagcctagaagaaacctgttcacctactacagcgtgagagagggctataaggtggtgcccgacatgcagaagcactttctgctgttcaccctggtgaaccacctgtccaatcaggacgagtacatctccaacctgcgcccaaaccaggaaatcggccagggcggatttttccaccggatcgccagcaagttcctgagcgacagcggaatcctgcacagcatgaagttctacacatacagatccaagcggctgaccgagcagcggggagagctgaagcccaagaaggaccactttacatggatcgagcctttccagggcaattcctacttcagcgtgcagggccagaagggcgtgatcggagaggagcagctcaaggagctgtgctacgtgctgctggtggcccgggaggacttcagagccgtggagggcaaggtgacccagttcctgaagaagttccagaatgccaataacgtgcagcaggtggagaaggacgaggtgctggaaaaggagtacttccccgccaactactttgagaaccgggacgtgggaagagtcaaggacaagatcctgaacagactgaagaagatcaccgagagttataaggccaagggtagagaggtgaaggcctacgacaagatgaaggaagtgatggagttcatcaacaactgcctgcccaccgatgaaaacctgaagctgaaggactaccggcggtacctgaagatggtgagattctggggcagagagaaggaaaacatcaagcgggagttcgactccaagaagtgggagcgctttctcccccgggagctgtggcagaagagaaacctggaggacgcctaccagctcgccaaggagaagaacacagagctgttcaacaagctgaagaccaccgtggagagaatgaacgaactggagttcgagaagtaccagcagatcaatgacgccaaggacctggccaacctgagacagctggccagagactttggagtgaagtgggaggaaaaggactggcaggaatactctggacagatcaagaagcagatcaccgaccggcagaagctgaccatcatgaagcagcggatcaccgccgccctgaagaagaagcagggaatcgaaaacctgaacctgagaatcacaacagatacgaataagagcaggaaggtggtgctgaaccggatcgcactgcccaagggattcgtcagaaagcacatcctgaagaccgacatcaagatcagcaagcagatccggcagagccagtgccctatcatcctgtctaacaactacatgaagctggccaaggagttctttgaagagcggaacttcgataagatgacccagatcaatggcctgttcgagaagaacgtgctgatcgccttcatgatcgtgtacctgatggagcagctgaacctgagactgggcaagaacaccgagctgtccaacctgaagaagaccgaggtgaactttaccatcaccgacaaggtgaccgagaaggtgcaaatctcccagtaccccagcctggtgttcgccattaaccgggagtacgtggacggcatcagcggctacaagctgccccccaagaagcccaaggaacctccctacaccttcttcgaaaagatcgacgccatcgaaaaggagcggatggaattcatcaagcaggtgctgggcttcgaggagcacctcttcgaaaagaacgtgatcgacaagacccggtttaccgacaccgccacccacatcagcttcaatgagatctgcgatgagctgatcaagaagggctgggacgaaaacaagatcatcaagctgaaggatgcacggaacgctgccctgcacggcaagatccctgaagatacctcctttgacgaagccaaggtgctgatcaacgaactgaagaagtaa(seq id no:
28)
[0847]
gggs(g3s)(seq id no:63)
[0848][0849]
》dcas13e.1-r84a,h89a,r739a,r740a,h744a,h745a(没有起始m)
[0850][0851]
》minidcas13e.1-n180 c150(具有n-末端180个氨基酸的截短和c-末端150个残基截短)
[0852]
lsmyclkdsrftkawdkrvllfrdilaqlgripaeayeyyhgeqgdkkrandnegtnpkrhkdkfiefalhyleaqhseicfgrrhivreeagagdehkkhrtkgkvvvdfskkdedqsyyisknnvivridknagprsyrmglnelkylvllslqgkgddaiaklyryrqhvenildvvkvtdkdnhvflprfvleqhgigrkafkqridgrvkhvrgvwekkkaatnemtlhekardilqyvnenctrsfnpgeynrllvclvgkdvenfqaglkrlqlaeridgrvysifaqtstinemhqvvcdqilnrlcrigdqklydyvglgkkdeidykqkvawfkehisirrgflrkkfwydskkgfaklveehlesgggqrdvgldkkyyhidaigrfeganpalyetlardrlclmmaqyflgsvrkelgnkivwsndsielp(seq id no:32)
[0853]
》接头
[0854]
gggggsggggsggggsggggs(seq id no:33)
[0855]
》hadar2
dd-e488q(双下划线)
[0856][0857]
》sv40 nls
[0858]
pkkkrkv(seq id no:35)
[0859]
》nls-全长dcas13e.1(没有起始m)-nls-gs接头-hadar2
dd-e488q
[0860][0861]
》m-nls-minidcas13e.1-nls-gs接头-hadar2
dd-e488q
[0862][0863]
》脱靶位点1的编码序列
[0864][0865]
》脱靶位点1的间隔序列：
[0866][0867]
》t2a(seq id no:40)
[0868]
egrgslltcgdveenpgp
[0869]
》p2a(seq id no:41)
[0870]
atnfsllkqagdveenpgp
[0871]
》dcas13b-nes-接头-hadar2
dd-e488q(adarv1)
[0872]
[0873]
》dmd外显子52缺失微基因
[0874]
atgaggaagttagaagatctgaggtctgagtgggaggctgtaaaccatttacttcgggagctgaggacaaagcagcctgaccgtgcccctggactgagcactactggagcctgtaagtacattttgtcccaggtgttctcttttgctttagctgtttgttcaaaagcgtggctgggaggttatctctgagtgaaaggaaaattggtttctgattctgcataaaggagtaaacatttatgttatttattatgcaaaaggtctttgagtgtgttccttggatactgagagcattacaagctgtgttttctgaagattcaactgcaaggaaaagagggcagacgaggagaagccataatggtttaacctgatactttatcctgttccttagcattaaaactggatggctttgtggaggcacgttgtatctctaggagaaggtctctcctttgaatttctgcttcactggaagcagagtaatcgtggcagcagttttaaattaaaattaaaggtggttcttgataaggaaacccaacagaccaccacattactagcatctaaacacagatatcaaggtgaaagttcagtgacactggagactttaaaaacatgtgcgatttccctagggtccagcttcaaattaatttacttcctattcaagggaattttaaatcagaaagaagatcttatcccatcttgttttgcctttgttttttcttgaataaaaaaaaaataagtaaaatttatttccctggcaaggtctgaaaacttttgttttctttaccacttccacaatgtatatgattgttactgagaaggcttatttaacttaagttacttgtccaggcatgagaatgagcaaaatcgttttttaaaaaattgttaaatgtatattaatgaaaaggttgaatcttttcattttctaccatgtattgctaaacaaagtatccacattgttagaaaaagatatataatgtcatgaataagagtttggctcaaattgttactcttcaattaaatttgacttattgttattgaaattggctctttagcttgtgtttctaatttttctttttcttcttttttcctttttgcaaaaacccaaaatattttagctcctactcagactgttactctggtgacacaacctgtggttactaaggaaactgccatctccaaactagaaatgccatcttccttgatgttggaggtacctgctctggcagatttcaaccgggcttggacagaacttaccgactggctttctctgcttgatcaagttataaaatcacagagggtgatggtgggtgaccttgaggatatcaacgagatgatcatcaagcagaaggtatgagaaaaaatgataaaagttggcagaagtttttctttaaaatgaagattttccaccaatcactttactctcctagaccatttcccaccagttcttaggcaactgtttctctctcagcaaacacattactctcactattcagcctaagtataatcaaggatataaattaatgcaaataacaaaagtagccatacattaaaaaggaaatatacaaaaaaaaaaaaaaaaaaaaagcagaaaccttacaagaatagttgtctcagttaaatttactaaacaacctggtattttaaaaatctattttataccaaataagtcactcaactgagctatttacatttaaactgtttgttttggcactacgcagcccaacatattgcagaatcaaatataatagtctgggaattgattattatccactcttctaagttgtctgtgccaatttgccttctccaatgataaggataattgaaagagagctataacttaaaaagagaagagcacaaccgttggagtcagtcctcaggtgttttccaccatttctttgagacaatgtccctctttgaaacctcactaagtaagagagactagatacccaatgagctcatctgggcctgtctctgcttcccatcttgactctggttttggaacatccaaacacagatccttatgcccacaagtaagtgctgaggtaatagagccaagccctctagtacctttctaataaataattgttatttagtgtcagagtctaaagttgaatttatatttctaaacatggcaccaatattgtagtttatttcaatgcaagtaatttaatagaaagtcaaatttgtcacctgaagaaatgattttgttaattattttacctatatcactcatagcaccttggatatatttaatgagaaatatacatgtgcaatgacgtttagattctaaatttccactgtcttctcttgagtaataattactgttctttattcttatttttattccagttgaaagaattcagattcagtgggatgaggttcaagaacagctgcagaacaggagacaacagttgaatgaattaaaggattcaacacaatggctggaagctaaggaagaagccgaacaggtcataggacaggtcagaggcaagcttgactcatggaaagaaggtcctcacacagtagatgcaatccaaaagaagatcacagaaaccaag(seq id no:43)
[0875]
》dmd外显子23x(c》t)靶序列
[0876][0877]
》eccas6e-h20l
[0878]
ylskviiarawsrdlyqllqglwhlfpnrpdaardflfhvekrntpegchvllqsaqmpvstavatvi
ktkqvefqlqvgvplyfrlranpiktildnqkrldskgnikrcrvplikeaeqiawlqrklgnaarvedvhpiserpqyfsgdgksgkiqtvcfegvltindapalidlvqqgigpaksmgcgllslapl(seq id no:51)
[0879]
》eccas6e-h20l-nes-接头-hadar2
dd-e488q(adarv1)
[0880][0881]
》eccas6e-h20l-nes-接头-hadar2
dd-e488q/t375g(adarv2)
[0882][0883]
》eccas6e dr编码序列
[0884]
gagttccccgcgccagcggggataaaccg(seq id no:47)
[0885]
》dmd外显子54x(g》a)靶序列
[0886][0887]
》rpe65 q64x微基因
[0888]
atgattgaacaccctgctggtggctacaagaaactatttgaaactgtggaggaactgtcctcaccactaacagctcatgtcacaggttggtctcattgatcttagcttgcttattgattgtacattctaaactggcatcttgcagtatagcctaggttgatataaaccatgacacctttcttgctttatcctgagtactgggttcaagctaacagaacctaactcttcagaaagctttcttttctgtcaagatcatcctgtatcagacatcaagtaagcagtagacaggagccactgttagtatcatcaactctgtccaaagacctcatgtgactcatgctttgctatgtgtaacaggatgctatgtgaaatgtcagcagttgggcaaatcttttctctgttttctgctctataaaaggcaaggagagcagtgaacactcttcaactagatggtggtttagtatcaaacattagctttcagtcaaagcaaatattgttttctaatttttatttgatgtctgcttgatagttgaacttaatatgtaggcaacaatcgatttgttttaaaataaaaacctggtaaggattgagcaaacatgaacttttctggggatgagaggactgatcaaacctcattgtgaaaaatggaagtccccaatgacaatcttggtgccattcatttttctttttttatgaggaaacaaaagctcttagagaaagcaggaggacattctacatatgaatccaggtcctgacacttatccctgtatcttatctgccacaaagggtgaatttcataaagcgtgctcatttatatcccaagataaatgggagttttagattttaaaaactcagccaacattcttgctgcttcatataaaaggttctttctacatgagtagagtagtgcacatctttaatttcagcattcaaaacacagaggcagaagtgtgaggccagcttggtctgtttaactgagtatagaccatcaaaaaaccctatcttaaaaaatgcattttttaaaaaattgacacctagttttaatattttgatccatgctcctaaagtctatccttgtactttttaaaccaccaaattgcataagaaaaactgatgttctgtctataggtaagctgacaaataacaaataggcacatagaaaatctagtaagtagtaccacctatagctctagattttaaagagccaggattcctgttttttcatttaaatagtcttttttctatagacacatctttttaaaatacatttattctcactcttaatccatacttctactcctcactccactaaaatatatcaagaaatttgaaaatcttcttaaaaatgagatggcaaaaggcaaatggattggtgtttggggaaatctattaggtggagagtcccaatcctctcaagatgcttctccctcactccttccaaccctttatccacactctggggcatctccacatttcccaaggtgtgatctcctagtgaaggtgagtcaagtcagcagacattttctaagtgctgtccagcgcgagggctggaaatgaaaatcactgccagctctatgaggaagaagct
gcccaatcaggctgctgatatactctgccttaccaaggacaagcctagcccaaggcagggataagaagcaatgttctgtctccccttcatcacaggcaggatccccctctggctcaccggcagtctccttcgatgtgggccaggactctttgaagttggatctgagccattttaccacctgtttgatgggtaagccctcctgcacaagtttgactttaaagaaggacatgtcacataccacagaaggtaaagcagcactccatgccactcagagtagagcctatctcagttcttctcctgtttgaactttcaccttcatgaacccagagaaaacctctaaacacatttctttcttctttcttcatggtctagccatgtctgtatatttgcacagccacctgagaatgttaaaatgagataatggggttcaagagctctgagacaaacatggctatcttcaaatcctgaataaaccatgcaccattttgtcttaaatgatggcatctggtagggaattattggcctctaattactttgtcaactgtagaatgaaagaaatggtagaatctactctatagagtctacccatgactaaatgagaataaaatatgtcactcattgtaataatgcagtaaaaacaaaaactgctagtacatctgtgattactagactattgggttatctaaatttctttcattttttatcatcagaaaggtctaaaaaagaagctggtaaaatgactcagaaggtgtgggtacatgccattaagccttaccctaatccaatccacatataaactacctctagcaagttttcctctgaactctgtatgcattccatagctcctgcacatgtgtgtgtgtgtgcgcgcacacacacacacactaatgtttaaaaaattatagggacttgaagagagttccacaaaagggggggagggacaaaatatgtcacagaaacactagatacagatgtgaagaagagtgagagaagggagaaagacagagggatacaaagagaaaatttttagccagttatttgctaaagggttagagcaatgactcagcatccagagaacccaggattcaattctgagcaccatggcagctgctgctcacaactgtctacaactctagaccaaggggatccgatgtactttctagcctctatgggtaacaggcacacatgtagtacacagacatatgtgcaagcagaacacacatacatataatattcgtaataataattttattaatagtaacaacaataaagagttattactaaagccatcattccaagaagcccccataacaacacagtaaataccctgattcctatttgaatattcaggcttgttagtggtatgattaccataaatttcaagcattttgaagggacatcaaaggaagagtaaggggaaactggaaataggatttgaactgtgacaaaagagaggaagggactgacaagcataagtttttctaggaaagcaattttggatttcagacacagattttatataacttctaatgtgtactttcatatacattcctttttataaaagcacaaaatcaaattttactctgccttccatatggcaagcctcaagtagcattttccaggtggtctaggaagtgactcacagataaatcagcctgtgaaagagataaaattcaataaaaactaaattttaaaatatataatacattttagaattaaagagaaacacaaggtcaaacagatgaaaaaaatataatcaatcacactatgtcctataatgtgatgagctacatgtgtgacatagccacatgttctagtttgttttctacttctgtgataaacatcatgaccaagaacaagttgagtaggaaagatgtttatttcatctttacaattcatcaccaggggaagccaaggcaggaaggaatcagaacatggaacacagaccatgaaggaatattgtttactgcctaatggtttgtgtcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttcttctccttttcttcttcttcttcttcttcttctttcttcttctttcttcttctttcttcttcttctttcttctttcttcttcttcttcatcttcttctttcttcttcttcttcaccttcctcctcctcctcctcttccttctcctccactgctgccactgctgccaccacctccttcttctctttacctctctctcctttcctaaccctttcttttaaaaatgttttggaaatatttcatgtatatgttgcctgcatgtatatctgtgcaccacattcatgcagtacctgcagaaactggaagatcatgtcacatctcctggaagtggagttatagatagatggttgtgagcccaaaacatggatgctgggaattgaatccaagtcttctggaagagcagtcaatgatctcaatggctgagccaccacttcagccttcagcctgttttctgaagtggtacctgtccagtggtaccatacacagtgggctggtcttgcctgtatcaatcattaatttgttaaaatgtcctcatggacttacctacagaaaatctgatggaggcatcttttcaatgaaagttttcttttcctccaaagaattctagtttgtgtcaagttgaaaaaatctacacaccatgacgtggggcactttcctgttttctaactctgatcaatgtcacaatcacatatatctactcatctttcggagcctcagtctctctatcaccggcttggggagattcatgattccaatttgatgaaaacacactgactctcagtttcatgtgtctagaatgtatagcctacttgtatcctttatccatttctcaatattcttcagattcatccgcactgatgcttatgttcgagcaatgactgagaagaggatt
gtcataacagaatttggcacctgtgctttcccagacccctgcaagaatatattttccag(seq id no:50)
[0889]
》d2egfp
[0890]
vskgeelftgvvpilveldgdvnghkfsvsgegegdatygkltlkficttgklpvpwptlvttltygvqcfsrypdhmkqhdffksampegyvqertiffkddgnyktraevkfegdtlvnrielkgidfkedgnilghkleynynshnvyimadkqkngikvnfkirhniedgsvqladhyqqntpigdgpvllpdnhylstqsalskdpnekrdhmvllefvtaagitlgmdelykklshgfppeveeqddgtlpmscaqesgmdrhpaacasarinv(seq id no:52)
[0891]
》mcherry*
[0892]
mvskgeednmaiikefmrfkvhmegsvnghefeiegegegrpyegtqtaklkvtkggplpfawdilspqfmygskayvkhpadipdylklsfpegfkwervmnfedggvvtvtqdsslqdgefiykvklrgtnfpsdgpvmqkktmg*eassermypedgalkgeikqrlklkdgghydaevkttykakkpvqlpgaynvniklditshnedytiveqyeraegrhstggmdelyk(seq id no:53和seq idno:92)
[0893]
》靶向mcherry*的间隔编码序列
[0894]
ggaggaggcctcccagcccatggtcttctt(seq id no:54)
[0895]
》eccas6e
[0896][0897]
》rescues
[0898]
qlhlpqvladavsrlvigkfgdltdnfsspharriglagvvmttgtdvkdakvicvstgakcingeylsdrglalndchaeivsrrsllrflytqlelylnneddqkrsifqkserggfrlkeniqfhlyistspcgdarifspheaileepadrhpnrkargqlrtkieagqgtipvrnnasiqtwdgvlqgerlltmscsdkiarwnvvgiqgsllsifvepiyfssiilgslyhgdhlsramyqrisniedlpplytlnkplltgisnaearqpgkapifsvnwtvgdsaievinattgkgelgrasrlckhalycrwmrvhgkvpshllrskitkpnvyhetklaakeyqaakarlftafikaglgawvekpteqdqfslt(seq id no:56)
[0899]
nes(seq id no:48)
[0900]
lpplerltl
[0901]
krpaatkkagqakkkk(seq id no:64)的核质蛋白二分nls
[0902]
paakrvkld(seq id no:65)或rqrrnelkrsp(seq id no:66)的c-myc nls
[0903]
nqssnfgpmkggnfggrssgpyggggqyfakprnqggy(seq id no:67)的hrnpa1 m9 nls
[0904]
来自输入蛋白-α的ibb结构域的序列rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv(seq id no:68)
[0905]
肌瘤t蛋白的序列vsrkrprp(seq id no:69)和ppkkared(seq id no:70)
[0906]
人p53的序列pqpkkkpl(seq id no:71)
[0907]
小鼠c-abl iv的序列salikkkkkmap(seq id no:72)
[0908]
流感病毒ns1的序列drlrr(seq id no:73)和pkqkkrk(seq id no:74)
[0909]
肝炎病毒δ抗原的序列rklkkkikkl(seq id no:75)
[0910]
小鼠mx1蛋白的序列rekkkflkrr(seq id no:76)
[0911]
人聚(adp-核糖)聚合酶的序列krkgdevdgvdevakkkskk(seq id no:77)
[0912]
序列rkclqagmnlearktkk(seq id no:78)
[0913]
ms2结合环(5
’‑
ggcccaacaugaggaucacccaugucugcaggggcc-3’，seq id no:79)
[0914]
ms2(ms2外壳蛋白)
[0915]
masnftqfvlvdnggtgdvtvapsnfangvaewissnsrsqaykvtcsvrqssaqkrkytikvevpkvatqtvggvelpvaawrsylnmeltipifatnsdcelivkamqgllkdgnpipsaiaansgiy(seq id no:82)
[0916]
qβ结合环(5
’‑
ggcccaugcugucuaagacagcaugggcc-3’，seq id no:80)
[0917]
qβ(qβ外壳蛋白)
[0918]
makletvtlgnigkdgkqtlvlnprgvnptngvaslsqagavpalekrvtvsvsqpsrnrknykvqvkiqnptactangscdpsvtrqayadvtfsftqystdeerafvrtelaallaspllidaidqlnpay(seq id no:83)
[0919]
pp7结合环(5
’‑
ggcccuaaggguuuauauggaaacccuuagggcc-3’(seq id no:81)
[0920]
pp7(pp7外壳蛋白)
[0921]
msktivlsvgeatrtlteiqstadrqifeekvgplvgrlrltaslrqngaktayrvnlkldqadvvdcstsvcgelpkvrytqvwshdvtivansteasrkslydltkslvvqatsedlvvnlvplgr(seq id no:84)
[0922]
[0923]
[0924]
[0925][0926]
cas13e.3dr编码序列gctggagcagccctcgatttgctgggtaatcacagc(seq id no:126)cas13e.4dr编码序列gctgaagcaaccctggttttgcggggtgattacagc(seq id no:127)cas13e.5dr编码序列gctgtagaagcctccgatttgtgaggtgatgacagc(seq id no:128)cas13e.6dr编码序列gctggagcagccctcgatttgcagggtaatcacagc(seq id no:129)cas13e.7dr编码序列gctggagcagccctcgatttgcagggttatcacagc(seq id no:130)cas13e.8dr编码序列gttggagtagccccggatttgcggggtgattacagc(seq id no:131)cas13f.6dr编码序列gctgtgatagacctcgatttgtggggtagtaacagc(seq id no:132)cas13f.7dr编码序列gctgtgatggacctcgatttgtggggtagtaacagc(seq id no:133)cas13d.1dr编码序列caactacaaccccgtaaaaatacggggttctgaaac(seq id no:134)cas13d.2dr编码序列gttaaataccacctaagaatgaggaggttctataac(seq id no:135)cas13d.3dr编码序列gaacgatagcctgctgaaatatgcaggttctaagac(seq id no:136)cas13d.4dr编码序列gattgaaagctatgcgaatttgcacagtcttaaaac(seq id no:137)cas13d.5dr编码序列gagatagacccttgttaactcgtaaggttctgtgac(seq id no:138)cas13c.1dr编码序列attggatatacccctaatttgagaggggaataaaac(seq id no:139)cas13c.2dr编码序列gttggactataccctcgtttgtagggggaataaaac(seq id no:140)
[0927][0928][0929]
hadar2
dd-e488q/t375g(adarv2)(seq id no:163)
[0930][0931]
》靶向mcherry*的间隔编码序列-5mis/30nt(seq id no:164)
[0932][0933]
》报告质粒(pcmv-bfp-p2a-mcherry(w148x)-ploya)(seq id no:165)：
[0934]
cgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttggcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagctggtttagtgaaccgtcagatccgctagcatgagcgagctgattaaggagaacatgcacatgaagctgtatatggagggcaccgtggacaaccatcacttcaagtgcacatccgagggcgaaggcaagccctacgagggcacccagaccatgagaatcaaggtggtcgagggcggccctctccccttcgccttcgacatcctggctactagcttcctctacggcagcaagaccttcatcaaccacacccagggcatccccgacttcttcaagcagtccttccctgagggcttcacatgggagagagtcaccacatacgaggacgggggcgtgctgaccgctacccaggacaccagcctccaggacggctgcctcatctacaacgtcaagatcagaggggtgaacttcacatccaacggccctgtgatgcagaagaaaacactcggctgggaggccttcaccgagacactgtaccccgctgacggcggcctggaaggcagaaacgacatggccctgaagctcgtgggcgggagccatctgatcgcaaacatcaagaccacatatagatccaagaaacccgctaagaacctcaagatgcctggcgtctactatgtggactacagactggaaagaatcaaggaggccaacaacgagacatacgtcgagcagcacgaggtggcagtggccagatactgcgacctccctagcaaactggggcacaagctgaatggcgccactaacttctccctgttgaaacaagcaggggatgtcgaagagaatcccgggccaatggtgagcaagggcgaggaggataacatggccatcatcaaggagttcatgcgcttcaaggtgcacatggagggctccgtgaacggccacgagttcgagatcgagggcgagggcgagggccgcccctacgagggcacccagaccgccaagctgaaggtgaccaagggtggccccctgcccttcgcctgggacatcctgtcccctcagttcatgtacggctccaaggcctacgtgaagcaccccgccgacatccccgactacttgaagctgtccttccccgagggcttcaagtgggagcgcgtgatgaacttcgaggacggcggcgtggtgaccgtgacccaggactcctccctgcaggacggcgagttcatctacaaggtgaagctgcgcggcaccaacttcccctccgacggccccgtaatgcagaagaaaaccatgggctaggaggcctcctccgagcggatgtaccccgaggacggcgccctgaagggcgagatcaagcagaggctgaagctgaaggacggcggccactacgacgctgaggtcaagaccacctacaaggccaagaagcccgtgcagctgcccggcgcctacaacgtcaacatcaagttggacatcacctcccacaacgaggactacaccatcgtggaacagtacgaacgcgccgagggccgccactccaccggcggcatggacgagctgtacaagtaaatcctgtgccttctagttgccagccatctgttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtcctttcctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggggtggggtggggcaggacagcaagggggaggattgggaagagaatagcaggcatgctgggga
[0935]
》靶向mcherry的间隔编码序列(w148x)(seq id no:166)：
[0936]
tacatccgctcggaggaggcctcccagcccatggttttcttctgcattac
[0937]
》nt-间隔编码序列(seq id no:167)：
[0938]
ggtcttcgatattcaagcgtcggaagacct
[0939]
》dcas13e.2-n150 c150氨基酸序列(seq id no:168)：
[0940]
msgwitpagilllasffvergilhrlmgniggfkdnrgeyglthdifttyclkgsysiraqdhdavmfrdilgylsrvptesfqrikqpqirkegqlserktdkfitfalnyledyglkdlegckacfarskivreqenvesindkeykphenkkkveihfdqskedrfyinrnnvilkiqkkdghsnivrmgvyelkylvlmslvgkakeavekidnyiqdlrdqlpyiegknkeeikeyvrffprfirshlgllqindeekikarldyvktkwldkkekskelelhkkgrdilryinercdrelnrnvynrilellvskdltgfyreleelkrtrridknivqnlsgqktinalhekvcdlvlkeiesldtenlrkylglipkeekevtfkekvdrilkqpviykgflryqffkddkksfvllvedalkekgggcdvplgkeyykivsldkydkenktlcetlamdrlclmmarqyylslnaklaqeaqqiewkkedsielii
[0941]
》dcas13e.2-n180 c180氨基酸序列(seq id no:169)：
[0942]
mgfkdnrgeyglthdifttyclkgsysiraqdhdavmfrdilgylsrvptesfqrikqpqirkegqlserktdkfitfalnyledyglkdlegckacfarskivreqenvesindkeykphenkkkveihfdqskedrfyinrnnvilkiqkkdghsnivrmgvyelkylvlmslvgkakeavekidnyiqdlrdqlpyiegknkeeikeyvrffprfirshlgllqindeekikarldyvktkwldkkekskelelhkkgrdilryinercdrelnrnvynrilellvskdltgfyreleelkrtrridknivqnlsgqktinalhekvcdlvlkeiesldtenlrkylglipkeekevtfkekvdrilkqpviykgflryqffkddkksfvllvedalkekgggcdvplgkeyykivsldkydkenktlcetlamdrlclmma
[0943]
》dcas13e.3-n180 c180氨基酸序列(seq id no:170)：
[0944]
mahyslrdsyvikaeetksfrdllgylsrvpqqavdwlnehnqlsedekkeflnqkpsdeesqeqsktentdrqadrmprrslrktdkfilfaakfiedwaqkekmdvtfaryqktvtedenknqdgkqvrdvqlkyekdtkklnpdfdykwtyyirnnhaiiqikpdeykqavsarisenelkylvllifqgkgweaikkigdyifhignkikigrfdhneerrmpsflknppadiigemvenrlkyirdelnkvietikkeepqnnkwllykgkkisiilkfisdsisdikkrpdvneyntlrdmlqkldfdnfyerlksyvsegrieqtlydeikgikdistlcikicelrlaaleelekeggddlnkyiglavqekhknyddsntpqkkaerflesqfsvgknflretfydeyiknrkslyeiikekitgitplnenrwylmdknpkefeskdskiirglcniyiqdilcmkialwyyenlspsyknklkwdfigqgfgydr
[0945]
》dcas13e.7-n150 c150氨基酸序列(seq id no:171)：
[0946]
mgipgfkrsdkkkwgdgqkidygftrklmsfyslrdsysvnvqenkeltafrdilgylarvpgqaidwliekgkltkeegkqfylgeqseereekakkeeikyalrktdkfmlfavrfiedwaeqerikvefaryekmtivnenkkqdekeerkvkfvsdeptaagwtyyirnnhaiikiipddkkkkavsarisenelkylvltiidgngknaiayigdyifrtarqienksynaesekyapafvrggqkksvdkrikyirdeiqqvindieaeqekqkneqdapaenrtwliykgkkisiilryvndniaeykkrlsvteynelrgylqqldfinfhrklaeyqhhgrlpngfaesinkfqdlsklcievcerqkkklqemaakggieleqyiglapkeenqeqnkyatkannfikvwlsipenflrqkfydkfckqqecknkgsdkpdntsvpqrkyfiaiireknirpihadkyyllgqnpkdyerpdgkiirqlcdvyckdglcmamakwyyenrlgkfkdliewqtgddkqqhgyaghtleyqatekikirfkladftrldiiep
[0947]
》dcas13f.2-n150 c150氨基酸序列(seq id no:172)：
[0948]
mlisgisgfkrndptgqprrnlftyfsaregykalpdmqkhfllftlvnylsnqdeyiselkqygeigqgaffnriastflnisgisgntkfysyqskrikeqrgelnsekdsfewiepfqgnsyfeinghkgvigedelkelcyallvakqdinavegkimqflkkfrntgnlqqvkddemleieyfpasyfneskkedikkeilgrldkkirscsakaekaydkmkevmefinnslpaeeklkrkdyrrylkmvrfwsrekgnierefrtkewskyfssdfwrknnledvyklatqknaelfknlkaaaekmgetefekyqqindvkdlaslrrltqdfglkweekdweeyseqikkqitdrqkltimkqrvtaelkkkhgienlnlritidsnksrkavlnriaiprgfvkkhilgwqgsekisknireaeckillskkyeelsrqffeag
nfdkltqinglyeknkltafmsvylmgrlniqlnkhte
[0949]
》pspcas13b-dr，seq id no:173
[0950]
gttgtggaaggtccagttttgaggggctattacaac
[0951]
》dpspcas13b，seq id no:174
[0952]
mnipalvenqkkyfgtysvmamlnaqtvldhiqkvadiegeqnennenlwfhpvmshlynakngydkqpektmfiierlqsyfpflkimaenqreysngkykqnrvevnsndifevlkrafgvlkmyrdltnayktyeeklndgcefltsteqplsgminnyytvalrnmnerygyktedlafiqdkrfkfvkdaygkkksqvntgfflslqdyngdtqkklhlsgvgialliclfldkqyiniflsrlpifssynaqseerriiirsfginsiklpkdrihseksnksvamdmlnevkrcpdelfttlsaekqsrfriisddhnevlmkrssdrfvplllqyidygklfdhirfhvnmgklryllkadktcidgqtrvrvieqplngfgrleeaetmrkqengtfgnsgirirdfenmkrddanpanypyivdtythyilennkvemfindkedsapllpvieddryvvktipscrmstleipamafhmflfgskkteklivdvhnrykrlfqamqkeevtaeniasfgiaesdlpqkildlisgnahgkdvdafirltvddmltdterrikrfkddrksirsadnkmgkrgfkqistgkladflakdivlfqpsvndgenkitglnyrimqsaiavydsgddyeakqqfklmfekarligkgttephpflykvfarsipanavefyerylierkfyltglsneikkgnrvdvpfirrdqnkwktpamktlgriysedlpvelprqmfdneikshlkslpqmegidfnnanvtyliaeymkrvldddfqtfyqwnrnyrymdmlkgeydrkgslqhcftsveereglwkerasrteryrkqasnkirsnrqmrnasseeietildkrlsnsrneyqksekvirryrvqdallfllakktlteladfdgerfklkeimpdaekgilseimpmsftfekggkkytitsegmklknygdffvlasdkrignllelvgsdivsked
[0953]
》dpspcas13b-接头-nes-gs接头-hadarv1，seq id no:175
[0954]
mnipalvenqkkyfgtysvmamlnaqtvldhiqkvadiegeqnennenlwfhpvmshlynakngydkqpektmfiierlqsyfpflkimaenqreysngkykqnrvevnsndifevlkrafgvlkmyrdltnayktyeeklndgcefltsteqplsgminnyytvalrnmnerygyktedlafiqdkrfkfvkdaygkkksqvntgfflslqdyngdtqkklhlsgvgialliclfldkqyiniflsrlpifssynaqseerriiirsfginsiklpkdrihseksnksvamdmlnevkrcpdelfttlsaekqsrfriisddhnevlmkrssdrfvplllqyidygklfdhirfhvnmgklryllkadktcidgqtrvrvieqplngfgrleeaetmrkqengtfgnsgirirdfenmkrddanpanypyivdtythyilennkvemfindkedsapllpvieddryvvktipscrmstleipamafhmflfgskkteklivdvhnrykrlfqamqkeevtaeniasfgiaesdlpqkildlisgnahgkdvdafirltvddmltdterrikrfkddrksirsadnkmgkrgfkqistgkladflakdivlfqpsvndgenkitglnyrimqsaiavydsgddyeakqqfklmfekarligkgttephpflykvfarsipanavefyerylierkfyltglsneikkgnrvdvpfirrdqnkwktpamktlgriysedlpvelprqmfdneikshlkslpqmegidfnnanvtyliaeymkrvldddfqtfyqwnrnyrymdmlkgeydrkgslqhcftsveereglwkerasrteryrkqasnkirsnrqmrnasseeietildkrlsnsrneyqksekvirryrvqdallfllakktlteladfdgerfklkeimpdaekgilseimpmsftfekggkkytitsegmklknygdffvlasdkrignllelvgsdivskedgslqlpplerltlgggggsggggsggggsggggsqlhlpqvladavsrlvlgkfgdltdnfsspharrkvlagvvmttgtdvkdakvisvstgtkcingeymsdrglalndchaeiisrrsllrflytqlelylnnkddqkrsifqkserggfrlkenvqfhlyistspcgdarifsphepileepadrhpnrkargqlrtkiesgqgtipvrsnasiqtwdgvlqgerlltmscsdkiarwnvvgiqgsllsifvepiyfssiilgslyhgdhlsramyqrisniedlpplytlnkpllsgisnaearqpgkapnfsvnwtvgdsaievinattgkdelgrasrlckhalycrwmrvhgkvpshllrskitkpnvyhesklaakeyqaakarlftafikaglgawvekpteqdqfslt
[0955]
》ddpspcas13b-d369a,k370a,r380a，seq id no:176
[0956][0957]
》ddpspcas13b-d369a,k370a,r380a-接头-nes-gs接头-hadarv1，seq id no:177
[0958]

当前第1页1