用于迭代和可扩展的群体规模变体分析的系统和方法与流程-k8凯发

文档序号:37023309发布日期:2024-02-09 13:18阅读:70来源:国知局
用于迭代和可扩展的群体规模变体分析的系统和方法与流程


背景技术:

1、群体规模的基因组实验可包括聚集和/或合并与来自大量(例如,几十万个)样品的变体相关联的数据。现有的测序分析可集中于每个样品分析。随着测序通量持续增加,群体规模的变体分析结果的及时递送已经变得日益期望。此外,在现有的测序分析中,可进行样品的测序,使得一些数据在任何给定的时间点可能不可用。

2、现有的测序分析可使用基因组变体检出格式(gvcf)文件。gvcf文件存储变体和非变体位置两者的测序信息。gvcf文件可允许跨基因组中所有位点的基因型、注释和其他信息的表示。gvcf基因分型器可以是基于群体的分析工具,其联合分析来自无关个体的变体。


技术实现思路

1、本文描述了用于实现将可用批次的样品数据与先前可用批次递增地聚集的迭代过程的系统、方法和装置。一个或多个计算设备可被配置为接收与一个或多个样品相关联的一个或多个基因组变体检出文件。基因组变体检出文件的示例可以是基因组变体检出格式(gvcf)文件。基因组变体检出文件中的数据可包括变体和基因组区块的列表。基因组变体检出文件可在由测序设备在不同位点进行的样品批次中接收。

2、可为每批样品生成群组文件和统计文件。群组文件和统计文件可包括基因组变体检出文件中的字段子集,并且可包括针对字段子集的样品批次的概要信息。从不同批次的样品生成的多个统计文件中的统计数据可被聚集入全局统计文件中。

3、多样品变体检出文件可基于全局统计文件、一个或多个群组文件以及一个或多个统计文件来生成。多样品变体检出文件可被存储在存储器中,用于对文件中的数据进行测序分析。例如,可实现一个或多个计算设备以使用一个或多个多样品变体检出文件来执行全基因组测序分析。

4、基因组变体检出文件可在多个计算节点处使用并行处理来处理,如本文所述。每个批次的基因组变体检出文件可被分成相等大小的碎片,以使得能够并行处理基因组变体检出文件。可使用多个计算节点中的一个计算节点来处理每个碎片。可通过序列数据的区域使用多线程来实现并行处理。至少两个计算节点可被配置为执行至少两级别并行化用于处理、聚集和/或生成序列数据的对应区域的数据。每个计算节点可被配置为处理特定区域。每个核可具有特定的线程处理。可以实现可变数目的软件线程。可以为每个cpu核实现一个或多个线程。例如,单个线程可由每个cpu核实现。由每个cpu核实现的线程的数目可响应于用户输入而改变。

5、一个或多个计算设备可如本文所述实施以执行等位基因排序和基因型重新索引。每个基因组变体检出文件可与包括参考替代基因型(ragt)统计数据的多个样品的相应样品相关联。使用ragt统计数据,可标识与基因组变体检出文件中的样品相关联的多个参考等位基因和多个替代等位基因。多个参考等位基因中的每个参考等位基因的实例和多个替代等位基因中的每个替代等位基因的实例可被相加用于标准化以确定唯一等位基因的数目。可从多个参考等位基因中选择标准化的参考等位基因。最长的参考等位基因可被选择作为标准化的参考等位基因。多个参考等位基因的其他参考等位基因可通过延伸至对应于标准化的参考等位基因而标准化。可通过将每个替代等位基因延伸与各自对应的参考等位基因所延伸的量相同的量来标准化多个替代等位基因。多样品变体检出文件可使用标准化的参考等位基因和标准化的替代等位基因生成。

6、可实现一个或多个计算设备以对存储在群组文件和/或统计文件中的数据执行压缩。被压缩的群组文件或统计文件的字段可被标识。在一个示例中,与多个样品相关联的多个参考等位基因和多个替代等位基因可被存储在可被标识用于压缩的ragt字段中。一个或多个计算设备可被配置为确定多个样品中的哪些样品具有共同参考等位基因和替代等位基因。样品可被分布入等位基因组中。每个等位基因组可包括具有共同参考等位基因和替代等位基因的一个或多个样品。一个或多个计算设备可被配置为基于等位基因组的数目来选择二进制值长度。二进制值长度可以是可用于唯一地标识等位基因组中的每个等位基因组的最短二进制值长度。一个或多个计算设备可被配置为使用所确定的二进制值长度向等位基因组中的每个等位基因组分配唯一的二进制值。等位基因组中的每个等位基因组的唯一二进制值可存储在位图中,该位图用于在位阵列中编码多个参考等位基因和多个替代等位基因。

7、如本文所述,可将群组文件和统计文件中的基因组变体数据聚集在包括固定数目的缓冲器位置的输出缓冲器中。例如,一个或多个计算设备可被配置为接收基因组变体数据的记录并且确定所接收的记录的基因组变体数据是否与输出缓冲器中的一个或多个其他先前存储的记录重叠。当所接收的记录的基因组变体数据未能与缓冲器中先前存储的记录重叠时,可将所接收的记录的基因组变体数据存储在缓冲器中的一个或多个缓冲器位置中。当所接收的记录的基因组变体数据与另一记录的基因组变体数据重叠时,可更新包括记录的重叠部分的缓冲器位置以包括所接收的记录的基因组变体数据。先前存储的记录的任何非重叠部分可被复制并且与记录的重叠部分存储在顺序缓冲器位置中。正被接收的记录的任何非重叠部分可被添加到具有记录的重叠部分的顺序缓冲器位置。



技术特征:

1.一种迭代gvcf基因分型的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的计算机实现的方法,所述方法还包括:

3.根据权利要求1所述的计算机实现的方法,其中与所述第一批次相关联的所述第一多个基因组变体检出文件被分成相等大小的碎片,并且其中每个碎片使用多个计算节点中的一个计算节点处理。

4.根据权利要求1所述的计算机实现的方法,所述方法还包括:

5.根据权利要求1所述的计算机实现的方法,其中所述方法在本地计算系统上执行或跨云计算系统分布。

6.一种系统,所述系统包括:

7.根据权利要求6所述的系统,其中所述样品包括来自测序运行、测序循环或多次测序运行的样品。

8.根据权利要求6所述的系统,其中所述指令还被配置为使得所述至少一个处理器使用多个计算节点执行并行处理。

9.根据权利要求8所述的系统,其中所述指令当由所述至少一个处理器执行时还使得所述处理器:

10.根据权利要求9所述的系统,其中至少两个计算节点执行至少两级别并行化以用于处理、聚集或生成所述序列数据的对应区域的数据,其中每个计算节点处理特定区域。

11.根据权利要求6所述的系统,其中区域中的所述群组文件和所述统计文件被位压缩和串行化。

12.一种系统,所述系统包括:

13.根据权利要求12所述的系统,其中所述指令还使得所述至少一个处理器使用所述标准化的参考等位基因生成每个样品的标准化表示,使得所述多个替代等位基因中的每个替代等位基因使用所述标准化的参考等位基因来索引。

14.根据权利要求12所述的系统,其中通过添加相应的数目的碱基以对应于所述标准化的参考等位基因来延伸所述其他参考等位基因。

15.根据权利要求12所述的系统,其中所述指令还使得所述至少一个处理器:

16.根据权利要求15所述的系统,其中所述指令被配置为使得所述至少一个处理器更新所述标准化表示还包括所述指令被配置为使得所述至少一个处理器:

17.根据权利要求15所述的系统,其中所述指令被配置为使得所述至少一个处理器更新所述标准化表示还包括所述指令被配置为使得所述至少一个处理器:

18.根据权利要求12所述的系统,其中所述指令还使得所述至少一个处理器基于所述标准化的参考等位基因和所述标准化的表示对每个样品的基因型进行重新排序。

19.根据权利要求18所述的系统,其中所述指令还使得所述至少一个处理器基于所述标准化的参考等位基因生成所述多个替代等位基因中的每个替代等位基因的映射。

20.根据权利要求19所述的系统,其中所述多个替代等位基因中的每个替代等位基因的所述映射被存储在统计文件中的位点信息中。

21.根据权利要求19所述的系统,其中所述指令还使得所述至少一个处理器从所述多个基因组变体检出文件生成一个或多个群组文件和一个或多个统计文件。

22.根据权利要求21所述的系统,其中所述指令还使得所述至少一个处理器将所述一个或多个统计文件聚集入全局统计文件,其中所述全局统计文件包括来自从不同位点处的测序设备接收的样品的批次的统计数据。

23.根据权利要求22所述的系统,其中所述指令还使得所述处理器基于所述全局统计文件、所述一个或多个群组文件和所述一个或多个统计文件生成至少一个多样品变体检出文件。

24.一种系统,所述系统包括:

25.根据权利要求24所述的系统,其中所述二进制值长度被选择为可用于唯一地标识所述等位基因组中的每个等位基因组的最短长度。

26.根据权利要求24所述的系统,其中所述等位基因组中的每个等位基因组包括参考等位基因和一个或多个替代等位基因。

27.根据权利要求24所述的系统,其中所述位阵列被存储在群组文件或统计文件中的一者或多者中。

28.根据权利要求27所述的系统,其中指令还使得所述处理器使用所述统计文件生成针对所述多个样品的全局统计文件。

29.根据权利要求28所述的系统,其中所述指令还使得所述处理器使用所述群组文件、所述统计文件和所述全局统计文件生成一批次所述多个样品的多样品变体检出文件。

30.根据权利要求24所述的系统,指令还使得所述处理器在分配所述唯一二进制值之前将具有相同参考等位基因和替代等位基因的样品一起分组到所述多个等位基因组中。

31.一种系统,所述系统包括:

32.根据权利要求31所述的系统,其中所述指令还使得所述处理器确定所述第二记录被分配到所述第一缓冲器位置。

33.根据权利要求31所述的系统,其中所述输出缓冲器包括相邻记录之间的空缓冲器位置。

34.根据权利要求31所述的系统,其中所述基因组变体检出文件是第一基因组变体检出文件,其中所述基因组区域是第一基因组区域,并且其中所述指令还被配置为使得所述处理器:


技术总结
一种可被实现以用于将样品数据的可用的批次与先前可用的批次递增地聚集以执行测序分析的迭代过程。与一个或多个样品相关联的基因组变体检出文件可从测序设备成批次地接收并且聚集以用于执行测序分析。聚集的基因组变体检出文件可被用于生成包括与每个批次中的基因组变体检出文件相关的概要信息的群组文件和统计文件。统计文件中的统计数据可被聚集入包括概要基因组变体数据的全局统计文件中。多样品变体检出文件可基于该全局统计文件、该群组文件和该统计文件生成。该基因组变体检出文件可在多个计算节点处使用并行处理来处理。文件可以被进一步压缩,并且重叠数据可被有效地存储在缓冲器位置中。

技术研发人员:黄卓轶,j·戴比尔,o·b·舒尔茨-特里格拉夫,a·比恩鲍姆,b·o·蒙塔尼奥
受保护的技术使用者:因美纳有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图