国立首尔大学医学院的研究人员和美国某公司联合应用去年新发售的GemCodeTM测序平台和第3代测序PacBio单份子实时测序平台在本期的Nature上发表了1项新的研究,对1名韩国人的基因组(AK1)进行从头组装和单倍体型定相信息分析。这是迄今为止发表的最为连续的人类基因组组装。作者弥补了特异人群参考基因组的空白,并肯定了结构变异。
该研究的显著改进
这项工作提供了了到目前为止最邻近的2倍体基因组装配与之前未报导的亚洲特异结构变异的广泛调查。其优秀的临床相干的等位基因的单体型分析有着提高精准医疗的潜力。这对目前基于欧洲人和白人人群的基因组分析方法,是1个显著的改进。这个方法提高了从1个个体的短读长序列比对构成到1个单倍体的1致性参考基因组的分析状态,调剂了通常没法捕捉到相对个体基因组或种族人群属于新序列的问题。
主要研究方法
GemCode平台能够与现有的短读取测序仪互补,产生长片断信息(10⑴00kb),实现结构变异和单体型等分析。为了更全面了解结构变异的范围和更好地理解AK12倍体基因组结构的相,研究者对从PacBio单分子实时测序reads组装得到的,每一个染色体单倍型的装配体——“haplotig”进行从头组装。除PacBio长读长测序,该研究还使用了Illumina短读长测序、10XGenomics连接读取、细菌人工染色体(BAC)测序和BionanoGenomics光学图谱。ContigN50到达17.9Mb,ScaffoldN50到达44.8Mb。
实验设计及数据分析流程
数据上的提升
到目前为止该研究在之前比较好的N50长度上提高了18Mb,最大的91个scaffold覆盖了基因组的90%,8个染色体的臂是由单个scaffold构成的。研究人员用AK1的组装序列补齐了在人类参考基因组GRCh38上的190个空缺中的105个,补齐的序列由364kb变成1.5Mb。另外也将剩下的85个空缺中的72个从663kb补充到4.1Mb。该研究鉴定到的18,210个结构变异,包括7,358个删除,10,077个插入,71个转换和704个复杂变异,所有这些变异均在AK1组装结果和人类参考基因组GRCh37之间进行了直接比较,到达了单碱基的分辨率。在18,210个结构变异中,总共有11,Nature:借助第三代测序韩国发表最连续人类基因组,927个变异是之前未曾报导的。
AK1denovoassemblyScaffolds与GRCh38的数据结果进行比较
测序新技术的强大作用
这项研究的结果显示了测序新技术在从头基因组组装和“真实的”2倍体定相方面的强大能力,可以用来检测全方位的遗传变异和了解临床相干基因的单倍体的结构,Nature:借助第三代测序韩国发表最连续人类基因组。这项基因包括:主要组织相容性复合体(MHC)的人类白细胞抗原(HLA)的基因变异,对药物基因组非常重要的CYP2D6基因,和罕见的常染色体隐性遗传疾病,如家族性地中海热、Upshaw–Shalman综合征中触及到的基因。
该项研究的领导者,国立首尔大学医学院的JeongSunSeo医生说:“10xGenomics的GemCode平台和有针对性的BAC克隆测序在这项研究中成功单倍体定相是必不可少的。”
10xGenomics的联合开创人和首席履行官SergeSaxonov说:“从头装配和定相就像10字瞄准线1样是我们的主要目标。我们的技术非常适合于临床和人群范围的测序,Nature:借助第三代测序韩国发表最连续人类基因组。”
人类基因组从头组装及单倍体型定相信息总结统计
作者在文章中还比较了目前已有的人类基因组组装的测序平台、算法、组装和定相统计数据。该列表表明,Nature:借助第三代测序韩国发表最连续人类基因组,单分子长读长测序技术在生成高质量组装数据上远超太短读长测序技术。这项研究清楚地表明了第3代测序长读长技术结合GemCode测序平台解决单倍型的从头组装方法的潜力,并揭穿了之前未被发现的新的遗传变异,将迎来人类基因组测序的新标准。
相关新闻
上一页:棒上实验室能迅速检测抗生素耐受
相关问答