本研究利用PacBio HiFi(141.03 Gb,49.3×)、Ultra-long ONT(328.44 Gb,114.8×)、Bionano(1188.9 Gb)和Hi-C(435.76 Gb,152.2×)测序技术,组装了山羊首个完整基因组(T2T-goat1.0),其大小为2.86 Gb,包括20.96Mb的Y染色体。T2T-goat1.0的QV值达到了54.18,且全基因组的覆盖度均匀。
T2T-goat1.0与山羊参考基因组ARS1具有高度共线性,进一步验证了T2T-goat1.0的高质量和准确性。T2T-goat1.0成功填补了ARS1中的649个gap,并完整解析了着丝粒和端粒区域。T2T-goat1.0共鉴定到288.5Mb的之前NCBI参考基因组ARS1未解析区域(PURs),这些区域被认为是错误组装的修正或新组装,其中超过30 Mb位于X染色体上。这些 PURs 主要由着丝粒卫星序列和片段重复(SDs)组成,占 PURs 总长度的 81.92%(236.33 Mb)。此外,T2T-goat1.0修正了ARS1中大量的组装结构错误,例如,18号染色体19 Mb–26 Mb区域的倒位,该倒位通过原始reads比对被确认是 ARS1的组装错误。T2T-goat1.0 中鉴定到286.70 Mb 的非冗余片段重复,其中73.28%(210.12 Mb)位于着丝粒区域,而在ARS1中仅发现了55.25 Mb。
为了评估T2T-goat1.0作为参考基因组在reads比对和变异检测的改进,研究收集了516个山羊样本的全基因组重测序数据进行SNP调用。与之前的参考基因组ARS1相比,使用T2T-goat1.0作为参考基因组在reads比对、变异检测方面的表现也有显著改进,T2T-goat1.0作为参考基因组时,reads 比对率有所增加、比对错误率降低。通过质控和过滤,在T2T-goat1.0上鉴定了25,397,794个SNP,其中545,026个位于PURs,而在 ARS1上获得了24,238,138个SNP。
此外,在家养山羊驯化的选择特征分析中,T2T-goat1.0的完整性为识别驯化过程中的选择信号提供了显著优势。基于 T2T-goat1.0 检测的SNP 和SV,研究鉴定了位于PURs的与驯化相关的基因,如NKG2D和ABCC4。
对于羊绒性状的基因组选择特征分析,除了先前已报道的与羊绒相关的基因(如FGF5和EDA2R)外,在 PURs还发现了274个选择信号,覆盖了72个基因。在Chr12的PURs(CHI12: 14.88 Mb–16.58 Mb)中,鉴定到了ABCC4基因的选择信号。共线性分析表明,ARS1中该区域的组装不完整,而在T2T-goat1.0中,该区域包含了14个串联重复的ABCC4基因。
总之,山羊T2T基因组全面解析了复杂的基因组区域,如着丝粒、端粒、重复序列和Y染色体,为研究基因组结构与功能提供了更完整、更准确的信息。该基因组改进了短读长和长读长的比对能力,提高了变异检测的准确度,并鉴定出多个此前未报道的受选择信号,为深入理解山羊的遗传多样性、驯化过程及性状选择提供了可靠的依据。山羊完整基因组的破译不但为山羊研究提供了重要的遗传资源,还将促进其在生物技术领域的广泛应用。
中国农业大学为论文第一单位,动物科学技术学院博士生吴慧、罗凌云、张雅慧和内蒙古农业大学动物科学学院张崇妍为共同第一作者,中国农业大学动物科学技术学院李孟华教授、草业科学与技术学院贾善刚副教授和内蒙古农业大学动物科学学院刘志红教授为共同通讯作者。该工作得到了国家重点研发计划、国家生物育种重大科技项目、国家自然科学基金、中国农业科学院北方农牧业技术创新中心项目、中国科学院战略性先导科技专项和第二次青藏高原科学考察研究项目的资助。