
康相涛院士团队刘小军课题组发表研究论文
该研究整合了基因组单核苷酸多态性(SNP)变异信息和多种机器学习算法,对来自 132 个鸡遗传资源的 3,798 个个体的全基因组重测序数据和 600 K 芯片数据进行了分析。通过构建最大似然系统发育树去除异常样本,最终保留了 127个品种的数据。利用遗传分化指数评估遗传分化程度,并从每个遗传资源中筛选出遗传分化指数最高的100个SNP位点,采用梯度提升树模型评估这些位点的重要性。通过比较7种不同机器学习模型的性能,确定最有效的机器学习模型。
图1 鸡种质资源分子鉴别系统工作流程。
研究发现,每个品种都具有近乎完全分化的位点。多分类逻辑回归(MLR)模型被证明是鸡种质资源分子鉴别最有效的机器学习模型,使用 2000个SNPs时,准确率达到 99.45%。此外,该系统提供了用户友好的在线网站(http://www.chickenbreeds.cn),用户可以通过上传vcf或gvcf格式SNP变异文件进行鸡遗传资源的鉴别。系统的通用性允许使用全基因组重测序和 SNP 芯片数据,并且具备数据上传功能有助于持续扩展鸡遗传资源数据库,实现更广泛的品种鉴别范围。
图2. 基于SNP的鸡分子鉴别系统模型性能比较。
该分子鉴别系统为鸡遗传资源的保护和利用提供了一种快速、准确且低成本的方法。这不仅有助于保护地方品种的遗传多样性,还为制定创新的育种计划提供了科学依据,支持家禽行业的可持续发展。该系统有望在农业科研和生产实践中得到广泛应用,为全球鸡遗传资源的保护和利用做出重要贡献。动物科技学院博士研究生职毅豪为论文第一作者,刘小军教授、康相涛院士、李红副教授、摩洛哥穆罕默德五世大学Badaoui Bouabid教授为论文共同通讯作者。该工作得到国家重点研发计划课题(2022YFF1000202)项目资助。
论文链接:https://doi.org/10.1016/j.compag.2025.109989