男性早发性脱发
男性早发性脱发一般发生在40岁以前。基因能解释的范围内,可以告诉你是否有早发性脱发的风险(但不涉及脱发的程度)。
检测结果
通过预测模型计算出6组基因结果,分段长度代表每组结果人群占比。
你这种基因类型的人早脱风险相对一般
除了遗传,还有哪些因素可能影响你早脱?
我们对23魔方男性用户的脱发情况进行了研究,同时参考相关文献,发现以下这些因素均会不同程度地影响脱发:
男性早发性脱发一般发生在40岁以前。基因能解释的范围内,可以告诉你是否有早发性脱发的风险(但不涉及脱发的程度)。
通过预测模型计算出6组基因结果,分段长度代表每组结果人群占比。
你这种基因类型的人早脱风险相对一般
我们对23魔方男性用户的脱发情况进行了研究,同时参考相关文献,发现以下这些因素均会不同程度地影响脱发:
相关数据:在23魔方的数据中,如果父母双方都脱发,那么后代男性的脱发概率将达到65%,而父亲脱发对后代男性的影响(47%概率脱发)比母亲脱发对后代男性的影响(38%概率脱发)更大。
相关数据:在23魔方的数据中,80后的男生的脱发率相比于90后的男生高10%;每增加10年脱发可能性增加大约10%。
相关数据:在23魔方的数据中,肥胖男性(BMI>=27)发生严重脱发的风险是不肥胖男性的2.2倍。
参考下图,分别代表了不同程度的脱发情况,你可以对比自己是否有出现这样的状况。
我们的检测是使用极少量 DNA 来检测 70~80 万位点,受检测技术限制会有约 1% 的位点(预计 7~8 千个)无法检出。并且这些位点随机分布,可能会落在用于解释项目结果的位点中,从而影响您此项目的检测结果。
结合研究所问卷收集的数据和签署研究知情同意书的研究志愿者基因数据,研究人员利用计算生物学、机器学习方法,来寻找和性状相关的基因位点,并据此构建预测模型。
研究人员会在研究所持续收集数据来不断校验并优化预测模型。随着数据规模变大,模型获得更充分的校正和验证,此时它会被呈现在正式报告中。
*研究所致力于发现基因和环境对个体在更多方面的具体影响,诚邀并感谢大家参与研究问卷填写。
感谢你参与23研究所此项目的问卷调查,特发荣誉证书。
证书请登录APP查看。
*参考现有关于男性早发性脱发的研究,可以推断基本上是可遗传的。23魔方基于收集到的中国人自己的数据集进行研究,识别与早发性脱发相关的基因位点,建立模型来预测早发性脱发风险,但是纯粹使用基因精确预测脱发风险依然困难。
1. 通过23魔方研究收集脱发相关数据
我们整合了所有23魔方研究的脱发问卷相关的回答,选取 18岁以上的男性样本,严格筛选问卷(排除前后脱发类型回答矛盾的问卷和选择不确定的问卷);去除选择斑秃这种特殊罕见选项的问卷,并根据脱发类型选项进行脱发程度评级;制定严格分类规则,选择40岁(通用的判别早发性脱发和自然脱发的年龄界线)之前脱发情况在中度以上的样本作为case组;选择大于40岁没有出现脱发情况的样本作为control组。这样排除了年龄带来的自然脱发的影响。
2. 计算早发性脱发的基因分数
我们基于上述筛选后的样本及其对应的基因芯片数据,选取了 10个与早发性脱发可能相关的遗传标记。根据这些遗传标记,我们使用机器学习和大数据统计的方法在训练样本中构建预测模型,选择出最优的早发性脱发的基因分数模型,并在两种测试集合中测试模型性能,如(图1)。严格测试集,case和control的划分严格按照训练集合的筛选标准,保证排除自然脱发等其它干扰因素影响模型测试结果;一般测试集,case和control只是根据问卷中关于脱发类型的选项进行划分,里面可能包含一部分年龄导致的自然脱发人群和隐藏的早脱人群(未到脱发年纪当前还未脱发)。
图1 A.早发性脱发的基因分数在严格测试集合中case (hair loss) 和control (No hair loss) 组中的分布情况(auc = 0.62);图1 B.早发性脱发的基因分数在一般测试集的case (hair loss) 和control (No hair loss) 组中的分布情况(auc = 0.55)。纵轴均为基因分数,图中两个分组中小圆点代表了该组基因分数的平均水平。可以看出在两个测试集合中早发性脱发人群的基因分数相比于没有早发性脱发的人群更集中在较高位置,尤其在严格测试集合中差异表现的更为明显。
3.给出脱发风险程度
现阶段基因对于早发性脱发的预测性不是很高,直接根据基因精确给出风险指数并不合理,而基因对于早发性脱发的影响更多表现为一种倾向性。为了给出更符合实际的倾向结果,我们对前面得到的连续数值的基因分数进行离散化分割,最终将基因分数转变为6个分箱,计算每个分箱中实际早发性脱发的概率。最后我们选择年龄在40岁之后的数据集合,校正自然脱发情况,得到不同分箱中实际的早发性脱发的概率分布,帮助你更好地了解其他与你基因相似人的实际早发性脱发分布情况。下图给出了在两个测试集中的分箱结果图(图2)。
图2 A. 在严格测试集合中6个分箱中case (hair loss 淡蓝色部分) 对control ( No hair loss橘红色部分) 占比呈明显递增趋势。图2 B. 在40岁之后的数据集合中6个分箱中case (hair loss 淡蓝色部分) 对control ( No hair loss橘红色部分) 占比呈递增趋势。跟我们预期的一致,两个集合中的递增趋势结果一致。
4 讨论
在欧洲人群中,遗传和基因对早发性脱发的影响非常显著,相关基因位点和遗传机制的相关研究成果较多。而相比于脱发大户欧洲人群,中国人的脱发比例要小很多,遗传机制和相关基因位点与欧洲人群具有差异。从现状来看,基因对脱发的影响程度非常有限,诸多因素均有较大影响。从外界环境角度来讲,外界环境例如压力,睡眠,抽烟,肥胖(依据23魔方研究数据)饮酒等因素影响脱发;从基因预测建模本身来讲,因为早发性脱发在一定年龄才会显露,所以在问卷收集过程中,case和control的划分和有效的样本数都需要超级大量的数据去完善模型,在持续的数据扩大和更新过程中,我们的预测和研究将会变得逐渐准确和更为丰富。
通过预测模型共计算出6个结果。在和你相同基因结果的23魔方男性用户中,有49%的人会有早发性脱发。
早脱的比例
不会早脱的比例
样本数8000
项目上线
研究进展中的项目预测结果是通过大数据建模得到的,而 AUC (Area under curve) 是机器学习中评价模型综合性能的常用指标,通常在 0.5~1 之间。
AUC 越高,表示预测模型的整体性能越好。
AUC 与准确率 (Accuracy) 的区别在于,AUC 需同时考虑对于阳性(患病)和阴性(未患病)的准确率。
举个例子:如果一个患病率为 1% 的病,只要预测所有人都不患病,那么准确率也达到了 99%。但这只考虑了阴性情况,这并不能说明预测模型的整体性能好。
因此,用准确率来评判预测模型较为片面,AUC 能更好的评价模型的好坏。