口腔溃疡易感性
口腔溃疡在临床上被称作「复发性阿弗他口炎」,是一种最常见的口腔黏膜疾病。该疾病的特征是反复出现一至多个疼痛性溃疡,虽然溃疡常在 7~14 天内愈合,但却对患者的生活造成影响。
目前的研究认为,遗传因素、营养缺乏、病毒和细菌感染以及免疫失调或内分泌失调都是可能导致口腔溃疡的危险因素。
检测结果
通过预测模型计算出 5 组基因结果,分段长度代表每组结果的人群占比。
口腔溃疡易感性高
口腔溃疡的相关发现
根据23魔方的研究数据发现,口腔溃疡的发生可能与以下因素有关。
口腔溃疡在临床上被称作「复发性阿弗他口炎」,是一种最常见的口腔黏膜疾病。该疾病的特征是反复出现一至多个疼痛性溃疡,虽然溃疡常在 7~14 天内愈合,但却对患者的生活造成影响。
目前的研究认为,遗传因素、营养缺乏、病毒和细菌感染以及免疫失调或内分泌失调都是可能导致口腔溃疡的危险因素。
通过预测模型计算出 5 组基因结果,分段长度代表每组结果的人群占比。
口腔溃疡易感性高
根据23魔方的研究数据发现,口腔溃疡的发生可能与以下因素有关。
* 需要注意的是,吸烟对已经存在的溃疡并没有保护作用。
* 该结果来自于23魔方研究所,仅基于23魔方的用户样本。
* 该结果来自于23魔方研究所,仅基于23魔方的用户样本。
目前对口腔溃疡的病因和发病机制还不够明确,因此没有明确的能够预防口腔溃疡发生的方法,但以下几种行为或许能帮助你减少口腔溃疡的触发。
我们的检测是使用极少量 DNA 来检测 70~80 万位点,受检测技术限制会有约 1% 的位点(预计 7~8 千个)无法检出。并且这些位点随机分布,可能会落在用于解释项目结果的位点中,从而影响您此项目的检测结果。
结合研究所问卷收集的数据和签署研究知情同意书的研究志愿者基因数据,研究人员利用计算生物学、机器学习方法,来寻找和性状相关的基因位点,并据此构建预测模型。
研究人员会在研究所持续收集数据来不断校验并优化预测模型。随着数据规模变大,模型获得更充分的校正和验证,此时它会被呈现在正式报告中。
*研究所致力于发现基因和环境对个体在更多方面的具体影响,诚邀并感谢大家参与研究问卷填写。
感谢你参与23研究所此项目的问卷调查,特发荣誉证书。
证书请登录APP查看。
我们在23魔方研究所中收集了与口腔溃疡相关的问答「你容易口腔溃疡吗」,并选取 18~70 岁样本,去除选择「不确定」的个体;同时为了避免评分选项为 3 的中立回答(介于容易和不容易之间)对后续分析产生影响,也将此选项群体排除在分析外。
最终,为了保障样本量的充足,我们将选择评分选项为 1 和 2 的人群归为一类作为 Control 组(不容易口腔溃疡),将选择评分选项 4 和 5 的一类作为 Case 组(容易口腔溃疡)。
我们基于上述筛选后的样本及其对应的基因芯片数据,在同时校正年龄和性别的前提下选取了与口腔溃疡最相关的遗传标记。
根据这些遗传标记和基因性别,我们使用机器学习和大数据统计的方法对训练样本和验证样本构建预测模型,选择出最优的基因分数模型,并在全新的测试集合中测试模型性能(如下)。
上图为口腔溃疡的基因分数在测试集的容易口腔溃疡(Case,橘红色颜色表示)和不容易口腔溃疡(Control,淡蓝色颜色表示)中的分布情况。其中纵轴为基因分数。
现阶段根据基因对于口腔溃疡的准确预测难度很大,直接根据基因和性别给出是否容易口腔溃疡并不合理,而基因对于口腔溃疡的影响更多表现为一种明显的倾向性。
为了给出更准确的倾向结果,我们对前面得到的连续数值的基因分数进行离散化分割,最终将基因分数转变为 5 个分箱,计算每个分箱中实际口腔溃疡情况的比例。
在预测时我们将你的基因分数对应到相应的分箱中,得到你的口腔溃疡倾向性;同时展示其他与你基因相似的人的口腔溃疡情况分布,并在验证数据集中充分验证了分箱规则的稳定性。
上图,容易口腔溃疡(Case,橘红色颜色表示) ,中间类型(Other,选项评分为 3 ,土橘色表示),和不容易口腔溃疡(Control,淡蓝色颜色表示)。
随着分箱组别上升,容易口腔溃疡的基因分数随之上升。可以看到容易口腔溃疡的占比呈递增趋势。
在我们研究的过程中,我们的研究结果与其他研究发现的遗传标记有相近的基因座,且同样的也无法单独根据基因实现高精确的预测。这可能源于 GWAS 传统方法本身的局限性而暂时未能挖掘到更好的结果,也可能受限制于其他组学以及后天环境,例如生活环境的影响以及年龄差异。
通过预测模型共计算出 5 个结果。在和你相同基因结果的23魔方用户(第 5 组)中,有 38% 的人容易得口腔溃疡。
容易得口腔溃疡(评分 4,5)
中间类型(评分 3)
不易得口腔溃疡(评分 1,2)
样本数30761
研究进展中的项目预测结果是通过大数据建模得到的,而 AUC (Area under curve) 是机器学习中评价模型综合性能的常用指标,通常在 0.5~1 之间。
AUC 越高,表示预测模型的整体性能越好。
AUC 与准确率 (Accuracy) 的区别在于,AUC 需同时考虑对于阳性(患病)和阴性(未患病)的准确率。
举个例子:如果一个患病率为 1% 的病,只要预测所有人都不患病,那么准确率也达到了 99%。但这只考虑了阴性情况,这并不能说明预测模型的整体性能好。
因此,用准确率来评判预测模型较为片面,AUC 能更好的评价模型的好坏。