版权说明 操作指南
首页 > 成果 > 成果详情

一种LncRNA和环境因素关联关系的高效预测方法

认领
导出
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
邝祝芳;汪茄琪;韩跟伟;马志豪
申请/专利权人:
中南林业科技大学
专利类型:
发明专利
语种:
中文
申请时间:
2019-11-22
申请/专利号:
CN201911151918.5
公开时间:
2020-03-31
公开号:
CN110942803A
主申请人地址:
410004 湖南省长沙市天心区韶山南路498号
申请地区:
湖南
机构署名:
本校为第一完成单位
主权项:
1.一种LncRNA和环境因素关联关系的高效预测方法,其特征在于,包括以下步骤: 步骤1:从公开数据库DLREFD(网址:http://chengroup.cumt.edu.cn/DLREFD/)下载LncRNA-环境因素关联关系数据集,进行去重等处理,得到LncRNA的列表和环境因素的列表,并且得到LncRNA-环境因素关联关系的关联矩阵A;然后分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE。 步骤2:利用公开的SimComp工具(网址:Similar Compound,https://www.genome.jp/tools/simcomp/)计算环境因素之间的化学结构相似性矩阵E。 步骤3:将KL进行逻辑斯蒂(logistic)函数转换,得到LncRNA相似矩阵SL;利用环境因素之间的化学结构相似性矩阵E、环境因素的高斯相互作用属性核相似矩阵KE,构建环境因素的相似矩阵SE。 步骤4:融合LncRNA-环境因素关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和环境因素的相似矩阵SE三个子网,构建一个全局异构网络;在异构网络上,利用重启随机游走算法得到扩散特征。使用奇异值分解(SVD)对扩散特征进行降维。 步骤5:计算异构网络上lncRNA-环境因素对的Hetesim得分。 步骤6:结合扩散特征和HeteSim得分得到特征数据集,将得到的特征数据用于训练梯度提升树(GBDT)分类器,该分类器用于预测LncRNA-环境因素的关联关系。 步骤7:使用10折交叉验证进行验证。 2.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤1中LncRNA-环境因素关联关系网络的关联矩阵A,LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE的步骤如下: 利用公开数据库DLREFD下载的已知的LncRNA-环境因素关联关系,构建LncRNA-环境因素关联的关联矩阵A,如果LncRNA-环境因素存在关联,则A中对应元素为1,反之为0。构建LncRNA的高斯相互作用属性核相似矩阵KL,计算每个LncRNA对,即LncRNA li和LncRNA lj之间的高斯相互作用属性核相似性;同样地,基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建环境因素的高斯相互作用属性核相似矩阵KE。 3.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤2中利用公开的SimComp工具计算环境因素之间的化学结构相似性矩阵E。以数据库DLREFD中的环境因素对应的KEGG数据库入口编号作为参数,使用SimComp工具计算这些环境因素之间的化学结构相似分数。通过调用SimComp的API计算每一对环境因素ei和环境因素ej的化学结构相似分数E(ei,ej)。 4.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤3中将KL进行逻辑斯蒂(logistic)函数转换,得到的LncRNA相似矩阵SL;利用环境因素之间的化学结构相似性矩阵E、环境因素的高斯相互作用属性核相似矩阵KE,构建环境因素的相似矩阵SE。 5.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤4中融合LncRNA-环境因素关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和环境因素的相似矩阵SE三个子网,构建一个全局异构网络;在异构网络上,利用重启随机游走算法计算扩散分数,得到高维扩散特征,再使用奇异值分解(SVD)进行降维得到d维的低维扩散特征。具体步骤为:第一步:构建游走网络。第二步:在新建的游走网络上实现随机游走,获得稳定的随机游走概率,得到扩散特征。第三步:使用奇异值分解(SVD)对扩散特征进行降维。 6.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤5中计算Hetesim得分,HeteSim评分是用来估计一对节点的相关性的一种度量.HeteSim评分可以方便地推广到计算异构网络中节点的相关性。我们计算了从lncRNA到环境因素的路径。在长度小于m的约束下,从lncRNA到环境因素共有t条不同的路径。因此,我们得到了t维HeteSim得分。 7.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤6中结合d维扩散特征和HeteSim得分(t维)得到d+t维的特征数据集,将得到的特征数据用于训练梯度提升树(GBDT)分类器,该分类器用于预测LncRNA-环境因素的关联关系。 8.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤7中使用10折交叉验证进行验证。训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据,其余9个子集用作训练数据。交叉验证过程重复10次,并使用10次的平均性能度量进行性能评估。我们使用多种指标来评估性能,包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。
摘要:
本发明公开一种LncRNA和环境因素关联关系的高效预测方法,主要包括以下步骤:1、下载数据集,得到LncRNA和环境因素(EF)的列表,和二者关联关系的关联矩阵A;然后分别计算出LncRNA和EF的高斯相互作用属性核相似矩阵KL、KE。2、计算EF之间的化学结构相似性矩阵E。3、将KL进行逻辑斯蒂函数转换,得到相似矩阵SL;且利用E和KE构建EF的相似矩阵SE。4、融合A、SL和SE构建一个全局异构网络G;利用重启随机游走计算扩散特征,并使用奇异值分解降维。5、计算lncRNA‑EF对的Hetesim得分。6、结合扩散特征和HeteSim得分得到特征数据集并用于训练梯度提升树分类器去预测LncRNA‑EF的关联关系。7、使用10折...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com