1.一种LncRNA和环境因素关联关系的高效预测方法,其特征在于,包括以下步骤: 步骤1:从公开数据库DLREFD(网址:http://chengroup.cumt.edu.cn/DLREFD/)下载LncRNA-环境因素关联关系数据集,进行去重等处理,得到LncRNA的列表和环境因素的列表,并且得到LncRNA-环境因素关联关系的关联矩阵A;然后分别计算出LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE。 步骤2:利用公开的SimComp工具(网址:Similar Compound,https://www.genome.jp/tools/simcomp/)计算环境因素之间的化学结构相似性矩阵E。 步骤3:将KL进行逻辑斯蒂(logistic)函数转换,得到LncRNA相似矩阵SL;利用环境因素之间的化学结构相似性矩阵E、环境因素的高斯相互作用属性核相似矩阵KE,构建环境因素的相似矩阵SE。 步骤4:融合LncRNA-环境因素关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和环境因素的相似矩阵SE三个子网,构建一个全局异构网络;在异构网络上,利用重启随机游走算法得到扩散特征。使用奇异值分解(SVD)对扩散特征进行降维。 步骤5:计算异构网络上lncRNA-环境因素对的Hetesim得分。 步骤6:结合扩散特征和HeteSim得分得到特征数据集,将得到的特征数据用于训练梯度提升树(GBDT)分类器,该分类器用于预测LncRNA-环境因素的关联关系。 步骤7:使用10折交叉验证进行验证。 2.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤1中LncRNA-环境因素关联关系网络的关联矩阵A,LncRNA的高斯相互作用属性核相似矩阵KL和环境因素的高斯相互作用属性核相似矩阵KE的步骤如下: 利用公开数据库DLREFD下载的已知的LncRNA-环境因素关联关系,构建LncRNA-环境因素关联的关联矩阵A,如果LncRNA-环境因素存在关联,则A中对应元素为1,反之为0。构建LncRNA的高斯相互作用属性核相似矩阵KL,计算每个LncRNA对,即LncRNA li和LncRNA lj之间的高斯相互作用属性核相似性;同样地,基于功能相似的LncRNA与相似的环境因素之间具有关联关系的假设,利用已知的LncRNA-环境因素关联关系网络,构建环境因素的高斯相互作用属性核相似矩阵KE。 3.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤2中利用公开的SimComp工具计算环境因素之间的化学结构相似性矩阵E。以数据库DLREFD中的环境因素对应的KEGG数据库入口编号作为参数,使用SimComp工具计算这些环境因素之间的化学结构相似分数。通过调用SimComp的API计算每一对环境因素ei和环境因素ej的化学结构相似分数E(ei,ej)。 4.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤3中将KL进行逻辑斯蒂(logistic)函数转换,得到的LncRNA相似矩阵SL;利用环境因素之间的化学结构相似性矩阵E、环境因素的高斯相互作用属性核相似矩阵KE,构建环境因素的相似矩阵SE。 5.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤4中融合LncRNA-环境因素关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和环境因素的相似矩阵SE三个子网,构建一个全局异构网络;在异构网络上,利用重启随机游走算法计算扩散分数,得到高维扩散特征,再使用奇异值分解(SVD)进行降维得到d维的低维扩散特征。具体步骤为:第一步:构建游走网络。第二步:在新建的游走网络上实现随机游走,获得稳定的随机游走概率,得到扩散特征。第三步:使用奇异值分解(SVD)对扩散特征进行降维。 6.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤5中计算Hetesim得分,HeteSim评分是用来估计一对节点的相关性的一种度量.HeteSim评分可以方便地推广到计算异构网络中节点的相关性。我们计算了从lncRNA到环境因素的路径。在长度小于m的约束下,从lncRNA到环境因素共有t条不同的路径。因此,我们得到了t维HeteSim得分。 7.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤6中结合d维扩散特征和HeteSim得分(t维)得到d+t维的特征数据集,将得到的特征数据用于训练梯度提升树(GBDT)分类器,该分类器用于预测LncRNA-环境因素的关联关系。 8.根据权利要求1所述的LncRNA和环境因素关联关系的高效预测方法,其特征在于,步骤7中使用10折交叉验证进行验证。训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据,其余9个子集用作训练数据。交叉验证过程重复10次,并使用10次的平均性能度量进行性能评估。我们使用多种指标来评估性能,包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。