缔冠期刊网

延迟效应重构网络算法研究

2022-06-09

刘飞

(宝鸡文理学院物理与光电技术学院,陕西宝鸡721016)

摘要:大量调控网络重构的模型和方法被研究,但是数据大小对算法精度的影响问题涉及很少。通过研究数据尺寸大小对延迟信息论方法构建基因调控网络精度的影响,表明基因调控网络构建的精度会在一定数据尺寸规模下达到一个稳态。为了克服互信息的一些缺点,引入了多时延互信息值计算两个基因之间的调控关系,构建的基因调控网络取得了很好的查全率和查准率。并用真实的生物分子网络进行测试,实验表明,基于多时延的策略在构建基因调控网络中扮演了一个重要角色。

教育期刊网 http://www.jyqkw.com
关键词 :延迟效应;网络重构;信息论;基因表达数据

中图分类号:TN711?34 文献标识码:A 文章编号:1004?373X(2015)17?0124?03

0 引言

基因调控网络(Gene Regulatory Network,GRN)是目前生物信息学研究的一个热门领域。GRN的构建对揭示基因功能,解析基因间的相互作用,理解支配基因表达,认识生命活动的规律和一些疾病发病机理和相关药物设计上有很重要的意义。大量基因调控网络的构建方法被提出,如:动态的贝叶斯网络[1]、偏微分方程模型[2]、信息论模型[3]、统计回归模型等。文献[4]首次提出了动态贝叶斯网络的概念,用它来分析构建GRN 发现基因之间存在着一定的时延调控,一些研究还表明,不同的基因之间存在不同的时延调控。本文首先研究了基因时序数据尺寸大小对网络构建精度的影响,使其在最小的数据尺寸下得出最大的网络构建精度,以此来降低算法的时间和空间复杂度。其次,研究采用多时延的策略,用互信息和延时的互信息方法构建基因调控网络,结果显示延时的互信息方法对构建基因调控网络在精度上有明显的提高。

1 实验数据集和理论方法

本文基因数据来自文献[5],其实验数据提供了完整的酵母细胞周期基因表达数据,数据包含了elutriation,alpha?factor,cdc28 和cdc15 四种时序表达基因数据,它们分别有14,18,17和24个时间点,其中alpha?factor数据集的时间点比cdc28和elutriation的都多一些,而且它的数据相对比较完整,综合考虑,本文选取alpha?factor的实验数据集构建基因调控网络。

1.1 时延效应的度量

文献[6]研究了基因之间的互信息值越大,则在生物学意义上它们的调控关系越密切。基因的转录表达数据往往是在同一个时刻进行测量的,但是不同的基因之间调控可能存在不同的时间延迟。给定基因X,Y 的时序表达谱数据分别为:X = (x[1], x[2], ? , x[m]),Y =(y[1], y[2], ? , y[m]) ,这里m 代表时间点数。假定τ 为基因X 和Y 之间的时间延迟,τ = 0, 1, 2, ? ,m - 1。取X(τ) = (x[1], x[2], ? , x[m - τ]),Y (τ) = (y[τ + 1], y[τ + 2], ? , y[m]),根据互信息的公式,在给定m 值的情况下,可计算出基因X,Y 之间的互信息I(X(τ):Y (τ)) ,当互信息I(X(τ):Y (τ)) 的值最大时,τ 值作为基因X,Y 之间的调控转录时延。

1.2 互信息的定义

信息熵是一个随机变量的平均不确定性,它用H表示,p(Xi) 为Xi 出现的概率,其公式如下:

2 结果仿真

2.1 数据量大小和网络构建精度的关系

采用文献[7]的网络基因时序数据构建网络,并和原始的真实网络进行比对,得出构建网络的查准率和查全率。不同基因数用不同时间点构建网络得到的查准率和查全率如图1,图2所示。在图1中20个基因的网络查准率一直在增加;在40个时间点时达到最大值;在50个时间点以后查准率一直处于一个平稳的状态;30个基因点的网络查准率在整个过程中一直波动缓慢上升;50个基因点的网络查准率在45个时间点以后基本处于平稳状态,图2亦然。

为了进一步说明基因时序数据尺寸大小对网络推断精度的影响,提出用查全率和查准率的比值来度量网络构建的精度,如图3所示。20个基因的网络查全率和查准率的比率一直在下降,当取50个时间点时其比率基本趋于稳定状态。对于40个基因的网络构建来说,当时间点取到50个以上时,其网络构建的精度基本保持不变,时间点取得越多只会增加算法的时间和空间复杂度。这样就可以在基因时序数据尺寸最小的情况下取得网络构建的最大精度。

2.2 真实网络模拟

由完整的酵母细胞周期基因表达数据来构建基因调控网络,如图4所示,分别列出了用互信息构建的网络和用时延互信息构建的网络,实线表示预测正确的边,虚线表示预测错误的边,箭头表示基因调控的方向。网络预测的结果用敏感度(Sn),特异度(Sp)和精确度(Acc)指标来衡量,其公式定义为:Sn = TP (TP + FN),Sp = TN (FP + TN), Acc = (TP + TN) (TP + FP + TN + FN) 。网络中用TLMI方法识别出正确的边数多了1 条,识别出错误的边数少了3条,因此它的特异度从88.05%增加到89.53%,精确度从73.64%增加到77.27%。因此得出用TLMI方法比MI方法在基因调控网络构建精度上明显提高,TLMI对基因调控网络构建精度是一个更好的衡量指标。

3 结论

本文首先研究了基因时序数据尺寸大小对网络构建精度的影响,研究显示,数据尺寸的大小在网络构建精度中扮演了一个很重要的角色。目标是在最小的数据尺寸下得出最大的网络构建精度,以此降低算法的时间和空间复杂度。其次研究了用互信息和延时互信息方法构建基因调控网络,结果显示,采用多时延的策略下,基因之间多时延的转录调控对网络构建有很大影响,延时的互信息方法对构建基因调控网络在特异度和精确度上都有明显的提高。

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网