来自美国波士顿
更专业的论文润色机构
400-110-1310

咨询学术顾问:400-110-1310

服务时间:周一至周日,9:00-23:00

建议反馈/客户投诉:Editsprings@163.com

微信扫码二维码,添加学术顾问企业微信

您还可以点击在线咨询按钮,与人工客服直接对话,无需等待,立马接入。

在线咨询
欢迎关注“艾德思EditSprings”微信公众号

关注微信获取最新优惠和写作干货,
随时手机询价或咨询人工客服,更可实时掌握稿件
进度,加速稿件发表。

微信扫描二维码关注服务号

艾德思:Naturemethods重磅针对生物序列数据的深度学习框架

论文润色 | 2019/07/02 10:15:18  | 406 次浏览

为了在生物学中应用深度学习,作者提出了 Selene ( ),这是一个基于 PyTorch 的深度学习库,针对任何生物序列数据,可以快速轻松地开发,训练并应用深度学习模型框架.文章中展示了怎样让研究人员使用 Selene 在 DNA 序列上根据已发表的架构轻松地训练自己的新数据架构,同时开发和评估新的架构,并使用训练有素的模型来回答感兴趣的生物学问题.

为了证明 Selene 开发和评估序列级深度学习模型的能力,作者使用三个案例对其性能进行了评估

案例1:在不同的数据集上培训最新的框架 生物学问题:假设癌症研究人员对骨髓中的成红细胞的转录因子 GATA1 的调控元件建模感兴趣.

 

从转录调控研究的综合平台Cistrome,检索ID 为33545,并下载GSM970258 GATA1 chip-seq 的测序数据,经过samtools 处理得到峰值bed 文件,下载hg19 人参考基因组文件,根据峰值bed文件信息提取,GATA1转录因子结合的序列,然后填写必要的训练参数,就可以使用Selene在他们的数据上训练DeepSEA架构,而不需要新的Python代码行. 在这个例子中,他们发现该模型在该特征上获得了曲线下面积(AUC)(图1a)

 

图 1 : Selene 概述

a,   作为输入,库接受(左)模型体系结构,数据集和(中间)配置文件,该文件指定必要的输入数据路径和训练参数. Selene自动将数据分为训练和验证/测试,训练模型,评估模型,以及(右)从结果中生成数据. b,Selene支持使用相同配置文件格式的核苷酸变异效果预测,并包括将变异及其差异分数可视化为曼哈顿绘图的功能,其中用户可以将鼠标悬停在每个点上以查看变体信息. c,Selene计算突变效应得分并将得分可视化为热图.

 

对第一个案例研究中训练模型性能的可视化. b , Selene 在测试集中对 20 个随机选择的 GATA1 序列的案例研究训练模型进行计算机诱变的可视化(此处显示的两个代表性图表 ; 生成的所有热图显示在示例 Jupyter 笔记本中, https : // github .com /FunctionLab / selene / blob / master / manuscript / case1 /3_visualize_ism_outputs.ipynb ).原始序列中的碱基通过热图单元格中的灰色条纹来区分 .

 

案例 2 :开发新架构并进行模型比较

从DeepSEA网站下载数据包,解压压缩包使用目录中的.mat文件及模型预测的919种基因组特征.填写Selene的MultiFileSampler(overview/cli.html#multiple-file-sampler)的配置文件,并指定每个.mat文件的路径,然后进行训练,验证和测试.

案例2中所有的代码及数据存放链接:https://

案例3:将新模型应用于变异预测染色体效应 从阿尔茨海默氏症国际基因组学项目下载单核苷酸多态性( ). 然后使用案例2中训练得到的模型进行预测,预测得到的突变导致的基因组H3K36me3 特征与GWAS 的结果进行比较.

图 3 :使用 Selene 训练模型并获得阿尔茨海默氏症 GWAS 研究中变体的模型预测

a,   Selene可视化训练的六卷积层模型的性能.b,可视化K562细胞中基因组特征H3K36me3的两个变异组的分位数标准化(相对于高斯分布)预测效应得分的平均值和95%置信区间,模型中的特征具有最显着的差异(单侧Wilcoxon秩和检验,使用Benjamini-Hochberg 调整P值为×10-67)

本案例变异预测的脚本链接()

总结:

Selene,一个开发序列级深度学习网络的框架,为生物医学科学家提供全面的模型训练,评估,能应用于广泛的生物学问题. 序列水平数据是指任何类型的生物序列,例如DNA,RNA或蛋白质序列及其测量的特性(例如,转录因子或RNA结合蛋白的结合,或DNase敏感性). Selene包含以下模块: (1)数据采样和模型开发培训(图1a)和(2)使用训练模型进行分析的预测和可视化(图1b,c)). 通过Selene,研究人员可以开箱即用地运行模型开发和分析工作流程. 对于更高级的用例,Selene提供了用于在每个工作流程中扩展模块的模板,以便用户可以使库适应他们的特定研究问题.

深度学习与基因大数据的结合,未来一定能取得更大的突破!!!

 

 

更多科研论文服务,动动手指,请戳 论文润色投稿期刊推荐论文翻译润色论文指导及修改论文预审

语言不过关被拒?美国EditSprings--专业英语论文润色翻译修改服务专家帮您!

上一篇:sci论文关键词选择的基本要求

下一篇:艾德思:写 SCI 别瞎用中英文标点!丢人丢分

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

凡注明来源为“EditSprings”的论文,如需转载,请注明来源EditSprings并附上论文链接。

最热论文