百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

NAR | GMrepo:人类肠道宏基因组数据库

cac55 2024-09-19 17:01 31 浏览 0 评论



文献速递

GMrepo 是一个收录了 253 个项目,囊括了 58,903 个 samples/runs (扩增子 41,285;宏基因组 17,618),横跨 92 种表型(健康 + 91 疾病表型)。对收录的样品进行质控,分类注释和丰度计算,最后将这些信息网页可视化,以便用户查询和重利用人类肠道微生物数据。目前可查询的表型包括年龄、性别、国家、BMI和近期抗生素使用情况等,用户还可以通过 GMrepo 获得预先计算好的物种丰度、表型内和表型间的流行度以及菌株共现网络等信息。


Keywords: GMrepo, database, human gut metagenomes

Title: GMrepo: a database of curated and consistently annotated human gut metagenomes

DOI: 10.1093/nar/gkz764

Journal: Nucleic Acids Research [IF 11.147]

First Authors: Sicheng Wu, Chuqing Sun

Correspondence: Li-jie He,Xing-Ming Zhao,Weihua Chen

Affiliation: College of Life Science and Technology, Huazhong University of Science and Technology, 430074 Wuhan, Hubei, China

Published: 2019-09-04



研究背景

愈多研究表明了肠道菌群与人类生活的许多方面关联,包括健康与疾病,发育,对药物和治疗的反应等。随着研究的发展,人类肠道宏基因组数据日益增多,虽以有 NCBI,ENA 等数据库存储数据,但是数据的可利用和可访问性受到挑战,且表型数据无法简便查询。

研究结果

1.GMrepo的构建

1.1 测序数据的获取和元数据的手动检查

原始测序数据是从 EBI ENA 和 NCBI SRA 数据库中分别用 enaBrowserTools 和 SRA-Tools 下载接着用 Aspera 转换。元数据是从 MGnify 和 NCBI 数据库中匹配相应的测序平台,生物样品,实验,项目,粪便样本的人类宿主等关联信息,再提取表型(即疾病或健康),年龄,性别,国家/地区,BMI和抗生素使用情况等信息,最后换一个人重复校验元数据收集准确性。部分数据是联系文章作者获取。

图1. GMrepo 的整体工作流程

1.2 处理原始数据

使用 FastQC 评估下载数据的整体质量,然后使用 Trimmomatic 删除 vectors 和低质量的碱基。短于原始读取长度三分之二的序列从随后的分析中删除。若是双端的 16S 序列则还需要用 Casper 合并 read。处理后得到 Cleandata 进行后续分析。必要时使用 Seqtk 将 FASTQ 序列转换为 FASTA 格式。

1.3 分类注释及相对丰度计算

对于 16S 序列,使用 MAPseq 进行分类注释。保留在属水平上综合得分高于 0.4 的 read 用于后续分析。然后在每个 sample/run 的属和物种水平上计算相对丰度,总丰度值为100%。

对于宏基因组序列,使用 MetaPhlAn2 在默认参数条件下进行物种注释和相对丰度计算。

1.4 两步质控

经过分类注释后再进行一次质控,一共有 2 步。第一步,删除能分析的reads 条数小于 20000 的扩增子测序 sample/run。第二步,删除出现任一个物种或一个属占总丰度的 99.99% 以上的样品,这步包括扩增子和宏基因组样品。删除样品在 GMrepo 中标记为 ‘failed QC (QC status = 0)’。

图2. GMrepo 宏基因组和扩增子数据处理过程

1.5 物种共现分析

数据库还计算了在某一表型下物种共现情况。配对的物种-物种,属-属 至少在 50 个样品中出现才进行计算。计算物种是否共现的方法是用 R 的 fisher.tes 函数对四个必需数据(同时存在 2 个物种的样品数,只存在其中一个物种的样品数,只存在另外一个物种的样品数,两个物种都不存在样品数)进行检验,当 OR (Odds ratio)值大于 1 和 P 值 < 0.05 时,则认为两个物种在这种表型下是共现的。共现物种还使用 Person 和 Spearman 计算它们之间的互作关系。

1.6 数据库建设和网站开发

所有数据均已加载到 MySQL 数据库中。网站的前端(网页)是使用 HTML 和 JavaScript 编码的,而后端是使用带有 Slim 框架的 PHP 编码的,以支持对 MySQL 数据库的查询,并提供 API 访问的数据。AngularJS 框架用于合并前端和后端。D3.js 和 plotly.js 用于前端的可视化。还使用了其他各种开源 JavaScript 库,包括 jQuery 和jQuery QueryBuilder。该网站托管于 Apache 服务器。


2.Gmrepo 使用

2.1 依据宿主表型收集的人类肠道宏基因组学数据

数据库最后收录了 253 个项目,58,903 个samples/runs (扩增子 41,285 ;宏基因组 17,618 ) 横跨 92 种表型(健康 + 91 疾病表型)。表型汇总统计结果显示,大部分(88.17%)样品都能获取表型信息(图3A),但是同时拥有年龄,性别和 BMI 信息的样品只有三分之一,有 30.86% 的样本不包含任何基本元数据,而其余样本仅包含一个或两个(分别为 25.95% 和 10.31%)(图3B)。这些结果凸显了重用宏基因组学数据所面临的挑战,并呼吁提供元数据信息或宏基因组学样本的报告标准。

图3. GMrepo 的元数据统计

作者还使用了 MeSH (Medical Subject Headings) 系统描述和组织宿主表型。表1列出了 GMrepo 中包含的前 10 个表型。

对于每种表型,统计了相关物种和属的总数。例如健康表型,在可用健康表型的样品( 12,485 个)中发现最后注释到来自 1,613 个属的 6,189 个物种(种或株),但是至少存在 2 个样品以上且相对丰度大于 0.01% 的物种只有 389 个(约占总数的 6.3%)来自 91 个属(约占总数的5.6%),这表明了绝大多数物种只在一个样品出现或者检测到的丰度很低。在其他表型中也有类似结果。

统计数据库可用的 28,252 个样品的物种,最后一共找到了 1,710 个属 6,973 个物种,在一个以上样品出现,相对丰度大于 0.01% 且出现在一个以上表型的物种有 2,685 个物种分布在 834 个属。作者还将这 2,685 个物种进行系统进化树分析(图4),结果与早些发表的研究结果类似。

图4. 基于 NCBI 分类法的包括 2,685 个物种在内的系统发育树

2.2 表型内 / 间的物种丰度,流行率和共现率

基于可用数据,作者展示了每一物种在某种表型下组内丰度及其流行率(图5A)及对照组丰度比较(图5B),与该物种共现的其他物种互作关系(图5C)。这些数据用户均可下载或自己修改图标。数据库还提供了与这个物种相关的外部数据连接,例如, NCBI taxonomy, ENA taxonomy, genome annotations, microbe to bacteriophage interactions, bacteria to drug interactions等。

图5. GMrepo 展示在克罗恩病中 Faecalibacterium prausnitzii 的详细信息。Faecalibacterium prausnitzii 在克罗恩氏病中的分布(A),相对丰度(B)和物种共现网络(C)

2.3 搭载图形查询构建器可进行复杂且生物学相关的数据查询

GMrepo 搭载了图形查询构建器(由 jQueryBuilder 小部件提供支持),以允许用户执行复杂且生物学相关的数据查询。例如,图 6A 显示了如何从 BMI 在 18.5 至 24.9 之间的健康个体中查找运行/样本;图 6B 允许用户查找最近未使用抗生素的美国人的粪便样本;图 6C 显示了如何找到与神经系统疾病(包括自闭症谱系障碍,躁郁症和抑郁症)相关的项目,每个项目都包含健康的对照。

图6. 图形查询构建器的三个示例


结论与讨论

Gmrepo 提供了简便查询的人类宏基因组数据查询,数据库囊括样品多,整理了表型数据,结果可视化,可比较;网页功能系统齐全;对我们后续物种查询提供参考。


Wu S, Sun C, Li Y, et al. GMrepo: a database of curated and consistently annotated human gut metagenomes[J]. Nucleic acids research, 2019.



撰稿 | 三明治 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。

相关推荐

正版系统受害者?微软确认部分用户Windows 7桌面变黑屏

IT之家1月27日消息微软Windows7系统已经于1月14日终止支持,微软不再致力于为已有数十年历史的OS推送新的质量更新。根据报道,微软最新的Windows7安全补丁更新破坏了该操作系统的基...

官方确认 盗版系统无法升Win 10

2015-07-3005:19:00作者:胡永彬中关村在线消息:Win10系统已经发布,官方宣称能够免费升级让我们非常高兴。不过并不是所有人都能免费升级的,据微软大中华区消费渠道事业部总经理张永利...

一文看懂Windows激活:自查方法+授权类型科普(Win7/Win10通用)

一、如何判断Windows是否永久激活?无论是Win7还是Win10,均可通过以下方法快速验证:命令提示符法(通用):按下Win+R,输入slmgr.vbs/xpr并按回车键运行即可查看是否...

你想打高危漏洞补丁,但是你不确定你的电脑系统是不是正版

如果不确定你的Windows系统版本是不是正版,可以按以下两种方法查看。方法一:1.在键盘上按下Win+R键,弹出“运行”窗口;2.在“运行”窗口的文本框中输入“slmgr.vbs-dlv”(注意v...

官方正版windows11无密钥安装

不管你目前用的是Win7还是Win10的操作系统,如果你想要安装Win11系统都可以按照下面的方法进行安装官方正版的windows11。当然,硬件必须要达到要求:系统要求的变化是Windows11...

windows11官网正版下载流程

windows11出来有一段时间了,最近刚好需要重做系统。那就试试新的win11吧。因为不喜欢各种第三方提供的下载,主要怕不安全。于是就从微软官网下载,现在把下载流程记录如下,方便需要的小伙伴。首先...

5块钱激活的Win10是否正版?微软回应:来这里检查

微软的Windows10系统(简称Win10)已经装机量超过10亿,很多人都是通过免费手段升级的。但是Win10系统并不是免费的,卖价还是挺贵的,家庭版就要1088元,很多人并不会买这么贵的。除了官...

Adobe推出正版检测系统 盗版会收到警示

【中关村在线软件资讯】5月24日消息:Adobe系列软件高昂的价格也促使了大量盗版Adobe软件的诞生,现在Adobe决定推出一个新的措施来与盗版对抗。据悉,Adobe最近推出了一个检测系统,能够检测...

解决Adobe正版验证弹窗警告(三种解决方法)

很多人在使用PS的过程中都会遇到提示非正版并且禁用的警告,可以尝试以下几种方法去解决。·第一种方法:可以使用修复工具下载并运行Adobe非正版弹窗警告的修复工具,并选择以管理员的身份去运行它,按照提示...

如何检测你的Windows系统是正版还是盗版?

电脑一般自己装个系统要么是没激活的,要么是盗版的,用着总是让人觉得不是那么的安心,那么接下来分享如何检测你的电脑系统是正版还是盗版?一般经常玩电脑的朋友都是通过右击桌面计算机点击属性里面查看电脑是否激...

再铺一次瓷砖,我死磕这6个细节!不是矫情,是血汗钱换来的教训

第一次装修踩的坑,第二次装修全避开!铺瓷砖这活儿,看着简单实则暗藏玄机。今天就把我花五万块买来的教训,掰开揉碎讲给你听,记住这6个细节,省下的钱够买半台冰箱!细节一:别信“瓷砖通铺显大”的鬼话!都说...

Windows 11系统,这款二合一笔记本居然才2000出头!

随着科技的不断发展,二合一电脑已经成为了一个更加全面和便捷的选择。DERE戴睿T60二合一笔记本,现在价格只要2000出头,国补后甚至不到2000!对于有二合一笔记本需求的宝子来说,无疑是一个不错的选...

爸妈的眼里,总少个我的位置

我家四个孩子,我是老大,底下俩妹妹,最小的是弟弟。从小我就知道,这家里的秤砣是歪的,那秤星全往弟弟那边偏。小时候过年,妈总会提前把新衣服拿出来。弟弟的永远是带拉链的夹克,胸前印着当时最火的卡通人物,我...

被吹上天的客厅“风管机”,值得投入吗?过来人说说大实话

作为家里刚装完风管机的“过来人”,聊几句大实话。当初装修公司狂推风管机,说比柜机便宜又节省空间,现在想想真是被戳中了中年人既要面子又要里子的心思。装好确实看着高级,不像柜式空调占着电视墙一平米好几万的...

电线不要埋墙了!试试这样做,真是聪明又实用,太佩服了

前阵子帮亲戚家看装修,聊到水电改造,他直摇头:“当年图省事把电线全埋墙里,现在想在客厅加个投影仪插座,师傅说墙里线路太密,改不了!只能走明线,像条大蜈蚣爬在墙上,看着闹心。”这事儿让我想起最近跟装修...

取消回复欢迎 发表评论: