数据论文 I 区论文(评审中) 版本 ZH2
下载
野生动物携带病毒病原特色数据库
Wildlife-borne Viral Pathogen Database
 >>
: 2019 - 06 - 04
: 2019 - 07 - 17
: 2019 - 07 - 17
716 2 0
摘要&关键词
摘要:野生动物源性病毒的跨种感染是引起人类新发病毒性传染病的主要原因之一,系统收集整理野生动物样本以及病毒病原数据,建设野生动物携带病毒病原数据库显得尤为必要。本数据库通过建立的标准元数据描述规范,收集整理加工的野生动物样本和病毒数据达2万多条,数据覆盖多个国家以及中国多个省市地区,可以为从事野生动物病毒病原相关研究的国内外研究机构、高等学校提供服务。用户可根据自己的需求对野生动物物种、样品类型、物种分布等进行检索,或对物种携带的特定病毒相关信息的检索查询。本数据库的建设将有利于深入系统研究野生动物和媒介昆虫携带的病毒,评估病毒传播到家畜和人的风险,预测新发传染病热点,为疾病预防和控制提供理论基础和技术支撑。
关键词:野生动物样本;病毒病原数据;新发传染病;跨种感染
Abstract & Keywords
Abstract: Cross-species infection of viruses with wildlife origin is one of major reasons for emerging viral diseases in humans. Therefore, it is especially important to construct database for wildlife-borne viral pathogens based on collection and collation of wildlife samples and corresponding viral pathogen data. Through establishment of standard metadata description, this database includes up to 20,000 collated and processed data from wildlife samples collected from many of countries and several provinces and regions throughout China, and serves institutes and universities in China and other countries that conduct researches related to wildlife viral pathogens. The users can perform query based on wildlife species, sample type, species distribution, etc., according to their requirement. By entering species, users can also search for information about animal species carrying specific viruses. The construction of this database will contribute to the in-depth and systematic studies of viruses carried by wildlife and arthropod vectors, the assessment for the risk of virus transmission to livestock and humans, and the prediction of emerging infectious disease hotspots. It also provides theoretical basis and technical support for disease control and prevention.
Keywords: wildlife samples; viral pathogen data; emerging infectious diseases; cross-species infections
数据库(集)基本信息简介
数据库(集)名称野生动物携带病毒病原特色数据库
数据作者汤怡洁,李贝,周子健,朱燕,赵锴,马丽丽,吴跃伟,石正丽
数据通信作者石正丽(zlshi@wh.iov.cn)
数据量61.5 MB
数据格式MYSQL
数据服务系统网址http://batvirus.whiov.ac.cn/
http://www.sciencedb.cn/dataSet/handle/768
基金项目中国科学院信息化专项(XXH13505-03-210),国家重大科研仪器研制项目(31727901)。
数据库(集)组成本数据库由蝙蝠采集样本数据,蝙蝠病毒病原数据,老鼠采集样本数据和老鼠病毒病原数据4个部分数据组成。数据库涵盖课题组长期积累的样本和病毒病原数据,以及国外权威机构公开发布的相关数据,共计22257条。
Database Profile
TitleWildlife-borne Viral Pathogen Database
Data corresponding authorShi Zhengli (zlshi@wh.iov.cn)
Data authorsTang Yijie,Li Bei ,Zhou Zijian,Zhu Yan,Zhao Kai,Ma Lili,Wu Yuewei,Shi Zhengli
Data volume61.5 MB
Data formatMYSQL
Data service systemhttp://batvirus.whiov.ac.cn/
http://www.sciencedb.cn/dataSet/handle/768
Sources of fundingCAS informatization project (XXH13505-03-210); National Mega Scientific Instrument Development Project (31727901).
Dataset/Database compositionThis database consists of four parts, namely bat sample collection data, bat viral pathogen data, rodent sample collection data and rodent viral pathogen data. The database includes sample collection and viral pathogen data accumulated by the research group for long time as well as data published by international authorities, which sums up to 22257 items.
引 言
据统计,引起全球各地病毒性新发传染病疫情的病原体70%以上来自野生动物源性病毒的跨种感染。当新发传染病暴发时,由于我们对野生动物病毒的背景缺乏系统性的研究,因此严重制约了对所引发疾病病原的诊断、溯源、防治及采取有效的防控措施。基于武汉病毒研究所及项目负责人团队在前期科研过程中获取和积累的大量野生动物样本以及病毒病原数据,按照科学大数据工程的标准规范、服务体系进行系统的加工和整理,建设野生动物携带病毒病原特色数据库;通过服务网站实现生物资源和信息的综合管理及信息共享,建成稳定的技术支撑和服务队伍,以发挥该科学数据资源的科学和应用价值。
在此前,虽然国内外已有多个病毒病原相关的数据库,如The Database of Bat-associated Viruses(http://www.mgc.ac.cn/DBatVir/),以及病毒资源数据库(http://www.viruses.nsdc.cn/vri.jsp)等,但这些数据库/集却是以病毒为主体,只关注某个特定的病原或者特定物种携带的病毒种类,并不涉及病毒在野生动物群体间的分布与流行,也与时间上的跨度与季节性流行分布的特性无关。本项目的野生动物病毒病原数据库在这些病毒病原数据库的基础上,有效融入了病毒流行性分布与调查的相关信息,可对项目负责人关注的野生动物样品采集区的病毒和病原的溯源、分布以及流行情况提供有利的信息支撑。
目前,本项目整体收集整理加工的野生动物样本数据达2万多条,数据覆盖多个国家以及中国的多个省市地区。通过建设野生动物病毒病原数据库服务平台,实现了后台数据管理和前台数据服务各项功能,已经初步具备对外提供数据服务的能力。项目组制定了相关的数据加工审核流程和规范的病毒病原元数据描述规范,并依托中国科技网武汉分中心实现了数据库和平台持续有效服务的目标。
1   数据采集和处理方法
本数据集的数据一部分来源于项目负责人在科研过程中获取和积累的大量野生动物样本以及病毒病原数据,另一部分来源于国外权威机构公开发布的病毒数据库/数据集(http://www.mgc.ac.cn/DBatVir/http://www.mgc.ac.cn/DRodVir/)。针对前一部分数据,按照以下1.1和1.2中的内容处理。后面来源的一部分数据,依据设计的数据元格式整合到本库中,最终建立由蝙蝠样品病毒病原库和老鼠样品病毒病原库共同组成的野生动物携带病毒病原特色数据库(以下简称BatVirus系统)。
1.1   野生动物病毒样品采集和处理
1.1.1   样品采集
蝙蝠动物样品均由专业实验人员采集,样品类型具体包括:粪便样品,肛、咽拭子,以及对蝙蝠进行解剖所采集的心、肝、脾、肺、肾、肠、脑等组织样品。其中粪便样品通过隔夜拾取的方法采集,样品采集后立即置于液氮保存[1]。以上采集的样品都置于实验室-80℃冰箱长期保存。同时采集样品地理信息及物种形态学信息。
1.1.2   RNA提取
对野生动物样品进行解冻涡旋离心处理,对野生动物的组织进行低温研磨离心处理取上清,用Qiagen公司购买的viral RNA试剂盒,并根据试剂盒中提供的方法对样本中的RNA进行提取。
1.1.3   病毒数据获取
按照ICTV(The International Committee on Taxonomy of Viruses)分类,依据文献中报道的各个病毒科的Pan-PCR(Pan-Polymerase Chain Reaction)方法[2-3]来对野生动物样品的RNA进行检测,对目的条带进行一代测序,在NCBI(https://www.ncbi.nlm.nih.gov/)中使用Blast(Basic Local Alignment Search Tool)工具进行在线比对,从而确定野生样品携带的病毒种类。
1.2   数据加工与入库
BatVirus系统根据野生动物样品采集、检测及保藏过程中产生的数据,建立了标准的元数据描述规范,样品信息和检测病毒信息依据元数据描述规范进行组织并通过系统进行标准化的摄入。在数据加工过程中,对数据采样获取的数据依据制定的元数据描述规范设计了样品和病毒数据模板,通过对数据的整理加工,形成最终的样品和病毒数据表,利用BatVirus系统中的数据摄入功能存储到数据库中。在数据管理过程中,BatVirus系统针对数据管理分别建立了野生动物样品数据管理模块和病毒病原数据管理模块,同时,在两类数据间建立了数据关联。每个模块的数据录入、校验、存储均由系统统一控制,规范数据的格式和内容,确保数据录入的准确性。
2   数据样本描述
数据样本以已发表的野生样品病毒数据为例。其记录的信息包括样品ID,样品组织类型,动物类型,来源物种,物种分子鉴定,收集日期,国家,省份,城市,GPS信息,是否高通量测序,是否病毒分离,出版,备注,检测方法,病毒名称,检测结果,blast结果,病毒分类,病毒序列,相似度,序列长度,序列编码的基因(见表1)。
表1   野生样品病毒数据展示
数据元名称示例
样品ID162387A
样品组织类型Anal
动物类型蝙蝠
来源物种Rousettus Leschenaultii
物种分子鉴定Rousettus sp.
收集日期2016-08-21
国家China
省份Yunnan
城市Miaoxin village,Mengna county,Sipsongpanna
GPS信息101.51944,21.78127
是否高通量测序No
是否病毒分离No
出版Luo Y, Li B, Jiang RD, et al. Virol Sin. 2018;33(1):87–95. doi:10.1007/s12250-018-0017-2
备注
检测方法PCR-based
病毒名称Coronaviridae
检测结果Positive
blast结果btcov HKU9
病毒分类HKU9
病毒序列详见参考文献
相似度94%
序列长度398bp
序列编码的基因Partial RdRp
3   数据质量控制和评估
本数据库的野生动物样品数据主要来源于实验室样本采集保藏工作的各个环节。首先制定了针对野生动物样本采集保藏的标准规范,如由专业实验员制定的样本采集方案,明确的规定了采集过程中产生的各个数据元,如样品ID编写、收集地点、GPS信息等。
其次在野生样品处理过程中,提取的RNA的浓度可以通过NanoDrop ND-1000分光光度计进行测定,260/280的比率应该在1.8~2.1范围内。对于PAN-PCR扩增得到的病毒阳性条带进行Sanger法测序,通过ABI文件对峰值图质量进行控制,对于不可信的序列,进一步克隆测序,以得到可信度高的序列,其中部分病毒相关序列已上传至NCBI(美国国立生物技术信息中心)中。
在BatVirus系统数据库设计阶段,利用数据字典对元数据描述信息进行规范化管理,有效把控录入数据的质量。数据字典是系统数据模型中各类数据描述的集合,例如在病毒名称字典中,我们规范整理出各种标准的病毒名称字典数据。在实际应用中,用户在通过数据模板录入数据或者在平台上直接录入数据时,通过选择标准的病毒名称,以达到标准病毒名称规范输入的目的。
BatVirus系统存储的野生动物样品和病毒病原数据均经过严格审核,每个模块的数据均通过人工审定确认,确保将错误率控制在1%以下。通过一系列数据质量控制手段,实现了数据的有效管理,数据质量得到较大的提升,有效支持了野生动物携带病毒病原的相关研究工作。
4   数据价值
本数据库的建立基于项目负责人长期科研过程中积累的大量野生动物样本和病毒数据,来源可靠,结果真实可信,结合专业的数据获取和管理的技术手段,对国内外相关数据集进行整合,实现野生动物病毒病原大数据的集合,对病毒在野生动物间的流行,跨种传播的研究提供了可靠的平台。
5   数据使用方法和建议
本数据库主要通过http://batvirus.whiov.ac.cn/(或http://www.sciencedb.cn/dataSet/handle/768)提供web数据服务。用户可以在平台上,通过物种样品库和病毒病原库直接浏览所有可供开放获取的样品信息和病毒病原信息。同时,用户可以在检索框中输入物种名称、样品名称、物种分布国家等进行检索,或者输入病毒名称进行物种携带病毒相关信息的检索查询。由于部分数据(指含有未公开发表的病毒序列,和病毒序列未上传至NCBI,以及不能公布样品采集地的野生动物样本信息)的使用权限问题,如果用户需要对这部分数据进行访问和使用,可以通过联系本数据库相关管理人员,通过身份审核认证获取平台的登录账号密码,登录平台使用相关数据。数据的保密时限以数据全部发表为限。
[1]
GE X , LI Y, YANG X, et al. Metagenomic analysis of viruses from bat fecal samples reveals many novel viruses in insectivorous bats in China[J]. Journal of Virology, 2012, 86(8): 4620-4630.
[2]
POON L L M , CHU D K W , CHAN K H , et al. Identification of a novel coronavirus in bats[J].Journal of Virology,2005, 79(4): 2001-2009.
[3]
TONG S X, WANG CHERN S W, LI Y, et al. Sensitive and Broadly Reactive Reverse Transcription-PCR Assays To Detect Novel Paramyxoviruses[J]. Journal of Clinical Microbiology, 2008, 46(8): 2652–2658.
数据引用格式
汤怡洁, 李贝, 周子健, 等. 野生动物携带病毒病原特色数据库[DB/OL]. Science Data Bank, 2019. (2019-06-04). DOI: 10.11922/sciencedb.768.
稿件与作者信息
论文引用格式
汤怡洁, 李贝, 周子健, 等. 野生动物携带病毒病原特色数据库[J/OL]. 中国科学数据, 2019. (2019-07-16). DOI: 10.11922/csdata.2019.0019.zh.
汤怡洁
Tang Yijie
主要承担工作:数据库建设与管理。
(1979—),女,上海市人,硕士,副研究员,研究方向为资源建设与科学数据管理。
李贝
Li Bei
主要承担工作:数据整理与文本撰写。
(1987—),女,湖北省武汉市人,硕士,实验员,研究方向为病毒核酸检测。
周子健
Zhou Zijian
主要承担工作:数据库建设与维护。
(1978—),男,湖北省武汉市人,本科,馆员,研究方向为信息系统与数据库。
朱燕
Zhu Yan
主要承担工作:数据整理与加工。
(1982—),女,湖北省武汉市人,硕士,高级实验师,研究方向为高通量测序。
赵锴
Zhao Kai
主要承担工作:数据整理与加工。
(1996—),男,湖南省邵阳市人,硕士在读,研究方向为蝙蝠病毒生态学。
马丽丽
Ma Lili
主要承担工作:元数据组织。
(1989—),女,河北省南宫人,博士,馆员,研究方向为生物信息学。
吴跃伟
Wu Yuewei
主要承担工作:项目组织和管理。
(1960—),女,湖北省武汉市人,本科,研究馆员,研究方向为信息资源管理与用户服务。
石正丽
Shi Zhengli
主要承担工作:项目组织和审核。
zlshi@wh.iov.cn
(1964—),女,河南省南阳市人,博士,研究员,研究方向为新发传染病毒。
出版历史
I区发布时间:2019年7月17日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata