数据论文 I 区论文(评审中) 版本 ZH2
下载
基于单元素掺杂的TiO2光催化材料数据库
Photocatalytic database based on single-element doped TiO2
 >>
: 2020 - 09 - 22
: 2020 - 10 - 16
: 2020 - 10 - 16
401 1 0
摘要&关键词
摘要:TiO2是最重要的光催化材料之一,但其禁带宽度仅能吸收太阳光的紫外光部分,导致TiO2光催化剂的催化效率较低。通过掺杂来调控TiO2的禁带宽度是提高TiO2光催化效率的主要途径。目前已有不同的研究对单个元素掺杂TiO2的机理进行探索,但是从零散的数据中很难发现系统的规律,因此建立一个包含全元素周期表的掺杂数据库对于进一步的研究非常重要。本研究基于高通量计算和筛选技术,建立了全自动的工作流和数据采集系统,构建了包含上百个结构及其对应的磁性、电子结构、热力学以及光学性质的数据库,从参数收敛、计算结果收敛两个方面进行数据质量控制。本数据库包含了计算原始数据文件和部分抽取的数据,对于开展基于TiO2光催化材料的研究具有良好的数据支撑作用。
关键词:TiO2掺杂;光催化材料;数据库;高通量计算;第一性原理计算
Abstract & Keywords
Abstract: As an important photocatalytic material, TiO2 has been used in many fields. While, the practice application is limited as the lower photocatalytic efficiency and the large intrinsic bandgap. Recently, some works show doped-TiO2 have more improvement on photocatalytic applications. Although many elements doped into TiO2 have been reported, there is no whole database of doped TiO2 with different dopant. With the help of high-throughput calculation and structure screening methods, we established a TiO2-doped database with more than 100 structures. This database includes structures and their optimization, energy, electronic structure, magnetics and dielectric properties. Data quality is controlled by convergence of parameters and calculation. This database not only include computational metadata and source files, but also include some extracted data according to different calculations. This database is useful to study TiO2 based photocatalytic materials.
Keywords: TiO2-doped; Photocatalytic materials; Database; High-throughput calculation; first principles calculation
数据库(集)基本信息简介
数据库(集)名称基于单元素掺杂的TiO2光催化材料数据库
数据作者王宗国、郭令举、万萌、李凯、刘志威、郭佳龙
数据通信作者王宗国(wangzg@cnic.cn)
数据时间范围2018–2020年
数据量800条/20.4 GB
数据格式*.zip,*.json,文本文件
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.00204
基金项目中国科学院前沿科学重点研究计划(ZDBS-LY-7025)
数据库(集)组成数据库由掺杂晶体结构数据、结构优化计算的输入输出数据、静态计算输入输出数据、能带计算输入输出数据、电子态密度计算输入输出数据、磁性计算输入输出数据、介电常数计算输入输出数据、结果提取数据8个部分组成。其中:(1) Data1_Structure.zip是优化后晶体结构数据,数据量包含100个结构(99个掺杂结构,1个TiO2超晶胞结构),大小为90 KB;(2) Data2_Optimization.zip是结构优化计算数据,数据量大小为523 MB;(3) Data3_Static.zip是静态计算数据,数据量大小为3.68 GB;(4) Data4_Band.zip是能带计算数据,包含三种能带计算方法,数据量大小为10.5 GB;(5) Data5_DOS.zip是电子态密度计算数据,数据量大小为4.45 GB;(6) Data6_Magnetic.zip是线性磁矩计算数据,数据量大小为1.03 GB;(7) Data7_Dielectric.zip是介电常数计算数据,数据量大小为74.6 MB;(8) Data5_Extraction.zip是6类计算抽取结果数据,数据量大小为131 MB。
Dataset Profile
TitlePhotocatalytic database based on single-element doped TiO2
Data corresponding authorWang Zongguo (wangzg@cnic.cn)
Data authorsWang Zongguo, Guo Lingju, Wan Meng, Li Kai, Liu Zhiwei, Guo Jialong
Time range2018–2020
Data volume20.40 GB, 800 entries
Data format*.zip, *.json, text file
Data service system<http://www.dx.doi.org/10.11922/sciencedb.00204>
Source of fundingKey Research Program of Frontier Sciences, CAS (Grant NO. ZDBS-LY-7025)
Database compositionThe dataset consists of 8 subsets in total. It comprises doping crystal structure data, input and output data of geometry optimization, static calculation, band structure, density of states, magnetic property, and dielectric function calculation, and some extraction data. The subsets are recorded as Data1_Structure.zip with a data volume of 90 KB, Data2_Optimization.zip with a data volume of 523 MB, Data3_Static.zip with a data volume of 3.68 GB, Data4_Band.zip with a data volume of 10.5 GB, Data5_DOS.zip with a data volume of 4.45 GB, Data6_Magnetic.zip with a data volume of 1.03 GB, Data7_Dielectric.zip with a data volume of 74.6 MB, and Data5_Extraction.zip with a data volume of 131 MB.
引 言
TiO2因其具有价格低廉、无毒、高催化活性和稳定性等特点,近年来在光催化领域被广泛应用[1,2,3 ]。然而,由于其较大的本征能隙(锐钛矿能隙大小为3.2 eV),严重影响了对太阳光的利用率。已有研究结果表明,通过掺杂金属或非金属元素可以对TiO2的能隙进行调节,提高TiO2在可见光范围内的光催化性质[4,5,6,7,8,9,10,11,12,13,14,15,16,17 ]。针对TiO2材料的掺杂研究结果仅局限于几种代表性的掺杂元素,无法对掺杂进行系统的分析,并且大多数已经报道的计算都是基于不同的软件和方法,搜集的数据也很难直接进行对比。为此,需要一个系统而全面的计算,能够覆盖元素周期表中所有可能的掺杂元素,更加深入地探讨掺杂对TiO2性质的影响。
计算机硬件的发展和高通量计算技术驱动了计算材料的飞速发展。随着材料基因工程的实施,开发出了一些高通量计算框架和筛选的流程[18,19,20 ],计算材料数据库也不断发表,但是目前尚未发现基于TiO2掺杂数据库的报道。构建一个特定材料不同浓度、不同掺杂元素的数据库,一方面对于发现材料新特性、设计新材料有着重要作用;另一方面,一个包含了材料结构、性质和计算细节信息的完整数据库对促进数据共享、节约计算资源具有重要意义。
因此,建立一个基于TiO2的光催化材料数据库可对光催化材料的制备提供重要的理论依据。本数据库是掺杂材料数据库的一个典型示范,其数据共享有利于推动光催化材料的研究发展。
1   数据采集和处理方法
本数据库包含的数据通过第一性原理计算产生,经过数据预处理,初始数据与处理后数据共同形成数据库。基本流程如图1所示。


图1   单元素掺杂TiO2光催化数据库数据采集流程示意图
1.1   数据来源
锐钛矿TiO2晶体结构来自ICSD (The Inorganic Crystal Structure Database),利用超晶胞方法构建2x2x1大小的TiO2超晶胞结构,所有掺杂结构是基于TiO2超晶胞结构利用高通量建模和筛选流程获取,得到的掺杂结构为晶体学不等价结构。
所有的计算数据通过第一性原理软件VASP(Vienna Ab-initio Simulation Package)计算得到,开展的计算包括结构优化(Optimization)、静态计算(Static)、磁性计算(Magnetic)、能带结构(Band)、电子态密度(Density Of States, DOS)、介电函数(Dielectric)计算。其中,能带结构的计算采用3种不同的交换关联:GGA,GGA+U和Meta-GGA(MBJ)方法。利用高通量计算技术开展计算,将输入输出文件存入文件系统,利用数据处理技术提取计算参数和目标结果数据,利用经验公式和数值计算获取部分衍生结果数据,将提取参数和结果数据一并存入结果文件,形成掺杂结构不同计算性质数据库文件,性质数据文件可进行检索、查询和使用。
1.2   数据规范
数据库提供的数据包含两部分,原始文件数据和提取信息数据,其中原始文件数据为软件对应的输入和输出文件,这些文件按照计算类型分为6个类别,分别对应一个文件目录,每个目录下包含了以结构分子式为名称的目录,该目录下包含了计算所对应的必要输入和输出结果文件。此外,原始文件还包含晶体结构信息文件,以POSCAR格式展示。数据提取和预处理的结果按照json格式写入以计算类型命名的文件中,通过解析该json文件可以获取每种结构用于指定计算的计算参数、结构、性质以及软件等信息。数据库中存储的内容见表1。
表1   基于单元素掺杂的TiO2光催化数据库存储内容
数据分类数据内容数据格式
数据提取信息*计算参数(Parameters)、晶体结构(Structure)、软件信息(Software),使用计算资源(ResourceUsage),计算性质(Properties),计算文件名称(Files)json
计算文件100个晶体结构;结构优化,静态计算,磁性计算,态密度计算,能带结构计算(三种方法),介电函数计算6类计算的输入和输出。文本文件
*注:结构优化提取信息与其他计算不同,将计算性质(Properties)和晶体结构(Structure)。替换为初始结构(InitialStructure)和优化后结构(OptimizedStructure)。
1.3   数据采集与处理
数据库中包含了2类数据:第1类文本数据,即计算所用的输入、输出文件和晶体结构。第2类为结构化数据,即数据预处理部分的提取结果。文件数据直接在不同计算的目录下存放,表2展示了6种计算类型的文本数据的采集内容,表3以能带结构计算为例,展示结构化数据包含的内容及其采集和处理方法。
表2   文本数据采集
计算类型提取文件
结构优化INCAR, KPOINTS, POSCAR, CONTCAR, OSZICAR, OUTCAR, vasprun.xml
静态计算INCAR, KPOINTS, POSCAR, CHGCAR, IBZKPT, OSZICAR, OUTCAR, PROCAR, vasprun.xml



GGAINCAR, KPOINTS, POSCAR, EIGENVAL, OSZICAR, OUTCAR, PROCAR, vasprun.xml
GGA+UINCAR, KPOINTS, POSCAR, EIGENVAL, OSZICAR, OUTCAR, PROCAR, vasprun.xml
Meta-GGAINCAR, KPOINTS, POSCAR, IBZKPT, EIGENVAL, EIGENVAL0*, OSZICAR, OUTCAR, PROCAR, vasprun.xml
态密度计算INCAR, KPOINTS, POSCAR, DOSCAR, OSZICAR, OUTCAR, PROCAR, vasprun.xml
磁性计算INCAR, KPOINTS, POSCAR, OSZICAR, OUTCAR, vasprun.xml
介电函数计算INCAR, KPOINTS, POSCAR, OSZICAR, OUTCAR, vasprun.xml
*注:EIGENVAL和EIGENVAL0分别代表处理后的本征值文件和计算输出的原始本征值文件。
表3   能带结构数据内容及其采集和处理方法
计算类型提取描述符提取方式





ParametersPREC, ISPIN, ENCUT, GGA, ALGO, IBRION, ISMEAR, SIGMA, NSW, NELM, EDIFF, EDIFFG, LORBIT, NBANDS, NEDOS, Pseudopotentials, LDAU, LHFCALC解析文件获取
StructureFormula, Type, NumberOfSpecies, NumberOfSites, Composition, LatticeParameters, Lattice, RecLattice, Sites解析文件获取
SpaceGroup, PointGroup, CrystalSystem, LatticeType,通过晶体学对称原理计算获取
SoftwareName, Version, Subversion, Platform解析文件获取
ResourceUsageCpuTime, WallTime, Memory解析文件获取
PropertiesFermiEnergy解析文件获取
EigenValuesNumberOfKPoints解析文件获取
NumberOfBand解析文件获取
IsSpinPolarized解析文件获取
KPoints解析文件获取
Data解析文件获取
DirectedEnergyGap计算得出
IndirectedEnergyGap计算得出
FilesfilesName从目录直接读取
2   数据样本描述
基于单元素掺杂的TiO2光催化材料数据库涵盖了参数数据、结构信息数据、软件环境数据以及性质数据,每种结构的计算文件分别存储在不同计算类型下,文件夹以化学分子式命名,提取的数据信息存储在以计算类型命名的json文件中。文件夹存储的是计算文件信息,json文件存储的是提取的结果信息。以Zr掺杂TiO2结构(O32Ti15Zr)的结构优化和能带计算两类计算为例,说明文件存储的目录结构,如图2所示。其中结构目录下存储的结构文件命名方式为POSCAR_Formula(Formula指的是结构化学分子式)。结构优化与静态计算、态密度计算、磁性计算、介电函数计算具有相同的目录结构,能带计算下包含三种不同计算方法,单独列出目录。图2中能带计算的Data4_Band包含的3个目录Data4_1Band、Data4_2BandPlusU和Data4_1BandMetaGGA,分别对应能带计算采用的三种泛函方法GGA、GGA+U和Meta-GGA.。提取结果(Data8_Extraction)存储在以ExtractionDataNum_Type命名的json文件中(Num: 2-7,Type: Optimization,Static,DOS,Band,Magnetics,Dielectric),如结构优化计算的提取结果文件为ExtractionData2_Optimization.json。图3以Ag和Al分别掺杂TiO2结构(AgO32Ti15、AlO32Ti15)的结构优化提取结果为例说明json文件的格式。


图2   文件存储目录结构


图3   结构优化结果提取文件数据格式
3   数据质量控制和评估
本数据库在计算过程中,对影响计算结果的计算参数(ENCUT, SIGMA, KPOINTS)进行了严格的收敛性测试。保证计算的参数的稳定性和准确性。计算采用基于密度泛函理论的第一性原理计算软件,密度泛函理论在材料的结构稳定性、电子结构、光学、磁学等性质的研究中表现出与实验结果具有很高的吻合度,目前已经广泛应用于材料性质和结构的预测。本数据库采用了3种方法计算能带结构,旨在进一步处理和分析第一性原理计算的能隙低估问题。
4   数据价值
本数据库提供的源文件对结果进一步解析和续算等方面都具有重要作用。一方面,开展TiO2计算的研究人员通过解析计算原始文件,可以对计算结果进行解析或二次处理。另一方面,研究人员还可以下载计算文件继续开展其他计算。数据使用者也可以直接利用数据库中包含的结构文件开展其他性质的研究。此外,本数据库提供的提取信息结果文件,格式规范(json文件),可以实现数据快速检索和提取。
本数据库中涵盖了元素周期表中几乎所有的元素,对开展其他的计算和实验研究提供参考和理论依据。图4中,替代Ti原子掺杂的元素有83种(所有阴影区域元素),替代O原子掺杂的元素有16种(深色阴影区域元素)。


图4   掺杂元素周期表
5   数据使用方法和建议
使用本数据库中的文件,可以直接下载,并支持VASP软件计算格式。由于赝势的版权问题,在文件包中没有包含赝势文件,但是在提取结果数据的json文件中包含了赝势的类型信息,可以进行查询。
使用数据库中提取的数据,通过解析json文件,利用关键字检索的方式可以获取json文件中所需要的数据信息。提取数据信息进行绘图等操作。由于电荷密度信息提取有不同的面的考虑,提取的结果中不包含电荷密度信息,但是源文件中提供了包含电荷密度的文件,可以下载进行解析。结果文件json数据提取代码的关键字见表2,以能带计算为例,提取AgO32Ti15结构Band计算的K点和能带的能量本征值,并写入文本文件。在Data4_Band目录下运行以下脚本即可。
1. import json
2. with open("Data8_Exaction/ExtractionData4_Band/ExtractionData4_1_Band.json") as f:
3. load_dict=json.load(f)
4. datafile = open("AgO32Ti15_Band.data","w")
5. print("Kpoints:",load_dict["AgO32Ti15"]["Properties"]["EigenValues"]["KPoints"],file=datafile)
6. print("Data:",load_dict["AgO32Ti15"]["Properties"]["EigenValues"]["Data"][0],file=datafile)
致 谢
感谢材料集成计算与数据管理平台MatCloud和中国科学院计算机网络信息中心419专项机器为计算提供机时服务。
[1]
Hashimoto K, Irie H, Fujishima A. TiO2 Photocatalysis: A Historical Overview and Future Prospects[J]. Japanese Journal of Applied Physics, 2005, 44: 8269.
[2]
Fujishima A, Zhang XT, Tryk D A. TiO2 photocatalysis and related surface phenomena[J]. Surface Science Reports, 2008, 63:515-582.
[3]
Nakata K, Fujishima A. TiO2 photocatalysis: Design and applications[J]. Journal of Photochemistry and Photobiology C: Photochemistry Reviews, 2012, 13: 169-189.
[4]
Gupta S M, Tripathi M. A review of TiO2 nanoparticles[J]. Chinese Science Bulletin, 2011, 56: 1639-1657.
[5]
Ansari S A, Khan M M, Ansari M O, et al. Nitrogen-doped titanium dioxide (N-doped TiO2) for visible light photocatalysis[J]. New Journal of Chemistry, 2016, 40: 3000-3009.
[6]
Gomes J, Lincho J, Domingues E, et al. N-TiO2 photocatalysts: a review of their characteristics and capacity for emerging contaminants removal[J]. Water, 2019, 11: 373.
[7]
Ghorbanpour M, Feizi A. Iron-doped TiO2 Catalysts with Photocatalytic Activity[J]. Journal of Water and Environmental Nanotechnology, 2019, 4: 60-66.
[8]
Wang YQ, Zhang RR, Li JB, et al. First-principles study on transition metal-doped anatase TiO2[J]. Nanoscale Research Letters, 2014, 9: 46.
[9]
Liu JH, Weng MY, Li SB, et al. High-throughput HSE study on the doping effect in anatase TiO2[J]. Physical Chemistry Chemical Physics, 2020, 22: 39-53.
[10]
Kapilashrami M, Zhang YF, Liu YS, et al. Probing the optical property and electric structure of TiO2 nanomaterials for renewable energy applications[J]. Chemical Reviews, 2014, 114(19): 9662-9707.
[11]
Yang KS, Dai Y, Huang BB. Understanding photocatalytic activity of S- and P-Doped TiO2 under visible light from first-principles[J]. Journal of Physical Chemistry C, 2007, 111: 18985-18994.
[12]
Wang Y, Doren D J. First-principles calculations on TiO2 doped by N, Nd, and vacancy[J]. Solid State Communications, 2005, 136: 186-189.
[13]
Klosek S, Raftery D. Visible light driven V-doped TiO2 photocatalyst and its photooxidation of ethanol[J]. Journal of Phisical Chemistry B, 2001, 105: 2815-2819.
[14]
Mathew S, Ganguly P, Rhatigan S, et al. Cu-doped TiO2: visible light assisted photocatalytic antimicrobial activity[J]. Applied Sciences, 2018, 8: 2067.
[15]
Naldoni A, Altomare M, Zoppellaro G, et al. Photocatalysis with reduced TiO2: from black TiO2 to cocatalyst-free hydrogen production[J]. ACS Catalysis, 2019, 9: 345-364.
[16]
Weng ZY, Guo H, Liu XM, et al. Nanostructured TiO2 for energy conversion and storage[J]. RSC Advances, 2013, 3: 24758-24775.
[17]
Zhao XS, Zhang G, Zhang ZH. TiO2-based catalysts for photocatalytic reduction of aqueous oxyanions: state-of-the-art and future prospects[J]. Environment International 2020, 136: 105453.
[18]
Wang ZG, Yang XY, Wang LG, et al. CE Screen: An energy-based structure screening autimatic workflow[J]. Computational Materials Science, 2018, 143: 55-62.
[19]
Yang XY, Wang ZG, Zhao XS, et al. MatCloud: A high-throughput computational infrastructure for integrated management of materials simulation, data and resources, 2018, 146: 319-333.
[20]
Curtarolo S, Hart G L W, Nardelli M B, et al. The high-throughput highway to computational materials design[J]. Nature Materials, 2013, 12: 191-201.
数据引用格式
王宗国, 郭令举, 万萌, 等. 基于单元素掺杂的TiO2光催化材料数据库[DB/OL]. Science Data Bank, 2020. (2020-10-16). DOI: 10.11922/sciencedb.00204.
稿件与作者信息
论文引用格式
王宗国, 郭令举, 万萌, 等. 基于单元素掺杂的TiO2光催化材料数据库[J/OL]. 中国科学数据, 2020. (2020-10-15). DOI: 10.11922/csdata.2020.0093.zh.
王宗国
Wang Zongguo
本文承担工作:数据库设计、数据产生和处理、数据库构建。
wangzg@cnic.cn
(1986—),女,山东省潍坊市人,博士,副研究员,研究方向为材料信息学。
郭令举
Guo Lingju
本文承担工作:计算需求调研,数据检查。
(1982—),男,河南省商丘市人,博士,副研究员,研究方向为计算凝聚态物理。
万萌
Wan Meng
本文承担工作:计算流程实现与数据提取。
(1994—),男,湖北省襄阳市人,硕士,助理工程师,研究方向为软件架构设计。
李凯
Li Kai
本文承担工作:数据库设计与计算流程实现。
(1983—),男,安徽省合肥市人,硕士,工程师,研究方向为软件系统架构设计、数据采集。
刘志威
Liu Zhiwei
本文承担工作:数据整理。
(1993—),男,河北省沧州市人,本科,在读研究生,研究方向为计算机软件与理论。
郭佳龙
Guo Jialong
本文承担工作:数据整理。
(1997—),男,湖南省湘潭市人,本科,在读研究生,研究方向为计算机软件与理论。
出版历史
I区发布时间:2020年10月16日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata