汉语和维吾尔语文本数据是利用网络爬虫技术从互联网上获取的,然后对其进行数据预处理、特征提取、相似度计算等步骤,最终决定是否将其放入到汉维可比语料库中。汉维可比语料挖掘系统框架结构如图1所示。
该系统利用最大连续文本密度和的方法对汉语和维吾尔语的网页内容进行抽取。根据现有的网页正文抽取方法,本方法提出了一个融合结构和语言特征的统计模型,将网页文档转化为正、负交替的文本密度序列。为避免丢失短小正文行,采用高斯平滑技术,通过邻近行内容的连续性,增加短文本行的文本密度
[2-3]。最后,结合最大间隔距离,利用动态规划的方法计算最大连续文本密度和来抽取网页正文内容,这样可以有效避免将网页评论等篇幅较长的噪声误判为正文内容的情况发生。
在获取汉语和维吾尔语网页文本之后,对其进行相似度计算
[4]。在汉维可比语料挖掘系统中,采用融合多特征的汉维网页文本相似度计算方法。该方法首先抽取预处理后的网页文本的发布时间、标题和正文信息等特征,这里的预处理主要是先去噪,然后翻译维吾尔语标题和关键字,再使用中国科学院的ICTCLSA(Institute of Computing Technology, Chinese Lexical Analysis System)系统进行分词、过滤停用词等处理
[5-6]。然后根据上述特征计算双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度以及正文重合程度5种启发信息,并将它们作为特征来判断汉语文本和维吾尔语文本的相似程度。在该方法中利用正则表达式匹配文本的标题和发布日期并且抽取文本的正文内容,然后利用正则表达式提取正文中的阿拉伯数字。选择双语文档发布日期作为相似度计算的特征是因为不同语言文本对同一事件的描述一般是在事件发生后的一段时间内,两篇可比语料文档的发布日期应该是相近的
[7-8]。
对于网页文本内容,选择正文长度关系、正文阿拉伯数字、标题重合度以及正文重合程度作为相似度计算的特征。选择正文长度关系是由于两篇可比语料文本对同一事件的描述应基本一致,内容长度比应该在某个值附近分布,可将长度关系转换为长度关系度;选择正文阿拉伯数字相似度是因为可比语料的不同语言文档是对同一事件的描述,那么出现在正文中的量词等阿拉伯数字应基本一致,可以利用欧式距离计算汉维文本中的阿拉伯数字的相似度;选择标题重合程度是因为新闻标题是对内容的概要,可比语料的源语言标题经翻译后应与目标语言标题基本一致,即有较多相同的词汇;选择正文重合程度是因为两篇可比语料文档的主题是一致的,源语言新闻正文经翻译后的文本应与目标语言新闻正文相似,即两篇新闻文档的主旨是相同的。为了提高模型的效率,减少其计算时间,本文取300个字符作为处理的阈值,即文本长度超过300个字符的数据不参与正文重合度的计算。最后通过神经网络训练得到各启发信息的权重并将5种启发信息进行加权融合,从而得到两篇汉维新闻文档的相似度得分。
本文利用机器学习技术构建了汉维可比语料挖掘系统,并取得了较好的实验结果,主要包含以下几个方面的研究工作:
(1)在网页正文提取方面,提出了一种基于最大连续文本密度和的网页正文文本抽取方法。将网页内容转换为正负交替的密度序列,并将密度序列和最大的那部分文本看作是网页正文文本。
(2)提出了一种融合多特征的跨语言网页正文文本相似度计算方法。在该方法中将网页的标题、发布日期以及正文文本作为相似度计算的特征信息,并且利用神经网络算法为特征信息赋予相应的权值,特征信息加权求和的值就是两个网页文本的相似度。
(3)汉维可比语料系统挖掘到的语料经过处理之后,将其上传到相应的网站,供用户下载使用。因此,可比语料的数据是公开共享的。