导航菜单
首页 > 管理学论文 > 情报论文 » 正文

基于标签迁移和深度学习的跨语言实体抽取研究

余传明 黄婷婷 林虹君 安璐




收稿日期:2020-05-31

基金项目:国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”(项目编号:71974202)。

作者簡介:余传明(1978-),男,教授,研究方向:数据挖掘、商务智能与信息检索。黄婷婷(1995-),女,硕士研究生,研究方向:数据挖掘与信息检索。林虹君(1995-),女,硕士研究生,研究方向:数据挖掘与信息检索。安璐(1979-),女,教授,研究方向:可视化知识发现。

摘  要:[目的/意义]从跨语言视角探究如何更好地解决低资源语言的实体抽取问题。[方法/过程]以英语为源语言,西班牙语和荷兰语为目标语言,借助迁移学习和深度学习的思想,提出一种结合自学习和GRU-LSTM-CRF网络的无监督跨语言实体抽取方法。[结果/结论]与有监督的跨语言实体抽取方法相比,本文提出的无监督跨语言实体抽取方法可以取得更好的效果,在西班牙语上,F1值为0.6419,在荷兰语上,F1值为0.6557。利用跨语言知识在源语言和目标语言间建立桥梁,提升低资源语言实体抽取的效果。

关键词:知识获取;实体抽取;跨语言;深度学习;标签映射

DOI:10.3969/j.issn.1008-0821.2020.12.001

〔中图分类号〕TP391  〔文献标识码〕A  〔文章编号〕1008-0821(2020)12-0003-14

Research on Cross-lingual Entity Extraction Based on

Tag Transfer and Deep Learning

Yu Chuanming1  Huang Tingting2  Lin Hongjun1  An Lu3

(1.School of Information and Safety Engineering,Zhongnan University of Economics and Law,

Wuhan 430073,China;

2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;

3.School of Information Management,Wuhan University,Wuhan 430072,China)

Abstract:[Purpose/Significance]This paper explores how to better solve the entity extraction problem of low resource languages from a cross-lingual perspective.[Method/Process]With English as the source language,Spanish and Dutch as the target language,an unsupervised cross-lingual entity extraction method combining self-learning method and GRU-LSTM-CRF network is proposed based on the idea of transfer learning and deep learning.[Result/Conclusion]Compared with the supervised cross-lingual entity extraction method,the unsupervised cross-lingual entity extraction method proposed in this paper can achieve better results.In Spanish,the value of F1 is 0.6419,and in Dutch,the value of F1 is 0.6557.Cross-lingual knowledge is used to build a bridge between source language and target language to improve the effect of entity extraction of low-resource languages.

Key words:knowledge acquisition;entity extraction;cross-lingual;deep learning;label mapping

实体抽取(Entity Extraction,EE),又称为命名实体识别(Name Entity Recognition,NER),是指识别文本中具有特定意义的实体[1],包括人名[2]、地名[3]、机构名[4]和专有名词[5-7]等。实体抽取在信息抽取的总体任务中起着至关重要的作用,有效识别命名实体,不仅是关系抽取[8-9]和构建知识图谱[10]的基础,而且可以显著提高问答系统[11]和文本挖掘[12]等应用的性能。随着大数据的迅速发展,各种语料在不同语言中的分散化和多样化日益严峻,跨语言情境下的实体抽取任务受到越来越多的关注。实体抽取任务在中文和英文等语言情境中,存在较为丰富的标注语料,与此相关的实体抽取模型相对简单;而在阿拉伯语和维吾尔语等语言情境中,标注语料相对稀缺,存在标签语料很少和手工标注标签昂贵且费时等问题,与此相关的实体抽取模型相对复杂,面临更多挑战。在标注语料丰富的源语言和标注语料稀缺的目标语言之间建立桥梁,将源语言的标签数据迁移给目标语言,以丰富目标语言的标签数据,通过建立跨语言的命名实体识别模型,提升低资源语言实体识别模型的效果,成为一个亟待解决的研究问题。

机器翻译研究的发展在一定程度上缓解了目标语言语料稀缺的问题,但采用机器翻译来解决跨语言实体抽取仍面临一些挑战。首先,在源语言翻译成目标语言的过程中,即便在机器翻译达到很高准确率(即源语言文本与目标语言文本具有很好的语义一致性)的情况下,由于在目标语言中词汇语序被调整,且存在对源语言词汇进行拆分(源语言词汇与目标语言词汇之间为一对多的关系)或合并(源语言词汇与目标语言词汇之间为多对一的关系)的情况,很难准确地建立词汇标签(如B、I、O等)从源语言到目标语言之间的一一对应关系,如何在机器翻译基础上自动化地构建目标语言的语料标签仍然是一个严峻的问题。其次,目前应用较为广泛的免费在线翻译系统(如谷歌和百度翻译等)并不支持所有语言,针对稀缺资源语种(如蒙古语和维吾尔语等),如何在没有机器翻译的情况下自动化地构建目标语言的文本(并在此基础上自动化地构建标签)也是一大挑战。

为解决上述问题,本文将自动化的双语词典构建应用到跨语言实体抽取任务中,利用迁移学习和深度学习的思想,开展跨语言实体抽取的实证研究。

1  相关研究现状

1.1  实体抽取的传统模型

实体抽取的传统模型包括早期基于规则的方法、统计机器学习的方法以及近年来基于深度学习的方法,其效果不断得以提升。

1.1.1  基于规则的实体抽取

基于规则的实体抽取方法是指人工构造规则或者借助机器自动生成规则,然后从文本中找出匹配规则的字符串。为了解决乌尔都语实体标注语料稀缺的问题,Riaz K[13]提出一种基于规则的命名实体识别方法,首先从Becker-Riaz语料库中选取200篇文档,人工为时间、地名、机构名等6个实体标签制定规则;并选出2 262篇文档进行实验,该方法的召回率为90.7%,准确率为91.5%,F1值为91.1%。由于人工构造规则需要消耗较多的人力和物力,所以研究者們尝试借助机器自动生成规则的方法。Collins M等[14]先构造种子规则,再根据语料对该种子规则进行无监督的训练迭代得到更多的规则,将这些规则用于实体抽取,该方法在人名、地名和机构名3种实体抽取任务中取得很好的效果。周昆[15]提出一种基于规则匹配的命名实体识别方法,首先,将中文人名、知识按照不同类别和不同层次进行组织,可提高知识库的可维护性;然后分别制定20种人名识别规则和9种地名识别规则;最后构建具有自主学习能力的实体识别系统,能在识别实体的基础上,产生新的规则反馈给规则库,该方法有效提高了实体抽取的准确率和召回率。基于规则的实体抽取方法在小规模语料库上,训练速度快且模型效果好,但需要制定大量的规则,导致该类方法的可移植性较差。

1.1.2  基于统计机器学习的实体抽取

在基于统计机器的方法中,实体抽取被视为序列标注问题。序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,预测标签序列之间具有强相互依赖关系。目前常用的统计机器学习方法有:隐马尔克夫模型(HMM)、最大熵隐马模型(MEMM)、条件随机场模型(CRF)等。CRF是计算整个标记序列的联合分布概率,在全局范围内进行归一化处理,不仅克服HMM输出的独立性假设问题,而且有效避免了MEMM的标记偏置问题。如冯艳红等[16]提出一种基于词向量和条件随机场的领域术语识别方法,将领域词语的语义特征和领域特征融入CRF模型中,在渔业领域语料、通用语料和混合语料上进行实验,该方法均取得较好效果。李想等[17]将农作物、病虫害和农药名称的词性、偏旁部首、左右指界词、附近数量词等特征融入CRF模型,建立特征与命名实体类别和词位间的关联关系,从而识别出命名实体,对农作物、病虫害、农药命名实体识别的准确度分别达97.72%、87.63%、98.05%。基于统计机器学习的实体抽取获得了较好的结果,但是该方法需要人工选择的特征作为模型输入,实体抽取的效果严重依赖特征选取,且模型的泛化能力不强。

1.1.3  基于深度学习的实体抽取

深度学习技术成为研究命名实体识别问题的热点方法,能够有效地解决人工选择特征的不足和高维向量空间带来的数据稀疏问题。近年来,基于深度学习的实体抽取主要思路是,首先采用字粒度、词粒度或者混合粒度将文本进行向量表示,然后用长短期记忆网络(LSTM)、循环神经网络(RNN)和卷积神经网络(CNN)等网络进行文本的语言特征提取,最后用条件随机场(CRF)输出最优标签序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名实体识别模型,与基线方法相比,该方法具有较强的鲁棒性,对词语特征工程的依赖性较小。在此基础上,Lample G等[19]提出两种命名实体识别模型:一种是基于双向LSTM和CRF的命名实体识别模型,一种是基于转移的命名实体识别模型,在没有人工处理特征和地名录的前提下,英语、荷兰语、德语和西班牙语数据集上均取得较好的结果。Zhang Y等[20]提出基于Lattice LSTM的中文命名实体识别模型,该模型对输入字符序列和所有匹配词典的潜在词汇进行编码。与基于字符的方法相比,该模型显性地利用词和词序信息,与基于词的方法相比,Lattice LSTM不会出现分词错误。在多个数据集上证明Lattice LSTM方法优于基于词和基于字符的LSTM命名实体识别方法。目前,大部分神经网络都是使用Word2Vec和Glove工具训练词向量,所得到的词向量没有考虑词序对词义的影响,Google在2018年10月发布BERT语言表示模型,在各项自然语言处理任务中都取得了最先进的结果。王子牛等[21]提出基于BERT的中文命名实体方法,首先用BERT训练大量未标注语料,得到抽象的语义特征,然后结合LSTM-CRF神经网络,该方法在《人民日报》数据集上的F1值达到94.86%。此外,深度学习方法还被广泛应用于历史事件名抽取[22]、电子病历实体抽取[23]、商业领域实体抽取[24]、在线医疗实体抽取[25]等应用场景。值得说明的是,基于深度学习的实体抽取方法,在英语和中文等高资源语言中取得很好的效果;对于维吾尔语、蒙古语等低资源语言,实体抽取的效果有待提高。

1.2  跨语言情境下的实体抽取研究

跨语言的实体抽取主要目标是提升低资源语言的命名实体识别效果。值得说明的是,跨语言实体抽取不能理解为“单语言实体抽取”与“机器翻译”的简单拼接。从研究现状来看,目前主要包括以下两点:一是基于标签数据迁移的跨语言实体抽取;二是利用基于语言独立特征迁移的跨语言实体抽取。

1.2.1  基于标签迁移的跨语言实体抽取

基于标签迁移的跨语言实体抽取是指利用平行语料或者双语词典将源语言的标签数据迁移给目标语言,并在目标语言上建立实体抽取模型以完成实体识别任务。在基于平行语料的跨语言实体抽取方面,Ni J等[26]提出一种基于弱监督的跨语言命名实体识别方法,首先建立英语实体抽取模型,得到英语实体标签;然后通过包含對齐信息的平行语料库,实现英语与目标语言句子的对齐,并将英语的标签映射给目标语言;最后建立目标语言的实体抽取模型。其研究结果表明,目标语言实体抽取的效果好坏取决于英语实体抽取模型和平行语料库在词汇句子层面的对齐程度。徐广义等[27]为了解决柬埔寨语实体标签语料稀缺和命名实体缺乏明显标识特征的问题,根据英语和柬埔寨语的平行语料来构造双语图,获取柬埔寨语的实体类别分布特征,显著提高了柬埔寨语的命名实体识别的性能。上述实验结果表明,通过平行语料库将源语言标签迁移给低资源语言,能够有效提升低资源语言的命名实体识别效果。值得说明的是,由于构建平行语料库需要耗费较多的人力,所以从一定程度上限制了该方法的推广性。

在基于双语词典的跨语言实体抽取方面,Mayhew S等[28]利用“廉价”双语词典,将一种或几种高资源语言中可用的标签数据“翻译”为目标语言,并在廉价词典的基础上加入维基百科特征,显著提高目标语言实体抽取的效果。基于廉价词典的方法,其效果在很大程度上取决于双语词典的规模和质量,由于人工构建双语词典具有一定的困难,在处理真正低资源语言的命名实体识别问题上具有局限性。Xie J等[29]为了减少对人工构建双语词典的依赖,用种子词典进行词典规约得到包含更多单词对的双语词典,将源语言的标签数据迁移给目标语言;为了提高数据迁移过程中语序的鲁棒性,在神经网络模型中加入自注意力机制,在西班牙语、荷兰语和德语数据集上取得了较好的结果。与此类似,Ehrmann M等[30]尝试在没有任何平行语料库的情况下构建双语词典,通过无监督的方式对齐单语单词嵌入空间。值得说明的是,利用双语词典进行标签映射存在标签映射错误问题。为解决该问题,吴焕钦[31]提出一种基于软对齐的跨语言命名实体识别方法,通过建立跨语言神经网络模型,其中源语言句子、源语言标签和目标语言句子均用于预测目标语言的命名实体标签,从而实现源语言到目标语言的标签迁移,充分利用了源语言和目标语言的上下文信息。总的来说,一方面,基于双语词典的跨语言实体抽取方法摆脱了对于双语平行语料的限制,因而具有更广泛的应用;另一方面,如何减少对人工构建双语词典的依赖(即在处理低资源语言时能够准确、自动、快速地构建双语词典),又成为新的瓶颈问题。

收藏此文 赞一个 ( ) 打赏本站

如果本文对您有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码