导航菜单

实体—属性抽取的GRU+CRF方法

王仁武 孟现茹 孔琦



〔摘 要〕[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体—属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体—属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。
〔关键词〕实体属性抽取;GRU;循环神经网络;条件随机场;命名实体识别
DOI:10.3969/j.issn.1008-0821.2018.10.009
〔中图分类号〕TP391.1 〔文献标识码〕A 〔文章编号〕1008-0821(2018)10-0057-08
〔Abstract〕[Purpose/Significance]The study used the recurrent neural network GRU combined conditional random field CRF to predict the annotated Chinese sequence text to extract the entity-attribute in the online review text.[Method/Process]Firstly,according to the designed annotation specification to a text sequence,the paper made name entity annotations for entities and their attributes after the segmentation of corpus,and got word sequence,part of speech sequence and annotation sequence;Then the word sequence and part-of-speech sequence were converted into distributed word vector representation and used for input of GRU recurrent neural network;finally,the output layer used the conditional random field CRF and the output label was the entity or attribute.[Result/Conclusion]The method in this paper simplified entity-attribute extraction to named entity annotation,and used GRU to capture the contextual semantics of input data and conditional random field CRF to obtain the output label context,which had a larger application advantage than the traditional rule based or general machine learning method.
〔Key words〕entity attribute extraction;GRU;RNN;CRF;NER
实体—属性抽取是从非结构的文本数据中抽取有价值的语义单元的重要手段,是信息抽取、觀点挖掘、智能检索、自动问答、知识图谱等构建任务的基础。实体—属性抽取属于自动内容抽取(Automatic Content Extraction,ACE)的研究范畴。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)组织开展了系列ACE测评会议。ACE会议旨在研究自动抽取出新闻语料中的实体、关系以及事件等内容[1]。ACE的目标是发展包括自动识别和标识文本在内的自动内容抽取技术,以支持对语料库的自动处理[2]。
本文研究的实体是文本中描述的对象,或者说是文本中包含的特定事实信息,例如产品评论中的产品、服务、商家等。与此对应,属性是描述产品或服务的特定属性的特征,例如,属性的一些示例是品牌、颜色、材料、包装、价格、质量等。属性值是赋予属性的特定值。涉及到实体的研究,使用比较多的方法是命名实体识别。在命名实体识别研究中,MUC-6[3]中命名实体类型分为3大类(实体类、时间类和数字类)和7小类(机构名、地名、人名、日期、时间、百分比和货币)。随着研究的深入和社会的发展,一些新的实体类型逐渐成为研究热点,例如医学生物信息、商业信息等。在大数据时代,我们生活中绝大多数的数据都是非结构的文本数据,我们已淹没在非结构化数据的海洋之中。实体识别与实体—属性抽取已经成为非结构化文本理解的一个重要手段。
在本文研究中,我们充分利用循环神经网络捕捉文本上下文语义的能力来抽取文本中的实体与属性。首先利用命名实体标注的方法来标注文本中的实体与属性形成实验语料,然后利用循环神经网络(本文使用GRU)来训练标注好的语料,网络输出层使用条件随机场(CRF),好处是在输出时也能利用标注标签之间的先后关系,提高输出的准确率。本文方法的思路来源于深度学习强大的无监督自主学习的能力,避免了传统机器学习比较耗时且复杂的特征工程。实验表明,本文的实体—属性抽取方法,利用GRU+CRF,可以取得较好的效果。
本文余下部分的结构安排:第1部分相关的研究工作情况;第2部分模型框架;第3部分语料标注;第4部分实验与分析评估;第5部分总结与展望。
1 相關研究
自20世纪80年代开始召开的信息理解会议MUC(Message Understanding Conferences)和自动内容抽取ACE评测会议等多个信息抽取领域的会议极大地推动了信息抽取技术的发展。本世纪ACE评测已经举办了八届,经过多年发展,当前对信息的提取已经有一些研究成果[4],信息抽取的研究方法主要有以下两种:模式匹配方法和机器学习方法。基于模式匹配的方法对知识的表达比较直观、自然,类似于规则,更接近人的思维方式。模式匹配多是面向领域的,准确率较高;基于机器学习方法灵活性较好,不需要太多的背景知识,但是它需要大规模的语料库支持以及手工标注。
在基于机器学习的实体属性抽取方面,Liu H等[5]利用属性值信息和最大熵模型构造属性与标签之间的映射关系,并对实体实例进行标注,然后,将隐马尔可夫模型应用于相关实体属性提取。Li C X等[6]则提出了一种基于实体属性分类的Web实体抽取方法,使用Libsvm分类器对物品的实体与属性进行分类抽取。曾道建等[7]将属性抽取看作是一个序列标注问题,利用百度百科信息框已有的结构化内容来自动产生训练数据,然后使用条件随机场(CRF)作为分类器来从非结构化文本中抽取属性。刘倩等[8]在实体属性抽取的进一步研究中提出了利用全局信息构造神经网络感知器模型来抽取实体属性,整体效果优于传统的CRF。
近年来,随着深度学习在图像领域应用的成功,不少学者开始关注深度学习在信息抽取方面的应用。Zhong B等[9]通过构造深度信念网(Deep Belief Network)来进行实体属性抽取。苏丰龙等[10]将深度学习框架的词语嵌入表示方法(Word Embedding)引入到领域实体属性抽取研究中,方法是采用词的聚类方法,在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题。Gridach M等人[11]使用循环神经网络GRU结合CRF进行了推特文本中的法文文本的命名实体识别,而Huang Z等人[12]则研究利用循环神经网络BiLSTM结合CRF对英文语料CoNLL2000、CoNLL2003文进行NER,都取得了较好的效果。
由于传统的机器学习其分类算法的数据来自有限数据集合L=(X,y),其中X为输入样本并以二维数组形式给出,形状为n_samples×m_features,即n个样本,m个特征;输出值以数组y的形式给出,并以y中的Symbolic(符号)值表示。传统的机器学习的质量严重受制于X数据的获得与处理,需要繁琐的特征工程(即m_features的获得过程)来进行处理,它主要依靠设计者的先验知识,很难利用大数据的优势,而且还不一定能取得好的效果。而深度学习与传统机器学习方法最大不同之处在于它能从数据中自动学习特征。例如,传统的图像分类,要识别图片中的猫,需要设计好的特征,给出猫的胡须、耳朵、眼睛等特征,而深度学习,只需标注图片是否是猫即可,剩下的工作,交给神经网络去调节联结权重,通过输入数据(图片)与调节后权重的矢量乘积的激活,产生是否是猫的预测。
本文在前人研究的基础上,利用Keras[13]的深度学习框架,设计构造了双向GRU[14]循环神经网络,在输出层使用CRF[15],对序列标注的中文在线评论文本进行实体属性抽取。本文的方法将传统的大量依赖映射词表与规则的比较繁琐的实体属性抽取,简化为文本序列标注。充分利用了深度神经网络双向GRU综合学习利用语料上下文的语义关系,以及利用条件随机场CRF在序列标签上的预测能力,提高模型的预测输出效果。尽管语料标注需要一定的工作量,但标注工作本身简单易行,具有较大的应用优势。
2 模型框架
本文使用循环神经网络GRU(输出层使用CRF)对输入的经过人工标注的中文在线评论文本序列进行学习(文本标注的相关内容见第4部分)。
2.1 GRU模型
GRU全称是Gated Recurrent Unit,即门限循环单元,是循环神经网络(RNN[16])的一种。我们知道卷积神经网络(CNN[17])擅长处理空间信息,例如图像,而RNN则擅长处理时间信息,例如语音、文本序列等。GRU则是对RNN存在的比较严重的梯度消失或梯度爆炸问题的改进。
RNN的“梯度消失”是指,如果梯度较小(<1),多层迭代以后,指数相乘,梯度很快就会下降到对调参几乎没有影响(设想一下,0.9的n次方,当n足够大时,值将很小)。“梯度爆炸”则反过来,如果梯度较大(>1),多层迭代以后,又导致了梯度很大(设想一下,1.1的n次方,当n足够大时,值将很大)。尽管在理论上,RNN能够捕获长距离依赖性,但实际上,它们由于梯度消失/爆炸问题而失败[18]。GRU等是RNN的优化,能够解决RNN在梯度上面临的问题。
收藏此文 赞一个 ( ) 打赏本站

如果本文对你有所帮助请打赏本站

  • 打赏方法如下:
  • 支付宝打赏
    支付宝扫描打赏
    微信打赏
    微信扫描打赏
留言与评论(共有 0 条评论)
   
验证码:
二维码