硕士论文网第2020-10-23期,本期硕士论文写作指导老师为大家分享一篇
医学论文文章《基于集成模型的生物医学名称实体识别研究》,供大家在写论文时进行参考。
本篇论文是一篇医学硕士论文范文,为了解决梯度消失所带来的消极影响,LSTM出现了,它在RNN的基础进行扩展。在原始:RNN中通过增加记忆单元,可以很好地解决RNN模型的梯度消失的现象。但LSTM只考虑了句子的前向信息,对于后向信息无法获取,而在生物医学文本的信息抽取各项任务中,句子的下文同样包含了重要信息。所以本文使用了双向长短时记忆神经网络(Bi-directional LSTM, BiLSTM),该模型可以提取句子的正序与逆序特征,并将正序与逆序的特征向量进行拼接得到最终特征。
1 绪论
1.1 研宄背景与意义
目前,医学的发展越来越迅速,每分每秒都会产生有价值的信息,大量的文献在各种会议和期刊上被发表,与医学有关的信息增长速度很快。由于网络技术迅猛的发展,医学相关信息的传播变得十分迅速,获取方式变得十分便捷;这些爆炸式增长的信息利用率却不高,大量有用的信息在角落堆放着却缺少有效的利用方式:这些庞大的坐落在角落的信息,可能对目前的医学来说有着促进作用以及指导意义。在现有的大量的医学文本中找寻有用的生物医学知识,对当代医学和研宄人员来说有着非同一般的指导作用。由美国国立医学图书馆创建的MEDLINE数据库,作为生物和医学领域的在线数据库来说,它在国际上是规模最大且权威性最高的。从1966年开始至今,与医学、生物、医疗等相关领域的大约上千万的记录被该数据库所收录,上千种生物医学期刊为数据库的收录工作做出了贡献,这些数据库每年都会有30万_35万新文献被收录W。在大量的医学信息中,储存着很多重要的、对病人十分有用的信息。如某一个疾病的特殊症状、某种疾病对于特定的人群该如何用药、如何根据一些不常见的症状判定患者属于某种疾病。这些信息就藏在庞大的医学信息文献中等待着研宄人员去发现,因此,如何才能够从这些信息中发掘有价值的信息,使用什么样的技术手段能够在庞大的信息中找出对人们有用的信息值得我们去研宂和探索。在生物医学领域的命名实体识别任务是指将生物医学文本数据中具有生物医学意义的卖体从数据库中识别出來。命名实体识别任务在生物医学领域里与通用领域的实体识别有一定的不同,它不是识别文本中的人、地理位置等实体,而是识别与生物医学相关的实体,例如文本中的蛋白质、疾病、药品、化学物等名称。生物医学命名实体识别任务作为生物医学信息挖掘中的第一步,是重要且基础的一项研究工作,对于生物医学领域挖掘的后序工作有着积极的影响W。生物医学命名实体识别是其他重要任务的先决条件,如生物医学文献检索;生物医学问答系统等。这些工作可以让我们更好,更便捷地从相关医学文献和医学文本信息查找有用信息。所以生物医学命名实体识别任务对于研究人员来说具有研宄意义和很高的研宄价值。值是,对于生物医学命名实体来说,生物医学实体因为缩写、修饰词过多等原因导致了识别较为困难,识别效果低于一般领域,模型的性能提升较难。因此,生物医学命名实体识别任务仍然有着让人研究的价值,且具备提升性能的空间。
1.2 本文研究内容
本文是将深度学习的模型进行集成,主要研宄特征融合的生物医学命名实体识别,将BiLSTM-Attention提取的文本时序特征和空洞卷积神经网络(hybrid dilated convolution,HDCNN)提取的局部空间特征进行融合。包括以下两个方面的内容:使用Attention对BiLSTM提取的特征进行权重重分配,对重点单词的特征权重进行放大。本文将BiLSTM-CRF模型作为基础模型提取文本中的时序性特征,并采用Attention机制对其进行改进,构建BiLSTM-ATT-CRF模型。首先利用Glove预训练语料得到词向量,之后将得到的词向量送入BiLSTM网络中提取特征,BiLSTM网络既考虑了文本的上下文信息,又解决了较长句子的长距离依赖问题;之后将提取的特征送入Attention网络中,使用Attention机制公式进行特征重分配,有效防止关键信息的丢失,突出重要特征的作用;最后送到CRF中,有效解决了BiLSTM网络在输出序列标签时无法很好地处理强依赖关系的标签数据的问题,进一步提升了性能。(2)使用HDCNN对特征进行提取,并和BiLSTMiATT提取到的特征进行融合,使得空间和时序特征充分利用。本文以CNN作为基模型进行改进,CNN可以提取文本的局部空间特征;使用HDCNN对其进行改进,扩大感受野,解决CNN在命名实体识别任务中无法获取更丰富的上下文信息的缺陷。首先将输入的文本通过Glove转化为词向量序列;使用HDCNN对词向量进行特征提取,并输出特征向量;最后将特征向量输入到CRF中预测输出标注后的命名实体。之后将HDCN^提取到的特征与BiLSTM-ATT提取到的特征进行融合,BiLSTM提取的是时序性特征,HDCNN提取的是扩大感受野的局部空间特征,二者特征在一定程度上可以互补,充分利用二者提取到的特征可以提升识别的效果。
2 相关理论概述
2.1 词表示
在自然语言处理领域中,如果想要使用机器学习的方法,其最为关键的一步就是将文本中的单词转换为计算机能够识别的信息,即将文本数字化。通常是将单词转化成长度固定的数字向量。目前使用最广泛的两种数字化表示方法有两种:一种是将文本所蕴含的信息用一个维度表示,其他维度不会蕴含信息,称为one-hot表示;另一种是多维度的表示方法,将以多个维度来表示文本所蕴含的信息,.每个维度所蕴含的信息各不相同,称为分布式表示。One-hot是一种简单且非常直观的用来表示单词的方法,词表中的单词数目就是词向量品维度数量。每个单词在其维度上的元素为1,其余维度为0。通过这种每个单词独占一维空间的方式来区分单词的不同。例如“adenomatous”和“polyposis”这两个单词分别是在维度为2和维度为7的位置来表示,那么根据one-hot的表示方法,会是如下的表示:[010000000……][000000100…….]虽然one-hot方法可以非常简洁直观的存储单词,在一些自然语言处理任务也吋以有不错的表现,但是其存在着无法规避的问题:单词鸿沟问题。两个单词之间的关系完全独立,彼此之间没有任何联系。例如,“Apple”和“Jobs”两个单词从one-hot表示法中不能找到词和词之间的语义关系,但是在文本中,Jobs是Apple的创始人。在单词表中的每个单词的表示方法都是很独立的,词和词之间没有直接或间接的联系,表示的方式非常简单的同时,所反应的信息也十分的稀少。维度灾难问题。one-hot方法的维度会随着单词的多少而改变,当文本中的单词数量增加时,维度大小也需要不断地增大。每当词表中多了一个单词,那么就会使得维度多出?维用来表示新的单词,因为其他的维度都被表中的其他单词所占据,单词越多,维度会越大。维度的增大会导致计算变得复杂、困难,从而形成维度灾难问题。
2.2 条件随机场
CRF是一种判别式的无向图模型,也是一种有监督的概率模型,它比HMM更加完善,可以处理序列间的依赖关系以及复杂的上下文特征。CRF模型拥有HMM以及最大熵模型两者的特点,CRF在很多的序列标注任务中,例如识别实体的任务,表现是令人欣喜的,所以在本文将它作为模型的最后一步。CRF的存在是为了解决HMM在对序列标注时出现的问题,这个问题是,它无法处理序列间的长期依赖关系和文本中繁复的上下文信息特征。目前,CRF在自然语言处理中被人们经常拿来使用。一阶的线性CRF模型在CRF中的使用频率是最高的。比一阶高阶的CRF模型虽然在效果上比线性链CRF好上一些,但是并不是性价比最高的,因为高阶的CRF模型训练时间要远远超过线性CRF且训练的过程十分的复杂,综合来说不如一阶线性CRF实用。所以,在本文使用的是线性链CRF,用该模型来计算标注序列中标签之间的相关性。如图2.1所示的就是一阶线性CRF模型的示意图。随机初始化输入变量X与输出变量Y,在命名实体识别里,假设二者结构相同。任意结构的无向图中,如果随机变量Y的条件概率分布P(X|Y)在随机变量序列X的条件下构成了条件随机场,而且拥有马尔科夫性,那么P(X|Y)为线性链的条件随机场。标记偏置在判别式模型中是一个很常见的问题,概率分布因为节点的状态分支数量的不一致而导致不均衡。如图2.2所举的一个例子。当“guy”这个单词作为输入时,在输入的开始阶段,在0状态时,即字母“g”拥有两个支路可以选择,从0状态到相邻的两个状态的概率在一定程度上是相等的。以此类推,传递到字母“u”时也会出现类似的情况,所以这种方式就很难区分gay和guy。而CRF模型可以在全局上对概率路径进行计算,解决了只能计算局部的缺点。因此,在给定了观察序列后,判别式模型中的标记偏置问题就可以被解决,这时的状态转移就不是等概率事件了。使用条件随机场对命名实体识别进行识别的时候,识别的F1值在一定的程度上是要依赖于特定的特征模板,即在实验之前,我们需要消耗大量的人力成本和时间成本来对目标文本的结构进行详细的探索,如果没有概括出很好的特征模板,那么识别的准确率并不会很好。也就是说,条件随机场没有很好的适应性,它无法对所有的文本采用统一的特征模板,如果想要识别一个新领域的文本语料,那么人们需要再次制定一个适合新领域的且概括完善的特征模板。
3基于循环神经网络与注意力机制结合的命名实体识别
3.1引言
3.2特殊的循环神经网络
3.3基于BiLSTM-ATT-CRF的生物医学命名实体识别
3.4结果分析
3.5本章小结
4基于集成模型的命名实体识别
4.1 引言
4.2 BiLSTM-ATT-HDC集成模型
4.3 结果分析
4.4 本章小结
结论
生物医学命名实体识别任务是生物医学信息挖掘的基础,也是重点研究方向之一,它对于信息挖掘来说有着重要的研宄意义。本文主要在NCBI数据集上进行实验,研究内容分为以下三点:(1)因为冗余信息过多,会导致重要词汇的特征向量被干扰,无法精确识别出实体,所以本文使用Attention机制对BiLSTM网络提取的特征进行权重重分配。从实验结果可以看出本文的实验结果比基模型实验的结果有很大的提升。原因在于,首先本文采用BiLSTM来获取双向上下文信息。然后,我们提出了不同的Attention权重分配方法来进行对比试验。Attention机制提高了BiLSTM在捕获特征时关注更多重要区域的能力。最后,考虑到标签之间的强烈依赖性,BiLSTM的概率矩阵经过Attention机制后,输入CRF层以解析序列标签。文本模型具有更好的灵活性,并且不依赖于任何复杂的特征工程。(2)关注文本的局部空间特征,但由于CNN的池化操作会使得信息产生丢失现象,所以本文使用HDCNN模型对文本进行特征提取。从实验结果中可以看出,HDCNN-CRF模型的F1值比CNN-CRF模型效果有不小的提升。HDCNN比CNN的效果好的原因在于其空洞卷积的方式避免了池化的丢失信息,且可以获得更广阔的上下文信息。(3)我们将上述两种的特征进行提取,对其进行融合操作,通过实验找出最好的融合策略。加性操作和拼接操作的是特征融合最主要的两种方法,但双方各有优缺点且很难直观的观察融合的情况,所以本文通过实验验证出加性操作在文本中对精度的提升效果最好。从实验中可以看出.特征融合的实验结果要好于单独的任一模型,且通过消融实验证明了每一个模型对于实验结果的提升都有促进作用。综上,本文提出了两种模型对生物医学进行实体识别,且将二者特征进行融合得到的实验结果在NCBI数据集上达到了更好的效果,可以超过基模型很多且与一些文献方法相比并不逊色,,甚至可以超过很多现有模型,但是还存在许多工作需要进一步研究:(1)未使用其他特征工程,可以使用如位置向量等有利于提高识别效果的特征工程来对模型进行进一步的优化。(2)模型在进行实验到40轮以后,F1值明显降低,训练轮数的逐渐增多,性能会逐渐下降,可能是因为过拟合现象的产生,可以对过拟合问题进行研宄。
以上论文内容是由
硕士论文网为您提供的关于《基于集成模型的生物医学名称实体识别研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网医学论文栏目。