硕士论文网第2020-10-30期,本期硕士论文写作指导老师为大家分享一篇
新闻论文文章《基于文本特征和相关性分析的新闻话题句提取研究》,供大家在写论文时进行参考。
本篇论文是一篇新闻硕士论文范文,利用文本分类初步检验本文所提的文本特征抽取算法的有效性。本章所研究的文本特征抽取即是文本分类的基础,所以利用该方法对文档的特征进行提取对文本分类并确定参数。利用文献中的结合论文选取的文本相似度计算方法和 SVM 算法的分类器进行新闻文本数据分类。由于,实验是对新闻文档进行分类。因此,利用本文的特征提取的方法来表示新闻整个文档,计算文档的质心向量和主题向量的余弦相似度,再利用 SVM 分类器对文档进行分类。
第 1 章 绪论
1.1 研究背景与意义
随着 5G 与人工智能时代的到来,赋予了新闻媒体新的动力,新闻信息数据呈爆炸式增长。据统计,截至 2019 年 6 月底,经各级网信部门审批的互联网新闻信息服务单位总计 910 家,较 2018 年底增加 149 家;服务项目共计 4560 个,较 2018 年底增长 21.1%。仅今日头条自媒体,2019 年全年创作者共发布 4.5 亿条新闻信息。近年来,新闻用户数量也呈快速增长的趋势,据中国互联网络信息中心报告显示,截止 2019 年 6 月,我国新闻用户规模达 6.86 亿,较 2018 年底增长 1114 万,占整体网民整体的 80.3%。此外,新闻媒体形式进一步增加,主流报社媒体、垂直媒体、网络门户、自媒体等新闻媒体的数量也大大增加。现如今,人们不仅可以随时随地浏览世界各地的新闻信息,还可以随时随地发布身边的新闻信息。这虽然使人们可以及时便捷地了解全国乃至世界各地的新闻事件,但同时也可能使人们淹没于信息的汪洋海洋之中。人们需要花费大量的时间和精力从海量的新闻信息中去搜寻有价值的信息。 然而,从大量文本中快速定位自己感兴趣的信息并获取知识是件非常耗时的工作。面对海量的新闻信息,依靠人工逐一阅读并过滤信息显然是不切实际的。因此,而从海量新闻信息中快速抽取主题句,并对新闻进行快速分类,可以帮助用户快速定位感兴趣的新闻信息,提高用户的阅读效率。 新闻主题句提取的任务就是利用数据挖掘的方法找出新闻中能够精简且准确地表达新闻主要内容的句子。主题句不仅能够反映新闻的主要内容,帮助用户快速了解新闻内容的梗概,还可以用于对新闻的分类,帮助用户快速筛选新闻。主题句提取在文本分类、自动摘要、信息检索、文本倾向性分析与信息推荐等领域都有着重要研究价值。本文拟通过分析新闻中词语的统计特征与语义特征,构建句子以及新闻的主题向量;根据语句对词语的包含关系确定语句间的关联关系,结合语句与主题的相似性,确定语句的重要性,从而选出最重要的句子作为新闻的主题句。
1.2 论文主要工作
虽然国内外学者已有大量的关于文本主题句提取的研究成果,但是现有工作还存在如下两方面问题:第一、针对文本数据的词向量表示未能综合考虑词语的统计特征与语义特征,因而对句子权重以及句子与主题之间的关系表示不够准确;第二,未能综合考虑句子与所构成词语以及句子与其他语句间的关系,因而所选择出来作为主题句的语句代表性不足;第三,现有大部分成果都采用基于生成式的新闻主题句提取,这是一种有监督的主题句提取方法,需要对大量语料进行人工标记和训练,效率低下。 针对上述问题,本文拟设计一种无监督抽取式新闻主题句提取算法。该算法综合分析新闻中词语的统计特征与语义特征,并设计其向量表示,进而计算新闻的主题向量与权重;利用词向量表示句子并分析句子主题的关系;运用超图模型表示句子与词语以及句子间的关联关系,通过对超边加权计算并对超边进行迭代排序选出新闻的主题句。 1)文本特征抽取及相似度计算新闻主题句是全面表现主题信息的语句。文本特征抽取作为文本主题句提取任务的基础。本文首先对提取文本特征进行了着重的研究。本文采用了三种新闻文本句质心向量特征抽取模型,这三种模型全面的体现来新闻文本句子的多种特征。其一是基于统计词频统计的 TF-IDF 模型,该模型能很好地提取出新闻文本的统计特征;其二是基于神经网络的 Word2Vec 模型,该模型能很好地提取新闻文本的语义特征;其三是基于主题概率的 LDA 模型,该模型能够很好地提取出新闻文本的潜在主题特征并以主题概率分布描述每个文档。基于此,本文将 TF-IDF 模型及 Word2Vec 模型结合共同表示文语句的质心向量,兼顾文本的统计特征和语义特征。再利用 LDA 模型得到每个主题下的主题词的概率,并取概率高的主题词表示该主题,概率作为主题词的权重表示主题向量。利用余弦相似度算法计算,计算文本句向量和文本主题向量的余弦相似度,得到文本句子与主题的相似度值,得到文本句子与主题特征的关系。2)文本关系分析及主题句提取 ,新闻主题句是新闻文档中重要的语句,新闻主题句与文中其他语句有着重要的联系。超图模型描述多异构节点的相互关系,表现出节点和超边之间的高维关系。本文利用超图模型分析文档内部语句和词,语句和语句,词和词高阶关系。将新闻文档中的词语定义为超图模型中的节点,将文档中的句子定义为超边。利用本文提出的融合统计特征、语义特征及主题特征的文本向量表示模型的余弦相似度方法计算语句和主题的相关度,并对超边的权重进行重构,使用语句和主题的相关度和语句和标题的相关度加权作为超边的权重。将主题句提取中一些重要步骤转换为在超图模型中的实现,利用随机游走的方法对超图边的重要度排序,最后利用最大边界相关(MMR)算法去除冗余得到最终的主题句。
第 2 章 相关理论介绍
本章将对论文研究相关的理论模型与方进行简要介绍,包括:TF-IDF 算法LDA 模型、Word2Vec、超图以及Text Rank 算法等。
2.1 TF-IDF 算法
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用的加权技术。TF 表示词频,即词语在某一篇文章中出现的频次,IDF 是指逆文本频率指数,即文档集中很少出现某个词语,就是说明该词比较特殊,可以很好的区分文档。
2.2 LDA 模型
LD(Latent Dirichlet Allocation)是一种文档主题生成模型,也是一种概率图模型,是由 Blei 等人于 2003 提出的三层贝叶斯主题概率模型,利用无监督的方法发现文档的潜在主题。一般每篇新闻会被归类到政治,经济,体育,娱乐等这些包含范围较大的主题下,但每篇新闻文档中的词不仅属于这些大范围主题,而且还属于隐藏的范围较小的主题下。这说明 LDA 模型表示全局中词与词之间的间接隐藏关系。 LDA 模型就是通过概率的方式为每篇文档生成一组隐含主题。2013 年,谷歌公司的 Tomas Mikolov 等人提出了 Word2Vec 模型,该模型将文本中词语映射到低维度语义空间,表示词语局部上下文语义关系。该模型是深度学习模型,有两种计算方法:基于 CBOW 模型计算方法、基于 Skip-Gram 模型的计算方法。CBOW 模型是运用上下文词语来预测当前词语,Skip-Gram 模型是运用当前词语预测上下文词语。
第 3 章 文本特征抽取及相似度计算
3.1 问题描述
3.2 预处理
3.3 文本特征抽取
3.4 文本相似度计算
3.5 实验分析
3.6 本章小结
第 4 章 文本关联分析及主题句提取
4.1 问题描述
4.2 超图构建
4.3 超边权重计算
4.4 主题句提取
4.5 实验分析
第 5 章 总结与展望
主题句提取是自然语言处理的重要研究课题,以生成描述文本主旨内容的精简信息为目标。本文深度分析了新闻数据的特性,提取新闻文本特征,分析文本内部词句的关系,从而提取出能够准确的表示新闻文档信息的主题句。 本文首先定义了新闻主题句的特点,新闻主题是新闻中重要的语句,是全面包含主题信息的语句,基于这两个特点分别设计两种算法对新闻主题句进行分析提取。 1)基于新闻主题句是包含新闻主题信息的语句的特点,设计基于文本特征抽取算法,全面的提取出新闻文本的主题信息、语义信息以及统计信息,选取了合适的文本相似度计算方法。通过实验证明了本文多特征提取方法对文本分类理解的有效性。 2)基于新闻主题句是新闻文档中重要的语句的特点,构建超图模型分析文档内部高阶关联关系。将新闻文本中的词作为超图的顶点,句子作为超图的超边。利用本文提出的文本特征抽取的方法结合语句与新闻主题的关系及语句与新闻标题的关系对超图的超边权重进行设计。通过对超图模型的遍历,超边的排序,以及主题句候选集控制冗余的方法提取最终的主题句。通过自动测评实验和人工测评实验共同证明了,本文基于特征抽取与关联分析的新闻主题句提取算法的有效性。 虽然本文提出基于特征抽取与关联分析的新闻主题句提取算法全面的考虑文本特征以及文档内部关系取得了不错效果,但是仍然存在以下问题: 1)超图模型的构建以及超图模型遍历过程中转移概率矩阵的计算时间复杂度。以后工作中考虑优化超图遍历算法,将其并行化处理提高计算效率。 2)本文实验所使用的 Rouge 主题句提取测评方法,当数据规模大的时候,测评时间复杂的较高,而且标准的主题句还需要专家定义给出。以后在工作中在主题句测评方法中进一步研究。
该论文为收费论文,请扫描二维码添加客服人员购买全文。
以上论文内容是由
硕士论文网为您提供的关于《基于文本特征和相关性分析的新闻话题句提取研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网新闻论文栏目。