硕士论文网第2020-11-11期,本期硕士论文写作指导老师为大家分享一篇
新闻论文文章《基于主题模式的新闻热点研究》,供大家在写论文时进行参考。
本篇论文是一篇新闻硕士论文,近年来,随着主题模型(Topic Model)的深入研究,利用主题模型来对文档进行建模挖掘文档主题的方法变得越来越引入注目,目前常用的、较为经典的主题挖掘模型是 LDA(Latent Dirichlet Allocation)模型,其核心思想是对词隐含变量进行主题建模,通过概率分布来表示数据集中每篇文档,进而分析一些文档,首先将高维的文档-词的表示方法降维成文档-主题地表示,从而挖掘文档主题。
1 绪论
1.1 研究背景与意义
在当前信息技术的飞速发展以及互联网普及率的提升的社会中,网络已经成为了人们日常生活中获取社会信息和社会热点的主要方式。根据中国互联网络信息中心发布的第 44 次《中国互联网络发展状况统计报告》显示:截止 2019 年 6 月,我国网络新闻用户规模达到 6.86 亿,网民使用率达到 80.3%,如图 1-1 所示,我国网络新闻用户逐年上升,用户规模半年增长率超过 5%。由此可见,网络新闻已经成为人们获取新闻事件信息,掌握社会状态的一种重要来源。随着科技发展,网络的迅速普及,网民数量将会越来越多,从网络平台来获取新闻的人也会大大增加,网络新闻相对于传统的新闻媒体如报纸、电视等来说,网络新闻对人们生活影响更大一些。网络新闻有着传统新闻媒体不具备的巨大优势,比如网络新闻具有极大的时效性,能够在事情发生的第一时间发布新闻,通过网络能够使网民随时随地获取其他地区正在发生的新闻信息,同时网民还能通过网络新闻与他人进行互动,将自己都对新闻的看法和意见发表在新闻评论中,通过及时的加入到社会新闻的讨论,积极与其他网民进行沟通,可以极大的吸引其他网民阅读新闻并一起探讨自己的看法,这些都是传统媒体做不到的。在互联网的快速发展的同时,成立的网络平台越来越多,自媒体的数量不断增长,发布新闻的平台越来越多,新闻发布门槛变低,使得网络中新闻的数据量直线上升,各种信息错综复杂,甚至还有大量的无用信息。由于这些问题,给人们从海量新闻中挖掘新闻热点带来了巨大的挑战和困难。 人们面对海量且杂乱的互联网新闻文本,想要从中挖掘出重要信息,就需要合理运用这些数据。目前已有许多新闻客户端采用个性化推荐给用户推荐新闻热点,但因其是根据用户兴趣进行推荐,导致用户获取的新闻同质化,限制了用户阅读,很难感受兴趣之外的新闻,用户偶尔几次的点击就会造成一定时间内被推送相似的新闻,因此,如何通过数据挖掘技术对新闻数据进行分析,从大量的新闻数据中过滤掉无用的信息,找出其潜在价值,发现数据背后的意义,了解社会当前的热点,已成为了现在网络新闻的一个研究热点。
1.2 研究目标及主要工作
本文结合网络新闻特点,结合新闻热度对新闻进行主题挖掘,同时基于 LF-LDA模型和 Doc2vec 模型对文本主题模型和文本表示模型进行改进,具体工作如下: (1)新闻语料获取和预处理。网络上的新闻数据错综复杂,新闻平台也较多,想要获取真实、有效、规范的新闻数据需要对正规的新闻平台进行爬虫,本文选择的新闻数据是新浪新闻 2019 年 6 月-9 月的新闻,本文采用 Scrapy 爬虫框架来获取原始数据,之后对数据进行过滤,中文分词,去停用词,去背景词,得到我们实验所需数据,处理好数据是实验的前提。 (2)将热度引入到主题模型。传统主题挖掘技术对于传统新闻已经有了不错的效果,但是对于网络新闻来说,有许多不足的地方,网络新闻一经发布就会引来大量讨论,这样的新闻更容易产生新闻热点,在语料库中,一篇产生大量讨论的新闻文档对语料中的主题影响更大,因此,引入热度到主题模型中,采用 Text Rank 算法给文档中每个词一个权重,将权重与热度结合起来,改变了主题分布,使得热点词对主题影响更大,同时也让热度大的新闻与其他新闻区别开来,减少了无关新闻带来的影响,结合了网络新闻的特点。 (3)基于 LF-LDA 与 Doc2vec 的文本表示。将 LF-LDA 与 Doc2vec 模型的结合,在此基础上提出 LFH-LDA 模型,加入了上下文信息,采用 Doc2vec 模型来训练数据集中的词向量与句子向量,与 LFH-LDA 获取的主题向量通过相似度建立关系。LFH-LDA 获取的主题向量是通过 Doc2vec 得到的词向量在 LFH-LDA 模型训练中得到,使 LDA 模
型与主题向量处于同一语义向量空间,具有较好的解释性,语义一致性,提高主题向量的准确性。 (4)最优主题个数主题模型中主题个数需要预先指定,当对面海量数据时并不能直接的确定最优主题个数,主题个数太少会导致主题表达不明确,使得几个不同出题出现在一个主题中不好区分,主题个数太多会增加模型运算,也会得出一些垃圾主题,因此,本文通过困惑度找出适合数据集的主题个数,让主题模型在此主题个数下进行训练,找出更准确的新闻热点。 本文通过五个章节来对论文进行阐述,以下是论文组织结构: 第一章主要是对论文选题背景及意义进行介绍,引出后面的研究工作,之后对国内外新闻主题挖掘的研究现状进行梳理,介绍了目前常用方法的优缺点,接下来介绍本文的研究目标及主要工作。 第二章介绍本文的相关技术,本章对新闻主题挖掘要用到的技术进行阐述,以便后续的讨论。本章将对本文数据来源,数据采集以及数据预处理的方法进行介绍。也对本文涉及到相关知识进行介绍,包括狄利克雷分布、共轭分布、文本建模等。 第三章首先介绍传统的主题挖掘技术,然后对上述算法存在的问题进行阐述,提出一些更改意见,然后结合网络新闻的特点改进模型,找到数据集合适的主题个数,结合 Text Rank 算法进行主题热点的挖掘,从数据的处理,到模型训练直到最后获取的新闻热点,通过实验体现出模型改进的有效性。第四章在第三章的基础上继续改进,主题模型是基于词袋模型,都缺少对语义的考虑,现有大部分解决方法会造成语义信息的损失,本文提出 LFH-LDA 模型来解决这些问题,本章通过对改进实验过程和评估进行介绍,分析实验结果并验证模型改进后的有效性。 第五章总结与展望,本章对本文所做研究工作进行总结,提出论文还存在的一些问题以及后续的研究工作,最后是对未来研究的展望。
2 相关知识介绍
在当今信息化生活中,我们能清楚地知道世界每天都发生了什么事,世界每时每刻都在产生大量的数据,不仅数据量大,而且数据杂乱,还有大量的垃圾数据,想要从海量数据中分析出热点话题,就需要对文本数据进行一系列的处理,本章是梳理一些在寻找热点话题过程中用到的相关知识,让读者更容易理解后续出现的一些概念和算法。
2.1 数据采集
数据是算法的基础,而算法是来自数据的积累,通过对数据的处理来获取数据背后隐含的信息,数据的质量选择、数据的数量选择对算法有着显著的影响。目前数据的采集有 5 种获取方式,第一是公开的数据库,通过网上公开的数据集获取数据,这种获取方式非常简单,而且数据质量高。第二种是数据交易平台,在数据交易平台上购买数据也是一种不错的数据获取方式,数据质量高,但是未必能够找到想要的数据。第三种是网络采集器,通过网上公开软件实现简单快捷地采集网络上的分散的内容,不需要技术成本。第四种是网络爬虫,爬虫自由度高,可以获取想要的数据,并且可以根据数据特征分类存储。第五种是网络指数,网络指数查询平台是以数据为基础的数据分享平台,可以查看某个主题在各个时间段根据指数变化的情况,从而进行数据分析。 新闻语料构建时需要尽可能的涵盖网络中各个新闻事件,因此,本文实验所用数据是通过网络爬虫获取,在数据源获取时选择了新浪新闻的国内新闻从 2019 年 6 月到 2019 年 9 月所有的新闻数据。Web 爬虫框架选用基于 python 的 Scrapy 框架实现,爬取的数据有新闻的发布时间、新闻的 URL、新闻评论数、新闻参与人数(评论的点赞数)、新闻标题及新闻正文。Scrapy 框架的具体架构如图 2-1 所示。 Scrapy 框架爬虫的核心是 Scrapy Engine,通过 Scrapy Engine 处理整个系统的数据流;Scheduler 为调度器,接受引擎发过来的请求,并将其加入请求队列中,在引擎再次请求时将请求提供给引擎;Spider 是爬虫实体,定义了爬取逻辑和网页内容解析规则;Downloader 为下载器,将下载的网页内容返回给 spider;Item Pipeline 为项目管道,负责处理 spider 从网页中抽取的数据,主要是负责清洗,验证和向数据库中存储数据。 在新闻爬取任务中,对于新浪新闻实现了新闻爬取的 spider 模块,spider 爬取了新浪新闻主页网页下所有二级地址,并将二级地址下新闻实体存到 Mongo DB 数据库中,具体步骤如下所示:1)选择新浪新闻主页的 URL 为爬取初始页面 URL;2) 判断爬当前取到的 URL 是否爬取过,如果同时未被爬取,即可将该 URL 加入到爬取的队列中,否则跳过; 3) 依次访问未爬取队列中的 URL,获取相应页面的网页内容; 4) 将访问过的 URL 放入已经爬取的队列中; 5) 解析爬取的网页,分析网页 DOM 结构,查找实验所需内容,并将内容按需存入到数据库中,随后将下一页链接放入未爬取队列中; 6) 重复上述步骤,直到数据爬取完为止;
2.2 文本数据处理 .
本论文实验室数据是从新浪新闻爬取的 2019 年 6 月到 9 月的新闻数据,爬取到的新闻文本并不能直接拿来分析,还需要进行数据清理、分词、去停用词等步骤,将一些影响文本分析结果的因素去除,使得文本数据变成文本建模过程中可使用的格式,预处理的结果也将直接的影响后续模型的结果。 文本包含词、句子、段落等要素,这些要素作为文本特征随级别的增加,表达的语义就越清晰,附带信息也越丰富,但是特征组合的数目就越大,而词是文本中具有意义最小的单元,因此一般将词作为特征进行分析。英文文本中每个词都由空格作为分隔符隔开,分词较为简单,而中文文本没有词的界限,并且中文文本用词灵活自由时常产生新词,这使得中文分词变得较为复杂和困难。目前,认为效果较好且经常使用的中文分词算法有以下三种。 第一种分词方法是利用字符串匹配实现,称为词典分词算法,该算法根据特定的策略将字符串与足够大的机器字典中的单词进行匹配。若找到这个词条,这说明匹配成功,则识别了该词,这种方法对机器字典要求极高。 第二种分词方法基于理解实现的,通过让计算机学会人对句子的理解的过程,达到识别的效果。其基本思想是在分词时进行句法、语义分析,模拟人对句子的理解过程需要建立大量的语言知识信息,即需要构建大量句法关系,由于中文语义具有复杂性,难以将各种信息组织成计算机可以直接读取,因此,这种分词方法还不够成熟。 第三种的分词方法基于统计实现的,利用统计机器学习的模型对分词的规则进行学习,从而实现对未知文本的切分,随着大规模语料的建立,基于统计分词方法也逐渐成为了主流。在实际应用中,基于统计的分词方法需要用到分词词典来进行字符串匹配,即与字符串匹配分词方法结合使用,具有快速高效的匹配分词特点,也具有无词典分词结合上下文识别分词的优势 。
3 基于 Text Rank 与 LDA 的新闻热度挖掘
3.1 Text Rank 算法
3.2 新闻热度的计算
3.3 基于 Text Rank 和 LDA 的热度主题模型
3.4 实验及分析
3.5 本章小结
4 基于 LFH-LDA 与 Doc2vec 结合主题挖掘
4.1 LF-LDA 模型概述
4.2 基于 Doc2vec 的 LFH-LDA 模型
4.3 实验及分析
4.4 本章小结
5 总结与展望
网络自媒体的突起,让我们获取的新闻途径变得越来越多,大量的新闻数据在网络平台上沉淀积累,网络新闻的互动性、即使性改变了传统的新闻的特点,想要从海量的新闻数据中挖掘出新闻热点也变得尤为重要。本文主要是从大量新闻文本中去挖掘新闻的热点,本论文主要工作如下: (1)解决主题个数问题,主题模型的主题个数需要事先指定,主题个数设置不合适会影响最终产生的主题,本文通过困惑度找出数据集合适的主题个数,在合适的主题个数下进行主题挖掘。 (2)将热度引入到 LDA 中,体现出网络新闻的特点,通过热度计算给每篇新闻一个热度值,即每篇新闻在数据集中所占权重不同,热度大的新闻更容易出新闻热点,再将热度值以 Text Rank 权重分配到每个词,给每个词一个热度,使得关键词对主题影响更大,改善了词袋模型的缺点。 (3)通过词热度计算出每个主题热度,得到数据集中每个主题热度的总和,将主题按热度排序,找出 2019 年 6 月到 2019 年 9 月中人们最关注的主题并按热度排列,继而从关注主题下的新闻热点。 (4)主题模型缺少上下文语义信息,目前常用的词向量解决方法也会损失一部分语义信息,本文通过将 LF-LDA 与 Doc2vec 结合,减少了语义信息的损失,同时能生成同一语义向量空间的词向量、文档向量、主题向量,使得语义向量解释性更强。 从主题模型的兴起到现在,对主题模型的研究一直都是一个有价值的研究内容。本文通过对目前网络新闻研究现状,结合网络新闻特点提出了基于 LFH-LDA 模型来进行主题挖掘,经测试本实验模型要比传统的 LDA 主题模型更加合适,泛化能力较强,能够很好的对网络进行主题提取。但是本人对研究内容深入不够,因此本文的研究还存在许多不足,还需要在以后的工作中从以下几个方面进行研究: (1)扩充实验数据样本,本实验数据样本有限,只有三个月的数据,应尽可能扩充数据样本,使实验更有说服力,实验结构能够更加明显。 (2)本文研究是一个不变状态的数据,没有考虑时间因素,随着时间的增加评论人数会越来越多,或者说短时间内产生大量的评论,这样的新闻也具有较大的热度,因此时间也是下一步需要考虑的问题。 (3)中文词语变化非常迅速,时常会出网络新词,要获得较高的分词准确性就需要不断对词典进行更新,词典的自动化拓展是今后需努力的方向。
该论文为收费论文,请扫描二维码添加客服人员购买全文。
以上论文内容是由
硕士论文网为您提供的关于《基于主题模式的新闻热点研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网新闻论文栏目。