硕士论文网第2020-12-16期,本期硕士论文写作指导老师为大家分享一篇
汉语言文学文章《汉语言网络统计特性及半监督文档聚类算法研究》,供大家在写论文时进行参考。
本篇论文是一篇汉语言文学硕士论文范文,,介绍了构造汉语言网络的语料和两种构造网络的方法接着,我们仔细分析了这两个网络的拓扑性质,包括度分布、平均最短距离、集聚系数、簇度相关性、介数分布、节点度相关性。我们发现,所构造的汉语言网络展现了无尺度结构的特点,显示了较强的“小世界”效应,具有很强的层次结构和节点度之间的负相关性。我们也分析了这些性质跟汉语特点的关系。
第一章 引言
1.1 研究背景与意义
著名物理学家霍金认为二十一世纪是复杂性的世纪。复杂性理论研究涵盖很多方面,其中一个重要的方面是复杂网络的研究。复杂网络己经成为研究复杂性科学和复杂系统的有力工具,为研究复杂性提供了全新的视角一。复杂网络借助于图论和统计物理的一些方法,可以用来捕捉并描述系统的演化机制、演化规律结构和整体行为功能。在实际生活中,网络的现象是极其普遍的,因此,对网络的研究是非常有意义的。许多研究表明,大多数实际的系统都是复杂网络,从细菌、细胞和蛋白质系统,到科学家之间的合作,论文之间的引证联系,大型的因特网和万维网研八那等,它们都构成某种网络系统,也构成某种复杂网络系统。在这些网络描述中,网络节点为系统元素,边为元素间的互相作用,例如,在蛋白质系统网络中,节点和边分别表示蛋白质和蛋白质间的化学作用,在科学家合作网络中,节点表示科学家,边表示科学家之间合作写过论文。由于现实世界网络的规模很大,节点间相互作用非常复杂,人们对其拓扑结构没仔细研究过,或者说知之甚少。两百多年来,人们对描述真实系统拓扑结构的研究经历了大致三个阶段。在最初的一百多年里,科学家们认为真实系统要素之间的关系可以用一些规则的结构表示,例如二维平面上的欧几里德格网从世纪年代末到年代末,无明确设计原则的大规模网络主要用简单而易于被多数人接受的随机网络来描述,在这种方法下,两个节点之间连边与否不再是确定的事情,而是根据一个概率决定。在这期间,随机图的思想占据主导地位直到最近十年,科学家们发现大量的真实网络既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特性的网络,其中最有影响的是小世界网络和无尺度网络。这两种网络的发现,掀起了复杂网络的研究热潮。已有的研究表明,包括万维网、细胞代谢系统、好莱坞的演员网络在内的许多现实网络,都是无尺度网络,它们由少数几个具有众多连结的节点所支配,这些重要节点通常称为集散节点。无尺度网络对意外故障具有惊人的承受力,但面对协同式攻击时则很脆弱。这些新发现使得人们对现实世界的复杂系统有了新的认识,让人们掌握了以前的理论没有研究过的规律各种复杂系统具有相同的拓扑结构,都被一些共同的法则所制约,这些法则似乎可同等地适用于计算机、细胞、语言和社会等领域。认识和掌握这些法则,可以将其应用到不同领域,帮助人们解决一系列重要问题。
1.2 研究内容与取得的成果
本文研究文本聚类问题的两个方面。首先,我们通过构造汉语言网络,从复杂网络的角度研究汉语言网络的统计特性,我们希望这些统计特性能为文本表示提供新的视角其次,我们提出了一个新的半监督聚类算法,并将其应用到文本聚类上。复杂网络为研究复杂系统提供了一些概念和度量方法。人类语言也是一个复杂的系统,本文从复杂网络的角度研究汉语言网络的特性。具体来说,我们从以下几个方面研究汉语言网络度分布度分布是网络的一个重要统计特征。节点的度指的是与该节点连接的边数。度在不同的网络中所代表的含义也不同,在社会网络中,度可以表示个体的影响力和重要程度,度越大的个体,其影响力就越大,在整个组织中的作用也就越大,反之亦然。度分布则表示节点度的概率分布函数尸劝,它指的是节点有条边连接的概率。在目前的研究中,两种度分布较为常见一是指数度分布,即随着的增大以指数形式衰减另一种分布是幕律分布,即尸劝、一,,其中守称为度指数。另外,度分布还有其它形式,如星型网络的度分布是两点分布,规则网络的度分布为单点分布。簇系数簇系数』又称作集聚系数,它衡量的是网络的集团化程度,是网络的另一个重要参数。簇系数的概念有其深刻的社会根源。对社会网
络而言,集团化形态是其一个重要特征,集团表示网络中的朋友圈或熟人圈,集团中的成员往往相互熟悉,为衡量这种群集现象,科学家们提出了簇系数的概念。节点坛的簇系数描述的是网络中与该节点直接相连的节点之间的连接关系,即与该节点直接相邻的节点间实际存在的边数目占最大可能存在的边数的比例,它的表达式为`概权一,式中权表示节点乞的度,。`表示节点乞的邻接点之间实际存在的边数。网络的簇系数为所有节点簇系数的算术平均值,即一贵艺之,,其中为网络的节点个数。
第二章 相关工作
这一章将对与本文有关的工作进行评述,具体包括两个方面语言网络和半监督聚类。本文所研究的汉语言网络的出发点是复杂网络理论。人类语言是一个复杂的系统,国外己有研究者从复杂网络的角度研究语言网络,在下文我们会简单介绍一下复杂网络的一些实证研究和针对语言网络的研究成果聚类的研究有三十多年的历史,在下面的小节我们会对主要的聚类方法作一简单回顾,然后回顾主要的半监督聚类方法。
2.1 语言网研究现状
复杂网络己经成为研究复杂系统的强有力工具。研究人员针对现实世界的系统做了大量的实证研究,主要关注这些网络系统的拓扑性质平均最短路径、聚簇系数和度分布。万维网是当前七上最受欢迎、最为流行的信息检索服务系统。它把上现有资源统统连接起来,使用户能在上己经建立了认周沪丙服务器的所有站点提供超文本媒体资源文档,这些超文本链接使得万维网成了名副其实的复杂网络。文献研究了年时通过网络爬虫获得的亿篇文档的拓扑结构。在这个网络中,文档表示节点,文档之间的超链接形成了边。由于超链接的有向性,这个网络是个有向网络。文献』还发现基于这个网络的一个包括万个节点的子网络的平均最短路径是。因特网是世界上最大的计算机互连网,是各种网络组成的网络,它是使用协议传输控制协议网间协议互相通信的数据网络集体。针对因特网的特点,文献」构造了两种网络第一个网络以路由器当作网络节点,如果路由器之间存在一条物理线路,则相应的节点间存在一条边第二个网络以自主系统,自主系统是在共享一公共路由选择策略公共管理下的网络集合,包括很多路由器和计算机作为节点,如果两个自主系统存在一条路由,则相应的节点间存在一条边。文献』发现,这两个网络的度分布都服从冥律规律,对于第一个网络,这个指数等于,第二个网络的指数为。文献」研究了以自主系统当作节点的从年到年的因特网的网络,发现聚集系数在到之间,大大超过了相同参数同样的节点数和边数下的随机网络的聚集系数,它们的平均最短距离在到之间,充分展现了“小世界”的结构特征。在生物医学领域,蛋白质的相互作用是比较复杂的。研究人员也从复杂网络的角度研究蛋白质网络。在这个网络中,蛋白质作为节点,如果两个蛋白质能相互作用的话,则相应的节点间存在一条边。文献叫研究了酵母菌的蛋白质网络,发现其度分布显示了冥律分布的迹象。人类语言也是一个复杂系统,人们对其演化规律、统计性质的研究兴趣一直很浓厚。第一个有关人类语言复杂性结构的规律应该是肤则。通过收集大量的统计材料,发现自然语言词汇的分布服从一个简单的定律。他称这一定律为“省力法则”。即将某一篇较长的文献约字以上中每个词出现的频率按照递减顺序排列起来高频词在前,低频词在后,并用自然数给这些词编上等级序号,频次最高的是级,其次是级,级,…,如果用了表示词在文献中出现的频次,用表示词的等级序号,在双对数坐标上出现一条斜线,近似于冥律分布。
2.2 半监督聚类研究现状
文档聚类是用来将给定的文档集划分成几个类可以是预先设定的,也可以是聚类算法动态决定的,使得处于同类中的文档内容尽可能相似,处于不同类的文档尽可能不同。在通常情况下,文档聚类都是以无监督的方式进行的,即只把没有标注过得文档作为系统输入,一般流程如图所示。现有的半监督聚类算法大多也是基于无监督的聚类算法,所以我们先回顾一下主要的无监督聚类算法。第一种是用分别属于两个簇的文档的最大相似度作为这两个簇的相似度第二种是用分别属于两个簇的文档的最小相似度作为这两个簇的相似度第三种是取所有文档对之间相似度的平均值。研究表明」,采用第三种计算方法的聚类效果优于前两种。层次聚类的最后结果类似二叉树的结构,上面的方法是自底向上的方向进行,也可以采取自顶向下的方式进行层次聚类。层次聚类的计算复杂性较高,不适合大数据集的情况,由于在层次聚类的每次迭代中,每一部所做的合并都是基于局部的信息,并且这个合并在后面的迭代过程中是不可更改的,所以层次聚类的效果不是很好。基于密度的聚类的代表性算法是。这类方法将簇看作是数据空间中被低密度区域分割开的稠密对象区域。依据基于密度的连通性分析增长聚类由于实际应用中,用户对数据集经常有一些先验知识,而这些知识对聚类过程是有益处的。在机器学习领域,研究人员对这种半监督聚类有大量的研究。如果把文档用向量空间模型表示,则他们提出的方法可以用于文档聚类。本章是对相关工作的总结,从中可以看到我们对所研究的问题相关研究工作有清楚的了解。在语言网研究方面,先前的研究主要是国外研究者以外国语言作为研究对象。本文所研究的汉语言网,一是以汉语作为研究对象二是本文借助于复杂网络的工具,详细分析汉语言网络的统计特性,这些统计特性有些与国外的研究类似,有些反映了汉语与其他语言如英语的不同。在半监督聚类方面,首先回顾了传统的聚类方法,并进行了分类,接着介绍了现有的半监督聚类方法的状况,从中可看出,作者在这个研究领域做了扎实的准备工作。
第三章 汉语言网络特性研究
3.1 语料
3.2 网络构造方法
3.3 相关统计特性
3.4 小结
第四章 基于一的半监督聚类算法
4.1 一算法及其谱表达形式二
4.2 融入半监督信息……
4.3 半监督聚类算法各
4.4 实验
4.5 小结
第五章 结束语
随着上各种形式的电子文档大量涌现,文本挖掘会越来越发挥重要的作用。本文探讨了文本聚类当中的两个问题文本表示和聚类算法。由于文本的复杂性,本文从复杂网络的角度研究了汉语言网络的统计特性,具体来说,我们通过构造汉语言网络,研究了该网络的度分布、簇系数、平均路径长度、介数、度相关性、簇度相关性等统计性质,通过实验分析,我们发现汉语言网络具有以下特点无尺度分布表现为网络中存在少量的集散节点,这些节点具有众多的连接。小世界效应与随机网络相比,汉语言网络具有较高的集聚系数和较小的平均最短距离,说明网络节点具有成簇的倾向。度负相关性和其他信息网络一样,汉语言网络具有度负相关性,即度大的节点倾向于和度小的节点连接。我们还发现,汉语言网络的介数分布指数与智利语、德语和罗马尼亚语网络一样,进一步证实了人类语言网络可能属于第三种普遍类的假设。从复杂网络的角度研究汉语言网络,只是我们现有工作的开始,我们希望这些研究能为文本聚类建立新的文本表示提供帮助。关于文本聚类算法,文本提出了在半监督条件下的文本聚类算法貂水补乙。泞夕兀仇所用到的半监督信息是指同类限制对一,即用户指定有一些数据对希望聚在同一类。本文所提出的夕功介几二算法,基于目标函数的谱表达形式,把同类限制对信息融入到这个表达形式。实验证实,貂小介几舫大大优于一些同类方法,如无监督的仍、介乙,饥目标函数的谱表达形式和半监督的肠夕万爪。未来的研究包括怎么融入更多形式的半监督信息,如异类限制对一。
以上论文内容是由
硕士论文网为您提供的关于《汉语言网络统计特性及半监督文档聚类算法研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网汉语言文学栏目。