硕士论文网第2020-09-15期,本期硕士论文写作指导老师为大家分享一篇
软件工程文章《基于本体的软件工程领域知识库构建方法研究》,供大家在写论文时进行参考。
本体所具有的语义能力,弥补了传统知识组织模式的不足,逐渐成为知识工程的研宄热点,越来越多的研宄者开始使用本体构建自己所需的领域知识库。本章主要根据本体的技术特点,抽象出具有普遍适用性的基于本体的知识库构建模型,该模型对大多的科学领域或者应用领域知识库构建具有参考价值。基于本体的领域知识库模型,主要包括三部分:知识库的规划与设计、本体构建和知识服务。
1.绪论
1.1 研究背景
知识工程作为国家文化产业的一部分,其发展程度关系着国民素质的提升和国家软实力的增强,是一个国家需要重点发展的科学领域。年,中共中央办公厅、国务院办公厅发布《国家“十二五”时期文化改革发展规划纲要》,将“国家知识资源数据库”列入“十二五”期间“文化数字化建设工程”重点项目。我国知识工程正处在快速发展阶段,随着信息化、互联网、数字媒体等技术的高速发展,知识工程领域建设迎来巨大发展机遇,同时也面临很多挑战。目前,互联网上提供可检索、可搜索服务的知识数据库有很多,但是由于各种原因,其内容过于庞杂,大量的有用的知识掩没在海量的资源中,使读者难以快速检索;其次现有知识数据库与知识百科之间是独立的,没有建立内容的关联,无法形成知识体系,不利于知识资源的再利用;最后,这些知识数据库的提供者,均未能提供机器可读的语义信息。软件工程是领域的核心学科,在整个信息技术领域有着举足轻重的地位。随着互联网技术的高速发展,软件工程领域知识也快速更新,知识量也随之快速增长。以往获取软件工程知识主要通过图书、期刊、互联网检索等方式,无法适应互联网时代的要求,首先,图书、期刊这些方式知识更新速度慢;其次,这些知识资源不能提供语义检索服务,用户需要掌握一定的软件工程知识。现有知识服务方式已经无法适应互联网时代大信息量的时代背景,难以满足人们对软件工程领域知识不断增长的需求。基于上述现状,构建具有语义服务的软件工程领域知识服务系统成为知识工程建设一项重要任务。随着概念的提出,其核心内容语义网(技术逐渐成为研究热点。语义网作为一种未来网络,不仅可以理解词语和概念,而且可理解词语和概念之间的关系。而本体作为语义网资源的表现形式,具有知识组织形式结构化,逻辑表达语言自然化等特点,成为一种具有语义的知识管理形式。基于本体的软件工程领域知识库,是运用本体技术将软件工程领域知识内容组织起来,形成具有语义关系的知识网络结构,再利用本体的语义推理能力向用户提供具有语义理解能力的知识服务。
1.2 研究现状
本体作为一种能在语义层次上描述概念和概念之间关系的模型,目前已应用到了军事、医学、农学等领域。软件工程领域本体研宄在国内外尚处于起步阶段,从研宄领域上看,北京航空航天大学对软件测试部分做过一定研究。另外,一些大学和研宄机构基于《软件工程知识体系指南(》中的知识结构通过人工方式构建了一些小型软件工程领域本体。从构建方法上看,目前本体的构建主要依靠人工手动构建,虽然某些领域实现了半自动化构建,但仍需要大量人工千预。随着各科学领域信息化的推进,领域本体的自动构建方法成为当前的研宄热点。等提出了一种基于稳定协作模型的范例的半自动化本体构建架构。另外文献提供了一种服务描述本体构建方法,这种方法利用开发者为服务提供的标签构建本体,以作为知识库。但是,这种方法的前提是预定足够丰富且明确的领域知识分类结构,通过概念学习来实现本体构建。等提出了面向特定领域的本体构建过程运用知识挖掘技术分阶段实现本体构建。在文献中,作者提出了以面向内容的本体自动化构建,通过挖掘网页中的概念,运用贝叶斯分类器来构建本体的方法,然而这种方法并不能准确定义概念群的所属类别名称,另外网页中的知识准确率不够高,其构建的专业领域本体利用价值不大。目前国外已经出现了很多基于本体的检索系统,其中较为著名的有、和系统。主要是向用户提供互联网资源检索服务,它建立了一个可以处理、和格式数据的信息源语义描述系统,利用本体的表达和推理能力,用形式化语言描述网络资源;系统的主要是为了解决不同本体之间语义异构问题,通过一个建立在本体之上的代数系统实现不同本体之间的互操作;与类似,它是一个基于语义网技术的网络爬虫,能够搜集网页中的、和信息,使用“重要度排序算法,检索结果进行排序。国内在基于本体检索方面研究还处于起步阶段,大多数为针对某一科学领域,运用本体的语义特性而做的学术验证性研究。在文献基于人工构建水稻领域本体中,研究者针对语义检索时检索内容涉及多领域范畴时返回结果准确率较低的问题,将本体词汇划分为特有概念和普通概念并进行语义标注,通过查询扩展实现了领域本体相关概念检索方法,提高了知识的査准率;在文献中作者通过构建教育领域顶层本体,应用语义标注和检索,实现了在教育系统知识系统中语义互操作,提高了领域知识的检索效率;此外有研宄针对民航业务流程管理领域,运用本体的语义标注技术,提出一种突发事件应对策略快速生成方法。
2. 基于本体的领域知识库关键技术综述
2.1 本体概述
本体最初是一个哲学领域概念,它是对世界各种事物存在所做的客观描述。本体被运用到信息技术领域后,对其进行了重新定义:“本体是概念模型的明确规范说明”。本体将现实中某个知识领域抽象为一系列概念及概念之间的关系,并以计算机可以识别的形式化语言来描述,从而解决人与计算机之间的交流障碍。本体是一个规范的、己经得到公认的描述,它包含一个与某一学科领域概念和知识的术语表,领域知识和概念之间的关系通过术语表中的逻辑声明来表示。因此,本体提供了一个用来表达和交流某些主题知识的词表和一个关系集,关系集是词表中这些术语关系的集合。本体的基本组成要素包括:概念、关系、属性、公理、函数和概念的个体实例。概念也称为类,是相同或者相似事物集合的抽象表述关系,表示概念之间的内在关联;属性,是概念的一些外在表现,是区分不同概念的标准;公理,即推理规则,用来描述人的思维逻辑或者语义逻辑;函数,是关系的特定表达形式;概念的个体实例,即符合概念定义的一个具体的事物,其具有不可再分的特性。本体描述语言在信息技术的大背景下,本体主要通过计算机可以识别的结构化描述语言来描述知识。根据本体不同的应用场景,本体描述语言可以分为基于人工智能的本体实现语言和基于的本体语言两大类。在互联网技术快速发展的背景下,基于的本体标记语言运用越来越广泛,图2-1为提供的本体语言栈。本文中选用最新推出的语言作为软件工程领域本体描述语言。作为W3C推荐的一种标准本体描述语言,由发展而来,是语义网(的核心技术之一,可以描述文档和应用中类和类之间的关系。通过定义类和实例,构建一个形式化的知识领域,能够描述类与类之间、实例与实例之间的关系,具有语义推理能力。分为三种表达能力递增的子语言:、可以根据实际应用需要选择合适的子语言。下面对三种子语言简单介绍。:是三种子语言表达能力最弱的一种,它适用于只需要表示简单分类层次和一些简单约束的场景。只支持基数为或的约束限制。适用于需要更强表达能力并且需要保持计算完整性,确保所有结论可以计算出来,以及所有的计算需要在有限的时间内完成的场景。包含了中的所有语言成分。:表达能力最强,并且具有完全自由的语法,但是不能保证可计算性。用户在选择哪种子语言时需要根据自身需求来选择。如果用需要构建表达力强的本体,那么选择要优于如果用户对有强烈需求,那么选择要优于,但是对推理机制的支持程度要次于。本体的构建方式根据自动化程度的不同可以分为手动、半自动和自动构建三种。手动构建方式需要由领域专家来确定知识范围,建立知识结构,添加知识内容以及知识间关系等,该方法完全通过手动创建,得到本体能够有可靠的质量保证,但是其费时费力的缺点也显而易见。一般情况下具有领域权威的机构,才会手动构建大型领域本体,例如,斯坦福大学医学信息中心构建的医学领域本体。半自动本体构建主要依靠一些计算机程序代替部分人工操作的方式来实现的,计算机程序可以帮助人们概念的提取、概念间关系的确立等。这种构建方式的核心工作仍需要领域专家完成,在内容控制方面仍然靠人工操作来把握。
2.2 JENA本体技术
本体的推理是本体语义能力的重要部分,本体推理实现需要借助本体推理机来实现。是惠普实验室语义网研宄项目的一个开源框架,基于语言幵发。它提供了一个处理、、等本体语言的完整平台,主要功能包括对、等模型创建、语法解析,对模型中的各项元素的增、删、改、查等操作,支持本体查询语言。另外一个重要的功能就是能够根据用户提供的本体实现推理,包括带有推理规则的推理。平台包括以下几部分。用来操作等本体文本的,实现对文件中元素增、删、改、查,以及创建和删除本体文件。和查询语言。中的查询引擎,支持查询语言和本体查询语言,可以结合语言一起使用。结合的推理子系统,可以实现基于语义推理的本体查询。推理子系统。支持、等自带规则集的推理,也支持用户导入自定义的推理规则集。本体存储接口。支持将本体直接存入、和等数据库。本体子系统。为开发者提供一系列跨语言的本体编程接口,接口支持不同的本体描述语言的操作。结合查询功能可以从本体模型查询指定信息,也可以对本体进行遍历。每种本体语言都有自己的框架,在框架中列出了该本体语言使用的概念和属性的创建方法和例如在语言中对象属性用表示,在框架中对象属性用表示,而在没有定义对象属性。在中,通过将本体语言的框架绑定本体模型(将本体读进框架中。】继承自中的类。对中访问数据集合中的陈述(等方法进行了扩展,从而可以对本体中的数据对象进行操作,这些对象包括:类(、属性(、实例(个体口。JENA平台可以作为基于本体的语义检索系统的核心模块,通过解析语义检索系统提供的领域本体和推理规则,对用户输入的内容实现语义推理,然后结合语言实现对推理结果的本体检索。基于本体的语义检索过程如图2-2所示。
3. 基于本体的领域知识库构建模型
3.1 知识库的规划与设计
3.2 本体构建
3.3 知识服务
3.4 本章小结
4. 软件工程领域本体构建
4.1 基于维基百科的领域本体构建方法
4.2 基于维基百科的本体构建
4.3 实验及评价
4.4 本章小结
5. 基于本体的知识检索
5.1 基于本体推理的知识检索
5.2 基于全文本检索
5.3本章小结
6.系统设计与实现
6.1系统应用场景
6.2系统架构设计
6.3系统实现
6.4本章小结
7.总结与展望
本文以软件工程领域知识为例,提出了基于本体技术知识库构建方法和知识检索方法,并通过一个软件工程知识平台验证本文所提方法的可行性。本课题主要研宄成果如下:提出了具有普遍适用性领域本体知识库构建模型,该模型分析了科学领域本体知识库共同特点,提出了科学领域本体知识库构建所必需的内容和共用方法;提出了基于维基百科的领域本体构建方法,并提出一种与路径无关的矢量方差算法该方法通过计算维基百科条目对于某个科学领域的所属度,来提取有效的软件工程领域知识。该算法经过实验测试,能够提取出符合实际情况的软件工程知识;在知识关系构建方法上,本文通过分析维基百科的知识结构,将维基百科知识关系,映射到本体的知识关系,然后将这些关系用描述,并且能够用扭展示;在知识属性提取方法上,本文利用维基百科页面的信息盒(来提取知识的属性,根据信息盒中的信息结构提取知识的属性对;提出整合本体推理技术和全文本检索技术的语义检索方法,通过的本体推理规则和全文本检索策略,实现了基于本体的语义检索方法。该方法在不需要人工知识标引的情况下,实现了较为准确的知识检索;实现了基于本体的软件工程领域知识系统,实现了知识导入,知识标引和知识检索等功能,验证了本文所提本体知识库构建模型的可行性。随着信息技术不断发展,人们对知识的需求也在不断增长,知识工程建设任重道远。本体技术作为语义网的重要内容,仍然处于发展阶段。本文主要以软件工程为例,对领域本体构建方法和基于本体的知识检索方法进行了一定深度的研究,但是在以下两方面仍需改进。首先,本体的构建是一个不断更新、学习、进化的循环过程,本课题所提方法可以构造的是一个原始本体,其包含了一个领域主要的知识点和知识结构,其中的知识关系种类较少。另外本文所提基于信息盒的本体属性挖掘方法仍然有一定的局限性,因为维基百科有很多页面不含有信息盒。因此接下来的研宄重点应当在通过自然语言处理技术提取出更多种类的知识关系和属性模板。其次,在基于本体知识服务方面,虽然可以利用本体推理技术实现在检索时的语义推理,但是推理的结果准确度仍然有待提高。另外,实现本体推理仍然需要手动定义推理规则,需要人工参与,希望能在推理规则自动构建方面做进一步研宄。
该论文为收费论文,请扫描二维码添加客服人员购买全文。
以上论文内容是由
硕士论文网为您提供的关于《基于本体的软件工程领域知识库构建方法研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网软件工程栏目。