硕士论文网第2020-11-20期,本期硕士论文写作指导老师为大家分享一篇
电子商务文章《电子商务信息跨平台检索与智能推荐技术研究》,供大家在写论文时进行参考。
本篇论文是一篇电子商务硕士论文范文,围绕基于网购评论情感分析的智能化商品推荐开展了相关研宄。首先介绍了实现智能化商品推荐的基本过程框架,基于基本过程框架,分别对本文所提出的基于LDA主题模型的商品评论主题词提取方法、基于特定主题的情感计算模型构建和模型训练方法,以及基于情感计算的智能化商品推荐策略进行了详细介绍。
1 绪论
l.1 研宄背景及意义
进入二十世纪九十年代后,互联网应用日益普遍。经过多年的发展,肖前我国电子商务的发展速度有目共睹。据统计,截至2019年,中国网络购物人群和网络购物渗透率已高达6.3亿和76.3%,网络购物总规模超过9.3万亿,已经成为全球电子商务的领跑者。伴随着我国电子商务的快速发展,国内电子商务平台数量快速增加,电子商务信息日益丰富,网页数量也出现爆炸式增长,这使得广大网购消费主体在进行商品选购时“信息迷失”现象越发严重。其中,最突出的问题集中表现为网购消费者在不同电商平台之间进行商品比选的困难。基于上述背景,近年来,关于跨平台电子商务信息检索与智能推荐系统的社会需求日益强烈,同时这一问题也引起了学术界的广泛关注,己经成为电子商务领域新的研宂热点。电子商务信息跨平台检索与智能推荐系统的构建涉及异构电子商务平台数据的实时在线爬取、信息重构和基于用户选择偏好的智能化商品推荐等多项技术,既需要解决异构海量数据的动态爬取与快速重构及存储问题,同时还需要利用大数据和人工智能技术,分析用户的网购行为偏好、构建多维度的商品特征模型,以实瑰商品信息的智能推荐。从技术层面分析,近年来国内外学者围绕上述相关技术开展了大量研究工作并以取得了比较丰富的研宄成果,但仍有许多问题,国内在电子商务领域的相关的技术研宄工作主要集中于对主题信息的获取和数据检索,未考虑对商品进行多维度的智能推荐,并且在技术落地应用方面尚需进一步深入研究;从实践应用层面分析,目前国内市场上针对电子商务领域的跨平台搜索引擎数量仍相对较少,普遍存在可搜索商品数据量少、商品信息的时效性低,商品推荐策略维度单一、主要集中于价格比较等突出问题,仍无法提供需求各异的广大网购用户的商品推荐服务需求。基于上述背景,本文围绕跨平台电子商务信息自动抽取与商品智能推荐系统构建所涉及的相关关键技术开展研宄,具有理论研宄意义。同时,基于研宄成果,通过实现电子商务信息跨平台智能检索与推荐技术的系统构建和推广应用,将有助于进一步改善用户网购体验,提升用户网购效率和对网购商品的满意度,进而促进电子商务健康发展,因此同样具有现实意义。
1.2国内外研宄现状
跨平台搜索引擎是一种面向某个特定领域的具有专一性的搜索引擎,通过把互联网里面所需的具有某个方面的网页资源进行抓取,然后再索引,并对索引的页面数据进行处理,最终将处理的结果返回给需求用户,伴随着互联网技术的飞速发展,跨平台搜索引擎的发展速度进一步加快,用户能够很快而且准确地定位到要查询的信息。互联网信息的多元化促进了对搜索引擎进一步的细分,从而面向特定领域的搜索引擎成为了当今互联网搜索发展的必然趋势。跨平台搜索引擎技术最早开始于国外,目前国外较为知名的跨平台搜索引擎系统是谷歌学术(scholar.googlexom)。“谷歌学术搜索”一个针对学术论文和书目进行检索的跨平台搜索引擎。通过该引擎可以免费的快速查找需要的学术论文和相关资料。通过谷歌学术搜索涵盖了各类学术期刊、会议、论文,为国内外提供了最好的学术体验,如今成为相关专业查询科研知识的最好途径。直到2006年,跨平台搜索引擎才在国内开始得到比较迅速的发展。目前,跨平台搜索引擎开始获得非常广的应用,在很多领域幵始使用,包括:旅游、机票、美食、分类信息等领域,目前仍在不断发展,这些快速改变着人们的习惯,非常准确的利用用户对产品的需求,从而吸引到大量客户。目目U在国内比较知名的跨平台搜索引擎系统包括一淘(www.etao.com)、搜库(www.souku.com)和去P那儿(www.qunar.com)等。一淘网做的是对商品的搜索,是阿里巴巴集团推广的一种新的服务。一淘网拥有着以产品基础比较丰富的淘宝网作为依托,是一个对用户提供导购的服务。网站主要是要帮助用于解决在购物和售后方面的遇到的各种情况,.帮助用户提供较好的、价格较低的产品。“搜库”中国最大的互联网视频站优酷在2011年开发出专业用来查找视频资源的跨平台搜索产品,它不仅为客户提供优酷网站自己站内的视频资源,还能够对全网视频资源进行查找。这个跨平台搜索引擎不单单可以为用户提供视频搜索服务,还提供了视频内容简介、分段观看和智能化相关视频推荐等功能。“去哪儿网”是目前比较受大家知道的基于旅游追踪搜索引擎,这个搜索引擎利用网站和移动多种客户端进行了全网覆盖,用户可以利用去哪儿做到购买国内外机票火车票、进行度假、订酒店、还可以买到关于旅游的团购商品。是一个深度的跨平台搜索引擎。针对上述国内外研究现状,目前面向电子商务领域的跨平台搜索引擎普遍存在可搜索商品数据量少、商品信息的时效性低,商品推荐策略维度单一,主要集中于价格比较等问题。比如,一淘网就是典型的仅针对价格进行比较跨平台搜索引擎,所以,需要构建从多维度进行商品智能推荐的在电子商务领域跨平台搜索引擎。
2 相关基础理论知识介绍
2.1网络爬虫技术
互联网上的海量网页信息分散存储在不同的服务器中,网络爬虫通过URL访问,将这些页面下载下来,并离线保存在本地网页数据库中,用于进一步的整理、分析、检索和挖掘。通用网络爬虫对初始URL进行解析,根据特定的爬行策略提取并下载网页中所包含的URL。上述过程会不断循环进行,当达到了爬取结束的特定条件会停止。通用网络爬虫的流程图如图2.1所示。在网络爬虫中,通常会利用特定的搜索策略来确定在URL队列中下一个被解析的URL,以此来提高爬取效率。目前通用网络爬虫中使用较多的搜索策略主要包括以下两种:深度优先搜索策略使用栈结构存储网页链接,利用递归的思想来进行URL的解析。该策略通过网页的深度依次访问下一层页面,下载完当前页面的所有URL后,返回上一层页面,沿着其他未爬取网页链接的重复上述操作,.直到网页中所有的URL链接都爬取完成。这种搜索策略相对容易实现,但是当搜索深度过大时,会对网络爬虫的效率产生影响,并且在网络爬虫过程中极易产生“迷路”现象。网络爬虫研宄的初期较多采用深度优先搜索策略,目前只有简单的爬虫才会采用这种搜索策略。广度优先搜索策略也称宽度优先搜索策略,主要通过队列结构来存储网页链接,在队列中使用“先进先出”的原则来决定队列中URL的解析顺序。其主要思想是按照网页的层次结构依次解析并下载网页。这种搜索策略很好地解决了深度优先搜索策略遇到的搜索层次过深的问题,并支持多线程的实现,使得爬虫的爬取效率和速度都有很大提高,是目前通用网络爬虫普遍采用的搜索策略。在信息爆炸的时代,一般的搜索引擎己经满足不了人们的需要,能获得某个特定领域更加全面信息的跨平台搜索引擎越来越受到关注。在跨平台搜索引擎的构建过程中,由于通用网络爬虫已经不能满足技术要求,因此而需要借助主题网络爬虫来完成跨平台搜索引擎中网页的获取任务。主题网络爬虫在通用网络爬虫的基础上加入了对网页内容与主题的相关性计算过程,即在网页下载之前,只选择与主题相关度相关度评分高的页面下载。主题网络爬虫是从一个或多个与主题相关的初始URL开始进行,获取其中的页面信息,并将与主题相关的页面内容保存在主题网页队列中,再从当前网页中以特定的搜索策略解析出新的URL,并计算页面内容与主题的相关度,将相关度高的URL插入主题URL队列中。主题网络爬虫在通用网络爬虫的基础上,加入了对当前页面的解析、当前网页与主题的相关度计算过程以及对网页链接的排序。主题网络爬虫只保留主题相关度高于既定阈值的网页,排除与主题无关或者主题相关度低的网页,所以不会对互联网中的所有网页进行搜索,因此在一定程度上提高了爬虫的效率。基于网页内容的主题搜索策略的主要思想是:抓取页面中的文本内容和锚文本等信息并与定义好的主题进行相似度计算,保留相似度高的页面。此类算法的效果明显并且扩展性很高,但是也极易产生“局部最优问题”和“隧道问题”。代表性算法有:Fish-Search算法和Shark-Search算法等。基于链接的主题搜索策略的主要思想是:根据网页之间的链接关系来计算每个网页的被引用程度,此类算法认为一个网页如果被多个其它网页链接到,则说明这个网页比较重要。此类算法虽然在主题网页搜索过程中有效地降低了主题相关度计算的计算量和查询响应时间,但是由于在计算过程中没有考虑到主题信息,所以极易产生“主题漂移问题”,导致爬取到大量与主题不相关的网页。代表性算法有:PageRank算法和Hits算法。
2.2词向量技术
因为计算机只能处理数值型变量,所以在进行自然语言处理过程屮需要通过词向量技术将文字转化成数值型变量的形式。目前比较常见的词向量技术可以大致分为两类,分别是传统的词向量模型和词嵌入表达模型。其中,传统的词向量模型主要有One-Hot模型和共现矩阵模型等;词嵌入表达模型主要有Word2Vector模型和Glove模型等。One-Hot模型是最简单的词向量表示模型,采用N维的词向量来对N个语义进行编码,每个语义之间是相互独立的,N维向量中只有一位有效,也就是只有一位的值是1,其他维度的值都是0。例如:在利用One-Hot模型来表示的词汇表中,如果“男人”在词汇表的是第5391位,那么就可以表示成一个只在第5391维处为1,其他维为0的向量。如果“女人”是编号9853,那么这个向量只在9853维处为1,其他维为0。One-Hot模型存在两个明显的问题:One-Hot向量的维度和词汇表中单词的数量是相等的,当词汇表很大时,就会造成维度灾难;One-Hot模型的编码方式忽略了词汇之间的语义联系,将每个单词都孤立了。针对One-Hot模型忽略了词汇之间语义联系的缺点,Harris提出了词汇分布假说:上下文相似的词,其语义也相似。共现矩阵模型就是用来表示词语之间语义相似性的。构建词语的共现矩阵需要确定两个要素:共现窗口和共现频率,也就是在指定的范围内统计一个词语和除这个词语以外的所有词语共同出现的次数。使用共现矩阵作为词向量虽然可以解决One-Hot模型忽略了词汇之间语义联系的问题,但是共现矩阵的词向量维度仍然和词汇表的大小相等,当词汇表较大时,同样会出现维度灾难问题。针对传统的词向量表达方式极易造成维度灾难和语义相关性问题,Hint〇n提出了分布式词表达的概念,分布式词表达将每一个单词都映射成一个固定维度的词向量,所有的单词对应的词向量构成一个向量空间。通过计算词向量之间“距离”可以得到单词之间的语义相关性。W〇rd2Vector模型和.Glove模型生成的词嵌入表达就是分布式词表达的词向量。Word2Vector包括跳字(Skip-Gram)模型和连续词袋(CBOW)模型。Skip-Gram模型利用文本序列中的中心词预测上下文信息。模型架构如图2.3所示:循环神经网络(Recurrent neural network,RNN)提出于上世纪90年代,主要用于提取序列特征,主要应用于自然语言处理和语音识别领域。RNN对模型的每一个输入都调用同一处理单元,使得RNN模型的每一次的输入都与前一次的计算和结果密切相关。依次将序列输入到循环单元中处理后,会生成该序列的固定维度的特征向量。RNN模型能够捕获到文本序列中当前输出与之前文本的相关信息,对于短距离依赖关系能够得到很好的效果,但是对于长距离依赖关系得到的效果较差,因为模型在训练过程中,距离当前节点较远的节点对当前节点隐含层的影响力会变小,造成长距离依赖问题,同时长距离的输入也会造成梯度爆炸问题。
3 跨电商平台主题网页信息的自动抽取方法
3.1主题目标网页定位
3.2目标网页信息抽取
3.3实验及实验结果分析
3.4本章小结
4 基于网购评论情感分析的智能化商品推荐
4.1基本过程框架
4.2基于LDA的商品评论主题词提取
4.3基于特定主题的商品评论情感计算方法设计
4.4基于情感计算的智能化商品推荐方法设计:
4.5实验与实验结果分析
4.6本章小结
5原型系统设计与初步实现
5.1系统需求分析
5.2系统主姜功能模块设计
5.3系统初步实现
5.4本章小结
结论
本文在参考大量文献的基础上,通过主题信息获取和细粒度情感计算来研宄基于情感计算的电子商务信息跨平台检索与智能推荐方法。主要研宄内容如下:(1)针对跨平台商品信息提取问题,本文利用基于关键词加权的Shark-PageRank算法确定主题网页队列,在此过程中通过加入动态主题库生成的方法来描述主题,.使得主题爬虫的查准率较Shark-PageRank算法取得了进一步提升。在此基础上,提出了一种基于模板的网页信息自动抽取方法,该方法首先利用基于结构语义熵的主题信息定位方法在主题网页中定位待抽取商品的属性信息,进而归纳总结抽取路径来构建模板库,然后利用模板库实现商品信息的快速、准确抽取。通过实验结果表明,本文提出的基于模板的网页信息抽取方法在网页信息抽取任务中,查准率和抽取时间均有一定的提升。(2)针对智能商品推荐问题,本文从商品评论的情感分析视角出发,首先通过LDA主题模型从用户评论中抽取商品主题词,然后针对评论文本中不同单词的位置和评论文本中不同的部分对特定主题下情感倾向判断的贡献度不同,提出了一种融合主题词特征的Bi-LSTM+混合注意力机制模型,用于计算用户评论在不同主题下的情感值,最后以商品在不同主题下的情感值作为推荐依据,结合用户选择偏好特征实现商品的智能推荐。通过实验结果表明,本文提出的融合主题词特征的Bi-LSTM+混合注意力机制模型较之前的方法在准确率、召回率和F值上均有进一步的提升。(3)基于上述研宄成果,:结合Web前端开发技术,本文针对跨平台信息搜索和商品智能推荐进行了原型系统的初步设计和实现。本文主要对跨平台检索与智能推荐方法进行了研宄,取得了一定的研宄进展,.但由于能力和时间有限,仍然存在不足,在后续的研究工作中还需要进一步研究。(1)隐式主题词提取。由于中文表达方式的多样性,在用户评论中主题词有时比较隐晦。例如:在评论句“手机便宜,而且质量很好。”中对应“便宜”的主题词应该是“价格”。本文使用的LDA主题模型和情感计算模型均无法从中提取出隐式主题词。(2)本文使用手机评论作为情感计算的数据集,但是目前在各电商平台中手机的好评率较高,手机在特定主题下的情感值区分度不大。需要对手机评论进行适当预处理。(3)本文在对评论文本进行细粒度情感计算时,对情感倾向分为四类,相对来说分类较为粗糙,如果对正向和负向中再进行深入分类,得到的情感值应该更准确,这一点值得日后继续研究。
以上论文内容是由
硕士论文网为您提供的关于《电子商务信息跨平台检索与智能推荐技术研究》的内容,如需查看更多硕士毕业论文范文,查找硕士论文、博士论文、研究生论文参考资料,欢迎访问硕士论文网电子商务栏目。