所有论文科目分类


首页>>计算机论文>>计算机软件Web挖掘技术有哪些?

Web挖掘技术有哪些?

作者:毕业论文网时间:2022-06-04 22:17:30阅读:240来源:本站

传统的网络网站以系统本身为中心。为了容纳大量的信息,他们通过图形结构组织网站。页面之间有一个相对复杂的层次关系。这些预先设计的浏览路径(网站结构)严格按照设计师编辑的层次返回页面。因此,为了获得特定的信息,从同一页面开始的所有用户都必须重复许多与自己无关的中间链接页面,这使得用户付出了很大的代价才能获得少量的信息[1]。如果网站的物理结构调整和重组,我们可以避免混乱。网站路径优化实际上是网站经理对其网站结构进行优化。其外观是提高用户访问效率和用户对网站的忠诚度。

1个站点的个性化和路径优化。

Web网站结构设计的一个衡量标准是用户为获取所需信息所付出的平均成本,这可以理解为选择这些超链难度的超链数量函数。用户浏览路径优化是通过添加新的超链或文档来降低用户获取信息所需的平均成本,而不破坏Web系统的原始结构,即不删除系统的原始文档和超链[2]。

所谓网站个性化,本质上就是为网站用户提供个性化的网站访问体验。对于一般网站来说,网站管理者进行路径优化的直接目的是提高用户点击行为的有效性,最终目的是提高用户满意度和忠诚度。网站路径优化实际上是为了优化网站结构,消除网站实际安排和用户期望之间的差异,它为网站个性化提供了一个思路,即用户浏览行为的一系列页面序列是用户搜索目标页面的过程,此时网站设计可以考虑调整网站结构,在频繁访问路径中添加指向目标页面的链接,或者在缓存中添加常见的浏览路径。

网站的频繁浏览路径反映了特定用户在特定时期的活动规则,是网站路径优化的基础。它包括两个方面:首先,浏览路径重复个人用户浏览历史区域,另一方面,用户组浏览重复浏览行为在历史区域在一定时期,即浏览模式。

个人用户的浏览路径与用户的信息探索过程相对应。根据个人用户的重复浏览路径,可以形成用户的兴趣视图,并根据用户的兴趣视图完成个性化的推荐,为用户提供定制的访问体验。长期稳定的行为模式为网站结构的改进和路径的优化提供了参考依据。如果大多数用户在一段时间内显示出访问路径的相似性,则网络网站应该优化相应的访问路径。

前者可以为用户提供一对一的在线动态智能个性化服务,具有自适应性。这种智能个性化服务可以大大缩短用户在网络上的访问延迟,从而最大限度地提高提供给用户的网络信息服务质量。后者在提高用户满意度进,在提高用户满意度和忠诚度的同时,优化用户浏览体验,提高当前网站信息获取的整体效率。2.基于网络挖掘的路径优化模型。

Web挖掘是从数据挖掘开发而来的,但是Web挖掘与传统的数据挖掘相比有很多独特之处。第一,Web挖掘的对象是大量不同且分散的Web文件;第二,Web文件本身是半结构化或无结构化的,所以Web挖掘的模式可能是关于内容或结构的;最后,Web挖掘中的一些数据挖掘技术并不适用,即使可以使用,也需要基于Web文件的预处理[3]。

2.1理论分析访问序列挖掘实现过程。

Web挖掘技术以Web日志为数据源,跟踪用户之前浏览的网页,挖掘网页访问的数据。因为每当用户点击链接向网站发送页面浏览请求时,用户的IP地址、浏览日期和时间、浏览页面URL、引用页面等信息都会在Web日志中记录下来,用户在浏览页面时,会按照时间顺序以URL页面序列的形式隐藏在Web日志中[4]。用户访问序列挖掘,即通过对Web日志的系统分析和预处理,从日志中提取和表达用户之前的浏览序列,并采用各种Web挖掘方法和算法,从不同角度获取各种用户可能的网页浏览顺序,探索和总结用户浏览网页的规则和模式。获得用户浏览规则后,可以提高用户浏览的整体性能,帮助改进网页的设计和网站的链接结构,确定可用于缓存的网页浏览信息[5],通过模式分析识别用户需求的链接,确定用户浏览行为的目标。

从服务器的角度来看,发现的是提供服务的网站的信息,挖掘结果有助于改进网站的设计。一个(或一组)用户的信息可以从用户的点击序列分析中找到,这有助于网页的预存和缓存[6]。

2.优化模型构建站点路径。

网站路径优化挖掘模型采用Web日志作为数据源,采用数据挖掘和Web日志挖掘的相关技术和算法,获取用户浏览规则和模式,为网站结构优化和网站重建提供参考和个性化服务推荐设计的依据。根据这一点,网站路径优化模型可以分为两部分:数据预处理和网站路径优化。网站路径优化部分可以从两个方面考虑[7]:一是通过挖掘Web日志找到用户的预期位置。如果预期位置的访问频率高于实际位置的访问频率,则可以考虑在预期位置和实际位置之间建立导航链接,以实现网站的优化。第二,通过挖掘Web日志,我们可以找到用户访问页面的相关性,从而在密切相关的页面之间增加链接,方便用户使用。

实现3站点路径优化。

3.1日志数据收集。

Web服务系统是一个多层次的逻辑结构,包括客户端、代理服务器端和Web服务器端。本文探讨了网站用户的频繁访问路径、用户聚类等。因此,它适用于在Web服务器端挖掘用户访问模式[8]。Web服务器日志由访问日志、引用日志和代理日志三个部分组成,包括用户访问Web网站时访问的页面、时间、用户ID和其他信息。

3.2预处理站点数据。

Web网站和访问数据的预处理主要包括网站结构数据的预处理、内容数据的预处理和网站日志数据的预处理。其中,结构数据预处理的任务是描述网站的拓扑结构图。网站页面的文件链接有一个向图,并明确网站每个页面的文件链接的要求(Request)方法,如GET、POST、HEAD等。网站内容数据的预处理包括将文本、图片、脚本和其他多媒体文件转换为用户开发和使用有用格式的网站浏览模式记录信息[9]。

用户访问序列挖掘的网络日志数据源预处理包括数据过滤、格式转换、用户识别、对话识别、路径补充和交易识别。预处理过程是确保后续挖掘质量的关键。

3.3路径优化实现基于Web日志挖掘。

数据预处理后,利用数据挖掘的一些有效算法(如关联规则、分类、分类、序列模式等),对形成的用户对话文件找到隐藏的模型规则。由于传统的手工决策规则系统方法,基于过滤代理系统方法的内容,合作过滤系统方法的缺陷,分析和建立模型技术站点路径挖掘和传统数据挖掘差异不是特别大,因此路径优化模式除了可以使用Web数据挖掘的许多方法和算法,也可以使用一般的统计方法和在线分析处理方法,如聚集分析方法、相关规则分析方法和序列模式分析方法。


最新更新

热门推荐

[计算机软件]语义检索模型的设计与优化
语义检索模型的设计与优化语义检索概念语义检索是一种在语义网络上查询和检索的技术,也称语义检索为概念匹···[全文]
[计算机软件]深入学习本体论和语义检索
引言在教育领域,数字化步伐迅速加快,数字教育资源呈现井喷式增长。如今,越来越多的用户通过互联网进行学···[全文]
[计算机软件]用语言塑造形象的文学
用语言塑造形象的文学艺术、音乐、舞蹈、戏剧、电影、建筑、雕塑等,通过塑造具体而感性的艺术形象,帮助读···[全文]
[计算机软件]文学史上的两种创作方法
作品成功的标志——典型标志俄罗斯大作家果戈里曾经听过一个故事:一个小官员非常喜欢打鸟,节俭,并利用休···[全文]
[计算机软件]崇尚理性的古典主义人文思潮和文学
人文思潮和文学“人类是一件伟大的杰作!多么高贵的理性!多么伟大的力量啊!多么美丽的外表啊!多么优雅的···[全文]
[计算机软件]自然主义是西方的一种文学创作方法
古典文学具有情节简单、结构紧凑的优点,但它束缚了自己,因为它把一些原本合理的东西变成了规则和戒律。同···[全文]
[计算机软件]书法艺术在现代创新的要求
乐泉是如此的简单和粗俗。说话,做事,不注意大开大合,看起来飞扬,但注意平和的语言,真诚的话语,方便人···[全文]
[计算机软件]纯文学作者的世俗关怀是最深层次的
作为一个在中国长大的作家,血液中没有宗教成分。那么,当他想与强大的传统世俗世界作斗争时,是什么支持他···[全文]
[计算机软件]写作就是不断打败他们的传统
对人类精神的深入探讨不断揭示了精神王国的面貌,展现了一个与我们肉眼看到的小世界相对称的全新、陌生、难···[全文]
[计算机软件]七子文学复古运动的主要内容
受复古特征的影响,复古人非常重视”法“,关注的程度与复古人的文体意识成正比。七子派有很强的文体意识,···[全文]