• 福清师范大学 > 福建师范大学福清分校学报
  • 福建师范大学福清分校学报

    免费下载 下载该文档 文档格式:PDF   更新时间:2008-04-01   下载次数:0   点击次数:9
    文档基本属性
    文档语言:English
    文档格式:pdf
    文档作者:Lorne Todd
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    2006 年第 2 期 总第 73 期
    福建师范大学福清分校学报》 福建师范大学福清分校学报 JOURNAL OF FUQING BRANCH OF FUJIAN NORMAL UNIVERSITY
    Sum No.73 2006 年 3 月
    基于页面链接结构 NFOAPRFnQ 算法 -有向访问模型 的改进-李立耀
    (福建师范大学福清分校数学与计算机科学系,福建福清
    3R0300 )

    要:互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,从 CAD 中的大量
    信息中准确并且有效的提取用户所需要的信息成为了 IntABnAt 的用户的迫切需要. CAD 信息检 索 系 统 可 以 利用 CAD 页面的这种特殊的链接结构关系来改进检索的算法,以提高检索的精度. 链接结构分析显著地提 高了检索结果的相关性. 在充分分析基于链接结构的算法的基础上, 本文提出了一个更接近真实情形的模 -有向访问模型,它假定访问者将根据与查询相关的概率模型来指导下一步的访问,它能够真实地描述 型-用户在浏览网页时的行为. 关键词:链接结构;信息检索;数据挖掘;随机访问模型;有向访问模型;NFOA RFnQ ; 中图分类号:TN3S3 文献标识码:A 文章编号:T00UV3W2T (2006)02V000WV07
    ! " IntABnAt 自 60 年代以来得到了迅猛的发展,近几年更是 以 惊 人 的 速 度 增 长 ,联 网 主 机 量 每 年 翻 一 番 ,IntABnAt 站
    点每半年翻一番. 互联网上的信息每天都以指数量级的速度爆炸性增长 ,面对如此浩瀚的资源,从 CAD 中的大量信 息中准确并且有效的提取用户所需要的信息成为了 IntABnAt 的用户的迫切需要 . 随着计算机硬件的发展,检索的效 率已经不在是一个主要问题. 检索的瓶颈是如何提高检索的质量 ,包括查全率和查准率. 事实上,现在的搜索工具大 多能在几秒钟内响应用户的查询. 问题是它们检索出来了大量的文档,其中只有一小部分是用户所需要的内容. 而 且,与用户查询最相关的文档往往并不是出现在检索结果的前面 . 信息检索是计算机科学的一个重要子类,它的目 标是从大量的文档中找到与用户查询相关的文档. CAD 页面的链接结构信息反映了页面作者对其他页面内容的评 价. CAD 页面中的链接总是指向作者认为对用户可能有用的页面. CAD 信息检索系统可以利用 CAD 页面的这种特殊 的链接结构关系来改进检索的算法,以提高检索的精度. 链接结构分析显著的提高了检索结果的相关性,因此,大多 数的搜索工具声称采用了某种链接分析算法. 然而,目前实际所使用的链接分析算法大多使用了简化的模型,因此, 所得到的检索结果也具有一定的局限性. 本文在分析链接结构算法的基础上提出了一个更接近实际情形的模 -有向访问模型,并且给出了基于此模型的链接分析算法,它具有更好的检索效果. 这对于提高 CAD 信息检索 型-的质量具有重要的意义.
    !" IntABnAt #$%&' IntABnAt 上的信息资源随着 IntABnAt 的发展而呈现出的特点是:信息量大而且分散,自治性强,信息资源多种多样,不
    一致和不完整性. 这些特点对网络软件的性能提出了很高的要求. 网络的快速发展给信息挖掘带来了挑战. EEE 上信息呈现爆炸性的指数增长,同时伴随着上网经验不足,不太晓得如何查找信息的新用户的加入. 用户很可能最 大程度的运用超链接来在网上冲浪,他们通常从以下两类网站开始: 第 一 类 是 目 录 系 统 ,其 典 型 代 表 是 YFGooH (GttIJKKCCC.LFGoo.Mom ),它 通 过 有 专 业 知 识 的 网 页 编 辑 人 员 对 网 上 的网页进行精选,建立一个索引目录,来给用户提供服务. 这类通过手工维护得很好的系统的优点是提供的网页准 确率高,可以有效的覆盖所有热门的主题,但它们的缺点是过于主观,而且需要高昂的代价来建立和维护,更新改进
    收稿日期:200RVT2V2T 作者简介:李立耀(TS70V )男,福建平潭人,讲师
    第2期
    李立耀:基于页面链接结构 P#$%&'#() 算法的改进
    N
    的慢,同时不能很好的覆盖所有深奥的主题. 第二类是搜索引擎系统,比如 *++$,% (-../0123334$++$,%45+6 ),它通过程序自动地从网上搜集和分析网页 ,建立 索引,为用户服务. 这类通过关键词匹配实现查找的自动更新的搜索引擎优点是涵盖的网页数量巨大 ,但通常返回 太多的低质量相关性不大的结果.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 福建师范大学福清分校  福建师范大学福清校区  福清招聘网  福清车祸  福清天气  福清dj晓夜  福清车祸视频  看福清  福清天气预报