• 护士献身取精 > 第21卷第3 期
  • 第21卷第3 期

    免费下载 下载该文档 文档格式:PDF   更新时间:2008-09-08   下载次数:0   点击次数:2
    文档基本属性
    文档语言:Traditional Chinese
    文档格式:pdf
    文档作者:sport
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性
    第 21 卷 第 3 期 2008 年 9 月
    宁 波 大 学 学 报( 理 工 版 ) JOURNAL OF NINGBO UNIVERSITY ( NSEE )
    Vol.21 No.3 Sept. 2008
    文章编号:1001-5132(2008)03-0341-05
    博客数据分析系统的设计与实现
    黄丽丽,陈华辉*
    P
    (宁波大学 信息科学与工程学院,浙江 宁波 315211)
    摘要:博客(Blog)网站作为近年来新型的网络媒体得到越来越多的个人和企业的关注,因此针对 Blog 数据设计了相应的数据分析系统. 并介绍了 Blog 数据分析与传统 Web 挖掘的区别和联系, 阐明研究了 Blog 数据的必要性,其次详细分析了本系统的主要功能模块及其实现方法,最后采 集中国博客网的数据对本系统进行验证,实验结果显示本系统是可行且有效的. 关键词:Web 结构挖掘;博客数据分析;链接挖掘 中图分类号:TP393 文献标识码:A
    Blog 是近年来涌现出来的新的网络沟通工具. 据 《2006 年中国博客调查报告》 表明, 我国 blogger 的规模已达到 1 750 万, 用户规模较 2002 年增长了 30 多倍. 如何挖掘和利用 Blog 中有价值信息,是 我们研究 Blog 的重要课题. Blog数据分析则是一个新兴的研究领域, 国内 对Blog的研究工作主要还在传播学的基本框架下 进行. 而国外对Blog相关研究工作早于国内,研究 也更深入些. Kumar等人主要研究超链接关系Blog 日本东京大学Ishida Kazunari 社区的兴起和演化 ;
    P P
    挖掘存在一定相似性,但又有较大的区别. (1) Blog 通过 post 及对 post 的评论和链接形成 某个主题的信息串. (2) Blog 提供对 post 的附加评论和唯一的 URL 指定功能,使得 Blog 空间中相似度较高的信息可 以通过 Blog 中的引用自主地连结在一起,从而形 成局部小社区,因此称之为 Blog 社区(一般由几个 到几十个 blogger 组成). 当出现共同兴趣话题时, 这些社区逐渐兴起, 而发展到一定阶段后又将慢慢 地消失. 但传统 Web 中这种特征不明显. (3) 传统 Web 研究均是通过网络蜘蛛获取 Web 上的静态数据, 但关于抓取静态数据之前的数据则 不能得到. 然而 Blog 数据分析可以通过将 blogger 的每条 post 都和某个特定时刻关联, 确定每条 post 和链接被创建的精确时间. 本文融合现有数据挖掘, 数据库及人工智能等 技术, 结合上述的 Blog 特性, 设计并实现了相应的 Blog 数据分析系统.
    [1]
    等采用WP(Weakest Pair Algorithm)方法发现Blog 中潜在的社区 ;而NEC实验室Tatemura等人通过
    P P
    [2]
    RSS Feeds抓取Blog数据,来获取Blog中讨论的主 题 .
    P P
    [3]
    国内外关于Web挖掘的研究已有相当一段时 期了
    P
    [4-6]
    P
    . Web结构挖掘的研究为本系统开发提供了
    一定的基础,但是传统Web挖掘是针对一般的Web 页面,而不是Blog数据. Blog数据分析与传统Web
    收稿日期:2007-04-28. 宁波大学学报(理工版)网址:http://3xb.nbu.edu.cn 第一作者:黄丽丽(1983-) ,女,浙江丽水人,在读硕士研究生,主要研究方向:数据挖掘. E-mail: mokaly@163.com *通讯作者:陈华辉(1964-) ,男,浙江宁波人,副教授,主要研究方向:数据挖掘. E-mail: chenhuahui@nbu.edu.cn
    342
    宁波大学学报(理工版)
    2008 表 1 name 表结构 列名 含义 序号 作者 主页地址 抓取标志 表 2 post 表结构 列名 id blogger date title count 含义 序号 作者 发表时间 标题 评论数
    1
    系统的基本模块
    本系统对 Blog 站点进行抓取,提取其中的关
    id
    键信息,并且对这些信息进行分析的同时,根据 post 的相互引用来研究 Blog 空间中占主导地位的 blogger. 本系统主要分为 4 个模块:数据抓取,数据预 处理,数据分析和数据统计. 数据抓取模块抓取某 个 Blog 站点数据; 预处理模块将已抓取的 Blog 站 点数据进行分析, 并提取其中有价值信息存入数据 库;数据分析模块对已分析的 Blog 站点数据进行 Blog 社区的兴起和演化识别,并分析社区的变化 趋势,识别 Blog 社区中主要 blogger 等;数据统计 模块根据已抓取的 Blog 站点数据, 分析 Blog 空间 中的热门 post,活跃 blogger 和 commenter 等等.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • 护士献身取精过程视频  护士献身取精视频  护士献身取精过程  广东护士献身取精  护士献身取精真假  护士献身取精子  医院小护士献身取精  小护士献身取精  护士献身手工取精