• python编程 > Python&Hadoop构建数据仓库
  • Python&Hadoop构建数据仓库

    免费下载 下载该文档 文档格式:PDF   更新时间:2013-10-02   下载次数:0   点击次数:1
    Python&Hadoop构建数据仓库
    从开源中来,到开源中去
    EasyHadoop 童小军 tongxiaojun@gmail.com 2012年10年20日
    演讲大纲
    ?? ?? ?? ?? ?? ?? 个人介绍 思考数据分析系统的基本指标 Hadoop史前和史后的数据仓库流程 Hadoop史前和史后的数据分析流程 思考Hadoop 了什么样的根本问题 Python 如何在构建数据仓库系统的作用 – 1. 使用Python快速构建 数据分析模块 ComETL – 2. 基于Python MapReduce Streaming 快速并行编程 – 3. Hive如果内嵌Python实现自定义逻辑 – 4. Pig内嵌JPython 实现PageRank挖掘算法 – 5. JPython MapReduce 框架 Pydoop Happy 等。 使用开源软件配合Python快速构建数据仓库 EasyHadoop提供的资料[EasyHadoop部署安装手册,EasyHive手册] EasyHadoop开源技术聚会
    ?? ?? ??
    思考-数据分析系统的基本指标
    思考-数据分析系统的基本指标
    思考-数据分析系统的基本指标
    反馈决策周期!快 反馈决策粒度! 细 反馈决策准 ! 准 反馈总体成本! 廉价 数据统计/分析 是一个组织 自动控制,自学习,自调整系统 核心组成部分。机会成本 ! 想象空间!
    Hadoop 前的数据仓库流程
    ?? perl,shell,awk
    反馈决策周期!快 ? 反馈决策粒度! 细 ? 反馈决策准 ! 准 ? 反馈总体成本! 廉价 ?
    Hadoop后的数据仓库流程
    ?? Hql,Pig,Mapreduce,工作流
    反馈决策周期!快 ? 反馈决策粒度! 细 ? 反馈决策准 ! 准 ? 反馈总体成本! 廉价 ? 持续扩展成本 ?
    Hadoop 了什么样的根本问题? Hadoop为何会比数据库快? 本地化IO? 大数据计算任务
    任务划分 子任务 子任务
    ……
    子任务
    子任务
    结果合并
    结果
    Hadoop分布式安装
    磁盘读取速度,网络IO?
    基于hadoop的数据平台总体架构
    Python 结合 Hadoop Streaming 原理
    MapReduce基本流程
    实现distinct
    一、日志格式:
    {0E3AAC3B-E705-4915-9ED4-EB7B1E963590} {FB11E363-6D2B-40C6-A096-95D8959CDB92} {06F7CAAB-E165-4F48-B32C-8DD1A8BA2562} {B17F6175-6D36-44D1-946F-D748C494648A} {06F7CAAB-E165-4F48-B32C-8DD1A8BA2562} {B17F6175-6D36-44D1-946F-D748C494648A}
    B11E363-6D2B-40C6-A096-95D8959CDB92 17F6175-6D36-44D1-946F-D748C494648A E3AAC3B-E705-4915-9ED4-EB7B1E963590 6F7CAAB-E165-4F48-B32C-8DD1A8BA2562
    4
    使用python实现 distinct/count
    一、日志格式:
    {0E3AAC3B-E705-4915-9ED4-EB7B1E963590} {FB11E363-6D2B-40C6-A096-95D8959CDB92} {06F7CAAB-E165-4F48-B32C-8DD1A8BA2562} {B17F6175-6D36-44D1-946F-D748C494648A} {06F7CAAB-E165-4F48-B32C-8DD1A8BA2562} {B17F6175-6D36-44D1-946F-D748C494648A}
    B11E363-6D2B-40C6-A096-95D8959CDB92 17F6175-6D36-44D1-946F-D748C494648A E3AAC3B-E705-4915-9ED4-EB7B1E963590 6F7CAAB-E165-4F48-B32C-8DD1A8BA2562

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 PDF格式下载
  • 您可能感兴趣的
  • python编程实践pdf  python编程实例  python编程入门第3版  python编程工具  python编程入门经典  python编程练习题  趣学python编程  python编程入门  python编程实践  python核心编程