数据仓库 - 概念

  • 什么是数据仓库?

    数据仓库是构建和使用数据仓库的过程。数据仓库是通过集成来自支持分析报告、结构化和/或临时查询以及决策制定的多个异构源的数据而构建的。数据仓库涉及数据清理、数据集成和数据整合。
  • 使用数据仓库信息

    有一些决策支持技术可以帮助利用数据仓库中可用的数据。这些技术帮助管理人员快速有效地使用仓库。他们可以收集数据、分析数据,并根据仓库中存在的信息做出决策。仓库中收集的信息可用于以下任何领域 -
    • Tuning Production Strategies− 通过季度或年度比较销售,重新定位产品和管理产品组合,可以很好地调整产品策略。
    • Customer Analysis− 客户分析是通过分析客户的购买偏好、购买时间、预算周期等来完成的。
    • Operations Analysis− 数据仓库还有助于客户关系管理和环境修正。这些信息还使我们能够分析业务运营。
  • 集成异构数据库

    要集成异构数据库,我们有两种方法 -
    • 查询驱动的方法
    • 更新驱动的方法
  • 查询驱动方法

    这是集成异构数据库的传统方法。这种方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也称为调解器。

    查询驱动方法的过程

    • 当向客户端发出查询时,元数据字典将查询转换为适用于所涉及的各个异构站点的适当形式。
    • 现在这些查询被映射并发送到本地查询处理器。
    • 来自异构站点的结果被集成到一个全局答案集中。

    缺点

    • 查询驱动的方法需要复杂的集成和过滤过程。
    • 这种方法效率很低。
    • 对于频繁的查询是非常昂贵的。
    • 这种方法对于需要聚合的查询来说也是非常昂贵的。
  • 更新驱动的方法

    这是传统方法的替代方法。今天的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。在更新驱动的方法中,来自多个异构源的信息被预先集成并存储在一个仓库中。这些信息可供直接查询和分析。

    好处

    这种方法具有以下优点 -
    • 这种方法提供了高性能。
    • 数据预先在语义数据存储中被复制、处理、集成、注释、总结和重构。
    • 查询处理不需要接口来处理本地源的数据。
  • 数据仓库工具和实用程序的功能

    以下是数据仓库工具和实用程序的功能 -
    • Data Extraction− 涉及从多个异构源收集数据。
    • Data Cleaning− 涉及查找和更正数据中的错误。
    • Data Transformation− 涉及将数据从遗留格式转换为仓库格式。
    • Data Loading− 涉及排序、汇总、合并、检查完整性以及构建索引和分区。
    • Refreshing− 涉及从数据源到仓库的更新。
    Note− 数据清洗和数据转换是提高数据质量和数据挖掘结果的重要步骤。