Data Warehouse é um repositório de dados digitais que serve para armazenar informações detalhadas de uma organização, mantendo o histórico e ajudando os gestores na tomada de decisão.
Data Warehouse agrega uma coleção de dados orientados por assuntos, integrados, variáveis no tempo e não voláteis, para dar suporte aos gestores organizacionais nas tomadas de decisões.
Etapas para construção de um Data Warehouse
- Levantamento das Necessidades: informações desejadas pelos utilizadores, para alcançar os desejos dos gestores;
- Mapeamento dos Dados: Identificação das fontes de dados e a criação do Modelo Dimensional;
- Construção da Staging Area: Armazenamento temporário dos dados dos sistemas transcionais;
- Construção das Dimensões: Construção das Dimensões do DW e definição dos seus dados;
- Construção dos Fatos: Construção da tabela facto do DW e definifição dos seus dados;
- Definição do processo de Carga: Criação do motor para que tudo seja carregado, atualizado e processado para o DW (normalmente Stored Procedures);
- Criação dos metadados: Documentação dos metadados, que incluem o processo e o dicionário de dados.
Principais objetivos do DW
- Transformar dados em informação para ajudar a tomada de decisão;
- Uniformizar dados de diferentes sistemas operacionais;
- Facilitar os mecanismos de pesquisa de informação;
- Permitir que os gestores sejam capazes de analisar dados de forma autónoma.
Componentes do Data Warehouse
- Fontes de dados: Representam as fontes internas e externas do DW;
- Área de estagio: É uma base de dados intermédia que faz a ligação entre o sistema operacionais e o DW;
- Processo de ETL: Responsáveis as rotinas de extração, limpeza, transformação e carregamento dos dados;
- Repositório de dados: Local aonde são publicados todos os dados para a analise;
- Data Mart: Pequeno data warehouse que fornece suporte à decisão de um pequeno grupo de pessoas;
- Apresentação: Interface usada para as consultas de acesso aos dados do DW.
Benefícios do Data Warehouse
- Informações unificadas através de uma fonte centralizada;
- Maior agilidade e independência na extração de informações para os gestores;
- Ampliação da capacidade de analise do ambiente;
- Melhorar o suporte à tomada de decisão;
- Maior facilidade para apuração da qualidade dos dados dos sistemas transacionais;
- Disponibilização da informação histórica e atual para identificar tendências.
Desvantagens do Data Warehouse
- Complexidade de desenvolvimento;
- Tempo de desenvolvimento;
- Alto custo de desenvolvimento;
- Administração na medida que os dados aumentam;
- Exige muito tempo para aperfeiçoamento.
Exemplo: Criação de um modelo Data Warehouse para Recrutamento e Selecção. Foi usada a linguagem Python, para gerar Scripts SQL da Base Dados de Recrutamento.
SGBD: SQL Server
Script para inserção de registos
Data Warehouse DW_Recrutamento
Procedure para carregar a tabela Dim_Data_Candidatura
Procedure para carregar a tabela Fac_Candidatura do DW
Consulta na tabela Dim_Candidato