Livro Digital - Princípios de Banco de Dados-Unidade1 Topico3
Livro Digital - Princípios de Banco de Dados-Unidade1 Topico3
Livro Digital - Princípios de Banco de Dados-Unidade1 Topico3
- Tópico 3 settings
UNIDADE 1
TÓPICO 3
TENDÊNCIAS E PERSPECTIVAS
1 INTRODUÇÃO
“Nossas dúvidas são traidoras e nos fazem perder o que, com frequência, poderíamos
ganhar, por simples medo de arriscar.” (William Shakespeare)
Agora que você já tem uma boa fundamentação sobre bancos de dados, suas
origens, sua evolução e suas arquiteturas, chegou a hora de estudarmos as
possíveis tecnologias que são apontadas como tendência para o futuro. Será
percebido que algumas delas já fazem parte do cotidiano em algumas áreas,
porém ainda precisam evoluir.
Porém, existem sistemas com uma abrangência mais específica que norteiam
áreas mais delimitadas. É o caso do armazenamento e manipulação de
informações geográficas ou também de arquivos que necessitam de uma
organização em nível de bancos de dados.
Esse é o foco do nosso estudo nesta seção. Está dividido em sete áreas: bancos de
dados de informações geográficas, multimídia, temporal, biológico e XML. Cada
uma dessas áreas será estudada e exemplificada.
Este tipo de banco de dados tem como objetivo armazenar e manipular dados
geométricos que sejam pertinentes a representações de partes do planeta.
Também é conhecido como Sistema Gerenciador de Bancos de Dados Geográficos
ou simplesmente SGBDG. Em resumo, armazena dados geográficos como mapas,
imagens de satélite etc.
Alguns bancos que são de natureza relacional permitem que sejam instalados
pacotes para que tipos de dados geográficos sejam suportados. Um exemplo disto
é uma extensão que pode ser adicionada no banco PostgreSQL para habilitar
suporte a dados espaciais. O nome dela é PostGIS e sua ideia é ilustrada na figura
a seguir.
Os componentes de um SIG estão mostrados na Figura 1.1. No nível mais próximo
ao usuário, a interface homem-máquina define como o sistema é operado e
controlado. Esta interface pode ser tanto baseada na metáfora da “mesa de
trabalho” (Kuhn e Frank, 1991) (Richards e Egenhofer, 1995) (Câmara, 1999), como
adaptada ao ambiente de navegação da Internet (Kraak e Brown, 2001), quanto
baseada em linguagens de comando como Spatial SQL (Egenhofer, 1994) e LEGAL
(Câmara, 1995). No nível intermediário, um SIG deve ter mecanismos de
processamento de dados espaciais. A entrada de dados inclui os mecanismos de
conversão de dados (Hohl, 1998). Os algoritmos de consulta e análise espacial
incluem as operações topológicas (Egenhofer e Franzosa, 1991), álgebra de mapas
menu Unidade
(Tomlin, 1990), estatística espacial (Druck1
-
etTópico 3 modelagem numérica de
al., 2004), settings
terreno (Li et al., 2004) e processamento de imagens (Mather, 2004). Os
mecanismos de visualização e plotagem devem oferecer suporte adequado para a
apreensão cognitiva dos aspectos relevantes dos dados pesquisado (MacEachren,
2004) (Tufte, 1983) (Monmonier, 1993). No nível mais interno do sistema, um
sistema de gerência de bancos de dados geográficos oferece armazenamento e
recuperação dos dados espaciais e seus atributos. Cada sistema, em função de
seus objetivos e necessidades, implementa estes componentes de forma distinta,
mas todos os subsistemas citados devem estar presentes num SIG.
Do ponto de vista da
aplicação, o uso de sistemas de informação geográfica (SIG) implica escolher as
representações computacionais mais adequadas para capturar a semântica de seu
domínio de aplicação. Do ponto de vista da tecnologia, desenvolver um SIG
significa oferecer o conjunto mais amplo possível de estruturas de dados e
algoritmos capazes de representar a grande diversidade de concepções do
espaço.
Dados multimídia são cada vez mais populares. Com o advento da internet a troca
de dados multimídia expandiu-se. Entretanto, imagens, vídeo e audio estão hoje,
na maioria das vezes, armazenados em sistemas de arquivos. Esse fato não vem a
ser um problema quando se trabalha com um volume reduzido de dados,
considerando que um banco não iria trazer grandes benefícios. Porém, com
muitos arquivos uma forma de armazenamento em banco facilitaria o
gerenciamento dos mesmos.
Boa parte dos principais bancos de dados implementam um tipo de dado binário
para armazenar dados multimídia. Isso faz com que essa forma de
armazenamento se resuma apenas em salvar arquivos no banco, não trazendo
muitas vantagens comparadas com o armazenamento em sistemas em arquivos.
Dados escritos à mão. A entrada escrita à mão pode ser usada para identificar um
item de dados ou comando escrito à mão, armazenado no banco de dados. Aqui,
novamente, o teste de semelhança é exigido.
Projeto GMOD
Citrina
Um exemplo de uso para o Citrina seria a transferência de Chado SQL entre vários
sites de organismos e a população automática dos diversos bancos de dados
PostgreSQL através dos recursos de SQL fornecidos pela tecnologia Java Ant.
BioMart
Chado
O Chado está sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo
Berkeley Drosophila Genome Project (BDGP, 2004).
Outras vezes, os dados podem até estar em SGBDs, mas isto só começou a se
tornar realidade há poucos anos. Por exemplo, o www.plasmodb.org, um “banco
de dados genômico” do Plasmodium (causador da malária) usa dados
armazenados tanto em arquivos texto quanto em Oracle. A migração vem se
dando há pouco tempo.
Rob e Coronel (2011, p.615) fazem um relato do cenário onde a XML pode estar
envolvida.
A internet fez surgir novas tecnologias que facilitam a troca de dados de negócios entre
parceiros comerciais e clientes. As empresas têm utilizado a internet para criar novos
tipos de sistemas que integrem seus dados de modo a aumentar a eficiência e reduzir
custos. O comércio eletrônico (e-commerce) permite que todos os tipos de
organizações vendam produtos e serviços em um mercado global de milhões de
usuários. As transações de comércio eletrônico – venda de produtos ou serviços –
podem ser executados entre empresas (business-to-business ou B2B) ou entre uma
empresa e um cliente (business-to-consumer ou B2C).A maioria dessas transações
ocorre entre empresas. Como o comércio eletrônico B2B integra processos de negócios
entre empresas, ele exige a transferência de informações comerciais entre as
diferentes entidades. Mas o modo como os dados são representados, identificados e
utilizados tende a diferir significativamente de empresa para empresa [...].
De uma forma bem resumida, pode-se dizer que XML consiste em descrever o
conteúdo dos campos em um formato de marcação. É amplamente utilizado na
internet para integração entre sistemas.
A figura a seguir mostra um exemplo de XML.
menu Unidade 1
- Tópico 3 settings
FIGURA 25 – EXEMPLO XML
Rob e Coronel (2011) nos dizem que o banco de dados de suporte a decisões é
criado, em grande parte, pela extração de dados do banco operacional e pela
importação de dados adicionais de fontes externas. Isso significa que as empresas
já possuem seus sistemas de gerenciamento e extraem os dados dos mesmos
para buscar padrões que sejam valiosos para o ramo do negócio.
Data Mining é uma das novidades da Ciência da Computação que veio para ficar.
Com a geração de um volume cada vez maior de informação, é essencial tentar
aproveitar o máximo possível desse investimento. Talvez a forma mais nobre de se
utilizar esses vastos repositórios seja tentar descobrir se há algum conhecimento
escondido neles. Um banco de dados de transações comerciais pode, por
exemplo, conter diversos registros indicando produtos que são comprados em
conjunto. Quando se descobre isso, pode-se estabelecer estratégias para otimizar
os resultados financeiros da empresa. Essa já é uma vantagem suficientemente
importante para justificar todo o processo. Contudo, embora essa ideia básica seja
facilmente compreensível, fica sempre uma dúvida sobre como um sistema é
capaz de obter esse tipo de relação. No restante deste artigo vamos observar
alguns conceitos que podem esclarecer essas dúvidas.
A literatura sobre o assunto trata com mais detalhes todos os passos necessários
ao Data Mining. Veja, por exemplo, Groth (1998) e Han, Chen & Yu (1996). Para o
escopo do que pretendemos neste artigo é suficiente apresentar os passos
fundamentais de uma mineração bem sucedida. A partir de fontes de dados
(bancos de dados, relatórios, logs de acesso, transações, etc.) efetua-se uma
limpeza (consistência, preenchimento de informações, remoção de ruído e
redundâncias etc.). Disto nascem os repositórios organizados (Data Marts e Data
Warehouses), que já são úteis de diversas maneiras.
Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o
processo de mineração. Tipicamente, este processo não é o final da história: de
forma interativa e frequentemente usando visualização gráfica, um analista refina
e conduz o processo até que valiosos padrões apareçam. Observe que todo esse
processo parece indicar uma hierarquia, algo que começa em instâncias
elementares (embora volumosas) e terminam em um ponto relativamente
concentrado, mas muito valioso.
Este é um dos conceitos importantes para nós neste artigo: encontrar padrões
requer que os dados brutos sejam sistematicamente "simplificados" de forma a
desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se
menu Unidade
isso porque não parece haver muito 1
- Tópico 3a extrair de eventos isolados.
conhecimento settings
Uma loja de sua rede que tenha vendido a um cliente em particular uma
quantidade impressionante de um determinado produto em uma única data pode
apenas significar que esse cliente em particular procurava grande quantidade
desse produto naquele exato momento. Mas isso provavelmente não indica
nenhuma tendência de mercado.
Em outras palavras, não há como explorar essa informação em particular para que
no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto
pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa
vontade de "não perder dados". Para que o processo dê certo, é necessário sim
desprezar os eventos particulares para só manter aquilo que é genérico.
Com o passar dos anos, foi percebido que os usuários responsáveis por extrair
informações dos Data WareHouses usavam uma pequena parte dele para realizar
o seu trabalho. Neste mesmo conjunto era preciso criar novas visões e executar os
mesmos procedimentos de forma repetitiva a cada atualização recebida. É nesse
cenário que surge a definição de Data mart.
Para Date (2003), Data Mart é um depósito de dados especializado, orientado por
assunto, integrado, volátil e variável no tempo, que fornece apoio a um
subconjunto específico de decisões da gerência. É um agrupamento de dados e
informações dentro do Data WareHouse com um objetivo específico e bem
menu definido. Unidade 1
- Tópico 3 settings
3.4 DATA MARKETING
Em uma definição bem simplista, pode-se dizer que é um banco de dados utilizado
para relacionamento com clientes. É nele que estão os dados utilizados para
atingir objetivos de venda, público alvo para promoções etc.
4 NOVOS CONCEITOS
Esta última seção da Unidade 1 tem como objetivo apenas introduzir alguns novos
conceitos existentes no mercado. Entenda que estamos tratando de novas
tecnologias e que muitas delas ainda não chegaram ao seu ápice de
desenvolvimento e utilização. Isso pode significar que poderão sofrer alterações
quando a sua definição e aplicação durante este período de amadurecimento.
Trataremos apenas de dois novos conceitos: Big Data e NoSQL. Vamos focar
apenas no paradigma das tecnologias, passando de forma superficial por questões
técnicas de implementação.
4.1 BIG DATA
menu Unidade 1
- Tópico 3 settings
Muito tem se falado sobre essa nova tecnologia. Ela visa atender basicamente ao
gerenciamento de grandes volumes de dados. Imagine a quantidade de dados
gerados por tweets no mundo inteiro. Agora pense no seguinte: esses dados
podem revelar muitas coisas a respeito de um determinado cenário. Através da
análise deles é possível, de certa forma, medir o nível de felicidade de uma
determinada população, a satisfação das pessoas em relação a determinado
produto comercializado por alguma empresa, entre várias outras situações.
inteligente/aplicativo-de-big-data-e-tendencia-nas-corporacoes-diz-
especialista-07012013-20.
Seria inviável comercializar estes apps sem uma forte barreira contra crackers e
hackers. O especialista afirma que os todos esses resultados em usar estas
aplicações (BDA) serão notados em curto prazo.
4.2 NOSQL
NoSQL é uma classe de bancos de dados que tem como principal destaque o
rompimento com o paradigma relacional, predominante durante vários anos no
mercado de TI. Ele representa vários bancos de dados que não são relacionais e
utilizam outras formas de organização, visando armazenamento e processamento
de dados complexos.
O termo NoSQL foi usado pela primeira vez em 1998, como o nome de um banco
de dados relacional de código aberto que não possuía um interface SQL. Seu autor,
Carlo Strozzi, alega que o movimento NoSQL “é completamente distinto do modelo
relacional e, portanto, deveria ser mais apropriadamente chamado ‘NoREL’ ou algo
que produzisse o mesmo efeito”. Porém, o termo só voltou a ser assunto em 2009,
por um funcionário do Rackspace, Eric
De certa forma, pode-se dizer que bancos de dados que pertencem ao paradigma
NoSQL trabalham com o conceito de Big Data visto anteriormente. Exemplos de
bancos NoSQL: Berkeley DB, MemcacheDB, Cassandra (Apache), MongoDB,
InfoGrid e Vertica.
LEITURA COMPLEMENTAR
Tiago Curcio
Bill Inmon rebate essa teoria e propõe justamente o contrário. Na sua avaliação
deve-se construir primeiro um Data Warehouse, modelando-se toda a empresa
para se chegar a um único modelo corporativo, partindo-se posteriormente para
os Data Marts construídos por assuntos ou departamentais. Inmon defende a ideia
de que o ponto de partida seriam os CIF – Corporate Information Factory – uma
infraestrutura ideal para ambientar os dados da empresa. O CIF seria alimentado
pelos sistemas transacionais. A construção de um ODS (Operational Data Store)
seria facultativa, mas essa iniciativa ajudaria a reduzir a complexidade da
construção de um DW, uma vez que todo o esforço de integração entre os
sistemas transacionais da empresa seria depositado nele.
Uma vez que todos os dados estivessem integrados no DW, se partiria para os
Data Marts que iriam atender aos diversos departamentos da empresa, gerando
dados íntegros e corporativos. Inmon condena o processo inverso porque, na sua
concepção, a construção de Data Marts atendendo a requisitos departamentais
seria delineada a partir de regras específicas de negócios e de procedimentos de
Extração, Transformação e Carga (ETL) dos dados oriundos dos sistemas
transacionais. A visão corporativa da empresa seria relegada a segundo plano e as
necessidades imediatas dos departamentos prevaleceriam. Além disso, essa
iniciativa poderia gerar outros problemas, como a redundância de dados em
diversos sistemas, o consumo exagerado de recursos de produção, e a formação
de um verdadeiro caos informacional, na medida em que os dados dispostos nos
diferentes Data Marts não poderiam ser integrados.
Qual deles está certo: Inmon ou Kimball? Ambos ou nenhum? Cabe a cada
empresa analisar qual das duas abordagens mais se aplica às suas necessidades
reais e ao seu bolso. No que ambos os gurus concordam é que uma empresa sem
autoconhecimento e sem ter uma visão corporativa de seu negócio, nunca terá um
sistema eficiente para auxiliá-la na tomada de decisão.
RESUMO DO TÓPICO
• Existem vários tipos de bancos de dados. Alguns exemplos são: bancos de dados
de informações geográficas, multimídia, temporal, biológicos e XML.
AUTOATIVIDADES
UNIDADE 1 - TÓPICO 3
Responder
Responder
menu Unidade 1
- Tópico 3 settings
3 Com base no conteúdo apresentado no Caderno de Estudos defina o que é um
processo de Data Mining.
Responder
Responder
Responder
menu Unidade 1
- Tópico 3 settings