Análise de Informações PDF
Análise de Informações PDF
Análise de Informações PDF
ARQUELAU PASTA
DISSERTAO DE MESTRADO
ARQUELAU PASTA
por
Arquelau Pasta
Antecipaste a hora.
Teu ponteiro enlouqueceu, enlouquecendo nossas horas.
Que poderias ter feito de mais grave
do que o ato sem continuao, o ato em si,
o ato que no ousamos nem sabemos ousar
porque depois dele no h nada?
Muitos fizeram, muitos fazem e muitos iro fazer parte das vrias etapas de minha
vida. Alguns contriburam de forma peculiar, outros s vezes com um simples: Legal, vamos
l. Quero agradecer a todos, sem cometer a injustia de esquecer algum.
Iniciando por meus pais, Dona Nair e Seu Orlando (In Memoriam) afinal sem eles no
estaria escrevendo isto.
Minha esposa Silvana e filha Nadine, que tiveram vrios momentos de nosso convvio
destinados a elaborao deste trabalho.
minha famlia, pelo incentivo nos momentos difceis, fazendo com que eu seguisse
em frente. todos sem distino, irmo, cunhados, cunhadas, sobrinhos e sobrinhas.
Aos meus amigos de mestrado, Vital e Pedro, pelas idas e vindas, pelas conversas e
trabalhos trocados.
Ao meu orientador Professor Dr. Raimundo Celeste Ghizoni Teive pela sua amizade e
apoio, por sua vocao inequvoca, pelo seu esprito inovador, intelectual e empreendedor na
tarefa de multiplicar seus conhecimentos, por ser um verdadeiro mestre.
Arquelau Pasta
Maro / 2011
Orientador: Raimundo Celeste Ghizoni Teive, Dr.
rea de Concentrao: Computao Aplicada
Linha de Pesquisa: Inteligncia Aplicada
Palavras-chave: Minerao de Dados. Gesto da Informao. Gesto de Instituies de Ensino
Superior.
Nmero de pginas: 153
RESUMO
Para que o conhecimento seja gerado no basta apenas ter a informao. As
Instituies de Ensino Superior (IES) podem hoje serem consideradas como organizaes.
Uma das funes das Instituies de Ensino a gerao e disseminao de conhecimento,
obtido atravs do processo de ensino e aprendizagem e para que este processo acontea numa
forma dinmica e eficaz, as IES esto cada vez mais buscando subsdios, ferramentas e
tcnicas, para que seus alunos adquiram o conhecimento. Conseqentemente, todo este
conhecimento acumulado pode e deve ser utilizado para que cada vez mais as instituies
busquem estreitar o contato com seus alunos e disponibilizar aos seus gestores, informaes
precisas e eficazes para tomada de decises. A contribuio desta dissertao de mestrado
refere-se a aplicao de tcnicas de Data Mining em ambientes de gesto educacional. Para
tanto foram aplicadas as tcnicas de Associao, Classificao e Clusterizao nesta base de
dados. A pesquisa aborda por meio de um levantamento bibliogrfico os conceitos sobre
Gesto da Informao, Sistemas de Informao, Data Warehouse, Data Mining com suas
tcnicas e tarefas, finalizando com a ferramenta de minerao WEKA. A aplicao das
tcnicas de Data Mining, segue a metodologia CRISP-DM, na qual so observados desde o
conhecimento sobre o negcio at a implementao dos resultados. Dessa forma, como um
dos resultados obtidos na pesquisa, viu-se que a aplicao de uma ferramenta de Data Mining
pode ser um poderoso instrumento para a gesto das informaes nas IES.
APPLICATION OF DATA MINING TECHNIQUE IN THE
DATABASE OF THE EDUCATIONAL MANAGEMENT
ENVIRONMENT: CASE STUDY OF A HIGHER EDUCATION
INSTITUTE IN BLUMENAU-SC.
Arquelau Pasta
March / 2011
ABSTRACT
For knowledge be generated, just having information is not enough. Institutions of
Higher Education (IES) nowadays may be considered as organizations. One of the functions
of Teaching Institutions is to generate and disseminate the knowledge obtained through the
teaching and learning process, and to enable this process to occur in a dynamic and effective
form, IESs are increasingly looking for support, tools and techniques that will enable their
students to acquire knowledge. Consequently, all this accumulated knowledge can and should
be used to enable institutions to form closer contact with their students and provide their
managers with accurate and effective information for decision-making. The contribution of
this master's degree dissertation is the application of data mining techniques in educational
management environments. The techniques of Association, Classification and Clusterization
were used in this database. The research uses bibliographical research to search for concepts
on Information Management, Information Systems, Data Warehouse, and Data Mining, with
their techniques and tasks, concluding with the mining tool WEKA. The application of Data
Mining techniques follows the CRISP-DM methodology, taking into account from business
knowledge through to the implementation of the results. Thus, one of the results obtained in
the research was that the application of a Data Mining tool can be a powerful tool for
managing information in the IES.
LISTA DE ILUSTRAES
1 INTRODUO.............................................................................14
1.1 PROBLEMA DE PESQUISA .................................................................. 17
1.1.1 Soluo Proposta ................................................................................... 18
1.1.2 Delimitao de Escopo ........................................................................... 21
1.1.3 Justificativa ............................................................................................ 22
1.2 OBJETIVOS ............................................................................................. 26
1.2.1 Objetivo Geral ....................................................................................... 27
1.2.2 Objetivos Especficos ............................................................................. 27
1.3 METODOLOGIA .................................................................................... 27
1.3.1 Metodologia da Pesquisa ....................................................................... 27
1.3.2 Procedimentos Metodolgicos ............................................................... 29
1.4 ESTRUTURA DA DISSERTAO ....................................................... 30
2 REFERENCIAIS TERICOS ....................................................32
2.1 SISTEMAS E INFORMAO ............................................................... 32
2.1.1 Informao ............................................................................................. 33
2.1.1.1 A importncia da informao ................................................................ 36
2.2 SISTEMAS DE INFORMAO ............................................................ 39
2.2.1 Sistemas de Informao e seus tipos ..................................................... 42
2.2.1.1 Sistema de Processamento de Transaes (SPT) ................................... 43
2.2.1.2 Sistema de Automao de Escritrios (SAE) ........................................ 43
2.2.1.3 Sistema de Informao Gerencial (SIG)................................................ 44
2.2.1.4 Sistema de Informao de Suporte Tomada de Deciso (SSTD) ........ 45
2.2.1.5 Sistema de Informao para Executivos (SIE) ...................................... 46
2.3 GESTO DA INFORMAO ................................................................ 49
2.4 A IMPORTNCIA DOS SIG NA GESTO ESTRATGICA ............. 52
2.5 EXTRAO DA INFORMAO.......................................................... 55
2.6 MINERAO DE DADOS ..................................................................... 57
2.7 METODOLOGIA DE MINERAO DE DADOS ............................... 64
2.8 TAREFAS DE MINERAO DE DADOS ............................................ 69
2.8.1 Classificao........................................................................................... 70
2.8.2 Regresso ............................................................................................... 72
2.8.3 Associao .............................................................................................. 73
2.8.4 Clusterizao ou Segmentao .............................................................. 74
2.8.5 Sumarizao........................................................................................... 76
2.9 TCNICAS DE MINERAO DE DADOS .......................................... 77
2.9.1 Tcnicas Estatsticas .............................................................................. 78
2.9.1.1 Anlise de componentes principais (ACP) ........................................... 78
2.9.2 Exemplo de utilizao de ACP na Minerao de Dados ...................... 81
2.9.3 Algoritmos Genticos (AG) ................................................................... 82
2.9.4 rvore de Decises (AD) ....................................................................... 83
2.9.5 Descoberta de Regras de Associao (DRA) ........................................ 83
2.9.6 Raciocnio Baseado em Casos (RBC).................................................... 84
2.9.7 Redes Neurais Artificiais (RNA) ........................................................... 86
2.10 FERRAMENTAS DE MINERAO DE DADOS .............................. 89
2.11 WEKA ..................................................................................................... 90
2.12 GESTO DE IES ................................................................................... 95
2.12.1 Ferramentas de Gesto ........................................................................ 97
3 TRABALHOS RELACIONADOS ..............................................99
3.1 GESTO DA TECNOLOGIA DA INFORMAO EM IES ............... 99
3.2 UTILIZAO DE MINERAO DE DADOS EM GERAL ............. 100
3.3 MINERAO DE DADOS EM AMBIENTES EDUCACIONAIS .... 102
4 APLICAO DAS TCNICAS DE MD EM AGE ................. 108
4.1 CARACTERSTICAS DO PROBLEMA A SER TRATADO............. 108
4.1.1 Seleo, limpeza e transformao dos dados ...................................... 110
4.1.2 Aplicao das tcnicas de Minerao de Dados ................................. 111
4.1.3 Tipos de aprendizado .......................................................................... 112
4.1.4 Aprendizagem No Supervisionada (ANS) ........................................ 113
4.1.4.1 Associao.......................................................................................... 113
4.1.4.2 Anlise de Componentes Principais ................................................... 122
4.1.4.3 Clusterizao ...................................................................................... 123
4.1.5 Aprendizagem Supervisionada ........................................................... 126
4.1.5.1 Classificao....................................................................................... 127
5 CONCLUSES ........................................................................... 130
5.1 CONTRIBUIES ................................................................................ 131
5.2 SUGESTES PARA TRABALHOS FUTUROS ................................. 133
REFERNCIAS BIBLIOGRFICAS ......................................... 134
ANEXO A QUESTIONRIO APLICADO AOS
INGRESSANTES .......................................................................... 146
ANEXO B QUESTIONRIO APLICADO AOS EGRESSOS150
14
1 INTRODUO
Tambm Foguel e Souza (1993 apud Maccari, 2002, p.20) ao analisarem a os diversos
setores econmicos, relatam que:
Uma enorme mudana tem sido observada a partir da ltima verso da Lei de
Diretrizes e Bases da Educao (LDB, 1996). Pode-se observar que o setor educacional
passou a ser visto como uma grande oportunidade de negcios para os empreendedores. Isto
pode ser confirmado atravs da anlise do Censo da Educao Superior realizado pelo
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira (Inep/MEC) no ano
de 2008, no qual observa-se um aumento no nmero de IES no pas.
A extrao de informaes que sejam relevantes aos interesses dos gestores, est se
tornando complexa diante da quantidade de dados armazenados. Denomina-se Knowledge
Discovery in Databases KDD (Descoberta de Conhecimento em Bases de Dados), a
atividade de garimpar a informao contida nestes dados. Apesar de ser comum usar os
termos KDD (Knowledge Discovery in Database) e Minerao de Dados com o mesmo
significado, Fayyad et al.(1996) definem o KDD como sendo o processo da extrao de
conhecimento dos dados como um todo, e Minerao de Dados, como apenas uma etapa em
particular do KDD, sendo que nesta etapa a extrao de padres dos dados realizada atravs
do uso de algoritmos especficos.
Descobrir o conhecimento oculto nas grandes bases de dados das mais diversas
organizaes, seja de forma automtica ou semi-automtica o objetivo do Minerao de
Dados, alm de permitir uma maior agilidade no processo de tomada de deciso por parte dos
gestores.
O gestor que possui, domina e usa a informao de forma estratgica possui papel
fundamental no desenvolvimento de qualquer organizao, da qual faa parte. O gestor deve
trabalhar a informao de forma que sirva como elemento base para a tomada de decises,
desde que esta informao seja precisa, segura, confivel e esteja a disposio, informaes.
estas que se encontram no AGE das IES.
Diante desta problemtica, cabe levantar a seguinte questo que foi norteadora da
pesquisa de campo: De que forma as tcnicas de extrao de informaes podem auxiliar os
gestores da IES? Mais pragmaticamente, como a gesto da informao obtida pelo uso de
tcnicas de extrao de informao pode ajudar os profissionais da IES, a auxiliarem na
tomada de decises estratgicas para o gerenciamento de sua instituio?
Isto vem ao encontro de Cardoso e Machado (2008, pg. 497) que definem o
Minerao de Dados como:
[...] uma tcnica que faz parte de uma das etapas da descoberta de conhecimento em
banco de dados. Ela capaz de revelar, automaticamente, o conhecimento que est
implcito em grandes quantidades de informaes armazenadas nos bancos de dados
19
de uma organizao. Essa tcnica pode fazer, entre outras, uma anlise antecipada
dos eventos, possibilitando prever tendncias e comportamentos futuros, permitindo
aos gestores a tomada de decises baseada em fatos e no em suposies.
A tcnica de Minerao de Dados, que faz parte das ferramentas de KDD, tem por
objetivo agilizar o processo de minerao das informaes, facilitando a busca e
minimizando as dificuldades de se procurar informaes em grandes bases de dados.
Mesmo que autores que tm por objeto este assunto determinem mais tarefas, abordar-
se-o as que sero utilizadas neste estudo, sendo elas: associao, classificao e clusterizao
(clustering). Estas tcnicas foram escolhidas por serem prximas entre si nos seus objetivos e
por serem de maior compreenso por parte do gestor da IES.
Pode-se aplicar as tarefas e tcnicas da MD aos dados gerados pelos AGE, nos quais
podem ser encontradas relaes entre os dados disponveis, segundo Kampff (2009, p. 79):
Os resultados da MD podem ser utilizados para obter uma melhor compreenso dos
processos subjacentes de ensino, para a gerao de recomendaes e conselhos aos alunos,
para melhorar a gesto de objetos de aprendizagem.
Ser aplicada a tcnica de minerao de dados na IES, sendo esta instituio de ensino
privado, haja vista, que este setor vem despertando o interesse de novos investidores. Isto faz
com que as IES repensem em seus mtodos, buscando novas tecnologias e ferramentas que
possam auxili-las a manterem-se neste mercado altamente competitivo.
Com intuito de atender a soluo proposta nesta dissertao, a anlise dos dados foi
feita num Ambiente de Gesto Educacional, no qual as informaes consideradas pessoais,
como: nomes, endereos de e-mail, telefones foram omitidos para preservao da integridade
de seus proprietrios.
Uma vez que este trabalho objetiva-se na utilizao da tcnica de Minerao de Dados,
com o intuito de municiar os gestores com informaes confiveis, relevantes e de qualidade
para a tomada de decises estratgicas, foram consideradas unicamente as informaes
constantes na base de dados do Ambiente de Gesto Educacional.
Embora seja reconhecido que as IES e alguns outros setores do mercado sofram
impacto direto do uso da informao, suas dimenses e comportamentos no so a essncia
deste trabalho.
22
1.1.3 Justificativa
Assim como as demais organizaes, as IES no se excluram dos avanos gerados
pela TI, que vo alm do simples conjunto de recursos computacionais. Elas esto buscando
extrair destes recursos o mximo de informaes e com o uso destas informaes gerirem
suas atividades.
As atividades desenvolvidas pelas IES, seja desde o ensino bsico ou superior, devem
ser entendidas como uma atividade empresarial semelhante a qualquer outra. Diante disto as
instituies de ensino esto sujeitas s mesmas presses que aflige aos demais mercados.
Esta realidade no diferente para as IES, ainda mais quando leva-se em considerao
as fuses que esto ocorrendo no mercado de ensino. Isto faz com que a concorrncia se torne
mais agressiva, transformando a informao disponibilizada aos discentes, docentes e
colaboradores das IES um bem precioso.
24
Com base nestas informaes retiradas dos relatrios do MEC/IMEP, se observa que
existe uma defasagem entre a oferta e a procura, o que indica que a concorrncia neste setor
vem se tornando mais intensa. Vivencia-se uma nova era na gesto das IES, com base nas
novas regras, portarias e leis que regularizam o setor educacional no pas.
25
A quantidade de dados, dos mais variados tipos e sua falta de estruturao, aliada a
quantidade de informaes que esto sendo disponibilizadas aos gestores, acabam se tornando
elementos que dificultam o processo de tomada de decises.
Os dados foram disponibilizados em duas planilhas do Excel, onde uma das planilhas
contm as respostas dos itens propostos no questionrio scio-educacional aplicado aos
candidatos no ato da inscrio ao processo seletivo (Vide Anexo A). Noutra planilha
encontram-se os itens propostos no questionrio scio-economico aplicado aos egressos da
IES (Vide Anexo B).
Acredita-se que com a utilizao das tcnicas de Minerao de Dados no AGE das
IES estimule a criao e utilizao de informaes de carter realmente til para os
gestores, visando a identificao de novas oportunidades, formas de uso e auxiliando na
tomada das decises estratgicas. A aplicao de tcnicas de Minerao de Dados nas
IESs vem reforar seu arsenal de estratgias para enfrentarem o mercado.
Furtado (2004) salienta que Ferramentas que auxiliem na busca, seleo e extrao de
informaes especficas e relevantes na Web - e no somente oriundas dela - tm cada vez
mais recebido maior importncia, de forma a minimizar o trabalho manual do usurio.
1.2 OBJETIVOS
Dentro deste cenrio, os objetivos da proposta em questo so a seguir descritos.
27
1.3 METODOLOGIA
A pesquisa tem como uma de suas definies mais simples, a obteno de respostas
por meio do uso de mtodos cientficos, para as questes ou problemas propostos. Tendo
como ponto de partida uma dvida levantada ou um problema a ser resolvido e fazendo uso
de um ou mais mtodos cientficos, a pesquisa tem o objetivo de buscar uma soluo ou
resposta para a dvida levantada ou o problema em questo.
Sob o ponto de vista da natureza, a pesquisa pode ser classificada como aplicada. Na
pesquisa aplicada, procura-se a partir da gerao de conhecimento para a aplicabilidade
prtica, direcionando para a soluo de determinados problemas.
novamente analisadas para orientar uma nova ao que possa modificar as condies
consideradas indesejadas.
Os dados foram disponibilizados em duas planilhas do Excel, onde uma das planilhas
contm as respostas dos itens propostos no questionrio scio-educacional aplicado aos
candidatos no ato da inscrio ao processo seletivo (Vide Anexo A). Noutra planilha
encontram-se os itens propostos no questionrio scio-economico aplicado aos egressos da
IES (Vide Anexo B).
Perante o ponto de vista dos objetivos, a pesquisa pode ser classificada como
exploratria. Na explorao procurou-se maior familiaridade com o problema objetivando-o
torn-lo explcito.
2 REFERENCIAIS TERICOS
Rezende (1999, apud REZENDE e ABREU, 2009, p.38) enfatiza que Todo sistema,
usando ou no recursos de Tecnologia da Informao, que manipula e gera informao pode
ser genericamente considerado como Sistema de Informao.
Sistemas de Informao tendem a ser a soluo para muitas organizaes desde que
estas organizaes tenham certeza do que necessitam e saibam aonde querem chegar com o
uso de suas informaes.
2.1.1 Informao
Ter o conceito de informao definido essencial para o entendimento correto dos SI
e como o processamento por eles realizado gera a informao necessria para a tomada de
decises.
Outro autor Robredo (2003, p. 1) cita em sua obra, a qual traz uma definio de um
compndio ingls, na qual a informao um conjunto de dados organizados de forma
compreensvel, registrado em papel ou em outro meio e suscetvel de ser comunicado.
[...] informao todo o dado trabalhado, til, tratado, com valor significativo
atribudo ou agregado a ele e com sentido natural e lgico para quem usa a
informao. O dado entendido com um elemento da informao, um conjunto de
letras, nmeros ou dgitos, que, tomado isoladamente no transmite nenhum
conhecimento, ou seja, no contm significado claro.
Barreto (2002) descreve que no perodo compreendido entre 1945 e 1980, a gerncia
da informao era considerada um problema, pois a ordenao, organizao e disseminao
de informaes no atingiriam seus objetivos uma vez que as teorias e os instrumentos da
poca no tinham a capacidade requerida para tal situao.
35
Alvarenga (2006, p. 31) relata que seja qual for o profissional que far uso da
informao, ele deve saber distinguir as informaes que lhe so apresentadas e quais
realmente so necessrias para suas necessidades.
Embora a informao seja um ativo que precisa ser administrado, tal qual os demais
bens da organizao, ela tem uma caracterstica diferente do ponto de vista de sua utilizao:
ela infinitamente reutilizvel, no se deteriora nem se deprecia, e seu valor determinado
apenas pelo usurio.
A medida que se conceitua a informao, tem-se uma maior dificuldade baseada nas
mudanas sociais e tecnolgicas que recriam a cada dia uma nova realidade, seja ela pessoal
ou empresarial. Diante desta nova perspectiva, surge um norte a ser seguido, no qual o
conhecimento adquirido, resultado da capacidade de recordao de fatos, torna-se um
diferencial a ser utilizado. Este conhecimento por vezes desprezado de muita valia diante as
adversidades enfrentadas pelas organizaes.
Stair e Reynolds (2008, p.6) destacam as qualidades da informao para que a mesma
seja considerada til nas tomadas de decises. Para os autores, a informao considerada
valiosa quando ela :
Rezende (2001, p.3) destaca que "a formulao estratgica de qualquer negcio
sempre feita a partir das informaes disponveis, portanto, nenhuma estratgia pode ser
melhor que a informao da qual derivada". Nesse contexto, verifica-se que, a chance da
organizao tornar competitiva est fortemente influncia pela gesto da informao.
Beuren (2000, p.67-68 apud CELLA, 2006, p. 146) destaca que: "... para assegurar o
valor estratgico da informao, na fase de execuo dos planos organizacionais, precisa
haver um processo coordenado de todas as etapas do gerenciamento da informao.".
Uma forma de manter-se preparado, tendo uma viso integrada da organizao, fazer
uso do SI. A crescente evoluo das tecnologias tem possibilitado a criao de SI,
preocupados como processo de gerao das informaes.
integrao de novos conhecimentos aos seus negcios e a organizar o fluxo dos papis dentro
da organizao;
So sistemas de informao que suportam o trabalho de quem lida com dados e com
conhecimento. Tm que permitir a integrao de novo conhecimento no negcio,
logo devem ser muito flexveis, bem como permitir o controlo de fluxo do trabalho,
sendo assim, fceis de utilizar e no obrigarem no obrigarem a grande desvios do
trabalho normal para que se faa a recolha de informao. Caso contrrio, as pessoas
tendem a no os usar, o que deita por terra todo o interesse dum sistema deste tipo.
Fialho (2001, p.68) menciona que neste nvel os sistemas de informaes gerenciais
servem s funes de planejamento e tomada de deciso. Apresentam relatrios sumarizados
com informaes condensadas.
Neste nvel os SI, vo alm das informaes gerenciais tradicionais, nas quais so
produzidos apenas relatrios. Os SI deste nvel fornecem auxlio imediato na resoluo de
problemas complexos e que no podem ser assistidos pelos SI do nvel administrativo,
sugerindo alternativas e possibilitando condies ideais s tomadas de decises finais.
Oliveira (1992, apud DALFOVO 2007, p. 29), relata que os SIG so voltados aos
administradores de empresas que acompanham os resultados das organizaes semanalmente,
mensalmente e anualmente, eles no esto preocupados com os resultados dirios.
Os SIG tornam o plano de atuao organizacional mais fortalecido, haja vista que por
meio do recebimento dos dados e da gerao destes em informaes teis, o processo de
tomada de deciso possibilita a gesto da organizao de forma mais estratgica e, por
conseguinte resulta em vantagem competitiva sustentvel em relao as organizaes
concorrentes.
Rezende e Abreu (2009, p. 114) corroboram relatando que os SIG trabalham com os
dados agrupados (ou sintetizados) das operaes funes empresariais da empresa, auxiliando
a tomada de deciso do corpo gestor ou gerencial das unidades departamentais, em sinergia
com as demais unidades.
45
Hadda (2007, p. 62) relata que os SIE podem alterar radicalmente o processo de
tomada de deciso e aumentar a produtividade e a acuracidade das decises tomadas pelos
gestores. Esta alterao d-se em funo das informaes apresentadas, as quais so oriundas
das diversas reas da organizao.
Os SIE so direcionados aos gestores que tenham pouco ou quase nenhum contato
com SI automatizados. Suas caractersticas consistem na combinao de dados internos e
externos; a apresentao de relatrios muitas vezes em forma de grficos; acesso a banco de
dados internos e externos.
Vedovelli (2005, p. 59) baseado em Stair (1998) e Pozzebon (1997), descreve algumas
caractersticas desejveis aos SIE:
O uso de SIE um dos fatores de melhoria na tomada das decises estratgicas, o que
permite que se obtenha uma vantagem competitiva sustentvel em relao aos seus
concorrentes.
Observa-se que existem diferentes tipos de SIS, para diferentes necessidades dentro
das organizaes. Estes diferentes tipos de SI auxiliam a organizao na descrio e
diagnstico de suas operaes, transaes e servem de base para a tomada de decises,
assegurando de forma conjunta com a infra-estrutura de suporte, a funo de captura,
processamento e disseminao das informaes.
de longo prazo, no qual haja a integrao entre dados dos diversos nveis da organizao, com
objetivo maior de obter a vantagem competitiva sustentvel.
Para Stata (1997, p. 392), a interconexo de alguns elementos, faz com que haja a
gerao do conhecimento:
Alvarenga (2006, p. 45) faz uma sntese das principais caractersticas da Gesto da
Informao, conforme se observa no Quadro 1, onde resume em sete tpicos as caractersticas
necessrias para a gesto organizacional com base nas informaes.
Concluso.
7) Capacidade de definio das Nem toda informao que a empresa gera ou adquire
informaes necessrias. importante para determinada situao ou deciso.
Conhecer as informaes que a empresa possui
proporciona agilidade na tomada de deciso e evita
perda de foco.
8) Necessidade de conhecimento das Por serem utilizadas especificamente para a tomada de
informaes gerenciais. decises, precisam ser conhecidas, principalmente pelo
nvel estratgico da organizao (Tomadores de
deciso).
Quadro 1 - Caractersticas da informao
Fonte: Alvarenga (2006, p. 45)
Para Alves (2005, p. 58) o impacto destas mudanas afeta a infra-estrutura das IES, e
para a autora:
Uma vez que a empresa reconhece o papel positivo que a informao pode
representar, cabe a ela refletir sobre questes primordiais relativas criao de
processos eficazes de gesto da informao. Tal esforo poderia resultar no
54
Tanto as IES como qualquer outra organizao, devem desfrutar dos benefcios
oferecidos pela tecnologia e mais especificamente pelo uso dos SIG. Para tanto devem
abandonar velhos hbitos de trabalho e gesto e adotar as novidades trazidas pelas
ferramentas e sistemas a disposio.
Uma maneira de contrapor o insucesso de uma IES fazendo uso das tecnologias da
informao e de suas ferramentas. Assim a gesto das informaes e a tomada de decises
estaro baseadas em instrumentos tecnolgicos que conseguem extrair de forma mais rpida e
precisa as informaes necessrias para a gesto estratgica da IES.
55
Para os autores os recursos da TI, dentre os quais citam-se os SIG merecem maior
ateno por parte dos gestores, pois por meio destes recursos que se tem a gerao e gesto
da informao que servir para a tomada das decises.
A EI presta um grande servio minerao de dados, uma vez que por meio da EI as
informaes extradas de uma base de dados so as consideradas mais relevantes para o
usurio. O que resulta em tomadas de decises com maior grau de certeza, haja vista que as
informaes desnecessrias e/ou redundantes so descartadas.
Deve-se separar os dois conceitos, uma vez que o SGBD trata com tabelas e a forma
de interao, consulta, feita por meio de uma linguagem especfica para tal, Data
Manipulation Language (DML), Linguagem de Manipulao de Dados, trazendo como
resultado apenas duas possveis respostas, existe ou no existe um conjunto de dados que
atendam a consulta. Enquanto no SRI, passvel que no exista apenas uma nica resposta
consulta realizada, em virtude da incerteza associada ao documento analisado.
57
Portanto a informao tem hoje uma importncia que cresce a cada dia. Ela tornou-se
o elemento base para a organizao, desde a aquisio, transformao at a sua utilizao nas
tomadas de decises.
O principal desafio como fazer com que os dados armazenados nos bancos de dados
sejam convertidos de dados aparentemente sem sentido em informaes teis. Este desafio
crtico, porque as organizaes esto cada vez mais contando com uma anlise eficaz das
informaes simplesmente para se manterem competitivas.
Shiba (2008) relata que esta capacidade de armazenagem dada em funo da oferta
de recursos tecnolgicos, onde a capacidade de armazenamento est cada vez maior, aliado ao
desenvolvimento de softwares que do suporte a esta funo.
Descobrir o conhecimento oculto nas grandes bases de dados das mais diversas
organizaes, seja de forma automtica ou semi-automtica o objetivo do Minerao de
Dados, alm de permitir uma maior agilidade no processo de tomada de deciso por parte dos
gestores.
A diferena entre estes dois conceitos feita da seguinte forma: o KDD utiliza-se de
uma base de dados, tabulados e estruturados, para extrair o conhecimento, enquanto o KDT
extrai o conhecimento de dados no tabulados e estruturados.
Vrias atividades esto relacionadas ao KDD, que por sua vez contribuiu em vrias
reas, dentre as quais se destacam: a estatstica, o aprendizado de mquina, a rea de banco de
dados e a inteligncia computacional. (GOLDSCHMIDT e PASSOS, 2005)
60
Por ser um processo contnuo e cclico o KDD, permite que os seus resultados sejam
refinados e melhorados a medida que so analisados. Para esta melhoria, alguns autores
estabelecem os passos as serem seguidos, dentre os quais destacam-se Fayyad, Piatetsky-
Shapiro e Smyth, ressalta-se que apesar dos passos serem seqenciais, pelo fato do processo
ser interativo e iterativo, pode-se rever cada etapa a qualquer momento, dando ao processo
uma maior flexibilidade e consequentemente uma melhoria nos resultados, conforme visto na
Figura 7.
Nesta etapa se deve definir quais so as perguntas e decises que se encaminham para
a fase de garimpagem das informaes. uma fase muito importante, na qual deve-se manter
o foco nas informaes estratgicas, de interesse, assim como a adaptao realidade dos
usurios.
Esta etapa tambm conhecida como Preparao de Dados, e por envolver uma
srie de atividades at a sua finalizao, que envolve inclusive o estudo de
processos, acaba se tornando a etapa que exige maior esforo dentro de um projeto
de extrao de conhecimento.
Scoss (2006, p. 24) define que: ...neste processo realiza-se uma avaliao da base de
dados que ser trabalhada, verificando as inconsistncias das informaes ali armazenadas,
como por exemplo: dados duplicados, faltantes, impossveis de serem analisados, entre
outros.
Kanashiro (2007, p.21) relata que: Alguns parmetros, como o tipo de tarefa de
minerao de dados e a forma como os padres sero representados, so determinados pelos
interesses do usurio final e conseqentemente influenciar na escolha do algoritmo.
aplicao do usurio que utilizado desde a preparao dos dados na etapa de pr-
processamento, na execuo do processo de minerao de dados e na validao do
conhecimento extrado.
O modelo atual processo de minerao de dados fornece uma viso geral do ciclo de
vida de um projeto de minerao de dados. Ele contm as fases de um projeto, suas tarefas
respectivas e as relaes entre essas tarefas. Neste nvel de descrio, no possvel
identificar todas as relaes.
As tarefas efetuadas nesta fase so: a coleta inicial de dados, explorao e verificao
das qualidades dos dados.
O resultado desta fase ser o conjunto de dados que servir de subsdio para
minerao dos dados. Aqui ocorre a seleo de atributos, o tratamento de valores
faltantes, erros nos dados, integrao de fontes de dados, formataes, diviso dos
dados em, pelo menos, um conjunto de treinamento e um conjunto de avaliao,
entre outras.
Para Dias (2001, p.24) O principal objetivo determinar se existe alguma questo de
negcio importante que no foi suficientemente considerada. Nesta fase, uma deciso sobre o
uso dos resultados de minerao de dados dever ser alcanada.
Ao trmino desta fase, uma deciso sobre a utilizao dos resultados da minerao de
dados deve ser atendido. Possui como tarefas: a anlise dos resultados, a reviso dos
processos e a definio dos prximos passos.
Concluso.
Metas da Minerao de Dados;
Determinar as metas da Minerao de
Critrios de sucesso da Minerao de
Dados;
Entendimento do Dados.
Negcio Plano do projeto;
Produzir o plano do projeto A avaliao inicial de ferramentas e
tcnicas.
Coletar os dados iniciais; Relatrio da coleta inicial dos dados.
Entendimento dos Descrever os dados; Relatrio da descrio dos dados.
Dados Explorar os dados; Relatrio da explorao dos dados.
Verificar a qualidade dos dados. Relatrio da qualidade dos dados.
Selecionar os dados; Justificativa para incluso/excluso.
Limpar os dados; Relatrio de limpeza dos dados.
Preparao dos Atributos derivados;
Construo dos dados;
Dados Registros gerados.
Integrar os dados; Dados mesclados.
Formatar os dados Dados reformatados.
Tcnica de modelagem;
Selecionar a tcnica de modelagem;
Modelagem de pressupostos.
Gerar o design do teste; Design do teste.
Modelagem As definies de parmetros;
Construir o modelo; Modelos;
Descrio do modelo resultante.
Modelo de avaliao;
Avaliar o modelo.
Parmetros revisados.
Avaliao dos resultados de minerao
de dados no que diz respeito aos critrios
Avaliar os resultados;
de sucesso empresarial;
Avaliao Modelos aprovados.
Processo de reviso; Reviso do processo.
Lista de aes possveis;
Determinar os prximos passos.
Deciso.
Implantao do plano; Plano de implantao.
Plano de manuteno e
Plano de manuteno e monitoramento.
monitoramento;
Desenvolvimento
Relatrio final;
Produzir o relatrio final;
Apresentao final.
Projeto de reviso. Documentao da experincia.
Quadro 2 - Constructo das fases do modelo CRISP-DM
Fonte: Adaptado de CRISP-DM (2010).
A metodologia CRISP-DM tem seu sucesso devido ao fato de ter sido desenvolvida
prtica, no estar atrelada a nenhuma ferramenta especfica de minerao de dados, mas sim a
juno das melhores prticas que so utilizadas em um projeto de minerao de dados, aliada
ao fato de atuar sobre todo o processo de MD.
O objetivo a ser alcanado pode ser obtido pelo uso de mais de uma tarefa e esta pode
se utilizar de diversas abordagens. Conhecidas como tcnicas, essas abordagens podem se
utilizar de diversos tipos de algoritmos para a implementao de determinada tarefa.
2.8.1 Classificao
Classificar um conceito j muito utilizado pelo ser humano. Esta tarefa consiste na
criao de classes previamente definidas de acordo com as semelhanas de algumas
caractersticas.
A tarefa de classificao considerada como uma tarefa preditiva, haja vista que suas
classes no so definidas, essa tarefa determina um conjunto de classes (padres) que podem
ser usadas para classificar novos objetos. Rabelo (2007, p. 27) refora que Ela busca uma
funo que permite associar corretamente cada registro (x) de um banco de dados a um nico
rtulo categrico de (y) chamado de classe.
2.8.2 Regresso
A tarefa de regresso semelhante tarefa de classificao, ela busca funes que
fazem o mapeamento dos registros contidos em uma base de dados. Por lidar com resultados
contnuos, esta tarefa pode ser utilizada como uma tarefa de classificao, estabelecendo-se
que diferentes faixas de valores correspondem a diferentes classes.
Na regresso, h uma busca por uma funo linear ou no, bem como a varivel que
est sendo prevista consiste de um atributo numrico (contnua), presente em bases de dados
com valores reais. A fim de implementar a tarefa de regresso, os mtodos de Estatstica e
Redes Neurais so utilizadas.
2.8.3 Associao
A regra de associao foi desenvolvida para analisar os dados de uma base de dados
num ambiente de marketing, no qual os dados de entrada so os compostos de cada transao
efetuada por um cliente e os dados de sada so composies obtidas por meio de regras.
Exemplificando, quando um cliente compra um produto X, em N% das vezes, ele compra o
produto Y tambm. Esta regra teria a representao vista no Quadro 3:
SE sexo = Masculino E
Implica que
Esta regra tem por objetivo a localizao de tendncias que facilitem a compreenso
de padres em grandes bases de dados. Os seus algoritmos procuram por relaes entre os
itens das transaes, analisando os que ocorrem simultaneamente, dando possibilidade de
entendimento de novos modelos.
Barioni (2001, p. 17) define que A tarefa dessa tcnica envolve a descoberta de regras
de associao que indiquem correlaes interessantes entre objetos de um dado banco de
dados. Ela estuda um padro de relacionamento existente entre itens de um dado.
74
Para Macedo e Matos (2010, p. 26) A anlise de cluster tem como objetivo verificar
a existncia de diferentes grupos dentro de um determinado conjunto de dados, e em caso de
sua existncia, determinar quais so eles
A clusterizao pode ser considerada como uma tarefa que identifica um conjunto
finito de categorias com intuito de descrever os dados. Seu objetivo principal fazer a
partio da base de dados em um nmero determinado de clusters, nos quais as instncias
destes clusteres sejam similares, conforme visto na Figura 12.
2.8.5 Sumarizao
A tarefa de sumarizao tem por objetivo a identificao e apresentao das principais
caractersticas dos dados, de forma concisa e compreensvel. considerada uma tarefa
descritiva.
Conforme Fayyad (1996 apud DIAS, 2001, p. 10), a tarefa de sumarizao envolve
mtodos para encontrar uma descrio compacta para um subconjunto de dados. Um simples
exemplo esta tarefa poderia ser tabular o significado e desvios padro para todos os itens de
dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.
Para Dias (2001, p. 12) A familiaridade com as tcnicas necessria para facilitar a
escolha de uma delas de acordo com os problemas apresentados. A seguir so descritas as
tcnicas de Minerao de Dados normalmente usadas.
c) Multicolinearidade;
A ACP consiste em, a partir da matriz de correlao das variveis, obter os autovalores
e autovetores que representaro a variabilidade explicada dos dados por cada componente
principal, e os coeficientes das componentes principais, respectivamente. Existem exatamente
m autovalores, no negativos, e tambm m autovetores correspondentes a cada autovalor
(LIRA, 2004; SCHMITT, 2005).
grande variao nos dados no implique na anlise de forma incorreta (LIRA, 2004;
SCHMITT, 2005).
Segundo Schmitt (2005 apud REIS, 2010), o critrio do scree plot pode ser utilizado
para determinar a quantidade mnima de componentes principais necessrias para explicar a
variao dos dados. O critrio consiste em representar a porcentagem de varincia dos dados
explicada num grfico e, quando a curva gerada pelos pontos passa a ser quase paralela ao
eixo das abscissas, as componentes devem ser desconsideradas. No caso de apenas 3
variveis, como o do exemplo, este critrio no muito indicado. O grfico gerado a partir do
exemplo pode ser observado na Figura 13.
81
Segundo Harrison (1998 apud DIAS, 2001, p. 13) Os algoritmos genticos usam os
operadores de seleo, cruzamento e mutao para desenvolver sucessivas geraes de
solues. Para Scoss (2006, p. 46) os AG so baseados no conceito de evoluo, os
algoritmos genticos usam processos de combinaes genticas, mutaes e seleo
natural. So aes de melhoria que utilizam processos como a combinao gentica, mutao
e seleo natural, com base nos conceitos da evoluo das espcies.
Rabelo (2007, p. 29) descreve a tcnica de AD como sendo uma Tcnica que utiliza a
recursividade para particionamento da base de dados na construo de uma rvore de deciso.
Cada n no terminal desta rvore representa um teste ou deciso sobre o item de dado. Tem
como objetivo a separao das classes e tuplas de classes diferentes a fim de serem alocadas
em subconjuntos diferentes, cada qual com suas regras. A tcnica de AD indicada para as
seguintes tarefas: classificao e regresso e tem como exemplos de algoritmos: CART,
CHAID, C4.5, C5.0, Quest, ID-3, SLIQ e SPRINT. (DIAS, 2001)
A ordem de apresentao das regras estabelece uma lista de deciso, a ser aplicada
em seqncia. A regra que aparece primeiro na lista tem maior prioridade para
predizer a classe. Quando um registro classificado, nenhuma outra regra posterior
de classificao ser aplicada sobre ele.
Para Dias (2001, p.12) o RBC Tenta solucionar um dado problema fazendo uso direto
de experincias e solues passadas. A distncia dos vizinhos d uma medida da exatido dos
resultados.
O uso do RBC tem como limitador o acesso s bases de dados completas, corretas e
confiveis que possuam em seus registros, a descrio completa dos problemas e das solues
86
As RNAs tm sido usadas com sucesso para as relaes do modelo envolvendo sries
temporais complexas em vrias reas do conhecimento. A maior vantagem das RNAs em
relao aos mtodos convencionais que eles no exigem informaes detalhadas sobre os
processos fsicos do sistema a ser modelado, com ele sendo descrito explicitamente na forma
matemtica e ainda por ser fortes e tm uma alta taxa de acurcia preditiva.
Dias (2001, p. 14) ressalta que Uma das principais vantagens das redes neurais sua
variedade de aplicao, mas os seus dados de entrada so difceis de serem formados e os
modelos produzidos por elas so difceis de entender.
Uma melhor definio de RNA dada por Costa (2010, p. 24), na qual descreve que:
A Rede Neural Artificial (RNA) foi desenvolvida e utilizada como uma ferramenta
de resoluo de problemas em vrios campos. RNAs so generalizaes de modelos
matemticos de sistema biolgico nervoso em nosso crebro e uma das principais
vantagens da RNA a capacidade de construir um modelo do problema utilizando
os dados a partir de medies experimentais do domnio do problema. Ao invs de
ser programado por um usurio em uma percepo tradicional, RNAs adquirem os
seus conhecimentos aprendendo as relaes das variveis de dados e construo de
um modelo, implicitamente, para relacionar as variveis de entrada e sada para o
problema.
(DIAS, 2001). A autora apresenta um resumo das principais tcnicas de MD juntamente com
suas tarefas e os algoritmos mais utilizados:
As aplicaes de softwares, sejam elas para quais finalidades forem, devem levar em
considerao fatores de deciso como o domnio da aplicao, a linguagem na qual a
aplicao ser desenvolvida, a plataforma do sistema operacional, dentre tantos outros.
Desta forma, as aplicaes desenvolvidas para MD, podem ser classificadas sob
diversas perspectivas, dependendo de suas tcnicas e quais tarefas iro realizar. A seguir
realizado um breve estudo das principais ferramentas de Minerao de Dados disponveis no
mercado.
89
Concluso.
NeuralWorks Predict F C S C S
NeuroSolutions F C S A/C S/C S
NeuroXL F C N C S
IPNNL Software B F S A S
Oracle Data Mining F C S C S,CS,PP
Orange F F S A S
PcSVM B P S A S
R F P S A S
SAS Enterprise Miner F C S A/C CS
StarProbe F C S A/C S/C S
STATISTICA NN F C S A S/C S
SvmFu 3 B P S A S
SVM-light F F S A S
TANAGRA F F S A S
HhinkAnalitics F C N C CS
Tiberius F C S A/C S/C S
Weka F P S A S
XLMiner F C S A/C S
Fonte: Cruz (2007, p. 45)
2.11 WEKA
Nessa pesquisa se fez o uso de um software que atende-se os critrios anteriormente
citados e em especial que fosse de licena livre. O software escolhido foi Weka, do acrnimo
(Waikato Environment for Knowledge Analysis). O software WEKA tem sido bastante
utilizado no meio acadmico em pesquisas que envolvam a rea de MD. Sua escolha se
justifica por causa de sua ampla aplicabilidade j que lida com atributos numricos
(reais e inteiros), nominais e caracteres (string).
91
1
Disponvel em: http://www.cs.waikato.ac.nz/~ml/weka
92
Conforme Scoss (2006) e Morate (2010) o WEKA pode ser utilizado de diversas
formas, em funo do mesmo possuir quatro diferentes interfaces implementadas, que so
elas:
93
De acordo com Morate (2010, p. 3), um arquivo ARRF composto por uma estrutura
definida em trs partes:
a) Cabealho;
c) Seo de dados.
c) Datas;
94
O software WEKA consegue importar dados em arquivos nos formatos ARFF, CSV,
C4.5 e binrio. O WEKA consegue tambm acessar os dados de uma URL ou de um banco de
dados, utilizando a linguagem SQL (Structured Query Language) por meio da conexo JDBC.
A Figura 20 mostra um exemplo de um arquivo final no formato ARRF,
Isto traz uma reflexo sobre a gesto adotada por ambos, primeiro sobre os que so
oriundos da educao, detm o saber da sala de aula, o conhecimento e ensino das
metodologias, inclusive as de administrao, mas isto no lhes garante o sucesso
administrativo. Segundo sobre os oriundos de outros setores, que apesar de serem experientes
nas questes de organizao, enfrentam a complexidade da razo de ser das IES.
O sistema universitrio brasileiro tem se expandido nos ltimos anos, o que trouxe
consigo uma srie de novas exigncias para as IES. Citam-se como novas exigncias a criao
e desenvolvimento de novas competncias atribudas aos gestores, os quais tm que atuar nos
diversos setores da instituio. Estas alteraes vm de encontro as normas estabelecidas pela
Lei de Diretrizes Bsicas da Educao Nacional (LDB) lei n 9.394/96.
Para Alves (2005, p. 37) A gesto baseada nos objetivos estratgicos tornou-se
fundamental para o pleno desenvolvimento de qualquer tipo de organizao, estando a
includas as IES particulares.
Nobrega (2004 apud BRAGA; MONTEIRO, 2005, p. 150) trata a gesto como sendo
um processo prtico, levando apenas em considerao o resultado obtido. O mesmo autor
retrata a gesto como uma pesquisa de critrios a serem utilizados na tomada de decises.
96
Corroborando com isto Colceni Jr et. al. (2008, p. 4), dizem que:
Esse modelo sistmico permite que a IES proceda a uma anlise do meio ambiente
para definir a sua estratgia em longo prazo, a partir de um provvel cenrio e dos
objetivos institucionais. A identificao dos processos sistmicos-chave fornece o
suporte e estabelece as condies indispensveis ao delineamento estratgico. Na
abordagem sistmica, valoriza-se o todo da organizao, ou um conjunto de partes
em constante interao.
[...] o uso das tecnologias na gesto escolar revela novos papis dos seus
profissionais - como organizadores de informaes, criadores de significados e
lderes - na tomada compartilhada de decises. Esses profissionais encontram nas
tecnologias, especialmente naquelas de Informao e Comunicao, o suporte
adequado para o desenvolvimento de suas atividades, apoiadas em informaes
provenientes de fontes distintas, internas ou externas ao sistema, e na colaborao
com seus pares e com a comunidade escolar.
Observa-se que a maioria das IES no est apta para enfrentar o cenrio atual do
ensino superior. Sua sobrevivncia em meio a este ambiente incerto est presa aos resultados
gerados pela gesto estratgica.
Tanto o ambiente empresarial quanto o das IES, possuem ao seu dispor diversas
ferramentas para gesto, entre as quais podem ser citadas, o planejamento estratgico, os
programas de qualidade total, a Gesto Participativa, a reengenharia, downsizing, a
terceirizao, o empowerment, Customer Relationship Management (CRM), Business
Inteligence, Balanced Scorecard, os Sistemas de Informaes, todas elas visando segundo
seus defensores a soluo dos problemas gerenciais.
99
3 TRABALHOS RELACIONADOS
2
Disponvel em: http://www.copernic.com
3
Disponvel em: http://www.temis.com
100
a) Pr-processamento;
b) Minerao de Dados;
c) Ps-processamento.
101
Para Shiba( 2008, p. 85) [...] Elaborar um modelo com uma amostra pequena pode
ser til quando as classes esto representadas proporcionalmente em relao a uma amostra
maior[...], isto quer dizer que se os dados a serem trabalhados numa amostra menor
estiverem proporcionalmente distribuidos em relao a um amostra com maior quan tidade de
registros, o resultado da aplicao da MD no sofrer influncia.
Outra trabalho foi desenvolvido por Machado Filho (2006) no qual o autor propos o
desenvolvimento de um ambiente de MD, utilizando dois modelos de Redes Neurais
Artificiais, Multi Layer Perceptron (MLP) e Radial Basis Function (RBF), em problemas de
classificao e prediao de dados. O autor incorpoou em seu ambiente a tcnica do Algoritmo
Gentico para a determinao da topologia da rede e na extrao das regras.
Machado Filho fez uso da plataforma MS Excel, por esta apresentar algumas
caractersticas que considerou importantes, como: os recursos grficos, a utilizao de funes
j existentes, a importao e exportao dos dados e principalmente a integrao da
ferramenta com os demais aplicativos do pacote MS Office.
102
Cardoso e Machado (2008) utilizaram a plataforma Lattes como base para a aplicao
e anlise de uma ferramenta de Minerao de Dados com o objetivo de extrair informaes a
respeito da produo cientfica de seus professores e colaboradores da Universidade Federal
de Lavras (UFLA). Inicialmente foram selecionados mais de mil currculos, destes 575 foram
os selecionados por dados mais especficos para a pesquisa.
contidas na Plataforma Lattes, desenvolvidas por pessoas que trabalha na UFLA e as pessoas
que no trabalham. Como resultado obtiveram uma amostra com 1.977 publicaes das quais
55% so publicaes de pessoas que no estavam trabalham na UFLA quando da publicao e
o restante 45% de pessoas que estavam trabalhando na UFLA no momento da publicao.
O terceiro exemplo apresentado pelas autoras faz uma relao entre as publicaes
cadastradas e o tempo de servios prestados UFLA por seus autores, tendo como resultado a
caracterizao de que a maioria das publicaes foi realizada aps o ingresso do autor na
UFLA. (MACHADO e CARDOSO , 2008).
Os autores analisaram 272 registros dos usurios, com os quais trabalharam com 18
atributos: sexo, cdigos: do curso, do tipo do curso, da disciplina, da turma, do coordenador
do curso, o tempo levou para inscrio na turma aps o incio da inscrio, se trabalhou em
equipe, se uso a agenda de anotaes de sistema, os totais: de pontos obtidos na resoluo de
problemas, de problemas resolvidos, a mdia de pontos dos problemas resolvidos, a
quantidade de acessos as pginas do ambiente; se ficou acima da mdia de acessos de todas as
105
turmas e em sua turma (sim ou no); se ficou acima da mdia de pontos de todas as turmas e
se ficou acima da mdia de pontos da sua turma, conforme Erro! Fonte de referncia no
encontrada..
A autora realizou sua pesquisa fazendo uso das tarefas de clusterizao e classificao,
as quais foram aplicadas em uma base de dados que continha 36.672 instncias e 21 atributos.
Na tarefa de clusterizao foram definidos quatro clusteres, sendo estes o nmero de reas de
106
Os autores utilizaram como base para sua pesquisa uma IES localizada no municpio
de Goytacazes no RJ. O universo pesquisado era composto por 8.073 matriculas que foram
realizadas nos seguintes cursos oferecidos pela IES: 1.765 matrculas no curso de
Administrao, 1.160 no curso de Engenharia da Produo, 2.642 no curso de Fisioterapia e
2.506 matrculas no curso de Pedagogia. A Erro! Fonte de referncia no encontrada.
mostra o fluxo de interao do sistemas criado pelos autores.
Observa-se que existe uma diferena bem baixa entre os trs classificadores utilizados.
Para os autores o artigo contribuiu para a apresentao da tcnica de aprendizado de mquinas
e na escolha do melhor classificador, o que propicia ao gestor da IES, novos horizontes em
relao ao problema de evaso acadmica. Com base nesta nova informao, novas
estratgias de reteno podem ser tomadas.
108
Aps uma anlise prvia da base de dados, foi detectado que haviam vrios itens sem
o devido preenchimento ou com erros de digitao ou ainda com valores redundantes. Os
registros restantes foram adequados por meio de uma criteriosa avaliao manual, com
exceo de alguns registros que foram excludos da base, por no apresentarem condies de
correo. Por fim, trabalhou-se com 238 registros de ingressantes e 165 registros para
egressos.
Nesta etapa da pesquisa entrou-se em contato com a diretoria da IES a ser pesquisada,
solicitando o acesso base de dados, para que fossem realizadas as etapas da Minerao de
Dados. A ela foi solicitada a permisso de acesso, mas observou-se que apenas o acesso no
109
O prximo passo foi enviar ao gestor da IES um documento pedindo-o que elaborasse
questes de seu interesse referente a gesto da instituio(Vide Anexo A). O objetivo destas
questes era o de definir o tipo de informao que seria interessante de ser descoberta na base
de dados e iniciar o processo de KDD, atravs da compreenso do domnio da aplicao e do
estabelecimento dos objetivos a serem atingidos (CRISP-DM, 2010).
110
Os atributos foram criados com o tipo de dados nominal, uma vez que a ferramenta
WEKA no trabalha a regra de classificao com atributos do tipo numrico. Em funo desta
limitao os atributos numricos foram enquadrados em faixas de valores nominais.
111
4.1.4.1 Associao
Na tarefa de associao, o objetivo a descoberta de regras de associao, que so
expresses X Y (onde se l: SE (X) ENTO (Y)), sendo que X e Y so conjuntos de itens,
X Y = . Esta regra tem com signicado que os conjuntos de itens X e Y ocorrem
frequentemente juntos numa mesma transao (registro). (Agrawal et al 1993).
Para avaliar uma regra de associao existe outra medida que o valor do suporte da
regra, que representa a frequncia de ocorrncia dos itens X e Y em relao base de dados
(AGRAWAL et al.,1993)
A primeira regra mostra que 86 (36% do total da amostra) que moram com os pais e
fizeram o ensino mdio em escola pblica ainda so solteiros com uma confiana de 100%.
Outra regra a ser considerada a regra 04 (Se Ocupacao=EEP e Meio_de_Transporte=Onibus
e Ensino_Medio=Publica, com 92 registros, implica que Quem_Decidiu=Propria com 86
ocorrncias, com um grau de confiana de 96%).
Como o resultado apresentado com maior percentual de suporte foi onde se encontra a
faixa de tempo relativa ao perodo de ingresso no curso aps a concluso do ensino mdio,
que apresentou 29,83% dos casos, aplicou-se ento uma segunda regra de suporte desta vez
analisando o atributo Razao_Escolha_Curso.
De posse destes resultados foi ento calculado o grau de confiana para as instncias
da unio dos trs atributos com maior expressividade, aplicando-se a frmula descrita na
Equao 2, a confiana uma medida de fora da regra. (AGRAWAL ET ALL., 1993):
O resultado final para a confiana fica em 92% da ocorrncia da unio entre estes
quatro atributos anteriormente descritos, uma vez que estes atributos tiveram os resultados
acima do valor estipulado para o suporte que era de 40%. O que se observa com a aplicao
desta regra pode ser melhor visualizado pelo resultado gerado pela ferramenta WEKA.
117
Para aplicao da regra de associao foram utilizadas as 238 instancias, nas quais
observou-se que os ingressantes que concluiram o ensino mdio num perodo entre 01
e 03 anos e escolheram o curso por motivo de adequao pessoal, com 39 instancias, so
alunos que escolheram a IES por sua localizao, em 36 ocorrncias, haja vista a mesma
localizar-se no centro da cidade. Esta regra demostra que um ponto a favor da IES est em
situar no centro da cidade, tendo seu acesso facilitado em funo da prximidade de pontos de
nibus.
Esta relao tem um grau de confiana de 92%. O que ficou mais evidente quando
se analisou os atributos Ensino_Medio, Meio_Transporte, Razao_Escolha_IES.
b) Ingressantes com a mesma faixa de renda, mas com o foco voltado para o
mercadode trabalho.
Sob a mesma tica de anlise do ponto de vista econmico dos ingressantes, foram
analisadas as possveis associaes entre os atributos: Curso, Ponto_de_Vista_Financeiro e
Pos_Curso, conforme expresso no Grfico 5.
O que se observa no resultado desta anlise que a grande maioria dos ingressantes
contribui de alguma forma monetria na renda familiar, sendo que destes, os alunos do curso
de Administrao, 54% so responsveis pelo sustento da famlia e tm como meta Ps_Curso
o ingresso numa carreira estvel, por meio da realizao de um concurso pblico, como ser
melhor explicitado na tarefa de Clusterizao.
Para os egressos, foram analisadas num primeiro experimento 165 instancias da base
de dados, com grau de confiana de 90% (automtica gerada pela ferramenta), o que resultou
na gerao de 10 regras, conforme Figura 29.
120
A regra mais expressiva foi a de nmero 4, Se indicaria a IES = No, com um total de
126 registros, uma vez que a mesma regra demonstrou que 117 egressos No conhecem a
poltica de Ex-aluno, com 93% de confiana. Assim como a regra 5, Se contactado = No,
com 129 registros, sendo que destes 119 No conhecem a poltica de Ex-aluno.
A qualidade dos cursos de graduao oferecidos pela IES considerada boa por 23
egressos que possuem renda bruta mensal de 2 SM at 5 SM, o que representa apenas 14%
dos registros, podendo ser compravado quando a anlise feita com os alunos do curso de
Administrao que se enquadram nesta situao, sendo que dos 33 egressos 25 consideram
como boa, o que representa 76% da amostra dos egressos do curso de Administrao, porm
apenas 15% do universo total da amostra.
A Matriz curricular da IES procura estar em ateno com o mercado, de forma que
pode ser verificado com a anlise das consideraes registradas peloa egressos. O que se
observa que a Qualidade da Matriz Curricular contribui de alguma forma no ingresso da
profisso e principlamente na ascenso de cargos por parte dos egressos.
Estas regras refletem a no interao da IES com seus egressos, o que acarreta em
mais custos na angariao de alunos para os cursos de extenso e ps graduao que so
oferecidos pela IES. Uma poltica de benefcios para ex-alunos pode ser implantada com
122
maior clareza se for divulgada nos semestres finais dos cursos de graduao ou nos demais
nveis, fato este que serveria de base para a prospeco dos servios prestados pela IES.
Um forte elemento que pode ser utilizado a qualidade da Matriz Curricular, que
est alinhada com as exigncias do mercado no qual a IES est inserida e que tem grande
influncia na vida profissional dos egressos.
Assim sendo, o atributo que melhor expressa o conjunto de dados para posterior
anlise o atributo Concluso_Ensino_Medio. Quanto aos egressos a tcnica de ACP foi
aplicada nos seguintes atributos:
4.1.4.3 Clusterizao
A Clusterizao exercida sobre dados nos quais as classes no se encontram
definidas. Esta tcnica consiste na identificao de novos grupos, que contenham
caractersticas semelhantes e segmentar os registros com tais caractersticas.
Ao aumentar o nmero de clusters, a diviso foi mais significativa no grupo que estava
prximo ao cluster 1, uma vez que a diviso ficou sendo da seguinte maneira:
Quanto aos egressos foram criados inicialmente 03 clusters, o que mostrou uma
caracterstica muito boa, pois 60% dos registros foram agrupados no cluster 0, que retrata a
contribuio do curso na questo de ascenso na vida profissional mas apesar disto no
indicaria a realizao de um curso na IES para outras pessoas.
4.1.5.1 Classificao
A tarefa de classificao tem por objetivo encontrar caractersticas comuns entre um
conjunto de objetos de uma base de dados e classific-los em classes diferentes. Para chegar a
estas classes necessrio seguir alguns passos: 1) definir um conjunto de exemplos
(previamente conhecido) para treinamento; 2) aplicar o treinamento sobre este conjunto
conhecido e por fim gerar as regras de classificao.
Para Martinhago (2005, p. 20), Nessa tarefa cada tupla (registro), pertence a uma
classe entre um conjunto pr-definido de classes. Pode-se por exemplo classificar os
ingressantes em relao o que pretende fazer quando conclurem o curso, atributo Pos_Curso,
em: ser empregado de empresa privada, participar de concurso pblico, gerenciar negcio
familiar, gerenciar negcio prprio ou outras atividades.
Uma forma bastante utilizada para validao da classificao feita com o uso da
chamada matriz de confuso, que uma matriz quadrada de dimenses N x N, onde N o
nmero de classes que se encontram sob investigao. As linhas desta matriz representam as
classes desejadas enquanto as colunas so as associaes definidas pelo algoritmo
classificador. Mori (2008, p. 85) define que Os elementos da matriz diagonal representam o
nmero de exemplos corretamente classificados (coincidncias ou concordncias). Os
elementos acima da diagonal representam os erros de omisso e os abaixo da diagonal os de
incluso.
Isto tende a estar em acordo com o curso realizado pelos ingressantes, pois dos 71
ingressantes no curso de Direito, 53 optaram pela opo de concurso pblico, o que representa
75% dos ingressantes neste curso, enquanto no curso de Administrao 37% dos ingressantes
optaram por abrirem o negcio prprio, sendo 31 num total de 83 ingressantes no curso de
Administrao.
129
5 CONCLUSES
Uma das principais caractersticas que pode ser observada que a maioria dos
ingressantes so oriundos de escolas pblicas, escolheram a IES por sua localizao, tendo
concluido o ensino mdio num perodo relativamente curto de no mximo trs anos e
pretendem aplicar o seu lado empreendedor, ou seja, abrir seu negcio prprio.
Outra caracterstica importante que pode ser extrada e que deve preocupar os gestores
que a grande maioria dos egressos no recomendaria a realizao de um curso na IES. Cabe
aos gestores uma investigao mais aprofundada da situao afim de sanar este
descontentamento.
geradas pela ferramenta WEKA, foram analisadas e comprovadas pelo gestor da instituio, o
qual ir incorporar este novo conhecimento na tomada de suas decises.
5.1 CONTRIBUIES
Esta dissertao teve tambm como objetivo contribuir para a rea de Inteligncia
Aplicada atravs do uso das tcnicas e ferramentas de Minerao de Dados em conjunto com
a metodologia CRISP-DM e a aplicao das tarefas de Associao, Classificao e de
Clusterizao com o intuito de auxiliar na tomada de decises. Desta forma, as principais
contribuies so:
A anlise de dados feita pelo uso de tcnicas de minerao de dados ainda um pouco
difundido em IES, apesar de ser ensino em vrias delas, assim sendo este estudo e as
sugestes para trabalhos futuros visam contibuir para que o uso das tcnicas e metodologas de
132
REFERNCIAS BIBLIOGRFICAS
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining associations between sets of items in
massive databases. In: ACM-SIGMOD, 1993. Proceedings Intl Conference on
Management of Data, Washington D.C., May 1993..
BATISTA P., SILVA M.J. Mining Web Access Logs of an On-line Newspaper,
Departamento de Informtica, Faculdade de Cincias Universidade de Lisboa. Disponvel
em:<http://xldb.fc.ul.pt/data/Publications_attach/rpec02.pdf>. Acesso em: 01 ago. 2008.
BERNARDES, Jos Francisco; ABREU, Aline Frana de. A contribuio dos sistemas
de informaes na gesto universitria. Florianpolis, 2004. Anais do IV Colquio
Internacional sobre Gesto Universitria na Amrica do Sul.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O., The Semantic Web, Scientific
American, May 2001.
BISPO, Carlos A. F.. Uma Anlise da Nova Gerao de Sistemas de Apoio Deciso.
1998. 174 f. Dissertao (Mestrado em Engenharia da Produo) - Universidade de So Paulo
USP, So Carlos, 1998.
CELLA, Antonio S.. Sistemas de Informaes para a Gesto Estratgica das IES-
Privadas. 2006. 204 f. Dissertao (Mestrado em Cincia da Informao) - Pontifcia
Universidade Catlica de Campinas. So Paulo, 2006.
CRISP-DM. Cross Industry Standart Process for Data Mining. Disponvel em:<
http://www.crisp-dm.org/>. Acesso em: out. 2010.
137
CRISP-DM. Cross Industry Standart Process for Data Mining. Disponvel em:
<http://www.crisp-dm.org/>. Acesso em: 11 nov. 2010.
CRUZ, Armando J. R. da. Data Mining via Redes Neuronais Artificiais e Mquinas de
Vectores de Suporte. 2007. 123 f. Dissertao (Mestrado em Sistemas de Informao)
Universidade do Minho, Lisboa, 2007.
FAYYAD, U. Advances in knowledge discovery and data mining. Cambridge: MIT Press,
1996.
GIL, Antnio Carlos. Como elaborar projetos de pesquisa. So Paulo: Atlas, 2002.
HARJINDER, G; RAO, P.C. The official design the data warehousing. Que Corporation,
1996.
INMON, Willian H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.
KIMBALL, Ralph; MERZ, Richard. Data Webhouse: construindo o Data Warehouse para
a Web,. Traduo: Edson Furmankiewicz, Joana Figueiredo. Rio de Janeiro, Campus, 2000.
KOBS, Fabio F.; REIS, Dlcio R. dos.. Gesto nas Instituies de Ensino Superior Privado.
Revista Cientfica de Administrao, v. 10, n. 10, jan./jun. 2008.
LASSILA, O.; SWICK, R. R. Resource Description Framework (RDF) Model and Syntax
Specification. 1999. W3C Recommendation. http://www.w3.org/TR/REC-rdf-syntax/.
MACCARI, Emerson Antonio, SAUAIA, Antonio Carlos Aidar. Aderncia dos Sistemas de
Informao na Tomada de Deciso em Jogos de Empresa. In: Revista de Gesto da
141
Tecnologia e Sistemas de Informao. Vol. 3, No.3, 2006, p. 371-388. Disponvel em: <
www.revistasusp.sibi.usp.br/pdf/jistem/v3n3/07.pdf> . Acesso em: 20 Jul 2010.
POE, Vidette, KLAUER, Patricia, BROBST, Stephen. Building a data warehouse for
decision support. New Jersey, Prentice Hall PTR. 1998.
QUONIAM, L., et al. Inteligncia obtida pela aplicao de data mining em base de teses
francesas sobre o Brasil, Revista Cincia e Informao, Braslia, v. 30, n. 2, p. 20-28,
maio/ago. 2001.
RODRIGUES, Carlos Rangel et all. Ambiente virtual: ainda uma proposta para o ensino.
Cincias & Cognio 2008; Vol 13 (2): 71-83. Disponvel
em:<http://www.cienciasecognicao.org>, Acesso em: 16 de out. 2008.
SANTOS, George Frana dos. Uma avaliao dos nveis de aceitao de curso de
preparao de monitores para educao distncia da UVB Universidade Virtual
Brasileira. 2002. 90 f. Dissertao (Mestrado em Engenharia de Produo) Programa de
Ps-Graduao em Engenharia de Produo, Universidade Federal de Santa Catarina,
Florianpolis, Santa Catarina, 2002.
SCARINCI, Rui G.. SES : sistema de extrao semntica de informaes. 1997, 165 f.
Dissertao (Mestrado em Cincia da Computao) Universidade Federal do Rio Grande do
Sul UFRG, Porto Alegre, 1997.
SILVA F.; CNDIDO G., Aplicao da Tecnologia da Informao como Ferramentade apoio
para Inteligncia Competitiva e a Gesto do Conhecimento: Um Estudo de Caso no Setor
Varejista, 2003.
SVEIBY, Karl Erik. A nova riqueza das organizaes: gerenciando e avaliando patrimnios
de conhecimento. Rio de Janeiro: Campus, 1998.
VICTORINO, Ana Lcia Quental et al. Utilizao de ambiente colaborativo na internet como
suporte para o ensino de graduao e ps-graduao. In: CONGRESSO
INTERNACIONAL DE EDUCAO A DISTNCIA, 10., 2003, Porto Alegre. Anais...
Porto Alegre: ABED, 2003. p. 01 09. Disponvel em: <
http://www.abed.org.br/congresso2003/>. Acesso em: 13 out. 2008.
Com o objetivo de traar um perfil dos ingressantes no semestre ANO/1 e avaliar a eficcia
das campanhas de marketing, solicitamos a sua ateno para responder as questes que
seguem.
1. Curso
(1) Administrao
(2) Cincias Contbeis
(3) Publicidade e Propaganda
(4) Jornalismo
(5) Direito
(6) Psicologia
2. Sexo
(1) Masculino
(2) Feminino
3. Idade
(1) At 20 anos
(2) 21 a 25 anos
(3) 26 a 30 anos
(4) 31 a 40 anos
(5) Mais de 40 anos
4. Bairro: __________________________
5. Ocupao
(1) Empregado de empresa privada.
(2) Funcionrio pblico.
(3) Tem negcio prprio.
(4) Administra negcios da famlia.
(5) No trabalha.
(6) Outra (descreva). _________________
6. Estado civil
(1) Solteiro(a)
(2) Casado(a)
(3) Separado(a)//divorciado(a)
(4) Vivo(a)
(5) Outro
147
10. Assinale a situao que melhor descreve seu caso do ponto de vista financeiro.
(1) No trabalho e meus gastos so financiados pela famlia.
(2) Trabalho e recebo ajuda da famlia.
(3) Trabalho e me sustento.
(4) Trabalho e contribuo com o sustento da famlia.
(5) Trabalho e sou o principal responsvel pelo sustento da famlia.
12. Que meio voc mais utiliza para se manter atualizado(a)? (resposta NICA)
(1) Jornais
(2) Revistas
(3) TV
(4) Rdio
(5) Internet
18. Por quais meios voc obteve informaes sobre o IBES e seu processo seletivo?
(MLTIPLA resposta)
(1) Panfleto
(2) Rdio
(3) Jornal
(4) Televiso
(5) Internet
(6) Blitz do Vestibular
(7) Outdoor
(8) Display em Relgios
(9) Boca-a-boca
(10) Convnio com minha empresa
(11) Outro (descreva) ________________
20. De que forma voc se sentiu tocado pelas aes de divulgao promovidas pelo
IBES?
(1) No me senti tocado.
(2) Fui tocado, mas no o suficiente para me convencer.
(3) As aes de marketing foram responsveis pela minha deciso.
21. Por qual meio voc buscou mais informaes sobre o Processo Seletivo do IBES?
(1) Amigos e/ou familiares
(2) Na internet
(3) Por telefone
(4) Vindo pessoalmente ao IBES
(5) Outro (descreva) __________________
22. Se acessou o site do IBES para buscar informaes, qual sua avaliao?
(1) Encontrei facilmente as informaes que precisava.
(2) Encontrei com dificuldade as informaes que precisava.
(3) Encontrei uma parte das informaes que precisava.
(4) No encontrei as informaes que precisava.
(5) No acessei o site.
___________________________________________________________________________
___________________________________________________________________________
___________________________________________________________________________
PESQUISA DE EGRESSO
GRADUAO
Nome: __________________________________________e-mail:
_______________________
Graduao:______________________________________ Ano de
Concluso:_____________
Telefone:__________________________ Idade:_________Sexo:
_______________________
Cidade que cursou a graduao_______________________ Polo (para EAD)
______________
Nome:______________________________Cidade:_____________________________
N de funcionrios: ____________________ Tempo de atividade:
_________________
Segmento de Atuao:
Indstria Servios Pblica Comrcio 3 Setor
Outro Qual:
________________________________________________________
5 - A sua atividade profissional atual teve incio:
antes da graduao durante a graduao aps formao acadmica
Sim No
Meios de contato: E-mail Telefone Site Pessoalmente
Motivo do contato:
______________________________________________________
13 - Voc contactado pela nossa Instituio de Ensino?
Sim No
Meios de contato: E-mail Telefone Correio
Motivo pelo qual a nossa Instituio de Ensino entra em contato com voc:
Notcias e Informaes Divulgao de Novos Cursos
Convite para eventos, encontros ou seminrios
Outros
Qual:________________________________________________________
Sim No
Para
quem?:___________________________________________________________
Por
qu?______________________________________________________________
_____________________________________________________________________
________________________________________________________________
____
________________________________________________________________
____
A sua participao nesta pesquisa foi primordial para que possamos validar os Valores da
Nossa Instituio de Ensino.
Obrigado.