Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Análise de Informações PDF

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 153

UNIVERSIDADE DO VALE DO ITAJA

PROGRAMA DE MESTRADO ACADMICO EM


COMPUTAO APLICADA

ARQUELAU PASTA

APLICAO DA TCNICA DE DATA MINING NA BASE DE


DADOS DO AMBIENTE DE GESTO EDUCACIONAL: UM
ESTUDO DE CASO DE UMA INSTITUIO DE ENSINO
SUPERIOR DE BLUMENAU-SC.

DISSERTAO DE MESTRADO

So Jos (SC), Maro de 2011


UNIVERSIDADE DO VALE DO ITAJA
CURSO DE MESTRADO ACADMICO EM
COMPUTAO APLICADA

ARQUELAU PASTA

por

Arquelau Pasta

Dissertao apresentada como requisito


parcial obteno do grau de Mestre em
Computao Aplicada.
Orientador: Prof. Raimundo Celeste
Ghizoni Teive, Dr.

So Jos (SC), Maro de 2011.


FOLHA DE APROVAO

Esta pgina reservada para incluso da folha de assinaturas, a ser disponibilizada


pela Secretaria do Curso para coleta da assinatura no ato da defesa.
Dedico este trabalho a duas pessoas que durante este perodo de ausncia, entenderam que
esta ausncia era necessria.
Para vocs: Silvana, minha esposa e Nadine, minha filha.
Dedico tambm ao meu pai, que no teve tempo de esperar.
A UM AUSENTE

Tenho razo de sentir saudade,


tenho razo de te acusar.
Houve um pacto implcito que rompeste
e sem te despedires foste embora.
Detonaste o pacto.
Detonaste a vida geral, a comum aquiescncia
de viver e explorar os rumos de obscuridade
sem prazo sem consulta sem provocao
at o limite das folhas cadas na hora de cair.

Antecipaste a hora.
Teu ponteiro enlouqueceu, enlouquecendo nossas horas.
Que poderias ter feito de mais grave
do que o ato sem continuao, o ato em si,
o ato que no ousamos nem sabemos ousar
porque depois dele no h nada?

Tenho razo para sentir saudade de ti,


de nossa convivncia em falas camaradas,
simples apertar de mos, nem isso, voz
modulando slabas conhecidas e banais
que eram sempre certeza e segurana.

Sim, tenho saudades.


Sim, acuso-te porque fizeste
o no previsto nas leis da amizade e da natureza
nem nos deixaste sequer o direito de indagar
porque o fizeste, porque te foste.

CARLOS DRUMMOND DE ANDRADE


AGRADECIMENTOS

Muitos fizeram, muitos fazem e muitos iro fazer parte das vrias etapas de minha
vida. Alguns contriburam de forma peculiar, outros s vezes com um simples: Legal, vamos
l. Quero agradecer a todos, sem cometer a injustia de esquecer algum.

Iniciando por meus pais, Dona Nair e Seu Orlando (In Memoriam) afinal sem eles no
estaria escrevendo isto.

Minha esposa Silvana e filha Nadine, que tiveram vrios momentos de nosso convvio
destinados a elaborao deste trabalho.

minha famlia, pelo incentivo nos momentos difceis, fazendo com que eu seguisse
em frente. todos sem distino, irmo, cunhados, cunhadas, sobrinhos e sobrinhas.

Aos meus amigos de mestrado, Vital e Pedro, pelas idas e vindas, pelas conversas e
trabalhos trocados.

A todas as pessoas ligadas ao Programa de Ps-Graduao em Computao Aplicada


da Universidade do Vale do Itaja (UNIVALI), professores, coordenao. Em especial a nossa
sempre atenciosa e prestativa Maria de Lurdes, pelos muitos documentos emitidos e enviados.

Ao meu orientador Professor Dr. Raimundo Celeste Ghizoni Teive pela sua amizade e
apoio, por sua vocao inequvoca, pelo seu esprito inovador, intelectual e empreendedor na
tarefa de multiplicar seus conhecimentos, por ser um verdadeiro mestre.

A todos os professores e aos profissionais do Instituto Blumenauense de Ensino


Superior (IBES). Pelo apoio, incentivo e presteza no auxlio s atividades e discusses sobre o
trabalho apresentado.

E por fim Deus, o grande criador, pela oportunidades e privilgios a mim


concedidos.
APLICAO DA TCNICA DE DATA MINING NA BASE DE
DADOS DO AMBIENTE DE GESTO EDUCACIONAL: UM
ESTUDO DE CASO DE UMA INSTITUIO DE ENSINO
SUPERIOR DE BLUMENAU-SC.

Arquelau Pasta

Maro / 2011
Orientador: Raimundo Celeste Ghizoni Teive, Dr.
rea de Concentrao: Computao Aplicada
Linha de Pesquisa: Inteligncia Aplicada
Palavras-chave: Minerao de Dados. Gesto da Informao. Gesto de Instituies de Ensino
Superior.
Nmero de pginas: 153

RESUMO
Para que o conhecimento seja gerado no basta apenas ter a informao. As
Instituies de Ensino Superior (IES) podem hoje serem consideradas como organizaes.
Uma das funes das Instituies de Ensino a gerao e disseminao de conhecimento,
obtido atravs do processo de ensino e aprendizagem e para que este processo acontea numa
forma dinmica e eficaz, as IES esto cada vez mais buscando subsdios, ferramentas e
tcnicas, para que seus alunos adquiram o conhecimento. Conseqentemente, todo este
conhecimento acumulado pode e deve ser utilizado para que cada vez mais as instituies
busquem estreitar o contato com seus alunos e disponibilizar aos seus gestores, informaes
precisas e eficazes para tomada de decises. A contribuio desta dissertao de mestrado
refere-se a aplicao de tcnicas de Data Mining em ambientes de gesto educacional. Para
tanto foram aplicadas as tcnicas de Associao, Classificao e Clusterizao nesta base de
dados. A pesquisa aborda por meio de um levantamento bibliogrfico os conceitos sobre
Gesto da Informao, Sistemas de Informao, Data Warehouse, Data Mining com suas
tcnicas e tarefas, finalizando com a ferramenta de minerao WEKA. A aplicao das
tcnicas de Data Mining, segue a metodologia CRISP-DM, na qual so observados desde o
conhecimento sobre o negcio at a implementao dos resultados. Dessa forma, como um
dos resultados obtidos na pesquisa, viu-se que a aplicao de uma ferramenta de Data Mining
pode ser um poderoso instrumento para a gesto das informaes nas IES.
APPLICATION OF DATA MINING TECHNIQUE IN THE
DATABASE OF THE EDUCATIONAL MANAGEMENT
ENVIRONMENT: CASE STUDY OF A HIGHER EDUCATION
INSTITUTE IN BLUMENAU-SC.
Arquelau Pasta

March / 2011

Supervisor: Raimundo Celeste Ghizoni Teive, Dr


Area of Concentration: Applied Computer Science
Line of Research: Applied Intelligence
Key words: Data Mining. Information Management. Management of Institutes of Higher
Education.
Number of pages: 153

ABSTRACT
For knowledge be generated, just having information is not enough. Institutions of
Higher Education (IES) nowadays may be considered as organizations. One of the functions
of Teaching Institutions is to generate and disseminate the knowledge obtained through the
teaching and learning process, and to enable this process to occur in a dynamic and effective
form, IESs are increasingly looking for support, tools and techniques that will enable their
students to acquire knowledge. Consequently, all this accumulated knowledge can and should
be used to enable institutions to form closer contact with their students and provide their
managers with accurate and effective information for decision-making. The contribution of
this master's degree dissertation is the application of data mining techniques in educational
management environments. The techniques of Association, Classification and Clusterization
were used in this database. The research uses bibliographical research to search for concepts
on Information Management, Information Systems, Data Warehouse, and Data Mining, with
their techniques and tasks, concluding with the mining tool WEKA. The application of Data
Mining techniques follows the CRISP-DM methodology, taking into account from business
knowledge through to the implementation of the results. Thus, one of the results obtained in
the research was that the application of a Data Mining tool can be a powerful tool for
managing information in the IES.
LISTA DE ILUSTRAES

Figura 1 - Distribuio da informao .................................................................................. 15


Figura 2 - Transformao de dado em informao ................................................................ 34
Figura 3 - Evoluo do conceito de informao .................................................................... 35
Figura 4 - Integrao dos Sistemas de Informao ................................................................ 40
Figura 5 - Relao entre SI e seus nveis de abrangncia dentro das organizaes ................ 42
Figura 6 - Interrelao entre MD, SI e nvel operacional ...................................................... 58
Figura 7 - Etapas do KDD .................................................................................................... 60
Figura 8 - Fases do modelo de referncia CRISP-DM .......................................................... 65
Figura 9 - Interao entre os elementos da MD..................................................................... 69
Figura 10 - Ligao entre dados e classes ............................................................................. 70
Figura 11 - Regras de classificao ...................................................................................... 72
Figura 12 - Exemplo da visualizao de clusters................................................................... 75
Figura 13 - Scree plot ........................................................................................................... 81
Figura 14 - Resultado da clusterizao aps utilizar ACP ..................................................... 82
Figura 15 - Ciclo clssico do RBC ...................................................................................... 84
Figura 16 - Exemplo de um registro de RBC armazenado .................................................... 85
Figura 17 - Exemplo de uma Rede Neural Artificial de multiplas camadas ........................... 87
Figura 18 - Tela inicial do software WEKA ......................................................................... 91
Figura 19 - Exemplo da aplicao da tarefa de classificao ................................................. 92
Figura 20 - Exemplo de arquivo no formato ARRF .............................................................. 94
Figura 21 - Rede Bayesiana para Anlise da Demora para Inscrio ................................... 105
Figura 22 - Arquitetura do sistema mapeador ..................................................................... 106
Figura 23 - Dados para minerao em Excel....................................................................... 109
Figura 24 - Exemplo de Cabealho no arquivo ARFF ........................................................ 110
Figura 25- Instanciao dos atributos dos ingressantes para minerao ............................... 111
Figura 26 - Instanciao dos atributos dos egressos para minerao ................................... 112
Figura 27 - Regras criadas para ingressantes ...................................................................... 114
Figura 28 Resultado da Associao feita no WEKA ........................................................ 117
Figura 29 - Regra de associao na base dos egressos ........................................................ 120
Figura 30 - Anlise Egressos: Curso X Renda Bruta, Avaliao Qualidade e Contribuio . 120
Figura 31 - Anlise Contribuio X Qualidade Matriz Curricular ....................................... 121
Figura 32 - Tarefa de clusterizao Ingressantes .............................................................. 124
Figura 33 - Criao do terceiro cluster Ingressantes ............................................................ 125
Figura 34 - Cluster gerado para os egressos ........................................................................ 126
Figura 35 - Tarefa de classificao Ingressantes .............................................................. 127
Figura 36 - Matriz de confuso gerada pelo WEKA para ingressantes ................................ 128
Figura 37 - Matriz de confuso gerada pelo WEKA para os egressos ................................. 129
LISTA DE TABELAS E QUADROS

Tabela 1 - Entrada de dados para a tarefa de classificao .................................................... 72


Tabela 2 - Sintese das tarefas de Minerao de Dados .......................................................... 76
Tabela 3. Conjunto de dados com 8 observaes e 3 variveis .............................................. 79
Tabela 4 - Tcnicas de MD, Tarefa e Algoritmos ................................................................. 88
Tabela 5 - Ferramentas segundo as caractersticas ................................................................ 89
Tabela 6 - Tabela de evaso por curso ................................................................................ 107
Tabela 7 - Grau de acurcia dos classificadores na evaso .................................................. 107
Tabela 8 - Clculo do Suporte Conclusao_Ensino_Medio .................................................. 115
Tabela 9 - Clculo do Suporte Razao_Escolha_Curso ........................................................ 115
Tabela 10 - Clculo do Suporte Pos_Curso......................................................................... 115
Tabela 11 - Clculo do Suporte Razao_Escolha_IES .......................................................... 116
Tabela 12 - Cluster 0 sobre os ingressantes ........................................................................ 124
Tabela 13 - Cluster 1 sobre os ingressantes ........................................................................ 125

Quadro 1 - Caractersticas da informao ............................................................................. 52


Quadro 2 - Constructo das fases do modelo CRISP-DM ....................................................... 68
Quadro 3 - Representao da Regra de Associao .............................................................. 73
LISTA DE GRFICOS E EQUAES

Grfico 1 - Nmero de IES no Brasil .................................................................................... 22


Grfico 2 - Relao de alunos ingressantes no Ensino Superior ............................................ 23
Grfico 3 - Alunos ingressantes na Educao superior Distncia ....................................... 24
Grfico 4 - Renda X Razao da Escolha do Curso ................................................................ 118
Grfico 5 - Anlise Curso X Ponto de Vista Financeiro e Pos Curso................................... 119

Equao 1 - Frmula do clculo do suporte ........................................................................ 113


Equao 2 - Clculo da Confiana ...................................................................................... 116
LISTA DE ABREVIATURAS E SIGLAS

ACP Anlise de Componentes Principais


AD rvore de Decises
AG Algoritmos Genticos
AGE Ambiente Gesto Educacional
ANS Aprendizagem No Supervisionada
AS Aprendizagem Supervisionada
ARFF Extenso do arquivo utilizado pelo WEKA
AVA Ambiente Virtual de Aprendizagem
DRA Descoberta de Regras de Associao
EAD Educao Distncia
EEP Empregado de Empresa Privada
EI Extrao da Informao
FNQ Fundao Nacional da Qualidade
FPU Funcionrio Pblico
IES Instituio de Ensino Superior
KDD Knowledge Discovery in Database
MCA Mestrado em Computao Aplicada
MD Minerao de Dados
NFA Negcio Familiar
NPR Negcio Prprio
NTR No Trabalha
OUT Outro
RBC Raciocnio Baseado em Casos
RNA Redes Neurais Artificiais
SEI Sistema de Extrao da Informao
SI Sistemas de Informao
SIE Sistemas de Informao para Executivos
SIG Sistemas de Informao Gerencial
SM Salrio Mnimo
SPT Sistemas de Processamento de Transaes
SSTD Sistemas de Suporte a Tomada de Deciso
TI Tecnologia da Informao
TIC Tecnologia da Informao e Comunicao
UNIVALI Universidade do Vale do Itaja
WEKA Waikato Environment for Knowledge Analysis
SUMRIO

1 INTRODUO.............................................................................14
1.1 PROBLEMA DE PESQUISA .................................................................. 17
1.1.1 Soluo Proposta ................................................................................... 18
1.1.2 Delimitao de Escopo ........................................................................... 21
1.1.3 Justificativa ............................................................................................ 22
1.2 OBJETIVOS ............................................................................................. 26
1.2.1 Objetivo Geral ....................................................................................... 27
1.2.2 Objetivos Especficos ............................................................................. 27
1.3 METODOLOGIA .................................................................................... 27
1.3.1 Metodologia da Pesquisa ....................................................................... 27
1.3.2 Procedimentos Metodolgicos ............................................................... 29
1.4 ESTRUTURA DA DISSERTAO ....................................................... 30
2 REFERENCIAIS TERICOS ....................................................32
2.1 SISTEMAS E INFORMAO ............................................................... 32
2.1.1 Informao ............................................................................................. 33
2.1.1.1 A importncia da informao ................................................................ 36
2.2 SISTEMAS DE INFORMAO ............................................................ 39
2.2.1 Sistemas de Informao e seus tipos ..................................................... 42
2.2.1.1 Sistema de Processamento de Transaes (SPT) ................................... 43
2.2.1.2 Sistema de Automao de Escritrios (SAE) ........................................ 43
2.2.1.3 Sistema de Informao Gerencial (SIG)................................................ 44
2.2.1.4 Sistema de Informao de Suporte Tomada de Deciso (SSTD) ........ 45
2.2.1.5 Sistema de Informao para Executivos (SIE) ...................................... 46
2.3 GESTO DA INFORMAO ................................................................ 49
2.4 A IMPORTNCIA DOS SIG NA GESTO ESTRATGICA ............. 52
2.5 EXTRAO DA INFORMAO.......................................................... 55
2.6 MINERAO DE DADOS ..................................................................... 57
2.7 METODOLOGIA DE MINERAO DE DADOS ............................... 64
2.8 TAREFAS DE MINERAO DE DADOS ............................................ 69
2.8.1 Classificao........................................................................................... 70
2.8.2 Regresso ............................................................................................... 72
2.8.3 Associao .............................................................................................. 73
2.8.4 Clusterizao ou Segmentao .............................................................. 74
2.8.5 Sumarizao........................................................................................... 76
2.9 TCNICAS DE MINERAO DE DADOS .......................................... 77
2.9.1 Tcnicas Estatsticas .............................................................................. 78
2.9.1.1 Anlise de componentes principais (ACP) ........................................... 78
2.9.2 Exemplo de utilizao de ACP na Minerao de Dados ...................... 81
2.9.3 Algoritmos Genticos (AG) ................................................................... 82
2.9.4 rvore de Decises (AD) ....................................................................... 83
2.9.5 Descoberta de Regras de Associao (DRA) ........................................ 83
2.9.6 Raciocnio Baseado em Casos (RBC).................................................... 84
2.9.7 Redes Neurais Artificiais (RNA) ........................................................... 86
2.10 FERRAMENTAS DE MINERAO DE DADOS .............................. 89
2.11 WEKA ..................................................................................................... 90
2.12 GESTO DE IES ................................................................................... 95
2.12.1 Ferramentas de Gesto ........................................................................ 97
3 TRABALHOS RELACIONADOS ..............................................99
3.1 GESTO DA TECNOLOGIA DA INFORMAO EM IES ............... 99
3.2 UTILIZAO DE MINERAO DE DADOS EM GERAL ............. 100
3.3 MINERAO DE DADOS EM AMBIENTES EDUCACIONAIS .... 102
4 APLICAO DAS TCNICAS DE MD EM AGE ................. 108
4.1 CARACTERSTICAS DO PROBLEMA A SER TRATADO............. 108
4.1.1 Seleo, limpeza e transformao dos dados ...................................... 110
4.1.2 Aplicao das tcnicas de Minerao de Dados ................................. 111
4.1.3 Tipos de aprendizado .......................................................................... 112
4.1.4 Aprendizagem No Supervisionada (ANS) ........................................ 113
4.1.4.1 Associao.......................................................................................... 113
4.1.4.2 Anlise de Componentes Principais ................................................... 122
4.1.4.3 Clusterizao ...................................................................................... 123
4.1.5 Aprendizagem Supervisionada ........................................................... 126
4.1.5.1 Classificao....................................................................................... 127
5 CONCLUSES ........................................................................... 130
5.1 CONTRIBUIES ................................................................................ 131
5.2 SUGESTES PARA TRABALHOS FUTUROS ................................. 133
REFERNCIAS BIBLIOGRFICAS ......................................... 134
ANEXO A QUESTIONRIO APLICADO AOS
INGRESSANTES .......................................................................... 146
ANEXO B QUESTIONRIO APLICADO AOS EGRESSOS150
14

1 INTRODUO

Num ambiente em que a velocidade das mudanas e a necessidade de adequao as


estas cada vez maior, a anlise de informaes em grandes bases de dados, torna-se um
processo que exige o uso de tcnicas e ferramentas que tornem a atividade de coleta, anlise e
utilizao das informaes, mais gil e confivel.

Lucas (2002, p. 13) acredita que:

A transformao da informao em conhecimento pode fazer com que as


organizaes sobrevivam neste mercado globalizado, pois esta transformao
fornecer informaes que aps serem analisadas de forma correta possam ser
utilizadas para tomada de decises mais seguras, aliadas a adequao da postura
estratgica da organizao, na qual o conhecimento passa a fazer parte, antevendo as
mudanas pelas quais a organizao a de passar em funo da competitividade do
mercado.

A partir do crescimento do volume de informaes que as corporaes manipulam,


gera-se a necessidade urgente de tcnicas e ferramentas que transformem dados em
conhecimento til de forma inteligente e automtica. A soluo para esta necessidade das
organizaes de obterem conhecimento de grandes volumes de dados est na utilizao de
tcnicas de minerao de dados para extrair as informaes implcitas existentes nos Bancos
de Dados destas organizaes.

Dalfovo (2007, p. 57) define que a utilizao da informao de forma eficaz e


eficiente, torna-se um elemento primordial para o sucesso das organizaes, sendo
incorporado inclusive em seu patrimnio. O saber que a informao um dos principais
recursos estratgicos que a organizao dispe, requer que estas informaes estejam
estruturadas, disponveis e sejam ntegras, condies estas que se fazem possvel somente
com o uso de tecnologias computacionais, comumente designadas de Tecnologia da
Informao e Comunicao (TIC), ou Sistemas de Informao (SI).

O grande desafio das organizaes estruturar e disponibilizar para seus gestores, as


informaes geradas por elas mesmas, e que estes utilizem estas informaes como recurso
estratgico, objetivando a obteno de vantagem competitiva sustentvel. A Figura 1
demonstra como a informao encontra-se disponibilizada na maior parte dos bancos de
dados, desta forma a tarefa de filtrar a informao dificultosa.
15

Figura 1 - Distribuio da informao


Fonte: Adaptado de Aguilar ( apud STAREC 2005, p. 50)

Tambm Foguel e Souza (1993 apud Maccari, 2002, p.20) ao analisarem a os diversos
setores econmicos, relatam que:

[...]a Universidade, como instituio, est inserida na era organizacional. Como as


demais organizaes, atingiu, ao longo do tempo, um grau de complexidade
significativo, obrigando os seus administradores a rever suas funes e apresentar
propostas para acelerar o seu desenvolvimento.

Uma enorme mudana tem sido observada a partir da ltima verso da Lei de
Diretrizes e Bases da Educao (LDB, 1996). Pode-se observar que o setor educacional
passou a ser visto como uma grande oportunidade de negcios para os empreendedores. Isto
pode ser confirmado atravs da anlise do Censo da Educao Superior realizado pelo
Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira (Inep/MEC) no ano
de 2008, no qual observa-se um aumento no nmero de IES no pas.

O grande desafio das IES estruturar e disponibilizar para seus gestores, as


informaes geradas por seus diversos sistemas, e que estes utilizem estas informaes como
recurso estratgico, objetivando a obteno de vantagem competitiva sustentvel, uma vez
que os SI ainda so pouco utilizados pelas IES.

Os dados fornecidos pelos Ambientes de Gesto Educacional (AGEs) so analisados


sob a tica de informaes meramente estatsticas, sobre o acesso aos cursos, contedos,
quantidade de acessos, restringindo e limitando assim a capacidade de compreenso implcita
16

nas informaes sobre as mais variadas tendncias de utilizao e a percepo das


possibilidades de vantagens competitivas que possam ser obtidas com base em seu contedo.

A extrao de informaes que sejam relevantes aos interesses dos gestores, est se
tornando complexa diante da quantidade de dados armazenados. Denomina-se Knowledge
Discovery in Databases KDD (Descoberta de Conhecimento em Bases de Dados), a
atividade de garimpar a informao contida nestes dados. Apesar de ser comum usar os
termos KDD (Knowledge Discovery in Database) e Minerao de Dados com o mesmo
significado, Fayyad et al.(1996) definem o KDD como sendo o processo da extrao de
conhecimento dos dados como um todo, e Minerao de Dados, como apenas uma etapa em
particular do KDD, sendo que nesta etapa a extrao de padres dos dados realizada atravs
do uso de algoritmos especficos.

Descobrir o conhecimento oculto nas grandes bases de dados das mais diversas
organizaes, seja de forma automtica ou semi-automtica o objetivo do Minerao de
Dados, alm de permitir uma maior agilidade no processo de tomada de deciso por parte dos
gestores.

O ato de coletar e armazenar os dados, em si, no traz nenhuma contribuio para a


melhoria na estratgia de qualquer organizao. Deve-se fazer uma anlise, criando
indicadores com intuito de descobrir padres de comportamento implcito na base de dados,
bem como suas relaes de causa e efeito. Assim, as informaes contidas nestas bases de
dados, processadas e analisadas de forma correta, tornam-se requisitos primordiais na tomada
de decises.

Chiara (2003, p. 1) refora que para a aplicao de tcnicas de Minerao de Dados,


necessrio que se tenha uma coleo de dados disponvel. Entretanto, o problema conseguir
dados relevantes para se extrair deles conhecimento potencialmente til

Dentre estas grande bases de dados, cita-se os Ambientes de Gesto Educacional


(AGE) utilizados pelas IES para interagirem com seus os alunos. Considera-se uma
necessidade fundamental para as IES a misso de gerir as informaes, haja vista a existncia
de uma crescente demanda e atualizao das tecnologias da informao, sendo este recurso de
vital importncia para a permanncia das IES no mercado.
17

O gestor que possui, domina e usa a informao de forma estratgica possui papel
fundamental no desenvolvimento de qualquer organizao, da qual faa parte. O gestor deve
trabalhar a informao de forma que sirva como elemento base para a tomada de decises,
desde que esta informao seja precisa, segura, confivel e esteja a disposio, informaes.
estas que se encontram no AGE das IES.

Os recursos do AGE da IES em questo no passaram por muitas anlises quanto ao


seu uso estratgico. Com isto, pretendeu-se analisar a utilizao das informaes armazendas
neste ambiente, a fim de promover uma melhor eficcia na gesto das informaes e oferecer
novos dados para que a IES possa melhor explorar as tecnologias e auxiliar nas tomadas de
decises por parte de seus gestores.

1.1 PROBLEMA DE PESQUISA


Mesmo observando o crescimento da utilizao dos dados disponveis nos AGEs
pela IES, no se percebe muita preocupao em analisar a utilizao destas plataformas para
possibilitar a extrao de informaes, que podem ser utilizadas pelos gestores objetivando a
obteno de vantagem competitiva sustentvel.

Observa-se um problema que a no utilizao das informaes disponveis nos


AGEs. Exemplo disto pode ser citado como o relatrio de acesso ao ambiente, que no
momento no tem informao nenhuma sendo extrada dele. Os sistemas informatizados nesta
IES geram relatrios com formatao complicada, falta de informaes ou informaes s
vezes inconsistentes ou redundantes. Estes problemas de disperso e inconsistncia das
informaes contribuem para erros na tomada das decises por parte dos seus gestores, ou as
tornam menos eficazes.

A utilizao de ferramentas que auxiliem na busca, seleo e extrao de informaes


relevantes em grandes bases de dados, tem recebido cada vez mais importncia nas
organizaes, uma vez que estas ferramentas tm como principal objetivo minimizar o
trabalho manual e a disponibilizao de informaes corretas aos gestores destas
organizaes.

Dentre estas tcnicas cita-se a Descoberta de Conhecimento em Base de Dados (KDD,


abreviatura do termo em ingls, Knowledge Discovery in Database), a qual utiliza a tcnica
de extrao de informaes conhecida como Minerao de Dados. Trata-se de um processo da
18

extrao de padres, considerados interessantes e no corriqueiros, a partir de uma base de


dados. O foco do problema desta dissertao encontra-se na Gesto das Informaes
Gerenciais pelos gestores da IES, como apoio para o planejamento estratgico, devido a sua
importncia nas tomadas de decises.

A aplicao da tcnica de Minerao de Dados se dar na IES, haja vista a mesma


estar inclusa num setor que est atraindo cada vez mais investidores, seja por meio da
aquisio ou da fuso entre as IES e a manuteno da competitividade deste setor faz com que
as mesmas revejam seus planejamentos estratgicos, a fim de se manterem competitivas. O
problema consiste em averiguar se a utilizao da tcnica de Minerao de Dados, em face da
enorme disponibilidade de dados armazenados no AGE da IES, deve-se ausncia de uma
metodologia adequada para a qual resulte em informaes teis para os gestores.

Diante desta problemtica, cabe levantar a seguinte questo que foi norteadora da
pesquisa de campo: De que forma as tcnicas de extrao de informaes podem auxiliar os
gestores da IES? Mais pragmaticamente, como a gesto da informao obtida pelo uso de
tcnicas de extrao de informao pode ajudar os profissionais da IES, a auxiliarem na
tomada de decises estratgicas para o gerenciamento de sua instituio?

1.1.1 Soluo Proposta


Uma forma de auxiliar o gestor a resolver o problema anteriormente mencionado
disponibilizar ferramentas que o auxiliem nessa minerao dos dados contidos em seus
repositrios. Diante deste contexto, de significativo interesse que se possua uma ferramenta
que lhe fornea uma melhor visualizao das informaes mais importantes para a tomada de
suas decises.

Dentre os objetivos do Minerao de Dados, est a descoberta de forma automtica ou


semi-automtica do conhecimento que encontra-se oculto nas grandes quantidades de dados
que as organizaes possuem, permitindo de forma gil e rpida a tomada de decises.

Isto vem ao encontro de Cardoso e Machado (2008, pg. 497) que definem o
Minerao de Dados como:

[...] uma tcnica que faz parte de uma das etapas da descoberta de conhecimento em
banco de dados. Ela capaz de revelar, automaticamente, o conhecimento que est
implcito em grandes quantidades de informaes armazenadas nos bancos de dados
19

de uma organizao. Essa tcnica pode fazer, entre outras, uma anlise antecipada
dos eventos, possibilitando prever tendncias e comportamentos futuros, permitindo
aos gestores a tomada de decises baseada em fatos e no em suposies.

Para tanto, sero aplicadas as tcnicas de Minerao de Dados, a fim de se obter


informaes necessrias, confiveis e de qualidade, para que os gestores tomem suas
decises. As informaes que aqui foram utilizadas passaram pelos processos de seleo,
anlise e disseminao, visando um direcionamento estratgico da IES.

As ferramentas de Minerao de Dados podem ser empregadas como ferramenta


complementar no processo de tomada de decises, visando facilitar ao gestor a busca pela
informao correta dentro da grande massa de dados que os SI das IES oferecem. Aliada a
rapidez na busca por esta informao e podendo gerar como conseqncia uma vantagem
competitiva.

A tcnica de Minerao de Dados, que faz parte das ferramentas de KDD, tem por
objetivo agilizar o processo de minerao das informaes, facilitando a busca e
minimizando as dificuldades de se procurar informaes em grandes bases de dados.

Furtado (2004) sustenta que:

Os problemas relacionados ao entendimento, resumo e tratamento de informaes


foram inicialmente resolvidos na rea do Knowledge Discovery from Databases
KDD-, que busca descobrir co-relacionamentos e dados implcitos nos registros
de um Banco de Dados, extraindo-os para obter conhecimento novo, til e
interessante, ou seja, enfoca o processo global de descoberta do conhecimento de
dados, incluindo como os dados so armazenados e acessados.

Mesmo que autores que tm por objeto este assunto determinem mais tarefas, abordar-
se-o as que sero utilizadas neste estudo, sendo elas: associao, classificao e clusterizao
(clustering). Estas tcnicas foram escolhidas por serem prximas entre si nos seus objetivos e
por serem de maior compreenso por parte do gestor da IES.

Associao: Tem por objetivo a combinao de itens considerados importantes, sendo


que a presena de tal item indica implicitamente na presena de outro item na mesma
transao. Este processo teve como precursor Agrawal, em 1993. (AGRAWAL,
IMIELINSKI e SWAMI, 1993)
20

Classificao: Classes de objetos so criadas para agrupar objetos com caractersticas


semelhantes. So utilizados dados sobre o passado de determinada base para encontrar
padres com valores significativos, aos quais iro levar a regras sobre o futuro destes objetos.

Clusterizao: Os dados heterogneos so reagrupados em grupos com caractersticas


semelhantes, mtodo conhecido como clustering. A clusterizao definida por Berry (1997)
como sendo a tarefa de segmentar uma populao heterognea em um nmero de subgrupos
(ou clusters) mais homogneos possveis, de acordo com alguma medida. O que diferencia a
clusterizao da classificao a no existncia de grupos pr definidos.

Pode-se aplicar as tarefas e tcnicas da MD aos dados gerados pelos AGE, nos quais
podem ser encontradas relaes entre os dados disponveis, segundo Kampff (2009, p. 79):

Processos de MD podem ser empregados, tambm, para descobrir caractersticas e


comportamentos em alunos que indiquem risco de evaso ou reprovao e, ento,
essa descoberta pode contribuir para a atuao docente, de forma a evitar esses
resultados indesejados. Utilizar tcnicas de MD, portanto, possibilita identificar
padres de acesso, de realizao de atividades e de interao dos alunos que os
levam a obter xito (ou no) e dessa forma, oferecer embasamento para a construo
de ferramentas que auxiliem na prtica docente, buscando a reduo dos ndices de
evaso e reprovao.

Quando aplicada em sistemas de ensino a MD, freqentemente est apoiada nas


mesmas tcnicas utilizadas em aplicao comerciais, fazendo uma analogia entre a navegao
do aluno pelas pginas do curso com a navegao de um potencial cliente nas pginas do
produto ou de empresa. A pesquisa de padres de comportamento em ambientes educacionais
se d principalmente pelas tcnicas de Descoberta de Regras de Associao (DRA) e ou pela
aplicao de tarefas de associao, classificao ou clusterizao.

Os resultados da MD podem ser utilizados para obter uma melhor compreenso dos
processos subjacentes de ensino, para a gerao de recomendaes e conselhos aos alunos,
para melhorar a gesto de objetos de aprendizagem.

A tcnica de Descoberta de Regras de Associao tem por finalidade descobrir


padres de acesso s pginas dos cursos pelos acadmicos ou encontrar associaes entre as
diversas pginas por eles visitadas. Enquanto as tarefas objetivam agrupar os acadmicos pelo
comportamento de acesso, procurando por similaridades entre eles. A avaliao do
desempenho, a adaptao e recomendao de contedos tendo como base o comportamento
dos alunos, tambm so outras reas de aplicao da MD.
21

A MD pode ser aplicada nos AGEs, no fazendo a identificao dos acadmicos,


apenas identificando suas caractersticas, uma vez que se pode fazer a minerao sobre uma
base de dados de acadmicos matriculados em determinada disciplina ou na base dos
acadmicos matriculados nos cursos distncia oferecidos pela IES.

O emprego das tcnicas de Minerao de Dados, permite as IESs criarem parmetros


capazes de entender o comportamento dos dados armazenados, permite tambm a
identificao das afinidades existentes entre estes dados, alm de proporcionar a previso de
comportamentos e hbitos dos dados.

Ser aplicada a tcnica de minerao de dados na IES, sendo esta instituio de ensino
privado, haja vista, que este setor vem despertando o interesse de novos investidores. Isto faz
com que as IES repensem em seus mtodos, buscando novas tecnologias e ferramentas que
possam auxili-las a manterem-se neste mercado altamente competitivo.

1.1.2 Delimitao de Escopo


Com base no pressuposto de que um dos fatores principais para a garantia de
sobrevivncia das organizaes est fortemente vinculado a eficcia na gesto de seus custos
operacionais, optou-se por utilizar nesta dissertao de uma ferramenta de Minerao de
Dados com distribuio gratuita.

Com intuito de atender a soluo proposta nesta dissertao, a anlise dos dados foi
feita num Ambiente de Gesto Educacional, no qual as informaes consideradas pessoais,
como: nomes, endereos de e-mail, telefones foram omitidos para preservao da integridade
de seus proprietrios.

Uma vez que este trabalho objetiva-se na utilizao da tcnica de Minerao de Dados,
com o intuito de municiar os gestores com informaes confiveis, relevantes e de qualidade
para a tomada de decises estratgicas, foram consideradas unicamente as informaes
constantes na base de dados do Ambiente de Gesto Educacional.

Embora seja reconhecido que as IES e alguns outros setores do mercado sofram
impacto direto do uso da informao, suas dimenses e comportamentos no so a essncia
deste trabalho.
22

1.1.3 Justificativa
Assim como as demais organizaes, as IES no se excluram dos avanos gerados
pela TI, que vo alm do simples conjunto de recursos computacionais. Elas esto buscando
extrair destes recursos o mximo de informaes e com o uso destas informaes gerirem
suas atividades.

As atividades desenvolvidas pelas IES, seja desde o ensino bsico ou superior, devem
ser entendidas como uma atividade empresarial semelhante a qualquer outra. Diante disto as
instituies de ensino esto sujeitas s mesmas presses que aflige aos demais mercados.

Furtado (2004, p. 4) destaca que:

[...]o setor educacional vem atraindo um nmero crescente de novos atores e o


mercado educacional de novos integrantes, que passam a disputar o domnio deste
mercado com as instituies tradicionais. Estas, por sua vez, vem-se foradas a
rever suas prticas e mtodos at ento utilizados, como condio para que possam
continuar tendo relevncia em seus servios prestados e que sobrevivam em um
cenrio altamente competitivo.

Devido ao aumento do nmero de IES no Brasil, estudos, pesquisas e discusses esto


sendo elaboradas sobre os mecanismos desta evoluo e como esta vem influenciando o
desenvolvimento educacional do pas.

Grfico 1 - Nmero de IES no Brasil


Fonte: Adaptado de INEP (2010).
23

Segundo dados do Censo da Educao Superior do ano de 2008, divulgados pelo


Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira, (INEP/MEC), houve
uma reduo de vinte e nove IES no Brasil, apresentado no Grfico 1, neste perodo. Esta
reduo deu-se em virtude da integrao de instituies, por fuso ou compra, que vinha
sendo observada nos ltimos anos.

O Censo da Educao Superior de 2008, mostra que houve um crescimento de alunos


ingressantes, onde 1.936.078 novos alunos ingressaram no ensino superior, o que corresponde
a um aumento de 8,5% a mais em relao ao ano de 2007. O nmero total de matrculas foi
10,6% maior em relao ao ano de 2007, totalizando 5.808.017 alunos matriculados nos curso
de graduao, observado no Grfico 2. (INEP, 2010).

Grfico 2 - Relao de alunos ingressantes no Ensino Superior


Fonte: Adaptado de INEP (2010).

Esta realidade no diferente para as IES, ainda mais quando leva-se em considerao
as fuses que esto ocorrendo no mercado de ensino. Isto faz com que a concorrncia se torne
mais agressiva, transformando a informao disponibilizada aos discentes, docentes e
colaboradores das IES um bem precioso.
24

Outro fato importante a ser observado o crescente nmero de alunos inscritos na


modalidade de ensino distncia, conforme dados do Censo da Educao Superior de 2008 e
melhor representado no Grfico 3, houve um aumento de 42% no nmero de alunos inscritos
nesta modalidade de ensino, em relao ao ano de 2007.

Grfico 3 - Alunos ingressantes na Educao superior Distncia


Fonte: Adaptado de INEP (2010).

Com relao as IES privadas e estaduais o INEP/MEC relata que:

Quanto ao nmero de cursos, houve um incremento de 1.231 (5,2%) novos cursos de


graduao presencial nas IES brasileiras e apenas as IES estaduais no registraram
crescimento em relao a 2007, com um decrscimo de 1,6% nos cursos ofertados.
Do mesmo modo, houve o aumento de 7,3% (cerca de 319 mil) no nmero de vagas
ofertadas em graduao presencial e a distncia. As instituies privadas foram
responsveis pela oferta de cerca de 4 milhes de vagas em 2008, apresentando
aumento de 4% em relao a 2007. Em 2008 foram ofertadas 463.969 vagas nos
cursos de Educao Tecnolgica, com um aumento de 17,8% em relao a 2007. As
IES privadas so responsveis por cerca de 94% dessa oferta. (INEP, 2010).

Com base nestas informaes retiradas dos relatrios do MEC/IMEP, se observa que
existe uma defasagem entre a oferta e a procura, o que indica que a concorrncia neste setor
vem se tornando mais intensa. Vivencia-se uma nova era na gesto das IES, com base nas
novas regras, portarias e leis que regularizam o setor educacional no pas.
25

Frente a argumentao anterior, so duas as justificativas da relevncia do tema: a


crescente importncia da Gesto da Informao em todas as organizaes e a pouca
disponibilidade de estudos e pesquisas voltadas para esta rea tendo como foco a aplicao
destes conceitos nas IES, uma vez que estas so responsveis por gerar o conhecimento
necessrio a sua utilizao.

A quantidade de dados, dos mais variados tipos e sua falta de estruturao, aliada a
quantidade de informaes que esto sendo disponibilizadas aos gestores, acabam se tornando
elementos que dificultam o processo de tomada de decises.

Os dados foram disponibilizados em duas planilhas do Excel, onde uma das planilhas
contm as respostas dos itens propostos no questionrio scio-educacional aplicado aos
candidatos no ato da inscrio ao processo seletivo (Vide Anexo A). Noutra planilha
encontram-se os itens propostos no questionrio scio-economico aplicado aos egressos da
IES (Vide Anexo B).

Decidir qual a melhor oportunidade, o melhor momento, a melhor prtica para se


trabalhar a informao, visando a obteno da vantagem competitiva sustentvel nas IES,
vem tornando-se cada vez mais o objetivo a ser alcanado pelos gestores que administram
esta organizao.

No obstante as IES defrontam-se com certas dificuldades na transformao dos


milhares de dados que so por ela produzidos diariamente, em informaes realmente
estratgicas que auxiliem nas tomadas de decises.

Acredita-se que com a utilizao das tcnicas de Minerao de Dados no AGE das
IES estimule a criao e utilizao de informaes de carter realmente til para os
gestores, visando a identificao de novas oportunidades, formas de uso e auxiliando na
tomada das decises estratgicas. A aplicao de tcnicas de Minerao de Dados nas
IESs vem reforar seu arsenal de estratgias para enfrentarem o mercado.

Furtado (2004) salienta que Ferramentas que auxiliem na busca, seleo e extrao de
informaes especficas e relevantes na Web - e no somente oriundas dela - tm cada vez
mais recebido maior importncia, de forma a minimizar o trabalho manual do usurio.

Kampff (2009, p. 79) destaca que a utilizao de tcnicas de MD:


26

[...]possibilita identificar padres de acesso, de realizao de atividades e de


interao dos alunos que os levam a obter xito (ou no) e, dessa forma, oferecer
embasamento para a construo de ferramentas que auxiliem na prtica docente,
buscando a reduo dos ndices de evaso e reprovao.

Um fator considerado como crtico para a aceitao de qualquer ferramenta de TI a


facilidade de uso da mesma. A minerao de dados por meio de tcnicas de Data Mining
suporta funes muito sofisticadas, funes que se encontram embutidas nos softwares, desta
forma fazendo com que os usurios no necessitem serem conhecedores das tcnicas de
minerao para obterem seus resultados sejam em telas ou por meio de relatrios impressos.

J em virtude da participao no projeto de pesquisa em Sistemas de Informaes


aprovado junto ao CNPq e coordenado pelo Professor Dr. Oscar Dalfovo, tem-se a
pretenso de ampliar o escopo do trabalho, averiguar a utilizao das tcnicas de
Minerao de Dados e disponibilizar um instrumento como ferramenta auxiliar para os
gestores que possibilite a tomada de decises realmente estratgicas.

Diversas tcnicas de minerao de dados tm sido aplicadas com sucesso em


diferentes tipos de dados educacionais e tm ajudado a enfrentar muitos problemas usando a
classificao tradicional, tcnicas de agrupamento e anlise de associao.

Baseado na preocupao que existe entre o baixo ndice de matriculados e as altas


taxas de evases, esta pesquisa visa buscar conhecimentos sobre o processo de inscrio dos
acadmicos e dos egressos da IES em questo. Os resultados obtidos atravs desses estudos
podero auxiliar os gestores da IES na tomada de decises em relao ao projeto acadmico a
ser desenvolvido junto ao setor responsvel pelo marketing da IES.

O conhecimento a ser gerado de suma importncia, no s para o setor responsvel


pela divulgao do processo seletivo da IES, mas tambm para os coordenadores dos cursos,
que podem melhor definir as polticas administrativas para os ingressantes em seus
respectivos cursos.

1.2 OBJETIVOS
Dentro deste cenrio, os objetivos da proposta em questo so a seguir descritos.
27

1.2.1 Objetivo Geral


O objetivo geral deste projeto visa um estudo e aplicabilidade da tcnica de Minerao
de Dados na base de dados do Ambiente de Gesto Educacional de um IES de Blumenau-SC,
para auxiliar os gestores na descoberta da informao e conhecimento.

1.2.2 Objetivos Especficos


Para a concretizao do objetivo geral, elencam-se a seguir os objetivos especficos
desta proposta:

a ) identificar, na IES, o que os gestores entendem por gesto da informao e


descoberta da informao e conhecimento;

b ) levantar junto a IES quais so as principais informaes e conhecimento do AGE


para disponibilizar aos gestores da IES;

c ) identificar ferramentas que utilizam tcnicas de Minerao de Dados, que possam


ser aplicadas nas bases de dados do AGE da IES, para auxiliar os gestores na
descoberta da informao e conhecimento;

d ) aplicar nas bases de dados do AGE da IES, uma ferramenta de Minerao de


Dados na extrao da informao e conhecimento, para auxiliar os gestores em
futuras decises estratgicas a respeito dos futuros ingressantes e egressos.

1.3 METODOLOGIA
A pesquisa tem como uma de suas definies mais simples, a obteno de respostas
por meio do uso de mtodos cientficos, para as questes ou problemas propostos. Tendo
como ponto de partida uma dvida levantada ou um problema a ser resolvido e fazendo uso
de um ou mais mtodos cientficos, a pesquisa tem o objetivo de buscar uma soluo ou
resposta para a dvida levantada ou o problema em questo.

1.3.1 Metodologia da Pesquisa


A metodologia de pesquisa tem por objetivo apresentar uma sequncia de etapas que
devero ser seguidas para alcanar os objetivos propostos, com resultados coerentes
(WAZLAWICK, 2008).
28

Em vista disso, a fim de atingir o objetivo geral e os especficos deste projeto,


primeiramente foi feito um levantamento bibliogrfico de trabalhos contemplando a rea de
estudo, sendo que os trabalhos de Lucas (2002), Zambenedetti (2002), Furtado (2004), Alves
(2005), Martinhago (2005), Alvarenga (2006), Cella (2006), Scoss (2006), Galucci (2007),
Kampff (2009) serviram de base para a aquisio de elementos que definiram este projeto.

Tendo como base a literatura traou-se um quadro terico a fim de sustentar o


desenvolvimento da pesquisa, alinhando-o com os objetivos deste projeto. O conhecimento e
a comparao puderam ser feitos com base nos trabalhos relacionados ao tema da pesquisa.

O mtodo empregado nesta pesquisa foi o mtodo indutivo, o qual d privilgio a


observao para se alcanar os objetivos. No mtodo indutivo se todas as premissas so
verdadeiras, a concluso provavelmente ser verdadeira, mas no necessariamente.

Sob o ponto de vista da natureza, a pesquisa pode ser classificada como aplicada. Na
pesquisa aplicada, procura-se a partir da gerao de conhecimento para a aplicabilidade
prtica, direcionando para a soluo de determinados problemas.

Quanto ao ponto de vista dos procedimentos tcnicos foram utilizadas fontes


bibliogrficas, para o desenvolvimento da fundamentao terica, ou seja, a elaborao do
contedo terico da pesquisa deu-se a partir de material j publicado, constitudo de livros,
artigos de peridicos e tambm de material disponibilizado na Internet (GIL, 2002).

Sob o ponto de vista da abordagem do problema, a pesquisa classificada como


qualitativa. Para Chizzotti (1995, p.89) [...] a finalidade de uma pesquisa qualitativa
intervir em uma situao insatisfatria, mudar condies percebidas como transformveis,
onde pesquisador e pesquisados assumem, voluntariamente, uma posio reativa.

Para Neves (1996) a pesquisa qualitativa:

Compreende um conjunto de diferentes tcnicas interpretativas que visam a


descrever e a decodificar os componentes de um sistema complexo de significados.
Tem por objetivo traduzir e expressar o sentido dos fenmenos do mundo social;
trata-se de reduzir a distncia entre indicador e indicado, entre teoria e dados, entre
contexto e ao.

Nesta modalidade de pesquisa os dados coletados em suas vrias etapas esto em


constante processo de anlise e avaliao, sendo que na anlise as novas descobertas sero
29

novamente analisadas para orientar uma nova ao que possa modificar as condies
consideradas indesejadas.

Os dados foram disponibilizados em duas planilhas do Excel, onde uma das planilhas
contm as respostas dos itens propostos no questionrio scio-educacional aplicado aos
candidatos no ato da inscrio ao processo seletivo (Vide Anexo A). Noutra planilha
encontram-se os itens propostos no questionrio scio-economico aplicado aos egressos da
IES (Vide Anexo B).

Perante o ponto de vista dos objetivos, a pesquisa pode ser classificada como
exploratria. Na explorao procurou-se maior familiaridade com o problema objetivando-o
torn-lo explcito.

1.3.2 Procedimentos Metodolgicos


Para o estudo aqui em questo a metodologia adotada pode ser enquadrada, conforme
sugerem Roesch (1999) e Vergara (2003), como um estudo de caso, j que trata da aplicao
de uma tcnica de Minerao de Dados no AE de uma IES especfica. Desta forma, as
concluses do estudo no podem ser generalizadas para outras IES, devido as caractersticas
peculiares de cada.

Para Merriam (1988, apud GODOI, BANDEIRA-DE-MELLO e DA SILVA, 2006, p.


119), um estudo de caso qualitativo uma descrio (holstica e intensiva) de um fenmeno
bem delimitado (um programa, uma instituio, uma pessoa, um grupo de pessoas, um
processo ou uma unidade social).

O estudo de caso tem com caracterstica fundamental uma maior complexidade na


coleta dos dados, levando-se em considerao outras modalidades de pesquisa, uma vez que
possui mais de uma tcnica de coleta de dados. A qualidade dos resultado deve ser assegurada
por procedimentos utilizados na obteno e coleta dos dados. Os dados para o estudo de caso
podem ser obtidos por diferentes fontes, como: a anlise de documentos, entrevistas,
depoimentos pessoais e questionrios, sendo o estudo de caso considerado o mais completo
tipo de delineamento de pesquisa. (GIL, 2002).
30

A inteno do estudo de caso de revelar a interao entre o interno e externo que so


caractersticos de um mesmo fato. Tratando-se de uma pesquisa qualitativa, o mtodo de
estudo de caso foi escolhido por possibilitar a observao do contexto a ser pesquisado.

O projeto como um todo foi envolvido na pesquisa bibliogrfica. A elaborao do


contedo terico da pesquisa deu-se a partir de material j publicado, constitudo de livros,
artigos de peridicos nacionais e estrangeiros e tambm de material disponibilizado na
Internet. Houve tambm reunies com o responsvel pelo ambiente de aprendizagem da IES,
com intuito de melhor compreender o ambiente a ser pesquisado.

Quando da reviso bibliogrfica, a busca pela soluo do problema passou pela


escolha da tcnica de minerao de dados que melhor atendesse o objetivo determinado. Para
o problema de pesquisa deste trabalho a tcnica mais adequada foi Minerao de Dados.

1.4 ESTRUTURA DA DISSERTAO


O trabalho est organizado em 05 (cinco) captulos correlacionados. O Captulo 1,
Introduo, apresentou por meio de sua contextualizao o tema proposto neste trabalho. Da
mesma forma foram estabelecidos os resultados esperados por meio da definio de seus
objetivos e apresentadas as limitaes do trabalho permitindo uma viso clara do escopo
proposto. Apresentou-se ainda a Metodologia da pesquisa utilizada.

O segundo captulo apresenta a Fundamentao Terica que orienta a investigao,


complementada por trabalhos cientficos (monografias, dissertaes, teses e artigos cientficos
especficos), como outras fontes literrias (livro, peridicos, internet, banco de dados virtuais,
entre outros) com aderncia ao mesmo. Neste captulo so abordados os assuntos pertinentes
ao trabalho como: a definio de Sistemas de Informao, a Informao e suas caractersticas,
Gesto da Informao, Extrao da Informao, Minerao de Dados, Algoritmos de
Classificao e a Ferramenta WEKA assim como as Ferramentas de Gesto de IES.

O Captulo 3 apresenta os Trabalhos Relacionados, onde os trs primeiros apresentam


temas relacionados ao domnio de Gesto de IES. Na seqncia outros trabalhos envolvendo
Minerao de Dados, na sequencia apresentam-se trabalhos que abordam o uso de
Minerao de Dados em Ambientes de Gesto Educacional.
31

O quarto captulo traz os resultados dessa implementao e aplicao das tcnicas de


Associao, Classificao e de Clusterizao dos dados analisados.

No Captulo 5, so tecidas as concluses do trabalho, relacionando os objetivos


identificados inicialmente com os resultados alcanados. So ainda propostas possibilidades
de continuao da pesquisa desenvolvida a partir das experincias adquiridas com a execuo
do trabalho.
32

2 REFERENCIAIS TERICOS

A fundamentao terica serve de base para fundamentao da pesquisa, em termos


tericos e empricos, servindo tambm de auxiliar nos instrumentos de coleta de dados
utilizados para a pesquisa realizada.

Neste item apresenta-se como estado da arte o embasamento sobre Sistemas e


Informao, Minerao de Dados Com suas tcnicas e tarefas, Ferramentas para a Minerao
de dados, Gesto de IES e finalizando com Ferramentas de Gesto.

2.1 SISTEMAS E INFORMAO


As possibilidades de uso das tecnologias da informao ficaram mais claras com a
utilizao crescente do computador. A velocidade de processamento disponvel permite que
as organizaes alcancem seus objetivos com mais facilidade, fazendo uso de informaes
precisas, no tempo certo e local adequado. Diante destas possibilidades muitos conceitos
novos surgiram.

Dalfovo (2007, p. 19 ) identifica que:

Para se definir Sistemas de Informao, preciso ter em mente algumas definies


ou conhecimentos sobre o computador, hardware, software e telecomunicao.
Existem diversas definies sobre sistemas de informao. Algumas definies
baseiam-se no modelo comportamental, outras no modelo tcnico.

Stair e Reynolds (2008, p. 14) reforam que

Um sistema de informao baseado em computadores (CBIS computer based


information system) composto por hardware, software, bases de dados,
telecomunicaes, pessoas e procedimentos configurados para coletar, manipular,
armazenar e processar dados em informaes.

Rezende (1999, apud REZENDE e ABREU, 2009, p.38) enfatiza que Todo sistema,
usando ou no recursos de Tecnologia da Informao, que manipula e gera informao pode
ser genericamente considerado como Sistema de Informao.

Os SI encarregam-se do papel principal no suporte a tomada de deciso, com base nas


ferramentas de anlise, seja na apresentao, no armazenamento, gerenciamento e na
recuperao da informao, atravs de Data Marts, Data Warehouse, que utilizam alguma
33

tcnica de minerao de dados ou processamento de transaes, podendo disponibilizar a


informao atravs dos ambientes de redes.

Sistemas de Informao tendem a ser a soluo para muitas organizaes desde que
estas organizaes tenham certeza do que necessitam e saibam aonde querem chegar com o
uso de suas informaes.

2.1.1 Informao
Ter o conceito de informao definido essencial para o entendimento correto dos SI
e como o processamento por eles realizado gera a informao necessria para a tomada de
decises.

Buckland (1991) considera a informao como coisa, ou seja, transforma a


informao em algo que pode ser alcanado, possvel de ser expressado.

Capurro (2003, apud CELLA, 2006, p. 135) define que:

O conceito de informao refere-se a processos cognitivos humanos ou a seus


produtos objetivados em documentos, evidencia uma vez mais os limites de todo o
paradigma ou modelo, nesse caso do paradigma social, no momento em que a
relao entre informao e significado torna-se problemtica, quando se deseja
transport-la para sistemas no sociais.

Outro autor Robredo (2003, p. 1) cita em sua obra, a qual traz uma definio de um
compndio ingls, na qual a informao um conjunto de dados organizados de forma
compreensvel, registrado em papel ou em outro meio e suscetvel de ser comunicado.

Para Le Coadic (2004, p. 4) informao um conhecimento inscrito (registrado) em


forma escrita (impressa ou digital), oral ou audiovisual, em um suporte.

A informao est diretamente ligada ao conceito de transformao, no qual os dados


armazenados nas bases de dados das organizaes passam por diversos processos (limpeza,
filtragem, codificao, agrupamento, entre outros) para gerarem a informao.
34

Figura 2 - Transformao de dado em informao


Fonte: Adaptado de Stair e Reynolds (2008)

Stair e Reynolds (2008, p. 4) consideram a informao como um conjunto de fatos


organizados de modo a terem valor adicional, alm do valor dos fatos propriamente ditos.

Rezende e Abreu (2009, p. 38) enfatizam que:

[...] informao todo o dado trabalhado, til, tratado, com valor significativo
atribudo ou agregado a ele e com sentido natural e lgico para quem usa a
informao. O dado entendido com um elemento da informao, um conjunto de
letras, nmeros ou dgitos, que, tomado isoladamente no transmite nenhum
conhecimento, ou seja, no contm significado claro.

O desejo em deter, controlar e manipular a informao est presente na histria desde


os tempos passados, contudo aps o trmino da Segunda Guerra Mundial, e mais
recentemente com o avano das tecnologias de comunicao, e com a reduo nos custos da
TI, observa-se um aumento significativo na produo de informaes.

O uso dos meios de comunicaes e da grande rede mundial, a Internet, tornou-se um


elemento primordial nas organizaes, por conseqncia, reduziu o custo com o
processamento da informao, assim possibilitando que mais e mais pessoas pudessem ter
acesso a mesma.

Barreto (2002) descreve que no perodo compreendido entre 1945 e 1980, a gerncia
da informao era considerada um problema, pois a ordenao, organizao e disseminao
de informaes no atingiriam seus objetivos uma vez que as teorias e os instrumentos da
poca no tinham a capacidade requerida para tal situao.
35

Desde aquela poca at os dias atuais, a gerncia da informao tem assumido um


papel importante, ademais perante a economia globalizada, persuadindo os gestores a
demonstrar interesse maior em poder gerir a informao de forma mais sistemtica.

Perodo Conceito de Informao Importncia atrelada


Tentativa de eliminao do processamento
1950-1960 Elemento Burocrtico indispensvel
realizado atravs de papis.
Auxlio na gesto das atividades da
1960-1970 Apoio aos objetivos gerais
organizao.
Agilizao no processo de tomada de
1970-1980 Domnio da gesto da organizao
deciso
1980-2000 Utilizada como recurso estratgico Obteno da vantagem competitiva e
manuteno da organizao no mercado.
Figura 3 - Evoluo do conceito de informao
Fonte: Adaptado de Laudon e Laudon (1996)

Hommerding (2001, p. 28) destaca que:

As tecnologias da informao devem ser consideradas ferramentas bsicas de


trabalho, instrumento para qualquer tipo de unidade de trabalho/informao, uma
vez que o processamento, o gerenciamento, a recuperao e a disseminao da
informao, por meio dessas tecnologias, so mais eficientes e eficazes.

Resumindo os conceitos apresentados, diz-se que a informao o conhecimento


registrado. De encontro ao exposto, tem-se que informao hoje tambm considerada como
fonte de transformaes, assim como relata Silveira (2008) a partir da informao que as
pessoas podem modificar suas vidas, controlar suas inseguranas e frustraes, se situar no
tempo e no espao, evoluir mental e espiritualmente e ajudar a melhorar a vida de seus
semelhantes.

Alvarenga (2006, p. 31) relata que seja qual for o profissional que far uso da
informao, ele deve saber distinguir as informaes que lhe so apresentadas e quais
realmente so necessrias para suas necessidades.

Embora a informao seja um ativo que precisa ser administrado, tal qual os demais
bens da organizao, ela tem uma caracterstica diferente do ponto de vista de sua utilizao:
ela infinitamente reutilizvel, no se deteriora nem se deprecia, e seu valor determinado
apenas pelo usurio.

Dalfovo (2007, p. 22) destaca que:


36

O uso eficaz da informao nas organizaes passa a ser um patrimnio, em que


considerado um fator chave para o sucesso das organizaes. Este fator torna-se
mais expressivo quando as organizaes defrontam-se com as mudanas de mercado
e avanos das tecnologias.

Dadas as atuais abordagens e dimenses da informao, h a exigncia de um novo


profissional, apto e habilitado a utilizar os recursos tecnolgicos, com a incumbncia de
disseminar a informao, promovendo o compartilhamento desta para todos os usurios.

Tornar a organizao mais competitiva, proporcionar aos seus gestores informaes


com maior valor agregado, transformar informaes em conhecimento, para apoiar o
planejamento estratgico das organizaes, estas so as funcionalidades da gesto da
Informao.

A medida que se conceitua a informao, tem-se uma maior dificuldade baseada nas
mudanas sociais e tecnolgicas que recriam a cada dia uma nova realidade, seja ela pessoal
ou empresarial. Diante desta nova perspectiva, surge um norte a ser seguido, no qual o
conhecimento adquirido, resultado da capacidade de recordao de fatos, torna-se um
diferencial a ser utilizado. Este conhecimento por vezes desprezado de muita valia diante as
adversidades enfrentadas pelas organizaes.

2.1.1.1 A importncia da informao


A informao, quando usada de forma eficaz, passa a ser considerada um patrimnio
das organizaes, vindo a ser considerada tambm com um fator chave para o sucesso destas.
Isto mais visvel quando as organizaes enfrentam mudanas no mercado em que atuam.

Carvalho (2001, p. 27) afirma que:

A tecnologia da informao a ferramenta utilizada pelo executivo, tomador de


deciso para fazer da informao o recurso estratgico. Ento devem-se estudar as
trs partes a tecnologia necessria, o perfil do executivo, a qualidade da
informao para que os objetivos das organizaes sejam alcanados de forma
eficaz e eficiente.

Para Castro (2000, p. 28) A informao um requisito bsico para a sobrevivncia do


ser humano. Permite o necessrio intercmbio entre o homem e o ambiente em que ele vive.
37

Dalfovo (1998, p. 23) destaca que O mercado no se limita somente ao conhecimento


da informao. De alguma forma a informao o prolongamento do produto na prestao de
servio. A informao to importante que passa a ser o centro das atividades nas empresas.

Observa-se a importncia da informao em qualquer nvel de atividade realizada pelo


homem. Na sociedade ps-industrial, chamada de sociedade da informao, esta tem lugar de
destaque, considerada como elemento indispensvel para a tomada de decises.

Stair e Reynolds (2008, p.6) destacam as qualidades da informao para que a mesma
seja considerada til nas tomadas de decises. Para os autores, a informao considerada
valiosa quando ela :

a) Precisa: quando a informao est isenta de erros;

b) Completa: quando a informao contm todos os fatos relevantes;

c) Econmica: a gerao da informao tem um custo considerado baixo;

d) Flexvel: pode ser utilizada em diversos fins;

e) Confivel: a fonte produtora da informao confivel;

f) Relevante: tem importncia para o tomador de decises;

g) Simples: a informao demasiadamente complexa pode confundir o tomador


de decises;

h) Apresentada no momento exato: informaes apresentadas aps a ocorrncia


dos fatos no traz novidade;

i) Verificvel: deve se possvel verificar se realmente a informao est correta;

j) Acessvel: os usurios com permisso de acesso podem t-la no momento em


que precisam e;

k) Segura: seu acesso s deve ser permitido a quem tem permisso.

Os mesmos autores reforam que o valor da informao est diretamente ligado a


como ela auxilia os tomadores de decises atingirem seus objetivos organizacionais.

Rezende e Abreu (2009, p. 36-37) ressaltam que informao e planejamento so


palavras-chaves para a organizao das organizaes, citando ainda que as informaes
38

personalizadas e oportunas so fundamentais para a inteligncia empresarial ou


organizacional.

Rezende (2001, p.3) destaca que "a formulao estratgica de qualquer negcio
sempre feita a partir das informaes disponveis, portanto, nenhuma estratgia pode ser
melhor que a informao da qual derivada". Nesse contexto, verifica-se que, a chance da
organizao tornar competitiva est fortemente influncia pela gesto da informao.

Para Cella (2006, p. 136)

As instituies podem obter vantagens competitivas por intermdio do uso da


informao atravs da realizao de investimentos em informao e tecnologia da
informao, do uso estratgico da informao agregando-a a seus produtos e
servios e da aprendizagem organizacional.

Mesmo a informao sendo de fundamental importncia para as organizaes, deve


ser transformada em informaes teis para os gestores, pois com estas informaes, com
valores agregadas a ela que se pode obter uma vantagem competitiva sustentvel, mantendo-
se a frente de seus concorrentes.

Por intermdio do uso estratgico da informao, associando-a aos produtos e


servios, juntamente com o investimento em informao as IES podem obter vantagens
competitivas sustentveis. A agregao de valores a informao ultrapassa os mtodos de
consulta, pesquisa e disseminao tradicionais, aos usurios das organizaes.

Cella (2006, p. 141) ressalta o valor da informao dentro das IES.

O valor da informao e a tomada de deciso por parte dos gestores so afetados


pela qualidade da mesma, ou seja, quando a informao no tem qualidade ou
deficiente, os gestores no conseguem tomar as melhores decises, afetando todo o
processo de gesto da organizao. Uma informao tem qualidade quando
relevante, precisa, acessvel, concisa, clara, quantificvel e consistente.

Uma grande quantidade de informaes tratada pelas organizaes diariamente, estas


informaes so extradas, processadas, armazenadas e disseminadas todos os usurios das
organizaes, tanto internos quanto externos. Uma parte destas informaes destina-se ao
apoio das operaes dirias das organizaes e a outra parte ser utilizada para auxiliar os
gestores em suas tomadas de decises em todos os nveis da organizao.

Para Castro (2002, p. 29),


39

A criao, captao, organizao, distribuio, interpretao e comercializao da


informao so processos fundamentais, enquanto que, a tecnologia utilizada para
apoiar estes processos pode ser considerada menos importante do que a informao
contida nos sistemas. A informao dinmica e capaz de criar grande valor para as
organizaes.

Beuren (2000, p.67-68 apud CELLA, 2006, p. 146) destaca que: "... para assegurar o
valor estratgico da informao, na fase de execuo dos planos organizacionais, precisa
haver um processo coordenado de todas as etapas do gerenciamento da informao.".

Em vista disto, os responsveis pelos projetos de tecnologia da informao devem


atender s novas regras de negcio promovendo as alteraes organizacionais necessrias para
alcanarem seus objetivos. A criatividade e inovao nas formas de identificar as fontes de
informao so de extrema importncia uma vez que a informao que se deseja nem sempre
est disponvel nas tradicionais fontes de informao.

2.2 SISTEMAS DE INFORMAO


Devido a rpida evoluo tecnolgica, as mudanas e presso infringidas pelo
mercado, torna-se essencial que os gestores das IES tenham agilidade e versatilidade em suas
decises, porm, ressalta-se que para isto, os gestores necessitam de informaes cada vez
mais precisas e atualizadas.

Para Beuren (2000, p.39) "... o sistema de informao o encarregado de prover


informaes, em todas as etapas do processo de gesto (planejamento, execuo e controle),
para os diferentes nveis hierrquicos e reas funcionais da empresa.".

Uma forma de manter-se preparado, tendo uma viso integrada da organizao, fazer
uso do SI. A crescente evoluo das tecnologias tem possibilitado a criao de SI,
preocupados como processo de gerao das informaes.

Para Cella (2006, p. 149)

O sistema de informaes dependente do sistema de gesto de uma instituio,


todos os esforos para o desenvolvimento da arquitetura e do sistema de
informaes devem concentrar esforos na identificao das informaes
necessrias para o processo de gesto empresarial e na determinao dos respectivos
subsistemas que daro suporte a gesto.

A criao de um ambiente organizacional em que as informaes sejam confiveis e


tenham fluncia na estrutura da organizao o maior objetivo quando se utilizam de SI.
40

Figura 4 - Integrao dos Sistemas de Informao


Fonte: Adaptado de Stair e Reynolds (2008, p. 6).

Para Stair e Reynolds (2008, p. 12) um SI um conjunto de elementos ou


componente inter-relacionados que coletam (entrada), manipulam (processo) e disseminam
(sada) dados e informaes e oferecem um mecanismo de realimentao para atingir um
objetivo, como observado na Figura 4.

Cella (2006, p. 146) corrobora enfatizando que:

[...] um sistema de informao deve estar devidamente compatibilizado com a


estrutura de autoridade, de decises e de responsabilidade pela execuo de
atividades estabelecidas pela organizao, de tal forma que, as informaes
destinadas a formular os planos, executar as funes e avaliar o desempenho
sejam estruturadas de acordo com os objetivos das unidades organizacionais e
comunicadas em tempo hbil s pessoas certas.

Para Laudon e Laudon (2001, p. 21), os SI so divididos nos seguintes nveis:

Nvel Operacional: Neste nvel se encontram os SI que gerenciam as atividades


primrias e transacionais das organizaes. Estes SI tm como objetivo responder a questes
de rotinas e fluxo de transaes;

Rezende e Abreu (2009, p.111) destacam que o SI deste nvel:

Cria condies para a adequada realizao de trabalhos dirios da empresa, onde o


nvel operacional de influncia considera uma parte bem especfica da estrutura
organizacional da empresa. Neste caso, o nvel de informao detalhada
(analtica), contemplando pormenores especficos de um dado, de uma tarefa ou
atividade.

Nvel Especialista: aqui se encontram os SI que auxiliam os funcionrios


especializados de uma organizao. Seu objetivo auxiliar a organizao na aquisio e
41

integrao de novos conhecimentos aos seus negcios e a organizar o fluxo dos papis dentro
da organizao;

Gouveia e Ranito (2004, p. 58-59) consideram que os SI deste nvel so:

So sistemas de informao que suportam o trabalho de quem lida com dados e com
conhecimento. Tm que permitir a integrao de novo conhecimento no negcio,
logo devem ser muito flexveis, bem como permitir o controlo de fluxo do trabalho,
sendo assim, fceis de utilizar e no obrigarem no obrigarem a grande desvios do
trabalho normal para que se faa a recolha de informao. Caso contrrio, as pessoas
tendem a no os usar, o que deita por terra todo o interesse dum sistema deste tipo.

Nvel Administrativo: Os SI deste nvel trabalham com as atividades administrativas


de nvel mdio dentro da organizao e tm como objetivo gerir e monitorar a informao
para os gerentes deste nvel;

Fialho (2001, p.68) menciona que neste nvel os sistemas de informaes gerenciais
servem s funes de planejamento e tomada de deciso. Apresentam relatrios sumarizados
com informaes condensadas.

Nvel Estratgico: Neste nvel se encontram os SI que auxiliam as atividades de


planejamento de longo prazo e o objetivo destes SI adequar as mudanas ocorridas no
ambiente externo com a capacidade organizacional existente.

Neste nvel os SI, vo alm das informaes gerenciais tradicionais, nas quais so
produzidos apenas relatrios. Os SI deste nvel fornecem auxlio imediato na resoluo de
problemas complexos e que no podem ser assistidos pelos SI do nvel administrativo,
sugerindo alternativas e possibilitando condies ideais s tomadas de decises finais.

Laudon e Laudon (2001, p. 27) classificam os sistemas de informao de acordo com


o tipo de problema organizacional que eles resolvem:

Sistemas de nvel estratgico so sistemas de informao utilizados para o nvel de


deciso, contribuindo para o planejamento estratgico da organizao. Seu propsito
contabilizar as mudanas no ambiente externo com as capacidades organizacionais
existentes; Sistemas tticos so sistemas de suporte gerencial, usados para resolver
questes que envolvem controles e avaliao do processo de atingimento de
objetivos; Sistemas de conhecimento so usados para resolver questes que
envolvem conhecimento de especialidades tcnicas, dando suporte aos funcionrios
especializados com o propsito de ajudar a empresa a integrar novos conhecimentos
ao negcio; Sistemas operacionais so os sistemas usados para resolver problemas
relacionados operao, servio e produo, respondendo as questes de rotina e
fluxo de transaes.
42

Os SI tendem a serem flexveis, uma vez que as funcionalidades neles implementadas


devem ser parametrizveis, de forma a garantir uma atualizao contnua as necessidades das
organizaes, sem que sejam necessrias substituies ou a reescrita destes SI. Devem ainda
suportar a tomada de decises individuais ou coletivas, abrangendo as vrias competncias e
conhecimentos dos gestores envolvidos no processo.

Figura 5 - Relao entre SI e seus nveis de abrangncia dentro das organizaes


Fonte: Adaptado de Laudon e Laudon (2001)

Na medida em que o nvel organizacional elevado, as informaes tornam-se mais


refinadas e com propsitos mais estratgicos dentro da organizao. Quanto mais se
aproximam do nvel estratgico da organizao, mais alto o impacto das informaes nos
objetivos e maior a especificidade dos problemas.

2.2.1 Sistemas de Informao e seus tipos


Existe uma concordncia sobre a diviso dos tipos de SI em relao as suas funes
administrativas. Autores como Laudon e Laudon (2001) , Rodrigues (1996), Dalfovo (2007),
Stair e Reynolds (2008) classificam o SI em:

a) Sistema de Processamento de Transaes (SPT);

b) Sistema de Automao de Escritrios (SAE);


43

c) Sistema de Informao Gerencial (SIG);

d) Sistema de Informao de Suporte Tomada de Deciso (SSTD) e

e) Sistema de Informao para Executivos (SIE).

A ateno cair sobre as informaes gerenciais, em virtude da dificuldade de


definio o que as torna um grande aliado na gesto de qualquer organizao.

2.2.1.1 Sistema de Processamento de Transaes (SPT)


Stair e Reynolds (2008, p.20) conceituam o SPT como: um conjunto de pessoas,
procedimentos, softwares, base de dados e dispositivos usados para registrar as transaes
completas de negcios.

Para Rezende e Abreu (2009, p. 114)

Nos Sistemas de Informaes Operacionais, cada transao empresarial envolve a


entrada e a alimentao de dados, o processamento e o armazenamento, e a gerao
de documentos e relatrios. Com suas inmeras caractersticas, como o grande
volume de dados, muitas sadas de informaes, envolvendo alto grau de repetio e
computao simples.

O SPT utilizado para registrar transaes dirias de negcios, automatizar rotinas de


gesto administrativa que anteriormente representavam tarefas consideradas intensas,
abrangendo o processamento de grandes massas de dados.

Para Maccari e Sauaia (2004) Este tipo de sistema implementa procedimentos e


padres para assegurar uma consistente manuteno dos dados e tomada de deciso. Ele
garante que os dados trocados sejam consistentes e estejam a disposio de que deles
necessitar. utilizado para efetuar as transaes entre clientes e a organizao. Exemplo:
Folha de pagamento, o qual foi considerado o primeiro SPT a ser utilizado nas organizaes.

2.2.1.2 Sistema de Automao de Escritrios (SAE)


So sistemas direcionados aos funcionrios que trabalham no escritrio da
organizao. So sistemas informatizados tais como: processadores de texto, planilhas
eletrnicas, sistemas de correio e agendamento eletrnico. Suas principais caractersticas so
o aumento da produtividade dos funcionrios e a troca de dados.
44

Para Gouveia e Ranito (2004, p. 59) so sistemas de computador destinados ao


aumento da produtividade do trabalhador de dados pessoal administrativo que tende a
processar informao em vez de a criar (incluindo o seu uso, manipulao e disseminao).

2.2.1.3 Sistema de Informao Gerencial (SIG)


O SIG direcionado tomada de decises estruturadas. A coleta de seus dados feita
internamente na organizao e tem por base os dados primrios existentes na organizao.
Sua principal caracterstica a utilizao somente de dados estruturados.

De acordo com Stair e Reynolds (2008, p. 21) o foco de um SIG basicamente a


eficincia operacional. Ele pode auxiliar a organizao a atingir suas metas, dando suporte ao
nvel gerencial por meio de relatrios e grficos, de modo que seus gerentes possam ter
controle e planejar as operaes de forma mais eficiente.

Oliveira (1992, apud DALFOVO 2007, p. 29), relata que os SIG so voltados aos
administradores de empresas que acompanham os resultados das organizaes semanalmente,
mensalmente e anualmente, eles no esto preocupados com os resultados dirios.

Os SIG tornam o plano de atuao organizacional mais fortalecido, haja vista que por
meio do recebimento dos dados e da gerao destes em informaes teis, o processo de
tomada de deciso possibilita a gesto da organizao de forma mais estratgica e, por
conseguinte resulta em vantagem competitiva sustentvel em relao as organizaes
concorrentes.

Oliveira (2000, p. 183) define o SIG como:

[...] um mtodo formal de tornar disponveis para a administrao, oportunamente,


as informaes precisas necessrias para facilitar o processo de tomada de deciso e
para dar condies para que as funes de planejamento, controle e operacionais da
organizao sejam executadas eficazmente. O sistema fornece informaes sobre o
passado, o presente e o futuro projetado e sobre eventos relevantes dentro e fora da
organizao.

Rezende e Abreu (2009, p. 114) corroboram relatando que os SIG trabalham com os
dados agrupados (ou sintetizados) das operaes funes empresariais da empresa, auxiliando
a tomada de deciso do corpo gestor ou gerencial das unidades departamentais, em sinergia
com as demais unidades.
45

Direcionado para os nveis gerenciais e para as unidades de negcios, os SIG tm


como foco a eficincia operacional, incorporando informaes comuns coletadas nas bases de
dados alimentadas pelo SPT. As entradas do SIG so dados internos ou externos prpria
organizao.

Os dados internos, so dados pertinentes a cada rea da organizao, sendo que so


importantes para a integrao das atividades no geral. J os dados externos, podem-se citar
como dados de oriundos de fornecedores, clientes, instituies financeiras, concorrentes,
dentre outros.

Heizmann (2002, p. 42) enfatiza que:

As informaes geradas por este sistema, so voltadas aos administradores e


gerentes e se apresentam na forma de relatrios resumidos de rotinas sobre o
desempenho da empresa, sendo utilizados para acompanhar os resultados das
operaes da organizao, trazendo benefcios como: a melhoria da produtividade e
servios e reduo de custos, alm de possibilitar previses futuras.

O objetivo dos SIG o fornecimento de informaes aos gerentes de nvel mdio, a


fim de que estes possam tomar decises sobre suas reas de atuao. Estes sistemas
normalmente fornecem relatrios pr-programados com informaes oriundas dos STP.

Resume-se ento o SIG ao processo de transformao de dados em informaes. E,


uma vez que esse processo esteja direcionado para a gerao de informaes que so
necessrias e utilizadas no processo decisrio da organizao, diz-se que esse um sistema de
informaes gerenciais.

2.2.1.4 Sistema de Informao de Suporte Tomada de Deciso (SSTD)


Dalfovo (2007, p.32) classifica estes sistemas como:

So sistemas voltados para Administradores, tecnocrtas especialistas, analistas e


tomadores de deciso. So sistemas de acesso rpido, interativos, orientados para
ao imediata. As caractersticas so flexveis, com respostas rpidas; permitem um
controle para municiar a entrada e sada dos dados; e um instrumento de modelagem
e anlise sofisticado.

Os SSTD funcionam como base na tomada de decises, possuem uma grande


quantidade de dados e diversas ferramentas para manipulao destes, o que permite uma
46

flexibilizao e adaptao ao meio em que se encontra, proporcionando uma capacidade


maior nas respostas oferecidas.

O uso da Tecnologia de Informao afeta diretamente o desempenho organizacional,


para garantir o sucesso no meio, as organizaes esto dependentes destas ferramentas, tendo
como conseqncia a utilizao dos SI alinhados com o planejamento estratgico das
organizaes, os benefcios competitivos gerados por sua utilizao, fato este que leva seus
concorrentes a se automatizarem, caso queiram permanecer no mercado.

2.2.1.5 Sistema de Informao para Executivos (SIE)


Por fim, os SIE, tambm chamados de Sistemas de Suporte Deciso Estratgica
(SSDE), Decision Suport System (DSS) ou ainda Sistemas de Apoio Deciso (SAD), que so
sistemas que do suporte as atividades do nvel estratgico.

Segundo Gouveia (2009, p. 22)

[...] o processo de tomada de deciso com auxlio de computadores iniciou na


dcada de 70, onde os processos comearam a ser informatizados e as informaes
passaram a ser pr-definidas e selecionadas por meio dos Executive Information
Systems (EIS).

Hadda (2007, p. 62) relata que os SIE podem alterar radicalmente o processo de
tomada de deciso e aumentar a produtividade e a acuracidade das decises tomadas pelos
gestores. Esta alterao d-se em funo das informaes apresentadas, as quais so oriundas
das diversas reas da organizao.

Stair e Reynolds (2008, p. 393) definem o SIE como:

[...] uma coleo organizada de pessoas, procedimentos, softwares, bases de dados e


dispositivos utilizados no apoio a decises e resoluo de problemas especficos. O
foco de um DSS na eficincia da tomada de decises diante de uma situao em
que so apresentados problemas no estruturados ou semi-estruturados.

Para Rezende e Abreu (2009, p. 115) os SIE contemplam o processamento de grupos


de dados operacionais e transaes gerenciais, transformando-os em informaes
estratgicas. O uso deste tipo de sistema importante devido ao fato de que as ferramentas
de apoio que visam alavancar o crescimento dos negcios das organizaes so cada vez mais
necessrias os gestores.
47

Os SIE so direcionados aos gestores que tenham pouco ou quase nenhum contato
com SI automatizados. Suas caractersticas consistem na combinao de dados internos e
externos; a apresentao de relatrios muitas vezes em forma de grficos; acesso a banco de
dados internos e externos.

De acordo com Dalfovo (2007, p. 27)

As informaes necessrias que os executivos preciso so visualizadas no E.I.S.


atravs de formas numricas, textual, grficas ou por imagens. Com a utilizao do
E.I.S. pode-se visualizar estas informaes desde o nvel operacional at nvel
analtico, de uma forma segura e rpida, possibilitando um melhor conhecimento e
controle da situao, possibilitando uma maior agilidade e segurana no processo
decisrio.

Os SIE permitem aos gestores fazerem o acompanhamento dirio dos resultados,


elaborando por meio de tabulaes de dados de todas as reas funcionais da organizao,
finalizando com a exibio destes resultados em forma de grficos. O que antes dos SI levava-
se dias para ser feito, agora com o uso dos SIE pode ser obtido em poucos segundos.

Vedovelli (2005, p. 59) baseado em Stair (1998) e Pozzebon (1997), descreve algumas
caractersticas desejveis aos SIE:

a) Facilidade de uso: Os SIE devem ser fceis no aprendizado e em sua utilizao;

b) Manipulao de dados externos e internos, qualitativos e quantitativos: as


informaes fornecidas so extradas tanto do ambiente interno como do externo e
contem dados estruturados ou no;

c) Execuo de anlises de dados: as anlises e simulaes so efetuadas sobre


metas a serem alcanadas;

d) Alto grau de especializao: as informaes devem estar em formatos


especficos, de acordo com a necessidade dos gestores;

e) Fornecimento de flexibilidade: Os SIE devem permitir alteraes em razo das


alteraes ocorridas nos ambientes interno e externo;

f) Recursos de comunicao: a disseminao das informaes entre gerentes e


gestores deve ser instantnea e precisa, sendo que deve estar disponvel a qualquer
instante e lugar.
48

As organizaes tm enfrentado um grande desafio que a previso dos problemas e a


concepo de solues prticas, com o intuito de alcanarem seus objetivos. Sobrevivem as
organizaes que esto bem informadas a respeito dos ambientes nos quais esto inseridas.

O uso de SIE um dos fatores de melhoria na tomada das decises estratgicas, o que
permite que se obtenha uma vantagem competitiva sustentvel em relao aos seus
concorrentes.

Dalfovo (2007, p. 26) corrobora com o contexto dizendo que,

No uma questo de modernidade para comandar a empresa por meio de


computadores em vez de papis, mas principalmente de flexibilidade e rapidez. Em
funo da complexidade do mercado, as empresas esto sendo obrigadas a agilizar
seu processo de deciso.

Observa-se que existem diferentes tipos de SIS, para diferentes necessidades dentro
das organizaes. Estes diferentes tipos de SI auxiliam a organizao na descrio e
diagnstico de suas operaes, transaes e servem de base para a tomada de decises,
assegurando de forma conjunta com a infra-estrutura de suporte, a funo de captura,
processamento e disseminao das informaes.

Os gestores devem ter confiana e segurana quando da tomada de decises e por


meio do uso de SIE, o impacto a ser causado pode ser minimizado, pois ser feito tendo como
base informaes mais precisas e coerentes com a deciso tomada.

Stair (2002, p. 19), refora que:

O foco de um Sistema de Suporte Deciso incide sobre a eficcia da tomada de


deciso. Enquanto um Sistema de Informao Gerencial ajuda a organizao a
fazer as coisas certas, um SSD ajuda o gerente a fazer a coisa certa, naquele
momento.

Os SIE so sistemas que possibilitam a realizao de simulaes das situaes reais a


serem enfrentadas pelas organizaes, o que tende a tornar a tarefa dos gestores mais precisa e
confivel, haja vista a realizao de experincias virtuais, evitando possveis erros nas
tomadas de decises.

Ressalta-se que os SI devem estar alinhados com as metas de negcio definidas,


satisfazendo as necessidades das decises. Estes SI devem tambm permitir o planejamento
49

de longo prazo, no qual haja a integrao entre dados dos diversos nveis da organizao, com
objetivo maior de obter a vantagem competitiva sustentvel.

2.3 GESTO DA INFORMAO


A fim de conceituar o termo, de acordo com Valetim (2006, p.18), a gesto da
informao um conjunto de atividades para prospectar/monitorar, selecionar, filtrar, tratar,
agregar valor e disseminar informao, bem como para aplicar mtodos, tcnicas,
instrumentos e ferramentas que apiem esse conjunto de atividades.

Dalfovo (2007, p. 57), retrata o estado em que se encontram os administradores e a


necessidade do uso de sistemas de informao para o desenvolvimento estratgico das
organizaes:

O desafio que os administradores enfrentam nos dias atuais, o de prever os


problemas e conceber solues prticas para eles, a fim de realizar os anseios
objetivados pela empresa. Os administradores precisam estar bem informados, pois a
informao a base para toda e qualquer tomada de deciso. Os sistemas de
informao tm um papel fundamental e cada vez melhor em todas as organizaes
de negcios. Os sistemas de informao eficazes podem ter um impacto na estratgia
corporativa e no sucesso organizacional. As empresas em todo o mundo esto
desfrutando maior segurana, melhores servios, maior eficincia e eficcia,
despesas reduzidas, aperfeioamento no controle e na tomada de decises devido aos
sistemas de informao.

A gesto da informao um instrumento que promove a compreenso da realidade


dos mercados, das tcnicas, dos concorrentes e da sua cultura, intenes e de sua capacidade,
alm de possuir uma relao estreita com a produtividade da organizao. Assim, tornando a
organizao mais competitiva.

Conforme Stair (2006, apud DALFOVO, 2007, p. 58):

[...] os Sistemas de Informao, hoje, so a ltima moda no mercado, ou seja, o


recente aprimoramento da moda utilizado nas estruturas de decises da empresa e,
quando corretamente aplicado, trar, certamente, resultados positivos s empresas.
Caso contrrio, torna-se difcil sua implementao at mesmo por seu alto custo.
necessrio, porm, saber, antes de tudo, ao certo, aonde quer chegar, a necessidade
os Sistemas de Informao, para que possam ser bem elaborados e desenvolvidos,
tornando-se sistemas fundamentais e capacitados para a tomada de decises da
empresa.

A utilizao dos recursos computacionais, como os sistemas de informaes, vem a


agregar mais valor ao produto final de qualquer organizao.
50

O filsofo Aristteles j afirmava que a necessidade de informao derivada do


desejo de saber, da curiosidade humana, portanto, determinada em funo do conhecimento j
adquirido.

Com o crescente avano tecnolgico, a informao est tendo um tratamento mais


cauteloso, do que visto h alguns anos atrs. A sua disseminao e utilizao no dependem
nica e exclusivamente daqueles que fazem uso da mesma. O uso de tecnologias deve ser
tratado como mais profissionalismo e com mais seriedade pelos meios empresariais,
educacionais, dentre tantos.

Em relao a estes cuidados, tem-se uma nova gerao de tcnicas, ferramentas


computacionais aliadas, extradas das cincias j existentes dentre as quais cita-se a Gesto do
Conhecimento, conforme relata Dalfovo (2007, p. 63):

Ela utilizada atualmente para manusear, transformar, concatenar, aprimorar


difundir informaes entre as pessoas que fazem uso da mesma. Uma vez
aprimorada, a informao transps vria barreiras e alcanou a rede mundial de
computadores, de onde foi difundida para pessoas espalhadas por todo o mundo e
adquiriu status de negcio eletrnico (e-business) e comrcio eletrnico (e-
commerce), permitindo assim s empresas fazerem uso das mesmas sem a
necessidade de deslocamentos desnecessrios.

So exatamente estas tcnicas que tm por objetivo o aprimoramento dos conceitos


referentes aquisio, assimilao e disseminao das informaes nos meios educacionais,
comerciais e empresariais.

Em um mercado onde a lei da competio predomina, muito importante que existam


fontes de conhecimento e informao eficientes, j que eles so o caminho para a melhoria
contnua de todas as organizaes.

Para Stata (1997, p. 392), a interconexo de alguns elementos, faz com que haja a
gerao do conhecimento:

Sistemas de informaes gerenciais transformam dados em informaes e depois


ajudam os gerentes a transformar informaes em conhecimento, e conhecimento
em ao. O desafio est em decidir que informao e conhecimento e em que
forma so necessrios. Se tivermos a aprendizagem organizacional em mente
como um dos objetivos no desenho dos sistemas de informao, teremos maior
probabilidade de gerar informaes e o conhecimento que os gerentes necessitam
para tomar aes efetivas.
51

Informao e Gesto da Informao, hoje so o foco de diversas abordagens e


discusses de como as organizaes podem obter vantagens sobre seus concorrentes, a
chamada vantagem competitiva.

Para as organizaes da esfera privada, o uso destas abordagens significa melhorias na


qualidade de seus produtos e servios, aumento dos ndices de satisfao de seus clientes,
inovao e elevao da produtividade, gerando aumento nos ndices de rentabilidade e
desempenho das organizaes.

Devido a natureza competitiva atual do mercado globalizado, fica evidente para os


gestores que no h mais espao para erros. As conseqncias relativas a execuo de uma
estratgia errnea ou a implantao e gesto incorretas de novos negcios, sem o apoio da
inteligncia competitiva podem ser extremamente graves.

A gesto da informao representa hoje uma rea onde o conhecimento est


imergindo, focando sua concentrao cada vez mais nas dimenses econmicas, auxiliando a
novos e velhos negcios a manter e ou conquistar suas vantagens competitivas.

Alvarenga (2006, p. 45) faz uma sntese das principais caractersticas da Gesto da
Informao, conforme se observa no Quadro 1, onde resume em sete tpicos as caractersticas
necessrias para a gesto organizacional com base nas informaes.

Caractersticas Parmetros importantes


1) Necessidade de informao diante das Quanto maior o grau de informaes acerca das
escolhas. decises que devero ser tomadas, maior a
probabilidade de acerto na deciso.
2) A informao como medida de Sistemas ditos organizados devem preocupar-se com as
organizao de um sistema. informaes necessrias e no com a quantidade de
informaes neles inseridas.
3) Informaes confiveis A identificao das fontes informacionais e sua
qualidade precisam ser analisadas antes da utilizao
destas informaes na tomada de deciso.
4) Comunicao como apoio para a O processo de comunicao fundamental no processo
disseminao da informao. de desenvolvimento e disseminao da informao.
5) Sistemas que proporcionem agilidade e O cenrio tecnolgico atual obriga a disseminao das
segurana. informaes por meio de mecanismos geis e seguros.
Apoio nas tecnologias de comunicao (informtica).
6) Necessidades de conhecimento dos A falta de conhecimento dos conceitos ocasiona
profissionais acerca dos conceitos de dificuldade na definio das informaes corretas para
informao. o desenvolvimento das funes, excesso de trabalho e
falta de compreenso para com outros usurios.
Continua...
52

Concluso.
7) Capacidade de definio das Nem toda informao que a empresa gera ou adquire
informaes necessrias. importante para determinada situao ou deciso.
Conhecer as informaes que a empresa possui
proporciona agilidade na tomada de deciso e evita
perda de foco.
8) Necessidade de conhecimento das Por serem utilizadas especificamente para a tomada de
informaes gerenciais. decises, precisam ser conhecidas, principalmente pelo
nvel estratgico da organizao (Tomadores de
deciso).
Quadro 1 - Caractersticas da informao
Fonte: Alvarenga (2006, p. 45)

A realizao destes processos e adaptao aos conceitos da organizao traz benefcios


no apenas ao fator competitivo, mas a organizao acaba recebendo uma boa imagem no
mercado e perante os consumidores.

Os gestores das organizaes tm a sua disposio diversas ferramentas para anlise


da informao, dentre as quais destacam-se: Workflow, Data Mining, Data Mart, Data
Warehouse, CRM, OLAP, alm de softwares desenvolvidos especificamente para suas
organizaes.

Observa-se que muitos dos processos bsicos utilizados numa ao organizacional so


dependentes das informaes que so tratadas por estes processos.

Em virtude disto muitas organizaes tm destinado grandes esforos, sejam


financeiros ou por meio de capital humano para gerir estas informaes, fazendo para isto uso
de tecnologias da informao.

2.4 A IMPORTNCIA DOS SIG NA GESTO ESTRATGICA


O constante processo de mudanas gerado pela sociedade contempornea exige que as
decises administrativas sejam cada vez mais rpidas e precisas, com isto as IES vem seus
paradigmas passarem por modificaes constantes.

As IES so consideradas como organizaes com um elevado grau de complexidade,


devido ao fato de realizarem e ensinarem atividades de mltiplas finalidades. Estas atividades
tm relao com o trip: ensino, pesquisa e extenso, o que torna as IES uma das
organizaes mais complexas.
53

Para Alves (2005, p. 58) o impacto destas mudanas afeta a infra-estrutura das IES, e
para a autora:

A infra-estrutura de tecnologia da informao representa todos os recursos de


hardware, software, telecomunicaes e pessoal que podem ser partilhados em uma
organizao. importante ressaltar que o projeto e a sua implementao devem
conter os recursos tecnolgicos necessrios para dar suporte aos trabalhos a serem
realizados.

Os SIE manipulam dados de diversas reas da organizao e tm como resultados


informao tanto quantitativas como qualitativas, sendo estas utilizadas para avaliao de
resultados e alcance dos objetivos estratgicos definidos.

A Fundao Nacional da Qualidade (FNQ) (2007, p. 8) salienta que:

Alm dos sistemas de indicadores de desempenho (informaes que indicam,


quantitativamente, a evoluo e o nvel de desempenho), so utilizados,
freqentemente, sistemas de informao que produzem informaes qualitativas
para avaliao de desempenho e tomada de deciso, como relatrios de auditoria,
pareceres e avaliaes especializadas, laudos tcnicos e pesquisas de opinio e de
monitoramento. O que caracteriza tais sistemas, portanto, o seu emprego para a
tomada de deciso.

Atualmente no mercado encontram-se vrias ferramentas que so utilizadas para a


anlise de informaes gerenciais e auxlio nas tomadas de decises, dentre as quais se
destacam: Business Intelligence (BI), Customer Relationship Management (CRM), Enterprise
Resource Planning (ERP), Workflow, Data Warehouse, Data Mining.

Para Rezende e Abreu (2009, p. 164) os gestores das organizaes necessitam de


Sistemas de Informaes efetivos, ou seja, que processem grande volume de dados e
produzam informaes vlidas, teis e oportunas.

Os SIG vm se tornando ferramenta de fundamental importncia nas organizaes


para a tomada de decises, tendo como objetivos obter, estruturar e disseminar a informao
gerada pela prpria organizao, o que antes era feito sem nenhuma estrutura e ao alcance de
poucos, hoje se encontra estruturado e disponvel a qualquer pessoa dentro da organizao.

Beruen (2000, p.59), refora este conceito dizendo que:

Uma vez que a empresa reconhece o papel positivo que a informao pode
representar, cabe a ela refletir sobre questes primordiais relativas criao de
processos eficazes de gesto da informao. Tal esforo poderia resultar no
54

desenvolvimento e implementao de uma arquitetura da informao, que promova


uma postura eficaz no atendimento das necessidades de informaes dos gestores.

A qualidade afeta diretamente no valor da informao e a tomada de decises, haja


vista que com uma informao sem qualidade os gestores no conseguem elaborar suas
decises de forma eficaz, isto afeta diretamente todo o processo de gesto.

Tanto as IES como qualquer outra organizao, devem desfrutar dos benefcios
oferecidos pela tecnologia e mais especificamente pelo uso dos SIG. Para tanto devem
abandonar velhos hbitos de trabalho e gesto e adotar as novidades trazidas pelas
ferramentas e sistemas a disposio.

Bernardes e Abreu (2004) reforam a idia sustentando que Os sistemas de


informao devem proporcionar s universidades um embasamento quantitativo e qualitativo
nos seus planejamentos, nos processos de tomada de deciso e no estabelecimento das
atividades no plano operativo.

A informao, sendo utilizada como um recurso estratgico, deve estar em constante


interao com todos os nveis da IES. A qualidade, o valor e a segurana da informao
passam a ser fundamentais para a IES nos processos de tomada de deciso.

De Mori (2008, p. 63) destaca que:

O processo administrativo apresenta como elemento bsico a tomada de deciso e,


para que este processo seja adequado, necessrio dispor de um sistema de
informaes eficiente. Portanto, fica claro que as empresas que possuem um SIG
adequado podem ter uma vantagem competitiva em relao s suas concorrentes,
diminuindo o nvel de risco, que parte integrante e inseparvel das decises
estratgicas, tticas e operacionais nas empresas.

A rpida evoluo dos recursos tecnolgicos e dos meios de comunicao, juntamente


com a reduo dos custos envolvidos no processo de armazenagem, processamento e
disseminao das informaes, torna a implantao de um SIG cada vez mais acessvel, a fim
de proporcionar solues cada vez melhores para o gerenciamento da informao nas IES.

Uma maneira de contrapor o insucesso de uma IES fazendo uso das tecnologias da
informao e de suas ferramentas. Assim a gesto das informaes e a tomada de decises
estaro baseadas em instrumentos tecnolgicos que conseguem extrair de forma mais rpida e
precisa as informaes necessrias para a gesto estratgica da IES.
55

Oliveira Junior e Castro (2006) enfatizam que A gesto estratgica da organizao se


tornar concreta pela empresa a partir do uso de ambientes, recursos e tecnologias especficas
que possibilitem a sua execuo.

Para os autores os recursos da TI, dentre os quais citam-se os SIG merecem maior
ateno por parte dos gestores, pois por meio destes recursos que se tem a gerao e gesto
da informao que servir para a tomada das decises.

Uma vasta quantidade de estudos e projetos abordando a Gesto da Informao, o uso


de tcnicas de Datamining, dentre outros assuntos relacionados a este projeto, so gerados nas
IES, por meio dos trabalhos das disciplinas, trabalhos de concluses de curso, mas observa-se
que poucos tm sido utilizados para a gesto da IES que gerou estes estudos.

Ressalta-se que o sucesso ou fracasso de um SIG, est diretamente relacionado com a


contextualizao da IES na qual ser utilizado, desde haja um ambiente onde sua implantao
e uso sejam aceitos pelos seus usurios.

2.5 EXTRAO DA INFORMAO


Com a crescente quantidade de informaes disponibilizadas diariamente, v-se a
disseminao do uso de tcnicas e ferramentas de extrao e manipulao de informaes, os
chamados Sistemas de Extrao de Informaes (SEI), para lidarem com este crescente
volume de informaes, nos seus diversos formatos.

A Extrao de Informaes (EI) tem por objetivo a localizao e extrao de


informaes consideradas relevantes em um documento ou coleo de documentos, a fim de
estruturar estas informaes dentro de um padro de sada, geralmente em um banco de
dados, para facilitar sua manipulao e posterior anlise.

Para Zambedenetti (2002, p. 25-26)

A extrao de informaes tem muitas aplicaes potenciais. Por exemplo, a


informao disponvel em textos no-estruturados pode ser armazenada em bancos
de dados tradicionais e usurios podem examin-las atravs de consultas padro.

Para se extrair a informao de um texto qualquer, percorre-se o texto em busca de


determinados eventos que identifiquem elementos da busca. Procura-se nestes elementos
outras informaes que caracterizem o evento. Toma-se como exemplo, a evaso acadmica:
56

busca-se no texto em referncia eventos que indiquem o ndice de evaso, os principais


motivos que levam os alunos a evadirem das IES.

Para Barion e Lago (2008, p. 133) O processo de extrao de informao identifica


palavras dentro de conceitos especficos e ainda contm um processo de transformao que
modifica a informao extrada em um formato compatvel com um banco de dados.

Scarinci (1997, p.22) explica o funcionamento de um SEI, no qual o SEI analisa um


texto por vrias vezes com objetivo de extrair do texto informaes bem especficas, sendo
que nesta busca da informao o SEI condicionado a buscar informaes consideradas
relevantes, deixando de lado as que no tm importncia para o usurio.

Para Cordeiro (2003, p. 17) a EI:

[...] pretende identificar elementos relevantes no interior de determinados


documentos, os quais j sabemos que contm a informao que nos interessa. Os
elementos relevantes extrados sero depois armazenados em alguma estrutura
previamente definida, por exemplos numa tabela de uma Base de Dados.

A EI presta um grande servio minerao de dados, uma vez que por meio da EI as
informaes extradas de uma base de dados so as consideradas mais relevantes para o
usurio. O que resulta em tomadas de decises com maior grau de certeza, haja vista que as
informaes desnecessrias e/ou redundantes so descartadas.

De acordo com Souza (2006, p. 163):

[...] h que se distinguirem os sistemas de recuperao de informaes (SRI) dos


sistemas de gesto de bancos de dados (SGBD). [...] No sentido estrito do conceito,
nenhum programa de computador lida, sob o ponto de vista da mquina, com
informaes, a no ser que possua alguma capacidade de arrazoamento, e, assim
mesmo, a utilizao do termo d margem a discusses. No uso corrente, porm,
ambos os termos so utilizados para sistemas, apesar das diferenas entre os
sistemas de recuperao de informaes e sistemas de recuperao de dados, como
os SGBDs.

Deve-se separar os dois conceitos, uma vez que o SGBD trata com tabelas e a forma
de interao, consulta, feita por meio de uma linguagem especfica para tal, Data
Manipulation Language (DML), Linguagem de Manipulao de Dados, trazendo como
resultado apenas duas possveis respostas, existe ou no existe um conjunto de dados que
atendam a consulta. Enquanto no SRI, passvel que no exista apenas uma nica resposta
consulta realizada, em virtude da incerteza associada ao documento analisado.
57

Portanto a informao tem hoje uma importncia que cresce a cada dia. Ela tornou-se
o elemento base para a organizao, desde a aquisio, transformao at a sua utilizao nas
tomadas de decises.

2.6 MINERAO DE DADOS


Tem-se observado um crescimento demasiadamente rpido do volume de dados
armazenados nas mais diversas corporaes, dados estes armazenados em banco de dados,
destinados para os mais diversos fins. Toma-se como exemplo o banco de dados do projeto
Genoma Humano que estima-se j conter uma quantidade de registros em torno de 109 objetos
armazenados.

Devido melhora da tecnologia da informao e o crescimento da Internet, as


organizaes so capazes de coletar e armazenar enorme quantidade de dados. Pessoas
gradualmente esto percebendo que os dados no so iguais a informao, que os dados
devem ser analisados e extrados.

Profissionais so treinados para analisar e interpretar os dados, mas os aumentos na


quantidade de dados, tipo de dados, e dimenses de anlise, tm dificultado estas aes. A TI
tem ido alm do armazenamento, transmisso e processamento. Os dados precisam ser
convertidos em informao e conhecimento para apoiar a tomada de deciso.

O principal desafio como fazer com que os dados armazenados nos bancos de dados
sejam convertidos de dados aparentemente sem sentido em informaes teis. Este desafio
crtico, porque as organizaes esto cada vez mais contando com uma anlise eficaz das
informaes simplesmente para se manterem competitivas.

Pela descoberta de conhecimento em bases de dados, o conhecimento interessante,


regularidades, e informaes de alto nvel podem ser extrados dos conjuntos de dados
relevantes em bases de dados e estes elementos serem investigados a partir de diferentes
perspectivas.

Diante deste contexto as aplicaes em minerao de dados (MD) podem dar


condies significativas s organizaes, uma vez que lhes so oferecidos conhecimento e
informaes que permitem uma melhor tomada de deciso, ou seja, a MD uma ferramenta
de grande valor quando utilizada em questes de anlise de informaes gerenciais.
58

Analogamente a classificao dos SI, a minerao de dados est situada mais


especificamente no nvel organizacional de decises gerenciais, conforme Figura 6.

Figura 6 - Interrelao entre MD, SI e nvel operacional


Fonte: Adaptado de Santos (2008).

A tecnologia tem proporcionado o que chamam de A Era da Informao, cada vez


mias milhares de informaes esto sendo armazenadas nos bancos de dados das organizaes
em todo o mundo. Essas informaes, que servem de base para a tomada das decises,
encontram-se implcitas no meio dos milhes de dados armazenados.

Shiba (2008) relata que esta capacidade de armazenagem dada em funo da oferta
de recursos tecnolgicos, onde a capacidade de armazenamento est cada vez maior, aliado ao
desenvolvimento de softwares que do suporte a esta funo.

A autora cita ainda que:

A alta disponibilidade de recursos para armazenamento de dados tambm permitiu


s organizaes um aumento significativo nos investimentos para a capacitao de
seus ambientes no que se refere captura, transformao e reteno de informaes,
dotando-os de softwares funcionalmente capazes de suportar todo o fluxo das
transaes de negcio. (SHIBA, 2008, pg. 21)

Os dados fornecidos pelos ambientes de aprendizagem virtual so analisados sob a


tica de informaes meramente estatstica, sobre o acesso aos cursos, contedos, quantidade
de acessos, etc., restringindo e limitando assim a capacidade de compreenso implcita nas
59

informaes sobre as mais variadas tendncias de utilizao e a percepo das possibilidades


de vantagens competitivas que possam ser obtidas com base em seu contedo.

As inovaes tecnolgicas na rea de armazenamento de dados, bem como sua


utilizao, vm crescendo proporcionalmente em relao aos avanos das novas tecnologias
de informao e comunicao, as chamadas TICs. A extrao de informaes que sejam
relevantes aos interesses dos gestores, est se tornando complexa diante da quantidade de
dados armazenados. Denomina-se Knowledge Discovery in Databases KDD (Descoberta de
Conhecimento em Bases de Dados), a atividade de garimpar a informao contida nestes
dados.

Apesar de ser comum usar os termos KDD (Knowledge Discovery in Databases) e


Minerao de Dados com o mesmo significado, Fayyad et al.(1996) definem o KDD como
sendo o processo da extrao de conhecimento dos dados como um todo, e Minerao de
Dados, como apenas uma etapa em particular do KDD, sendo que nesta etapa para a extrao
de padres dos dados realizada atravs do uso de algoritmos especficos.

Descobrir o conhecimento oculto nas grandes bases de dados das mais diversas
organizaes, seja de forma automtica ou semi-automtica o objetivo do Minerao de
Dados, alm de permitir uma maior agilidade no processo de tomada de deciso por parte dos
gestores.

KDD um processo no trivial para identificar padres vlidos, novos,


potencialmente teis e compreensveis em dados existentes. (FAYYAD, PIATETSKY-
SHAPIRO E SMYTH, 1996 apud BATISTA, 2004, p.32).

O KDT (descoberta do conhecimento em textos (KDT - Knowledge Discovery from


Text)) igual ao KDD, ou seja, iterativo e interativo transformando dados de baixo nvel em
conhecimento de alto nvel. (FURTADO, 2004, p. 29).

A diferena entre estes dois conceitos feita da seguinte forma: o KDD utiliza-se de
uma base de dados, tabulados e estruturados, para extrair o conhecimento, enquanto o KDT
extrai o conhecimento de dados no tabulados e estruturados.

Vrias atividades esto relacionadas ao KDD, que por sua vez contribuiu em vrias
reas, dentre as quais se destacam: a estatstica, o aprendizado de mquina, a rea de banco de
dados e a inteligncia computacional. (GOLDSCHMIDT e PASSOS, 2005)
60

A descoberta de conhecimento em bases de dados multidisciplinar e,


historicamente, se origina de diversas reas, dentre as quais podem ser destacadas a
estatstica, inteligncia computacional, reconhecimento de padres e banco de dados.
(BOENTE, 2006 apud BOENTE, OLIVEIRA E ROSA, 2007, p. 3).

Goldschmidt e Passos (2005, p. 6) ordenam as atividades anteriormente citadas do


KDD em trs grupos:

a) desenvolvimento tecnolgico: rene as fases e concepo e desenvolvimento


de algoritmos, ferramentas e tecnologias, com o objetivo de serem empregadas
em bases de dados para a aquisio de novos conhecimentos;

b) execuo de KDD: resume-se na busca do conhecimento;

c) aplicao dos resultados: refere-se ao uso das informaes obtidas pelo


processo de KDD.

Por ser um processo contnuo e cclico o KDD, permite que os seus resultados sejam
refinados e melhorados a medida que so analisados. Para esta melhoria, alguns autores
estabelecem os passos as serem seguidos, dentre os quais destacam-se Fayyad, Piatetsky-
Shapiro e Smyth, ressalta-se que apesar dos passos serem seqenciais, pelo fato do processo
ser interativo e iterativo, pode-se rever cada etapa a qualquer momento, dando ao processo
uma maior flexibilidade e consequentemente uma melhoria nos resultados, conforme visto na
Figura 7.

Figura 7 - Etapas do KDD


Fonte: Adaptado de Figueira (1998, p. 8.)

Os passos da Minerao de Dados podem ser vistos como um subprocesso dentro do


KDD. Eles consistem em uma preparao mais renada dos dados provenientes das etapas
61

anteriores, na aplicao de algoritmos apropriados e na pr-avaliao dos resultados


(HORST e MONARD 2000, apud CHIARA 2003, p. 8).

Ferreira (2008, p. 29) destaca as etapas do desenvolvimento do KDD:

KDD um processo desenvolvido em trs etapas bsicas: pr-processamento, que


objetiva a anlise, integrao, transformao e limpeza dos dados; Data Mining, que
se refere aplicao de algoritmos de extrao de padres; ps-processamento, que
consiste na seleo e ordenao das descobertas, representao inteligvel do
conhecimento e gerao de relatrios.

Na etapa denominada de consolidao dos dados: tem-se a coleta e consolidao dos


dados que dar incio ao processo de extrao do conhecimento.

Nesta etapa se deve definir quais so as perguntas e decises que se encaminham para
a fase de garimpagem das informaes. uma fase muito importante, na qual deve-se manter
o foco nas informaes estratgicas, de interesse, assim como a adaptao realidade dos
usurios.

Para Shiba (2008, p. 36):

Esta etapa tambm conhecida como Preparao de Dados, e por envolver uma
srie de atividades at a sua finalizao, que envolve inclusive o estudo de
processos, acaba se tornando a etapa que exige maior esforo dentro de um projeto
de extrao de conhecimento.

Na etapa de seleo e pr-processamento, o objetivo a melhora na qualidade e


transformao dos dados, afim de evitar possveis distores na extrao do conhecimento, se
necessrio os dados devem ser transformados, a fim de facilitar e eliminar possveis barreiras
para a etapa seguinte, a de minerao de dados.

Scoss (2006, p. 24) define que: ...neste processo realiza-se uma avaliao da base de
dados que ser trabalhada, verificando as inconsistncias das informaes ali armazenadas,
como por exemplo: dados duplicados, faltantes, impossveis de serem analisados, entre
outros.

Shiba (2008, p. 36) defende que o pr-processamento deve eliminar a diferena de


tipos nas variveis que representam um mesmo conceito, ou seja, uniformizar os atributos,
que muitas vezes foram extrados de bancos de dados distintos.
62

Na etapa de minerao de dados, so definidos quais algoritmos sero utilizados na


extrao do conhecimento, sendo que estes podem vrias tarefas, tais como: classificao,
agrupamento, regresso, associao e sumarizao.

Chiara (2003, p. 8) destaca:

...por ser considerado um dos passos cruciais e mais complexos do KDD, a


Minerao de Dados tambm pode ser considerada como um processo que, por sua
vez, pode ser dividido em vrias sub-etapas. Basicamente, os algoritmos a serem
utilizados devem ser escolhidos de acordo com o problema que est sendo atacado
(dados categricos dados reais; modelos descritivos modelos preditivos).
Normalmente existem vrios mtodos para um mesmo objetivo de KDD e a fase de
Minerao de Dados inclui a aplicao de diversas tcnicas assim como a avaliao
e a comparao dos resultados obtidos.

Kanashiro (2007, p.21) relata que: Alguns parmetros, como o tipo de tarefa de
minerao de dados e a forma como os padres sero representados, so determinados pelos
interesses do usurio final e conseqentemente influenciar na escolha do algoritmo.

Na ltima etapa, interpretao e avaliao, busca-se analisar os resultados obtidos


para o julgamento do modelo obtido da fase anterior. Nesta etapa tambm busca-se criar uma
forma de interpretar os resultados visando a leitura direta dos mesmos.

Nesta etapa so avaliados os resultados obtidos da minerao quanto a sua qualidade e


utilidade e relevncia. Uma nova filtragem feita removendo as informaes consideradas
irrelevantes e redundantes, para serem utilizadas pelo usurio final, conseqentemente o
conhecimento extrado disponibilizado para os gestores usarem em suas decises.

Isto vem ao encontro de Hiraghi (2006, p. 26), que conclui que:

A avaliao o momento de mensurar a qualidade da minerao de dados realizada,


a partir da anlise de performance dos modelos obtidos. Tambm so verificados se
os objetivos do negcio foram alcanados. Normalmente, com base nos resultados
obtidos na avaliao o processo de minerao revisado podendo ser retomadas
fases anteriores.

Finalizando esta etapa, os resultados obtidos so disponibilizados por meio de


visualizaes nas mais diversas formas.

Kanashiro (2007, p. 19) destaca que:

A descoberta de conhecimento em bases de dados tambm considerada um


processo interativo, no qual existe a necessidade do conhecimento de domnio da
63

aplicao do usurio que utilizado desde a preparao dos dados na etapa de pr-
processamento, na execuo do processo de minerao de dados e na validao do
conhecimento extrado.

O emprego das tcnicas de Minerao de Dados, permite as organizaes criarem


parmetros capazes de entender o comportamento dos dados armazenados, permite tambm a
identificao das afinidades existentes entre estes dados, alm de proporcionar a previso de
comportamentos e hbitos dos dados.

De acordo com Quoniam et al (2001):

As ferramentas Data Mining identificam todas as possibilidades de correlaes


existentes nas fontes de dados. Atravs das tcnicas para explorao de dados, pode-
se desenvolver aplicaes que venham a extrair, dos bancos de dados, informaes
crticas, com o objetivo de subsidiar plenamente o processo decisrio de uma
organizao.

Com base no anteriormente exposto, vislumbra-se a necessidade de um


acompanhamento mais profundo por parte das instituies e aqueles que participam do
processo ensino-aprendizagem, onde o acompanhamento das atividades, a anlise das
informaes contidas nas bases de dados, pode direcionar para quais medidas devam ser
tomadas com relao ao andamento dos cursos, da participao dos alunos e professores. Em
afirmao ao que dizem Quoniam et al (2001):

O objetivo estimar possveis mudanas e melhorias necessrias no contedo e


estrutura do curso, e de suas atividades, com o intuito de minimizar desorientaes
que podero ocorrer durante o acesso s pginas e recursos do curso online, alm de
descobrir modelos de aprendizagem similares.

Alinhado ao pensamento de Fayyad (1996) a descoberta de conhecimento pode ser


obtida por meio de complexas interaes realizadas entre homem e uma base de dados,
geralmente por meio do uso de uma srie heterognea de ferramentas.

A combinao de mecanismos como Data Warehouse, fluxo de trabalho, controle de


verso e banco de dados propicia aos usurios um ambiente de trabalho nico, a partir do qual
se tem acesso no apenas aos objetos do Processo de Desenvolvimento de Software
(conhecimento explcito), assim como a todos os documentos gerados, alm de acesso a
informaes sobre os indivduos adequados para realizarem determinadas tarefas.
(DINGSOYR, 2002).
64

Fayyad, Piatetsky-Shapiro e Smyth (1996) afirmam que os algoritmos de minerao


consiste basicamente de algum mix especfico de trs componentes:

a) O modelo: H dois fatores relevantes. Eles so a funo do modelo e a forma


de representao do modelo. O modelo contm parmetros que so
determinados a partir dos dados;

b) O critrio de preferncia: A base para a preferncia de um modelo ou conjunto


de parmetros sobre o outro, dependendo dos dados fornecidos. O critrio
geralmente algum tipo de funo de bondade de ajuste do modelo aos dados,
talvez temperado por uma suavizao, para evitar o excesso de montagem, ou
gerando um modelo com muitos graus de liberdade a ser condicionada pelos
dados fornecidos;

c) O algoritmo de pesquisa: A especificao de um algoritmo para encontrar


modelos particulares e parmetros, dados apresentados, um modelo, e um
critrio de preferncia.

A escolha de quais tcnicas de minerao de dados aplicar, depende da tarefa de


minerao a ser realizada. As exigncias das tarefas de minerao e as suas caractersticas
influenciam a viabilidade entre os mtodos de minerao e os problemas de negcio.

2.7 METODOLOGIA DE MINERAO DE DADOS


A metodologia a ser utilizada nesta dissertao baseia-se na metodologia CRISP/DM.
Para um melhor entendimento a seguir esta metodologia ser descrita.

A metodologia CRISP-DM (Cross Industry Standard Process For Data Mining,


Processo Padro Inter-Indstrias para Minerao de Dados) foi desenvolvida por um
consrcio formado por NCR Systems Engineering Copenhagen, DaimlerChrysler AG, SPSS
Inc. e OHRA Verzekeringen en Bank Groep B.V em 1996 (CRISP-DM, 2010).

proposta a utilizao dessa metodologia mediante a uma adaptao ao contexto da


IES, visando a criao de um fluxo de trabalho que permitir a IES a extrao de
conhecimentos teis para a tomada de decises, integrando o conhecimento aos seus gestores.

A metodologia CRISP-DM formada por um conjunto de fases e processos padres


utilizado para o desenvolvimento de projetos de Minerao de Dados, independente de
65

ferramentas e da rea de negcios. Seus principais objetivos so: converter as necessidades de


negcios em tarefas de Minerao de Dados, promover transformaes nos dados e nas
tcnicas, fazer uso de mtricas para avaliao da qualidade dos resultados e elaborar a
documentao do projeto.

A metodologia CRISP-DM de minerao de dados descrita em termos de um modelo


de processo hierrquico, que consiste em conjuntos de tarefas descritas em quatro nveis de
abstrao (do geral para o especfico): a fase, a tarefa genrica, tarefas especializadas e
instncia de processo (CRISP-DM, 2010).

O modelo atual processo de minerao de dados fornece uma viso geral do ciclo de
vida de um projeto de minerao de dados. Ele contm as fases de um projeto, suas tarefas
respectivas e as relaes entre essas tarefas. Neste nvel de descrio, no possvel
identificar todas as relaes.

O processo de Minerao de Dados considerado como um projeto com um ciclo de


vida cuja interatividade em suas fases, faz com que a sequencia no seja rigorosa, porm
dependente do resultado obtido em cada fase anteriormente trabalhada. Este ciclo abrange seis
fases conforme vistos na Figura 8.

Figura 8 - Fases do modelo de referncia CRISP-DM


Fonte: Adaptado de CRISP-DM (2010).
66

Define-se a seguir cada fase do modelo apresentado na Figura 8.

Na fase de Entendimento do Negcio (Business Understanding), que considerada a


fase inicial, tem-se por meta o entendimento dos objetivos do projeto e os requisitos a partir
de uma perspectiva de negcios, a seguir, tendo com base o conhecimento adquirido, define-
se o problema e um plano preliminar deve ser projetado para atingir os objetivos. (CRISP-
DM, 2010, traduo nossa).

O objetivo desta fase deixar bem definidos os objetivos e os requisitos do projeto,


tendo sempre a viso do domnio a ser tratado.

Na fase do Entendimento dos Dados (Data Understanding), o incio se d com a


coleta inicial de dados e segue com atividades, com intuito de promover uma maior
familiarizao com os dados, objetivando a identificao de problemas, a qualidade e
utilidades dos dados e a deteco de subconjuntos de dados interessantes a formulao de
hipteses e descoberta de informaes ocultas. (CRISP-DM, 2010, traduo nossa).

As tarefas efetuadas nesta fase so: a coleta inicial de dados, explorao e verificao
das qualidades dos dados.

Na fase de Preparao de Dados (Data Preparation) realizada a construo do


banco de dados que ser submetido a ferramenta de minerao. Os dados oriundos deste
banco passam pelos processos de seleo, limpeza, transformao, integrao e formatao
dos dados.

Hiragi (2008, p.26) destaca que:

O resultado desta fase ser o conjunto de dados que servir de subsdio para
minerao dos dados. Aqui ocorre a seleo de atributos, o tratamento de valores
faltantes, erros nos dados, integrao de fontes de dados, formataes, diviso dos
dados em, pelo menos, um conjunto de treinamento e um conjunto de avaliao,
entre outras.

Na fase Modelagem (Modelling) so definidas as tcnicas de modelagem dos dados


que sero utilizadas e seus parmetros so ajustados. Como existem diversas tcnicas de
minerao para o mesmo problema, faz-se necessrio as vezes retornar a fase de preparao
dos dados.

Para Hiragi (2008, p. 26)


67

A modelagem a parte que envolve processos de inteligncia artificial e estatstica


de forma mais significativa. Inicialmente devemos escolher a tarefa de minerao de
dados a ser usada, sempre com base no domnio de conhecimento e tipos de dados.
Ento de posse da tarefa (por exemplo, classificar, estimar, descrever ou visualizar)
iremos selecionar a ferramenta de inteligncia artificial ou estatstica que
implemente a tcnica escolhida.

As tarefas desta fase so: a seleo da tcnica de modelagem, a gerao de testes do


projeto, a construo e validao do modelo.

A fase Avaliao (Evaluation) tem por objetivo verificar a existncia de algum


problema em relao aos objetivos do negcio. Nesta fase realizada a mensurao da
qualidade dos dados minerados.

Para Dias (2001, p.24) O principal objetivo determinar se existe alguma questo de
negcio importante que no foi suficientemente considerada. Nesta fase, uma deciso sobre o
uso dos resultados de minerao de dados dever ser alcanada.

Ao trmino desta fase, uma deciso sobre a utilizao dos resultados da minerao de
dados deve ser atendido. Possui como tarefas: a anlise dos resultados, a reviso dos
processos e a definio dos prximos passos.

Na sexta e ltima fase, a do Desenvolvimento (Deployment), o modelo com a melhor


performance criado distribudo ao cliente para que este o coloque em prtica. Para Hiragi
(2008, p. 27): A colocao em uso pode ser vista como utilizar resultados obtidos pela
aplicao (a um novo conjunto de dados) do modelo selecionado para apoiar uma tomada de
deciso por parte do decisor que o utiliza.

Esta fase possui como tarefas: a elaborao de plano de distribuio, a criao de um


plano de monitoramento e manuteno, a elaborao do relatrio final e por ltimo a reviso
do projeto.Para um melhor entendimento das fases e suas respectivas tarefas e sadas, o
Quadro 2 mostra todos os conceitos anteriormente apresentados.

FASE TAREFAS SADAS


. Background;
Determinar os objetivos do negcio; Os objetivos do negcio;
Critrios de sucesso do negcio.
Entendimento do Inventrio dos recursos;
Negcio Requisitos, premissas e restries;
Avaliar a situao; Riscos e contingncias;
Terminologia;
Custos e benefcios.
Continua...
68

Concluso.
Metas da Minerao de Dados;
Determinar as metas da Minerao de
Critrios de sucesso da Minerao de
Dados;
Entendimento do Dados.
Negcio Plano do projeto;
Produzir o plano do projeto A avaliao inicial de ferramentas e
tcnicas.
Coletar os dados iniciais; Relatrio da coleta inicial dos dados.
Entendimento dos Descrever os dados; Relatrio da descrio dos dados.
Dados Explorar os dados; Relatrio da explorao dos dados.
Verificar a qualidade dos dados. Relatrio da qualidade dos dados.
Selecionar os dados; Justificativa para incluso/excluso.
Limpar os dados; Relatrio de limpeza dos dados.
Preparao dos Atributos derivados;
Construo dos dados;
Dados Registros gerados.
Integrar os dados; Dados mesclados.
Formatar os dados Dados reformatados.
Tcnica de modelagem;
Selecionar a tcnica de modelagem;
Modelagem de pressupostos.
Gerar o design do teste; Design do teste.
Modelagem As definies de parmetros;
Construir o modelo; Modelos;
Descrio do modelo resultante.
Modelo de avaliao;
Avaliar o modelo.
Parmetros revisados.
Avaliao dos resultados de minerao
de dados no que diz respeito aos critrios
Avaliar os resultados;
de sucesso empresarial;
Avaliao Modelos aprovados.
Processo de reviso; Reviso do processo.
Lista de aes possveis;
Determinar os prximos passos.
Deciso.
Implantao do plano; Plano de implantao.
Plano de manuteno e
Plano de manuteno e monitoramento.
monitoramento;
Desenvolvimento
Relatrio final;
Produzir o relatrio final;
Apresentao final.
Projeto de reviso. Documentao da experincia.
Quadro 2 - Constructo das fases do modelo CRISP-DM
Fonte: Adaptado de CRISP-DM (2010).

CRISP-DM foi projetado para fornecer orientao para os iniciantes em minerao de


dados e para fornecer um modelo de processo genrico que pode ser especializada de acordo
com as necessidades de qualquer ramo de atividade ou da empresa.

A MD pode ser desenvolvida de modo no-sistemtico, se qua haja nehnhum cuidado


em seu desenvolvimento, o que no recomedado, pois acarreta em resultados no esperados
ou imprecisos. Com intuito de evitar este tipo de situao o uso de uma metodologia vem a
69

garantir que o processo da MD seja desenvolvido de modo sistemtico e padronizado, o que


acarretar em resultados precisos e confiveis.

A metodologia CRISP-DM tem seu sucesso devido ao fato de ter sido desenvolvida
prtica, no estar atrelada a nenhuma ferramenta especfica de minerao de dados, mas sim a
juno das melhores prticas que so utilizadas em um projeto de minerao de dados, aliada
ao fato de atuar sobre todo o processo de MD.

2.8 TAREFAS DE MINERAO DE DADOS


Conforme o objetivo pretendido, vrias tarefas de MD podem ser realizadas.
Conceitua-se tarefa de Minerao de Dados o modo como as informaes sero mineradas,
trata-se de uma funcionalidade.

O objetivo a ser alcanado pode ser obtido pelo uso de mais de uma tarefa e esta pode
se utilizar de diversas abordagens. Conhecidas como tcnicas, essas abordagens podem se
utilizar de diversos tipos de algoritmos para a implementao de determinada tarefa.

A Figura 9 demonstra a interao entre esses elementos.

Figura 9 - Interao entre os elementos da MD


70

A MD tem dois principais tipos de tarefas: a atividade preditiva e a descritiva.


Classificao e Regresso so consideradas tarefas de atividade preditiva, enquanto as
atividades de Associao, Clusterizao e Sumarizao so as principais atividades
descritivas.

2.8.1 Classificao
Classificar um conceito j muito utilizado pelo ser humano. Esta tarefa consiste na
criao de classes previamente definidas de acordo com as semelhanas de algumas
caractersticas.

A tarefa de classificao considerada como uma tarefa preditiva, haja vista que suas
classes no so definidas, essa tarefa determina um conjunto de classes (padres) que podem
ser usadas para classificar novos objetos. Rabelo (2007, p. 27) refora que Ela busca uma
funo que permite associar corretamente cada registro (x) de um banco de dados a um nico
rtulo categrico de (y) chamado de classe.

Figura 10 - Ligao entre dados e classes


Fonte: Rabelo (2007, p. 27)
71

Para Cardoso e Machado (2008, p. 506) a classificao:

[...] o processo de criar modelos (funes) que descrevem e distinguem classes ou


conceitos, baseados em dados conhecidos, com o propsito de utilizar esse modelo
para predizer a classe de objetos que ainda no foram classificados. O modelo
construdo baseia-se na anlise prvia de um conjunto de dados de amostragem ou
de treinamento, contendo objetos corretamente classificados. Exemplo: grupos de
pesquisas j definidos contendo alguns professores e, a partir da anlise de dados das
pesquisas de outros professores que no pertencem a esses grupos, sugerir a sua
entrada.

A tarefa de classificao tem por princpio a descoberta de algum tipo de


relacionamento entre os atributos preditivos e o atributo meta, com intuito de se descobrir um
novo conhecimento, o qual possa ser utilizado na previso de uma nova classe, ainda
desconhecida.

A classificao consiste na previso de uma varivel categrica, ou seja, para


descobrir uma atividade que ir mapear um conjunto de registros em um conjunto de variveis
predefinidas chamadas classes. Esta atividade pode ser aplicada a novos registros, de modo a
prever a classe em que esses registros se enquadra. Diversos algoritmos so aplicados nas
tarefas de classificao, mas os que mais aparecem so as Redes Neurais, Back-Propagation,
Classificadores Bayesianos e Algoritmos Genticos.

Para prever se um acadmico ir ou no evadir-se da instituio em funo de sua


situao financeira, a instituio necessita de alguns dados sobre o acadmico em sua base de
dados. A partir desses dados, um algoritmo de classificao pode descobrir regras que
prevem se um novo acadmico ir ou no evadir-se. Essa informao ento armazenada
em um novo atributo, nesse caso o atributo objetivo. Seu valor pode assumir dois possveis
valores: SIM, significando a evaso, ou NO, caso contrrio. De posse do atributo
determinado, o passo seguinte selecionar um subconjunto de atributos preditivos entre
todos os atributos dos acadmicos no banco de dados.

Um algoritmo de classificao pode analisar os dados da Tabela 1 a fim de determinar


quais os valores dos atributos preditivos devem ser relacionados, com cada um dos atributos
objetivos. Com base neste conhecimento gerado pode-se aplicar ento para a previso das
futuras evases por parte dos acadmicos.
72

Tabela 1 - Entrada de dados para a tarefa de classificao


Sexo Idade Auxlio Evaso
Masculino 26 Sim No
Feminino 19 No Sim
Masculino 19 No Sim
Masculino 30 No No
Feminino 20 Sim No
Feminino 29 No No
Masculino 18 No Sim
Fonte: Da pesquisa (2010)

A representao do conhecimento descoberto representada na forma de regras do


tipo SE-ENTO. A interpretao destas regras fetia da seguinte maneira: SE os atributos
preditivos satisfazem a uma condio no antecedente da regra, ENTO a a classe indicada
no consequente da regra. A Figura 11 mostra as regras extradas de um algoritmo de
classificao, tendo como atributos os dados da Tabela 1.

Figura 11 - Regras de classificao


Fonte: Da pesquisa (2010)

Torna-se necessrio fazer experimentos com os algoritmos disponveis a fim de


verificar qual melhor se adequa a aplicao em questo. (SCOSS, 2006)

2.8.2 Regresso
A tarefa de regresso semelhante tarefa de classificao, ela busca funes que
fazem o mapeamento dos registros contidos em uma base de dados. Por lidar com resultados
contnuos, esta tarefa pode ser utilizada como uma tarefa de classificao, estabelecendo-se
que diferentes faixas de valores correspondem a diferentes classes.

Para Scoss (2006, p. 29) A estimao ou regresso similar a tarefa de classificao,


porm restringe-se a atributos numricos. Ela busca por funes, sejam lineares ou no, que
possam mapear registros de um banco de dados. Esta regra tem por objetivo a definio de
73

um valor numrico de alguma varivel desconhecida a partir dos valores de variveis j so


conhecidas.

Na regresso, h uma busca por uma funo linear ou no, bem como a varivel que
est sendo prevista consiste de um atributo numrico (contnua), presente em bases de dados
com valores reais. A fim de implementar a tarefa de regresso, os mtodos de Estatstica e
Redes Neurais so utilizadas.

2.8.3 Associao
A regra de associao foi desenvolvida para analisar os dados de uma base de dados
num ambiente de marketing, no qual os dados de entrada so os compostos de cada transao
efetuada por um cliente e os dados de sada so composies obtidas por meio de regras.
Exemplificando, quando um cliente compra um produto X, em N% das vezes, ele compra o
produto Y tambm. Esta regra teria a representao vista no Quadro 3:

SE sexo = Masculino E

Estado civil = Casado E

Renda > 1800

Implica que

Consumo = Roupa de grife, perfume nacional.

Quadro 3 - Representao da Regra de Associao

Esta regra tem por objetivo a localizao de tendncias que facilitem a compreenso
de padres em grandes bases de dados. Os seus algoritmos procuram por relaes entre os
itens das transaes, analisando os que ocorrem simultaneamente, dando possibilidade de
entendimento de novos modelos.

Barioni (2001, p. 17) define que A tarefa dessa tcnica envolve a descoberta de regras
de associao que indiquem correlaes interessantes entre objetos de um dado banco de
dados. Ela estuda um padro de relacionamento existente entre itens de um dado.
74

Para Motta (2010, p. 8) Uma regra de associao uma implicao da forma: A B,


onde A I, B I e A B = . Neste caso, l-se A implica em B, onde A chamado
antecedente e B o conseqente da regra.

A quantidade de regras de associao que podem ser encontradas numa aplicao de


associao extensa e muitas destas regras no so consideradas relevantes para os analistas.
Uma forma de resolver esta questo a introduo de medidas de interesse, que fazem a
distino entre as regras relevantes e as no relevantes. Estas medidas so chamadas de
suporte e confiana. (BARIONI, 2002, p. 17)

O primeiro algoritmo eficiente de regras de associao foi o algoritmo Apriori


desenvolvido por Agrawal e Srikant em 1993. O primeiro passo deste algoritmo a pesquisa
de conjuntos de itens freqentes. O usurio d um limite mnimo para o apoio e o algoritmo
de pesquisa todos os conjuntos de itens que aparecem com um apoio superior a esse limite. O
segundo passo a construo de regras a partir de conjuntos de itens encontrados na primeira
etapa. O algoritmo calcula a confiana de cada regra e mantm apenas aqueles em que a
confiana maior que um limiar definido pelo usurio.

A tarefa de associao consiste em identificar e descrever as associaes entre as


variveis no mesmo item ou associaes entre os itens diferentes que ocorrem
simultaneamente, de uma forma freqente em bases de dados.

A busca de associaes entre os itens durante o intervalo temporal tambm comum.


Assim, os algoritmos Apriori e GSP (Generalized Sequential Patterns), entre outros, so os
mais utilizados para implementar a descoberta da tarefa de associao.

2.8.4 Clusterizao ou Segmentao


A tarefa de clusterizao faz a identificao da classe de cada objeto de modo que, os
objetos contidos numa mesma classe apresentem um alto grau de similaridade entre si e um
baixo grau de similaridade em relao a objetos de outras classes. Esta tarefa tambm
conhecida como agrupamento, uma vez que agrupa os objetos em classes com o grau de
similaridade mais prximo.

Para Martinhago (2005, p. 22)


75

Um cluster pode ser definido como um conjunto de objetos agrupados pela


similaridade ou proximidade e, a segmentao pode ser definida como a tarefa de
segmentar uma populao heterognea em um nmero de subgrupos (ou clusters)
mais homogneos possveis, de acordo com alguma medida.

Para Macedo e Matos (2010, p. 26) A anlise de cluster tem como objetivo verificar
a existncia de diferentes grupos dentro de um determinado conjunto de dados, e em caso de
sua existncia, determinar quais so eles

A clusterizao pode ser considerada como uma tarefa que identifica um conjunto
finito de categorias com intuito de descrever os dados. Seu objetivo principal fazer a
partio da base de dados em um nmero determinado de clusters, nos quais as instncias
destes clusteres sejam similares, conforme visto na Figura 12.

Figura 12 - Exemplo da visualizao de clusters


.

Os dados podem ser agrupados em classes ou clusters de elementos similares. No


passada nenhuma informao ao sistema sobre a existencia de determinadas classes. A
descoberta das classes feita pelo prrpio algoritmo, que agrupa os dados em classes com as
caractersticas semelhantes. Diferente da classificao, na clusterizao no h classes pr-
definidas.
76

2.8.5 Sumarizao
A tarefa de sumarizao tem por objetivo a identificao e apresentao das principais
caractersticas dos dados, de forma concisa e compreensvel. considerada uma tarefa
descritiva.

Conforme Fayyad (1996 apud DIAS, 2001, p. 10), a tarefa de sumarizao envolve
mtodos para encontrar uma descrio compacta para um subconjunto de dados. Um simples
exemplo esta tarefa poderia ser tabular o significado e desvios padro para todos os itens de
dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.

A sumarizao visa identificar e indicar as caractersticas comuns entre um conjunto


de dados. Esta tarefa aplicada nos clusters obtidos na tarefa de clusterizao, com a Lgica
Indutiva e Algoritmos Genticos so exemplos de tecnologias que podem ser implementadas
na sumarizao. As tcnicas de sumarizao so sempre aplicadas anlise exploratria de
dados e gerao automtica de relatrios.

Dias (2001, p. 11) sintetiza as principais tarefas de Minerao de Dados, suas


descries e exemplifica-as, conforme pode ser visto na Tabela 2:

Tabela 2 - Sintese das tarefas de Minerao de Dados


TAREFA DESCRIO EXEMPLOS
Constri um modelo de algum tipo que Classificar pedidos de crdito;
possa ser aplicado a dados no Esclarecer pedidos de seguros fraudulentos;
Classificao classificados a fim de categoriz-los em Identificar a melhor forma de tratamento de
classes. um paciente.
Usada para definir um valor para alguma Estimar o nmero de filhos ou a renda total
varivel contnua desconhecida. de uma famlia;
Estimativa ou Estimar o valor em tempo de vida de um
Regresso cliente;
Prever a demanda de um consumidor para
um novo produto.
Usada para determinar quais itens tendem Determinar quais os produtos costumam ser
Associao a co-ocorrerem (serem adquiridos juntos) colocados juntos em um carrinho de
em uma mesma transao. supermercado.
Processo de partio de uma populao Agrupar clientes por regio do pas;
Segmentao heterognea em vrios subgrupos ou Agrupar clientes com comportamento de
ou grupos mais homogneos. compra similar;
Clusterizao Agrupar sees de usurios Web para prever
comportamento futuro de usurio.
Envolve mtodos para encontrar uma Tabular o significado e desvios padro para
Sumarizao descrio compacta para um subconjunto todos os itens de dados;
de dados. Derivar regras de sntese.
Fonte: Dias (2001, p. 11)
77

2.9 TCNICAS DE MINERAO DE DADOS


Devido ao extenso nmero de problemas de Minerao de Dados, no h uma tcnica
que possa ser utilizada para a resoluo de todos eles. Cada problema possui suas
peculiaridades, assim sendo, diferentes tcnicas so utilizadas para a resoluo de problemas
com propsitos diferentes.

Para Dias (2001, p. 12) A familiaridade com as tcnicas necessria para facilitar a
escolha de uma delas de acordo com os problemas apresentados. A seguir so descritas as
tcnicas de Minerao de Dados normalmente usadas.

H um nmero relativo de tcnicas para a extrao do conhecimento em bases de


dados que podem ser aplicados as tarefas de Minerao de Dados. Estas tcnicas consistem
na aplicao de um ou mais algoritmos, implementados em ferramentas acadmicas ou
comerciais, com propsito de descobrirem conhecimento a partir da base de dados a ser
explorada.

Chiara (2003, p. 9) destaca que,

Um ponto a ser observado que algumas tcnicas so melhores para determinados


problemas e domnios de conhecimento que outras. Portanto, no h um mtodo
universal de Minerao de Dados. A escolha de um algoritmo particular para um
determinado problema deve ser analisado empiricamente.

Martinhago (2005, p. 24) ressalta:

Um ponto importante que cada tcnica tipicamente resolve melhor alguns


problemas do que outros, no h um mtodo universal e a escolha uma arte. Para
as aplicaes, grande parte do esforo vai para a formulao do problema, ou seja, a
especificao de que tipo de informaes o algoritmo de minerao deve procurar no
conjunto de dados disponveis.

As tcnicas de Minerao de Dados utilizadas atualmente so extenses naturais ou


generalizaes de mtodos analticos j conhecidos. A novidade consiste na possibilidade de
applicao destas tcnicas buscando auxiliar os gestores no processo decisrio e com o
objetivo de encontrarem novas estratgias para os negcios, isto se deve ao aumento da
capacidade de armazenamento de informaes e reduo nos custos de processamento.

Pode-se citar como tcnicas mais conhecidas: algoritmos genticos, rvores de


deciso, descoberta de regras de associao, raciocnio baseado em caso e redes neurais
78

artificiais, entre outros. Nesta pesquisa tm-se as tarefas de clusterizao e classificao.


A seguir so descritas as principais tcnicas de Minerao de Dados.

2.9.1 Tcnicas Estatsticas


Vrias tcnicas estatsticas tm sido aplicadas tarefa de Minerao de Dados, com
vistas a determinao de possveis correlaes entre variveis do problema, associaes e
levantamento das variveis mais significativas que descrevem o fenmeno. Pode-se citar:

a) Coeficiente de Correlao Linear de Pearson;

b) Coeficiente de Determinao Mltipla (R2);

c) Multicolinearidade;

d) Anlise de Componentes Principais.

Como no problema desta dissertao, os dados, tanto de ingressantes como de


egressos, so na sua maior parte constitudos de informaes qualitativas e categricas, das
trs primeiras tcnicas no puderem ser aplicadas. Assim, a fundamentao terica, no que
tange as tcnicas estatsticas, vai ser concentrada na tcnica de Anlise de Componentes
Principais, a qual ser descrita a seguir.

2.9.1.1 Anlise de componentes principais (ACP)


Com a Anlise de Componentes Principais (ACP) se obtm um novo conjunto
de coordenadas que pode ser utilizado para descrever os dados de forma simplificada.
Utilizando a ACP possvel reduzir o nmero de dimenses nos dados de forma a
no perder informaes importantes sobre os dados (SCHMITT, 2005).

Segundo Johnson e Wichern (2002), a tcnica de componentes principais


busca a reduo da dimensionalidade e interpretao do conjunto de dados. Os
autores destacam que a partir de um conjunto de m variveis, sero obtidas outras m
variveis, no correlacionadas, que so combinaes lineares do conjunto original de
variveis.

Schmitt (2005) destaca que:


79

[...] geometricamente, as componentes principais representam um novo sistema de


coordenadas, obtidas por uma rotao do sistema original, que fornece as direes
de mxima variabilidade, e proporciona uma descrio mais simples e eficiente da
estrutura de covarincia dos dados.

Com a aplicao da ACP possvel determinar um nmero mnimo de variveis que


expliquem a maior parte da variao dos dados e ento reduzir a dimensionalidade do
conjunto, retirando algumas componentes principais sem causar uma grande perda de
informao.

A ACP consiste em, a partir da matriz de correlao das variveis, obter os autovalores
e autovetores que representaro a variabilidade explicada dos dados por cada componente
principal, e os coeficientes das componentes principais, respectivamente. Existem exatamente
m autovalores, no negativos, e tambm m autovetores correspondentes a cada autovalor
(LIRA, 2004; SCHMITT, 2005).

Para determinar o nmero ideal de componentes principais, existem vrios critrios


prticos. Nesse trabalho sero apresentados o critrio do scree plot e critrio de Kaiser ao
decorrer do exemplo a seguir.

Para facilitar o entendimento da tcnica, ser demonstrado um exemplo presente em


Schmitt (2005, apud REIS, 2010). Considerando um conjunto de dados em que 3 variveis
(peso, altura e idade) foram pesquisadas em relao a 8 pessoas. Os dados esto presentes na
Tabela 3.

Tabela 3. Conjunto de dados com 8 observaes e 3 variveis


Observao Peso ( ) Altura ( ) Idade ( )
1 55 164 25
2 90 185 18
3 79 179 47
4 60 172 45
5 83 177 49
6 83 176 50
7 95 189 65
8 54 160 23
Fonte: Schmitt (2005)

Para obter as componentes principais recomendado padronizar os dados para


calcular a matriz de correlaes, para que variveis com unidades que representem uma
80

grande variao nos dados no implique na anlise de forma incorreta (LIRA, 2004;
SCHMITT, 2005).

A matriz de correlaes amostrais, , aps a padronizao dos dados dada por:

A partir da matriz , podem ser obtidos os autovalores , e , e os autovetores


, e .

Segundo Schmitt (2005 apud REIS, 2010), o critrio do scree plot pode ser utilizado
para determinar a quantidade mnima de componentes principais necessrias para explicar a
variao dos dados. O critrio consiste em representar a porcentagem de varincia dos dados
explicada num grfico e, quando a curva gerada pelos pontos passa a ser quase paralela ao
eixo das abscissas, as componentes devem ser desconsideradas. No caso de apenas 3
variveis, como o do exemplo, este critrio no muito indicado. O grfico gerado a partir do
exemplo pode ser observado na Figura 13.
81

Figura 13 - Scree plot


Fonte: Reis (2010)

2.9.2 Exemplo de utilizao de ACP na Minerao de Dados


A ACP pode ser utilizada para facilitar as tarefas de classificao e clusterizao, pois
diminuindo a quantidade de variveis envolvidas sem perder informaes relevantes, o
clculo tende a ficar mais rpido e preciso. (SCHMITT, 2005 apud REIS, 2010).

Mais detalhes sobre as tarefas de Minerao de Dados podem ser encontradas na


Subseo 2.2.2 deste trabalho.

Considerando os dados do exemplo, foi gerado o grfico presente na Figura 14. O


grfico utiliza apenas as duas primeiras componentes principais, pois elas explicam 98,33%
da variao dos dados. Percebe-se que mesmo tendo diminudo o nmero de dimenses, no
foram descartadas informaes relevantes. Na Figura 14 possvel observar a distribuio dos
elementos em 3 clusters distintos.
82

Figura 14 - Resultado da clusterizao aps utilizar ACP


Fonte: Reis (2010).

2.9.3 Algoritmos Genticos (AG)


Nos anos 60 John Holland inventou os Algoritmos Genticos (AG) e seus alunos na
Universidade de Michigam os desenvolveram em meados de 1970. Holland tinha como
objetivo o estudo formal dos fenmenos da evoluo, tal qual ocorrem na natureza e o
desenvolvimento de formas de importal tais fenomenos aos sistemas de computao.

Segundo Harrison (1998 apud DIAS, 2001, p. 13) Os algoritmos genticos usam os
operadores de seleo, cruzamento e mutao para desenvolver sucessivas geraes de
solues. Para Scoss (2006, p. 46) os AG so baseados no conceito de evoluo, os
algoritmos genticos usam processos de combinaes genticas, mutaes e seleo
natural. So aes de melhoria que utilizam processos como a combinao gentica, mutao
e seleo natural, com base nos conceitos da evoluo das espcies.

Para Almeida (2006, p. 4) Os AG imitam o processo natural, na forma de um sistema


artificial, por meio de operaes que se equivalem aos mecanismos genticos da natureza.
Um AG um procedimento repetitivo para transformaes sucessivas de uma populao de
organismos e utilizado na MD na formulao de hipteses sobre a dependncia entre
variveis. A tcnica de AG indicada para as tarefas de classificao e segmentao.
83

2.9.4 rvore de Decises (AD)


Como o prprio nome diz, a tcnica de rvore de Decises (AD) tem sua estrutura
semelhante a de uma rvore, na qual suas ramificaes representam as decises possveis.A
partir destas decises as regras que classificam um conjunto de dados so geradas.

Para Bispo (1998, p. 90):

A sua estrutura muito fcil de entender e de assimilar. Dividem os dados em


subgrupos, com base nos valores das variveis. O resultado uma hierarquia de
declaraes tipo Se ... ento ... que so utilizadas, principalmente, para classificar
dados.

Rabelo (2007, p. 29) descreve a tcnica de AD como sendo uma Tcnica que utiliza a
recursividade para particionamento da base de dados na construo de uma rvore de deciso.
Cada n no terminal desta rvore representa um teste ou deciso sobre o item de dado. Tem
como objetivo a separao das classes e tuplas de classes diferentes a fim de serem alocadas
em subconjuntos diferentes, cada qual com suas regras. A tcnica de AD indicada para as
seguintes tarefas: classificao e regresso e tem como exemplos de algoritmos: CART,
CHAID, C4.5, C5.0, Quest, ID-3, SLIQ e SPRINT. (DIAS, 2001)

2.9.5 Descoberta de Regras de Associao (DRA)


Os algoritmos para a Descoberta de Regras de Associao (DRA) tm com objetivo
procurar relaes entre os dados de em conjunto de dados, que ocorrem com determinda
frequencia. Esta tcnica muito utilizada na rea do comrcio, na busca de padres de compra
com intuito de orientar as aes dos gestores de vendas.

Martinhago (2005, p. 26) define assim a DRA:

A regra de associao uma expresso representada na forma X => Y (X implica


em Y) , em que X e Y so conjuntos de itens da base de dados e X Y = ; X
o antecedente da regra (lado esquerdo) e Y o conseqente da regra (lado direito) e
pode envolver qualquer nmero de itens em cada lado da regra.

Confiana e suporte so dois parmetros bsicos na DRA. Estes limitam a quantidade


de regras a serem extradas e faz uma descrio da qualidade destas regras. Dias (2001, p. 12)
define estes parmetros como: Uma regra de associao tem a forma geral X1 ^ ... ^ Xn =>
Y [C,S], onde X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana
C e com um suporte mnimo de S e ^ denota um operador de conjuno (AND).
84

Kampff (2009, p. 65) destaca que :

A ordem de apresentao das regras estabelece uma lista de deciso, a ser aplicada
em seqncia. A regra que aparece primeiro na lista tem maior prioridade para
predizer a classe. Quando um registro classificado, nenhuma outra regra posterior
de classificao ser aplicada sobre ele.

Como j mencionado, a aplicao desta regra utilizada com frequncia na rea de


comrcio, sendo conhecida como anlise de cesta de mercado, como exemplo, a regra pode
descobrir que, quando qualquer cliente compra um produto A, em N% das vezes, ele
compra tambm o produto B. A tcnica de DRA indicada para a tarefa de associao.
Alguns algoritmos que implementam regras de associao tem-se: Apriori, AprioriTid,
AprioriHybrid, AIS, SETM , DHP, DIC, Eclat, Maxclique e Cumalte. (DIAS, 2001)

2.9.6 Raciocnio Baseado em Casos (RBC)


Quando se tenta resolver algum problema, uma das primeiras solues est apoiada
em experincias passadas. O Raciocnio Baseado em Casos (RBC) faz uso de solues j
utilizadas para a soluo de determinado problema, procurando um caso mais similar ao
proposto.

Para Dias (2001, p.12) o RBC Tenta solucionar um dado problema fazendo uso direto
de experincias e solues passadas. A distncia dos vizinhos d uma medida da exatido dos
resultados.

Figura 15 - Ciclo clssico do RBC


Fonte: Piva Junior (2006, p. 27).
85

Fonseca (2008, p. 16) descreve o contexto de aplicao do RBC, o que observado na


Figura 15.

Na resoluo de problemas, aplicando o RBC, uma soluo para um novo caso


obtida recuperando casos similares anteriormente analisados e derivando suas
respectivas solues de modo a se adequar ao novo problema. O processo se realiza
quando um novo caso apresentado ao sistema. Em face do novo problema, utiliza-
se um conjunto de mtricas de similaridade para determinar quais casos anteriores
mais se assemelham ao caso proposto, bem como se determinam as caractersticas-
chave utilizadas nessa comparao.

O RBC possibilita ao gestor o uso do conhecimento no apoio as tomadas de decises,


haja vista a compatibilidade entre este tipo de sistema e os sistemas administrativos utilizados
pelas IES. Eles proporcionam a extrao, organizao e o reuso do conhecimento utilizado na
resoluo de situaes anteriores desta forma prmitindo o aprimoramento das solues.

Para Von Wangenheim e Von Wangenheim (2003):

Raciocnio Baseado em Casos um enfoque para a soluo de problemas e o


aprendizado baseado em experincia passada. RBC resolve problemas ao recuperar e
adaptar experincias passadas - chamadas casos - armazenadas em uma base de
casos. Um novo problema resolvido com base na adaptao de solues de
problemas similares j conhecidas.

Figura 16 - Exemplo de um registro de RBC armazenado


Fonte: Von Wangenheim e Von Wangenheim (2003)

O uso do RBC tem como limitador o acesso s bases de dados completas, corretas e
confiveis que possuam em seus registros, a descrio completa dos problemas e das solues
86

anteriormente utilizadas e armazenadas. A tcnica de RBC indicada para as tarefas de


classificao e segmentao e os seguintes algoritmos mais conhecidos que implementam esta
tcnica so: BIRCH, CLARANS e CLIQUE. (DIAS, 2001)

2.9.7 Redes Neurais Artificiais (RNA)


As Redes Neurais Artificiais (RNA) so uma tcnica computacional que constri o
modelo matemtico inspirado no crebro humano para o reconhecimento de imagens e sons,
com capacidade de conhecimento, generalizao, associao e abstrao, constituda por
sistemas paralelos distribudos compostos de simples unidades de processamento.

As unidades de processamento so uma ou mais camadas interligadas por um grande


nmero de ligaes, na maioria dos modelos, essas conexes esto associadas a pesos, que,
aps o processo de aprendizagem, armazenam o conhecimento adquirido pela rede. (Kovacks,
2002).

Segundo Almeida (2009, p. 31)

A tecnologia de Redes Neurais procura imitar o processo de resolver problemas do


crebro. Assim como o ser humano aplica conhecimento adquirido de experincias
passadas para resolver novos problemas ou situaes, de igual modo uma rede
neural trabalha com exemplos previamente resolvidos para construir um sistema de
neurnios que tomem novas decises ou faam classificaes e previses.

De acordo Ferreira (2008, p. 50):

Rede Neural Artificial, um termo raro h cerca de duas dcadas na literatura


cientfica, representa hoje uma vigorosa rea de aplicao multidisciplinar,
constituindo genuinamente uma ferramenta para o estudo de fenmenos complexos.
A modelagem de dados para melhor entender fenmenos complexos,
multidimensionais, bem como a tentativa de estimar uma varivel dependente em
funo de outras de mais fcil obteno, tem levado ao desenvolvimento de vrias
tcnicas de anlise. Uma das ferramentas mais exploradas e que tem apresentado
bons resultados nas mais diferentes reas do conhecimento a tcnica das Redes
Neurais Artificiais (RNAs).
87

Figura 17 - Exemplo de uma Rede Neural Artificial de multiplas camadas


Fonte: Furtado (1999, apud FERREIRA 2008, p. 54)

As RNAs tm sido usadas com sucesso para as relaes do modelo envolvendo sries
temporais complexas em vrias reas do conhecimento. A maior vantagem das RNAs em
relao aos mtodos convencionais que eles no exigem informaes detalhadas sobre os
processos fsicos do sistema a ser modelado, com ele sendo descrito explicitamente na forma
matemtica e ainda por ser fortes e tm uma alta taxa de acurcia preditiva.

Dias (2001, p. 14) ressalta que Uma das principais vantagens das redes neurais sua
variedade de aplicao, mas os seus dados de entrada so difceis de serem formados e os
modelos produzidos por elas so difceis de entender.

Uma melhor definio de RNA dada por Costa (2010, p. 24), na qual descreve que:

A Rede Neural Artificial (RNA) foi desenvolvida e utilizada como uma ferramenta
de resoluo de problemas em vrios campos. RNAs so generalizaes de modelos
matemticos de sistema biolgico nervoso em nosso crebro e uma das principais
vantagens da RNA a capacidade de construir um modelo do problema utilizando
os dados a partir de medies experimentais do domnio do problema. Ao invs de
ser programado por um usurio em uma percepo tradicional, RNAs adquirem os
seus conhecimentos aprendendo as relaes das variveis de dados e construo de
um modelo, implicitamente, para relacionar as variveis de entrada e sada para o
problema.

A tcnica de RNA indicada para a resoluo de problemas que envolvam:


classificao, estimativa e clusterizao e os algoritmos desenvolvidos para esta tcnica so:
Perceptron, Rede MLP, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede
Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB
88

(DIAS, 2001). A autora apresenta um resumo das principais tcnicas de MD juntamente com
suas tarefas e os algoritmos mais utilizados:

Tabela 4 - Tcnicas de MD, Tarefa e Algoritmos


Tcnica Descrio Tarefas Algoritmos
Algoritmos Mtodos gerais de busca e Classificao; Algoritmo Gentico
Genticos otimizao, inspirados na Segmentao. Simples; Genitor,
Teoria da Evoluo, onde a cada CHC; Algoritmo de Hillis;
nova gerao, solues melhores GA-Nuggets; GA-
tm mais chance de ter PVMINER.
descendentes.
rvores de Hierarquizao dos dados, Classificao; CART, CHAID, C4.5, C5.0,
Deciso baseada em estgios de deciso Regresso. Quest, ID-3, SLIQ e
(ns) e na separao de classes e SPRINT.
subconjuntos.
Descoberta Estabelece uma correlao Associao Apriori, AprioriTid,
de estatstica entre atributos de AprioriHybrid, AIS, SETM
Regras de dados e conjuntos de dados e DHP.
Associao
Raciocnio Baseado no mtodo do vizinho Classificao; BIRCH, CLARANS e
Baseado em mais prximo, combina e Segmentao. CLIQUE
Casos compara atributos para
estabelecer hierarquia de
semelhana.
Redes Modelos inspirados na fisiologia Classificao; Perceptron, Rede MLP,
Neurais do crebro, onde o Segmentao. Redes de Kohonen, Rede
Artificiais conhecimento fruto do mapa Hopfield, Rede BAM,
das conexes neuronais e dos Redes ART, Rede IAC,
pesos dessas conexes. Rede LVQ,
Rede Counterpropagation,
Rede RBF, Rede PNN,
Rede Time Delay,
Neocognitron, Rede BSB.
Fonte: Dias (2001, p. 14)

As aplicaes de softwares, sejam elas para quais finalidades forem, devem levar em
considerao fatores de deciso como o domnio da aplicao, a linguagem na qual a
aplicao ser desenvolvida, a plataforma do sistema operacional, dentre tantos outros.

Desta forma, as aplicaes desenvolvidas para MD, podem ser classificadas sob
diversas perspectivas, dependendo de suas tcnicas e quais tarefas iro realizar. A seguir
realizado um breve estudo das principais ferramentas de Minerao de Dados disponveis no
mercado.
89

2.10 FERRAMENTAS DE MINERAO DE DADOS


Tendo em vista que uma anlise exaustiva de todas as ferramentas existentes seria em
princpio demasiada trabalhosa e fora de foco desta dissertao, optou-se por analisar as
principais ferramentas mencionadas em trabalhos correlatos, em especial o trabalho de
dissertao de Cruz (2007), no qual o autor faz uma descrio das ferramentas mais utilizadas.

Em seu trabalho Cruz (2007, p. 42) contabilizou 159 ferramentas de Minerao de


Dados, eliminado ainda as que no trabalhassem com RNA ou Mquina de Vetores de
Suporte ( outra tarefa de Minerao), chegando ao final com 36 ferramentas. Ele caracterizou
as ferramentas mediante alguns critrios, o que pode ser observado na Tabela 5:

a) verso - final (F) ou beta (B);

b) licena - comercial (C), freeware e shareware (F) ou pblica (P);

c) disponibilidade se ou no disponibilizada uma verso de demonstrao


(Demo) ou a ferramenta totalmente operacional para download (Download);

d) aplicao de uso - academica (A) ou comercial (C) e

e) a arquitetura - Stand alone (S), Cliente/Servidor (C/S) ou Processamento


Paralelo (PP).

Tabela 5 - Ferramentas segundo as caractersticas


Ferramenta Verso Licena Disponibilidade Uso Arquitetura
Alyuda Neuro Inteligence F C S C S
BrainMaker F C N A/C S
BSVM F F S A S
Clementine F C N C S/C S
DTREG F C S A/C S
EQUBITS Foresight (tm) F C S A/C S
EWA Systems F C N A/C S/C S
GhostMiner F C N A/C S
Gist F F S A S
Gornik F C N C S/C S
Insightful Miner F C S A/C S/C S
Kernel Machines F F S A S
Knowledge Miner F C S A/C S
KXEN F C N C S/C S
LIBSVM F F S A S
MATLAB NN Toolbox F C S A S
MCubiX from Diagnos F C N C S
MemBrain F F S A S
Continua...
90

Concluso.
NeuralWorks Predict F C S C S
NeuroSolutions F C S A/C S/C S
NeuroXL F C N C S
IPNNL Software B F S A S
Oracle Data Mining F C S C S,CS,PP
Orange F F S A S
PcSVM B P S A S
R F P S A S
SAS Enterprise Miner F C S A/C CS
StarProbe F C S A/C S/C S
STATISTICA NN F C S A S/C S
SvmFu 3 B P S A S
SVM-light F F S A S
TANAGRA F F S A S
HhinkAnalitics F C N C CS
Tiberius F C S A/C S/C S
Weka F P S A S
XLMiner F C S A/C S
Fonte: Cruz (2007, p. 45)

Diante desta grande quantidade de ferramentas de Minerao de Dados disponveis,


torna-se necessrio fazer uma nova seleo a fim de se tornar prtico o trabalho aqui
pretendido e para que os objetivos sejam atendidos. Assim sendo os critrios que levaram a
escolha da ferramenta foram: a aplicabilidade da tarefa de Descoberta de Regras de
Associao, a utilizao da tcnica de Associao, aliado ao fato da ferramenta ser de licena
Livre.

2.11 WEKA
Nessa pesquisa se fez o uso de um software que atende-se os critrios anteriormente
citados e em especial que fosse de licena livre. O software escolhido foi Weka, do acrnimo
(Waikato Environment for Knowledge Analysis). O software WEKA tem sido bastante
utilizado no meio acadmico em pesquisas que envolvam a rea de MD. Sua escolha se
justifica por causa de sua ampla aplicabilidade j que lida com atributos numricos
(reais e inteiros), nominais e caracteres (string).
91

O WEKA foi desenvolvido por universitrios da Universidade de Waikato, na Nova


Zelndia, no ano de 1999 e sua licena General Public Licence (GPL), o que significa que
um programa de distribuio e difuso livre 1.

Este software formado por um conjunto de algoritmos que implementam vrias


tcnicas que so utilizadas para a resoluo de problemas reais de MD. O WEKA foi
desenvolvido na linguagem Java, cuja principal caracterstica sua portabilidade, assim sendo
podendo ser executado em diversas plataformas, dentre as quais, Windows, MAC Os X e
Linux. O nico requisito que o computador possua a mquina virtual Java instalada
(MORATE, 2010).

O software WEKA composto por dois pacotes: um pacote autnomo, para


manipulao direta dos algoritmos, usando o formato de dados prprio, e um pacote de
classes em Java que implementam estes algoritmos. Nessa segunda forma, possvel
desenvolver uma aplicao em linguagem Java que faa uso destes algoritmos e aplic-los em
quaisquer bancos de dados atravs de uma conexo JDBC (Java DataBase Connectivity).

Figura 18 - Tela inicial do software WEKA


Fonte: WEKA (2010).

1
Disponvel em: http://www.cs.waikato.ac.nz/~ml/weka
92

Os mdulos de tarefas disponveis no WEKA e que sero utilizados para a aplicao


na soluo proposta so os de Preprocess e Associate, este ltimo utilizando o Algoritmo
Apriori para a tarefa de Descoberta de Regras de Associao com a tcnica de Associao.
Pode-se aplicar os algoritmos diretamente a um conjunto de dados ou fazer uma chamada de
seu prprio cdigo Java.

O software possui as seguintes tarefas e tcnicas de MD implementadas (MORATE


2010):

a) Tarefas: Pr-processamento de dados e aplicao de filtros, associao,


classificao, clusterizao, seleo de atributos e visualizao de dados;

b) Tcnicas: bayes, functions, lazy, meta, trees, rules, cobweb,


farthestfirst, makedensity based clusterer, simple k-means, apriori,
predictive apriori, tertius, entre outros.

Figura 19 - Exemplo da aplicao da tarefa de classificao


Fonte: WEKA (2010)

Conforme Scoss (2006) e Morate (2010) o WEKA pode ser utilizado de diversas
formas, em funo do mesmo possuir quatro diferentes interfaces implementadas, que so
elas:
93

a) Explorer: Nesta interface so aplicadas as tarefas e tcnicas de MD sobre a


base de dados;

b) Experimenter: Esta interface til para a aplicao de um ou mais tcnicas


de classificao sobre uma grande base de dados e em seguida fazer
comparaes estatsticas sobre elas;

c) Knowledge-flow: Esta considerada a interface que mais apresenta o


funcionamento da ferramenta, uma vez que tem sua representao de forma
grfica;

d) Simple client: Esta interface oferece um local para insero de comandos.


Mesmo possuindo uma aparncia considerada simples, nela que realiza
qualquer operao suportada pelo WEKA.

O software WEKA trabalha com um formato de arquivo prprio, denominado ARFF


(Attribute Relation File Format). Neste arquivo, que pode ser no formato de texto, esto
contidas: a definio do domnio dos atributos e as instncias, que representam os dados que
sero trabalhados.

De acordo com Morate (2010, p. 3), um arquivo ARRF composto por uma estrutura
definida em trs partes:

a) Cabealho;

b) Declarao dos atributos e

c) Seo de dados.

No cabealho tem-se a definio do nome da relao, a declarao dos atributos


contm uma lista de todos os atributos (um atributo por linha), com os nomes dos atributos e
seus tipos. O WEKA trabalha com os seguintes tipos de dados:

a) Numrico: trabalhando com nmeros reais e decimais;

b) Inteiros: nmeros sem decimais;

c) Datas;
94

d) String: com ressalva para a substituio de espaos em branco por


underline e;

e) Enumerados: nos quais os tipos so previamente definidos pelo usrio, Ex.:


Sexo {Masc, Fem}.

O software WEKA consegue importar dados em arquivos nos formatos ARFF, CSV,
C4.5 e binrio. O WEKA consegue tambm acessar os dados de uma URL ou de um banco de
dados, utilizando a linguagem SQL (Structured Query Language) por meio da conexo JDBC.
A Figura 20 mostra um exemplo de um arquivo final no formato ARRF,

Figura 20 - Exemplo de arquivo no formato ARRF


Fonte: Adaptado de Morate (2010, p. 5)

Nesta pesquisa utilizou-se a ferramenta WEKA para as tarefas de Associao,


Classificao e Clusterizao. O fator que mais influenciou na escolha da ferramenta foi o
fato da mesma possuir as tarefas e tcnicas definidas para a pesquisa e possuir uma interface
grfica para a visualizao dos resultados.
95

2.12 GESTO DE IES


As IES foram criadas e mantidas muitas vezes por empreendedores que advinham
grande parte do segmento da educao, e outros que viam neste nicho de mercado uma boa
oportunidade de negcios.

Isto traz uma reflexo sobre a gesto adotada por ambos, primeiro sobre os que so
oriundos da educao, detm o saber da sala de aula, o conhecimento e ensino das
metodologias, inclusive as de administrao, mas isto no lhes garante o sucesso
administrativo. Segundo sobre os oriundos de outros setores, que apesar de serem experientes
nas questes de organizao, enfrentam a complexidade da razo de ser das IES.

O sistema universitrio brasileiro tem se expandido nos ltimos anos, o que trouxe
consigo uma srie de novas exigncias para as IES. Citam-se como novas exigncias a criao
e desenvolvimento de novas competncias atribudas aos gestores, os quais tm que atuar nos
diversos setores da instituio. Estas alteraes vm de encontro as normas estabelecidas pela
Lei de Diretrizes Bsicas da Educao Nacional (LDB) lei n 9.394/96.

A valorizao do planejamento estratgico, a definio de metas mais claras, a


administrao de projetos e as novas medidas que visam os objetivos finais de qualquer
organizao, tiveram forte influncia do aumento da competitividade gerado pela
globalizao.

Para Alves (2005, p. 37) A gesto baseada nos objetivos estratgicos tornou-se
fundamental para o pleno desenvolvimento de qualquer tipo de organizao, estando a
includas as IES particulares.

Colenci Jr et. al (2008, p. 3) destaca que:

Com o crescimento do nmero de instituies particulares, o ensino superior passou


de um direito a um negcio de prestao de servios, com fins lucrativos. Ocorre
que muitas instituies colocam seu foco na rentabilidade da empresa, em
detrimento da sua responsabilidade social de preparao de um cidado consciente
de seus atos e comprometido com o desenvolvimento da sociedade sobre as quais
devero estabelecer suas bases administrativas.

Nobrega (2004 apud BRAGA; MONTEIRO, 2005, p. 150) trata a gesto como sendo
um processo prtico, levando apenas em considerao o resultado obtido. O mesmo autor
retrata a gesto como uma pesquisa de critrios a serem utilizados na tomada de decises.
96

Corroborando com isto Colceni Jr et. al. (2008, p. 4), dizem que:

A importncia do planejamento estratgico de preparar a empresa para o


crescimento em direo viso da empresa ou da instituio em longo prazo.
Comumente, muitos gestores agem sem estruturar suas decises, sem saber quais as
verdadeiras vocaes e no conseguem estabelecer as polticas e as diretrizes

Outra postura a ser observada conforme afirmam Tachizawa e Andrade (2006):


gesto tem seu conceito ampliado, mediante a juno de atividades de controle, quer sejam
internas ou externas, incluindo indicadores de gesto, de desempenho e qualidade.

Neste contexto Alves (2006, p. 30) considera que:

Esse modelo sistmico permite que a IES proceda a uma anlise do meio ambiente
para definir a sua estratgia em longo prazo, a partir de um provvel cenrio e dos
objetivos institucionais. A identificao dos processos sistmicos-chave fornece o
suporte e estabelece as condies indispensveis ao delineamento estratgico. Na
abordagem sistmica, valoriza-se o todo da organizao, ou um conjunto de partes
em constante interao.

Tachizawa (2006) tenta estabelecer, atravs de seu modelo de gesto, um


entendimento dos processos sistmicos, baseado no uso do instrumento analtico fluxo bsico
da instituio. Para o autor, processo sistmico um conjunto de atividades que produzem
resultados, podendo ser controlado por uma ou mais ferramentas e/ou tcnicas, efetuadas por
vrias pessoas.

Alves (2005, p. 33) entende que:

Alm de criar condies para que os processos-chave se estabeleam, o modelo


sistmico atua na reviso da configurao organizacional da instituio, ou seja, nos
aspectos que no esto relacionados atividade fim. Entre eles se destacam as
atividades administrativas e os demais recursos que necessitam serem revisados na
busca de convert-los em produtos que, no caso em tela, so os servios
educacionais.

O enfoque sistmico direciona o entendimento do ambiente externo como sendo um


fator importante a ser considerado na gesto das IES, mediante aos desafios apresentados por
este ambiente.

O gestor de qualquer IES tem vrias responsabilidades, sejam elas pedaggicas,


administrativas ou financeiras, necessitando controlar e coordenar todos os ambientes
integrantes da IES, a fim de transformar o ambiente num ambiente de trabalho contnuo e
prspero.
97

2.12.1 Ferramentas de Gesto


As mudanas impostas pela nova ordem da economia ao setor de ensino superior
levaram muitas IES a traarem novas estratgias para se manterem no mercado. O
funcionamento das IES est sob influncia direta ou indiretamente das alteraes sofridas pelo
contexto externo em que se encontram e o controle destas alteraes afeta a sua gesto, o que
pode ser minimizado com o uso de boas ferramentas de gesto e a utilizao correta das
informaes.

Chiavenato (2000, p. 599) sustenta que as organizaes precisam adaptar-se e


incorporar tecnologia que provm do ambiente geral para no perderem a sua
competitividade.

Para Almeida e Almeida (2006, p. 104):

[...] o uso das tecnologias na gesto escolar revela novos papis dos seus
profissionais - como organizadores de informaes, criadores de significados e
lderes - na tomada compartilhada de decises. Esses profissionais encontram nas
tecnologias, especialmente naquelas de Informao e Comunicao, o suporte
adequado para o desenvolvimento de suas atividades, apoiadas em informaes
provenientes de fontes distintas, internas ou externas ao sistema, e na colaborao
com seus pares e com a comunidade escolar.

As IES tm uma questo a resolver que a de estruturar e disponibilizar para seus


gestores as informaes geradas pelos seus sistemas de gesto, possibilitando a transformao
destas informaes em tomadas de decises estratgicas.

Moran (apud VIEIRA, ALEMIDA e ALONSO, 2003, p. 153) retrata que:

Os principais colgios e universidades do Brasil utilizam esses programas


integrados de gesto. Diminuem a circulao de papis, formulrios, ofcios, to
comuns nas escolas pblicas e convertem todas as informaes em arquivos
digitais que vo sendo catalogados, organizados em pastas eletrnicas por
assunto, assim como o fazemos na secretaria, s que ficam armazenados num
computador principal, chamado servidor.

Observa-se que a maioria das IES no est apta para enfrentar o cenrio atual do
ensino superior. Sua sobrevivncia em meio a este ambiente incerto est presa aos resultados
gerados pela gesto estratgica.

O mesmo Moran salienta que:


98

Existem no mercado programas de gesto tecnolgica que tm como princpio


integrar todas as informaes que dizem respeito escola. Eles possuem um banco
de dados com todas as informaes dos alunos, famlias, professores, funcionrios,
fornecedores e, do ponto de vista pedaggico, bancos de informaes para as aulas,
para as atividades de professores, dos alunos, bibliotecas virtuais, etc. Todo esse
conjunto de informaes costuma circular primeiro numa rede interna, chamada
Intranet, qual alunos, professores e pais podem ter acesso, em diversos nveis, por
meio de senhas. Num segundo momento, a Intranet se conecta com a Internet, abre-
se para o mundo atravs de uma pgina WEB, uma pgina na Internet, que tem
como finalidade imediata a divulgao da escola - marketing -, e como finalidade
principal, facilitar a comunicao entre todos os participantes da comunidade
escolar. Moran (apud VIEIRA, ALEMIDA E ALONSO, 2003, p. 152).

Entende-se que a gesto da informao um processo que consiste no ato da gerao,


coleta, assimilao e aproveitamento da informao, tornando a IES mais inteligente e
competitiva, visando obter os melhores resultados em produtividade e capacidade de inovao
das IES.

Tanto o ambiente empresarial quanto o das IES, possuem ao seu dispor diversas
ferramentas para gesto, entre as quais podem ser citadas, o planejamento estratgico, os
programas de qualidade total, a Gesto Participativa, a reengenharia, downsizing, a
terceirizao, o empowerment, Customer Relationship Management (CRM), Business
Inteligence, Balanced Scorecard, os Sistemas de Informaes, todas elas visando segundo
seus defensores a soluo dos problemas gerenciais.
99

3 TRABALHOS RELACIONADOS

Esta dissertao apresenta o uso de tcnicas de Minerao de Dados em Ambientes de


Gesto Educacional, com intuito de auxiliar os gestores destes ambientes nas tomadas de
decises, relativas ao uso dos mesmos. Para tanto nas sees seguintes apresentam-se
trabalhos voltados para a Gesto da Informao em IES e suas ferramentas, o uso da
Minerao de Dados em diversos ambientes e especificamente em Ambientes de Gesto
Educacional, a aplicao das Tarefas de Associao, Classificao e Clusterizao,
conjuntamente com suas respectivas tcnicas.

3.1 GESTO DA TECNOLOGIA DA INFORMAO EM IES


Tendo como objetivo a aplicao de tcnicas de Inteligencia Competitiva, aliada a
minerao de textos, o trabalho de Furtado (2004) faz uso da ferramenta comercial
Coppernic2 para busca de informaes a respeito do mercado de Intituies de Ensino
Superior na cidade do Rio de Janeiro e sua regio metropolitana, e a software TEMIS3 para a
realizao das tarefas de clusterizao e categorizao dos documentos encontrados pela
ferramenta anterior.

O modelo de Inteligncia Competitiva proposto pela autora foi realizado em seis


etapas assim definidas:

a) Entendimento do mercado das Instituies de Ensino Superior Privado:


onde procurou obter informaes sobre o mercado das universidades, com
base em parmetros previamente determinados, para a criao de
documentos aos quais posteriormente passaram por um processo de
extrao de valores nos textos;

b) Busca de dados: por meio da busca em ambientes governamentais,


associaes da rea de Ensino Superior, instituies de pesquisa, revistas e
jornais de grande circulao on-line;

2
Disponvel em: http://www.copernic.com
3
Disponvel em: http://www.temis.com
100

c) Soluo: foi desenvolvida a construo dos atributos considerados


relevantes para uso na extrao das informaes dispostas nos docuemtnos
armazenados;

d) Aplicao do software Insight Discovertm Extractor IDE que fez a


extrao das informaes com base nos atributos anteriormente
especificados;

e) Construo da soluo: nesta etapa foram utilizados os softwares Insight


DiscoverTM Clusterer IDC e Insight DiscoverTM Categorizer IDK, para
a categorizao e clusterizaodos documentos;

f) Busca do conhecimento na coleo de textos: a partir dos documetos


armazenados obteve-se as relaes baseadas nos atributos relevantes os
quais geraram algumas concluses.

Para Furtado (2004, p. 98):

A integrao entre as reas de Minerao de Textos com Inteligncia


Competitiva possvel e necessria, pois as empresas possuem uma grande
quantidade de informao disponvel para anlise e essa anlise torna-se
invivel caso no seja realizada com o auxlio de tcnicas e ferramentas
computacionais.

Observou-se que a aplicao das tcnicas de Text Mining auxiliou no processo de


tomada de decises, por meio de informaes que se encontravam ocultas nos documentos
armazenados, fazendo que a IES conseguisse obter vantagem competitiva.

3.2 UTILIZAO DE MINERAO DE DADOS EM GERAL


Em seu trabalho Shiba(2008) formaliza um modelo de processo de KDD, no qual
foram definidas trs etapas principais:

a) Pr-processamento;

b) Minerao de Dados;

c) Ps-processamento.
101

Na etapa de Pr-processamento, a autora trabalhou com o desenvolvimento de um


programa que elaborou a gerao de um arquivo com dados unificados para posterior
aplicao de tcnicas de MD.

Na etapa de minerao de dados foi preparardo o ambiente de anlise de dados, tendo


como o problema apresentado e em seguida realizou-se a escolha da tcnica de Minerao de
Dados. A primeira base utilizada para os testes continha 144 registros, porm devido a uma
grande quantidade de registros incompletos, cerca de 10%, foi necessrio a utilizao de uma
base com maior quantidade. Uma segunda base de dados foi utilizada para testes, esta
continha 56.000 registros.

Para Shiba( 2008, p. 85) [...] Elaborar um modelo com uma amostra pequena pode
ser til quando as classes esto representadas proporcionalmente em relao a uma amostra
maior[...], isto quer dizer que se os dados a serem trabalhados numa amostra menor
estiverem proporcionalmente distribuidos em relao a um amostra com maior quan tidade de
registros, o resultado da aplicao da MD no sofrer influncia.

Finalizando o trabalho, a autora destaca dois objetivos: a) a avaliao do desempenho


aplicada ao modelo de testes e b) a disponibilizao da base de conhecimento gerada. No
trabalho foi explorada a aplicabilidade de um modelo de extrao do conhecimento por meio
de tcnicas de MD, aplicado num grupo de clientes a fim de verificar aes de reteno.
Tomando por base os resultados obtidos, foi identificado um cenrio evolutivo em relao a
anlise dos dados, o que tornar possvel o planejamento de aes de vendas direcionadas ao
perfil dos grupos de clientes selecionados.

Outra trabalho foi desenvolvido por Machado Filho (2006) no qual o autor propos o
desenvolvimento de um ambiente de MD, utilizando dois modelos de Redes Neurais
Artificiais, Multi Layer Perceptron (MLP) e Radial Basis Function (RBF), em problemas de
classificao e prediao de dados. O autor incorpoou em seu ambiente a tcnica do Algoritmo
Gentico para a determinao da topologia da rede e na extrao das regras.

Machado Filho fez uso da plataforma MS Excel, por esta apresentar algumas
caractersticas que considerou importantes, como: os recursos grficos, a utilizao de funes
j existentes, a importao e exportao dos dados e principalmente a integrao da
ferramenta com os demais aplicativos do pacote MS Office.
102

A utilizao de tcnicas de Minerao de Dados na deteco de outliers em auxlio


auditoria operacional com um estudo de caso com dados do sistema de informaes
hospitalares o trabalho de Bodini Junior (2009), que prope o uso de Algoritmos de
agrupamento Nebuloso e Mquina de Vetor Suporte para a evidencicao de Outliers, que so
registros encontrados em bases de dados que se destacam dos demais por sua falta de
semelhana.

3.3 MINERAO DE DADOS EM AMBIENTES EDUCACIONAIS


Ramaswani e Bhaskaran (2009) em seu artigo abordam a extrao da informao em
ambientes educacionais com meio de avaliar o desempenho dos alunos. A presente
investigao centra-se em vrias tcnicas de recurso de seleo, que um dos mais
importantes e frequentemente utilizados no pr-processamento de dados para Minerao de
Dados. Os procedimentos gerais sobre seleo de recursos em termos de mtodo de filtro
seguido com o efeito de tcnicas de seleo de recursos em um banco de dados contendo
informaes de alunos do ensino secundrio.

A seleo de recursos tem sido um campo ativo e fecundo da rea de pesquisa em


reconhecimento de padres, aprendizado de mquina, as estatsticas e as comunidades de
Minerao de Dados. O objetivo principal de seleo de recursos escolher um subconjunto
de variveis de entrada de recursos para eliminar os que so irrelevantes ou sem informaes
preditivas. A seleo de recursos tem provado na teoria e na prtica para ser eficaz em
aumentar eficincia de aprendizagem, aumentando a preciso preditiva e reduzir a
complexidade dos resultados de aprendizado. A seleo de recursos no aprendizado
supervisionado tem por objetivo principal encontrar um subconjunto recurso que produz
maior preciso na classificao.

Cardoso e Machado (2008) utilizaram a plataforma Lattes como base para a aplicao
e anlise de uma ferramenta de Minerao de Dados com o objetivo de extrair informaes a
respeito da produo cientfica de seus professores e colaboradores da Universidade Federal
de Lavras (UFLA). Inicialmente foram selecionados mais de mil currculos, destes 575 foram
os selecionados por dados mais especficos para a pesquisa.

As autoras utilizaram quatro exemplos para mostrar a aplicao das Regras de


Associao. No primeiro exemplo fizeram a associao entre a quantidade de publicaes
103

contidas na Plataforma Lattes, desenvolvidas por pessoas que trabalha na UFLA e as pessoas
que no trabalham. Como resultado obtiveram uma amostra com 1.977 publicaes das quais
55% so publicaes de pessoas que no estavam trabalham na UFLA quando da publicao e
o restante 45% de pessoas que estavam trabalhando na UFLA no momento da publicao.

No segundo exemplo as autoras analisam os resultados obtidos no exemplo anterior,


mais especificamente os 55% de pessoas que tiveram alguma publicao, mas no estavam
trabalhando. Como resultado obtiveram a quantidade de 1.062 publicaes. Cardoso e
Machado (2008) alertam [...] uma pessoa, ao receber afastamento total para treinamento,
fazer ps-graduao, por exemplo, no est atuando na Ufla durante o perodo do
afastamento.

O terceiro exemplo apresentado pelas autoras faz uma relao entre as publicaes
cadastradas e o tempo de servios prestados UFLA por seus autores, tendo como resultado a
caracterizao de que a maioria das publicaes foi realizada aps o ingresso do autor na
UFLA. (MACHADO e CARDOSO , 2008).

No quarto e ltimo exemplo as autoras fazem a juno de duas situaes: o local de


realizao de uma ps-graduo, se no exterior ou no Brasil e o nmero de publicaes feitas.
O resultado apresenta uma relao direta entre a quantidade de publicaes (74) e pessoas
(34) que fizeram a ps-graduao no Brasil. Machado e Cardoso (2008) ressaltam que: [...]
A mdia de publicaes no exterior de pessoas que cursaram a ps-graduao fora do Brasil
maior numa razo de 2,71 com relao s pessoas que cursaram ps-graduao no Brasil.

Cardoso e Machado (2008) elaboraram mais quatro anlises:

a) Anlises de regras de associao e de padro seqencial: onde analisam o


tempo decorrido entre a concluso do mestrado e o incio do doutorado
relizado pelas pessoas que trabalham na UFLA;

b) Anlises de padres seqenciais: duas consultas foram realizadas: a


primeira, analisa a relao entre o tempo de cadastro do currculo na
Plataforma Lattes e o tempo de vnculo profissional com a instituio e a
segunda, analisa a relao temporal entre o tempo de servio e o ano de
incio das pesquisas realizadas pelo colaborador;
104

c) Anlises de cluster: atravs da identificao de um cluster considerado


desconhecido, analisaram o tempo de durao das pesquisas realizadas
pelos colaboradores da instituio;

d) Anlise de classificao e predio: esta teve por objetivo a anlise entre as


atividades exercidas e as publicaes realizadas, onde buscaram saber em
qual nvel de atividade (ensino, pesquisa e direo) ocorriam mais
publicaes.

Os resultados apontam que o uso de tcnicas de MD traz ao gestor a possibilidade de


uma gesto das informaes mais eficaz, uma vez que a integrao dos dados armazenados
gera informaes teis para a tomada de decises.

Dias et al (2008), no seu artigo cientfico Aplicao de Tcnicas de Data mining no


Processo de Aprendizagem na Educao a Distncia, apresentam um estudo de caso aplicado
no ambiente de aprendizagem denominado LabSQL. O LabSQL de aprendizagem utilizado
para o ensino da linguagem SQL.

Conforme Dias et all ( 2008):

No ambiente de aprendizagem de SQL, o aprendiz visualiza o texto didtico


acompanhado de exemplos executveis. Juntamente com o contedo so
apresentadas listas de exerccios para que o aprendiz treine suas habilidades.
Existem trs tipos de exerccios: objetivos de mltipla escolha (ou V/F); no
objetivos descritivos e exerccios de programao.

Os dados armazenados no banco de dados do ambiente serviram para a aplicao das


tarefas de Minerao de Dados: rvore de Decises e Redes Bayesianas. Foram analisadas
sete turmas, com uma mdia de trinta alunos por um perodo de dois semestres, na
modalidade de ensino semi-presencial. Dentre as turmas analisada quatro delas eram de ps-
graduao e as demais trs de graduao.

Os autores analisaram 272 registros dos usurios, com os quais trabalharam com 18
atributos: sexo, cdigos: do curso, do tipo do curso, da disciplina, da turma, do coordenador
do curso, o tempo levou para inscrio na turma aps o incio da inscrio, se trabalhou em
equipe, se uso a agenda de anotaes de sistema, os totais: de pontos obtidos na resoluo de
problemas, de problemas resolvidos, a mdia de pontos dos problemas resolvidos, a
quantidade de acessos as pginas do ambiente; se ficou acima da mdia de acessos de todas as
105

turmas e em sua turma (sim ou no); se ficou acima da mdia de pontos de todas as turmas e
se ficou acima da mdia de pontos da sua turma, conforme Erro! Fonte de referncia no
encontrada..

Na tcnica de Redes Bayesianas os autores utilizaram software Bayesware Discoverer


e observaram que existe uma forte influncia na demora para inscrio no curso em relao a
mdia da quantidade de acessos, sendo esta influenciada pelo curso no qual o aluno ir
participar.

Figura 21 - Rede Bayesiana para Anlise da Demora para Inscrio


Fonte: Dias et al ( 2008, p. 110)

Outra tcnica aplicada pelos autores foi a de rvore de Deciso, utilizando a


ferramenta WEKA, a qual fez uso da tarefa de classificao, implementada com o algoritmo
J48 em validao cruzada. Esta tcnica foi aplicada com objetivo de verificar a preciso dos
modelos de classificao utilizados, onde obtiveram uma mdia de 83,13% de acurcia. Para
os autores a combinao de MD com ambientes de EAD, permite a anlise das praticas feitas
pelos usurios, trazendo benefcios para os envolvidos no processo de ensino-aprendizagem.

A descoberta do conhecimento em base de dados o tema de Scoss (2006) em seu


trabalho de especializao. A autora faz uso da tarefa de clusterizao para anlise do
desempenho dos docentes da Universidade do Extremo Sul Catarinense, com objetivo de
analisar o perfil dos docentes no contexto da Avaliao Institucional.

A autora realizou sua pesquisa fazendo uso das tarefas de clusterizao e classificao,
as quais foram aplicadas em uma base de dados que continha 36.672 instncias e 21 atributos.
Na tarefa de clusterizao foram definidos quatro clusteres, sendo estes o nmero de reas de
106

conhecimento disponveis na Universidade, rea de licenciatura, rea de Sade e Biolgicas,


rea de Sociais e Aplicadas e rea de Engenharia e Tecnologia.

J na tarefa de associao a autora utilizou o algoritmo ZeroR, que caracteriza o


esboo de uma nica regra, tendo como base o item que mais vezes aparece na base de dados.
Diante dos resultados obtidos foi possvel gerar informaes sobre o desempenho dos
docentes da universidade e a partir destas informaes a sugesto de aes a serem tomadas
pelos gestores.

Amorim, Barone e Mansur (2008) demonstram em seu artigo intitulado Tcnicas de


Aprendizado de Mquina Aplicadas na Previso de Evaso Acadmica, apresentado no XIX
Simpsio Brasileiro de Informtica na Educao no ano de 2008, a eficincia do uso de
tcnicas de MD aplicadas evaso acadmica, no qual os autores aplicam a tcnica de
aprendizado de mquina.

Os autores utilizaram como base para sua pesquisa uma IES localizada no municpio
de Goytacazes no RJ. O universo pesquisado era composto por 8.073 matriculas que foram
realizadas nos seguintes cursos oferecidos pela IES: 1.765 matrculas no curso de
Administrao, 1.160 no curso de Engenharia da Produo, 2.642 no curso de Fisioterapia e
2.506 matrculas no curso de Pedagogia. A Erro! Fonte de referncia no encontrada.
mostra o fluxo de interao do sistemas criado pelos autores.

Figura 22 - Arquitetura do sistema mapeador


Fonte: Amorim, Barone e Mansur (2008).
107

Aps extrarem os dados do banco de dados da IES, os autores elegeram os


classificadores que foram utilizados. Estes classificadores encontram-se disponveis na
ferramenta de minerao WEKA e foram os seguintes:

a) J48 baseado em rvores de deciso;

b) SMO baseado em maquinas de vetores de suporte;

c) Bayes Net baseados em mtodos bayesianos.

Para avaliar a eficincia dos classificadores escolhidos os autores elaboraram um


levantamento das matrculas realizadas no incio do ano de 2002 at o segundo semestre do
ano de 2006. Foram consideradas as matrculas novas, as re-matrculas e os trancamentos
ocorridos neste perodo. A Tabela 6 resume os dados encontrados pelos autores:

Tabela 6 - Tabela de evaso por curso


Cursos Total de Matrcula e Total de Percentual
re-matrculas trancamentos semestral de evaso
Administrao 1765 298 16,88%
Engenharia da Produo 1160 363 31,29%
Fisioterapia 2624 558 21,12%
Pedagogia 2506 563 22,47%
Geral 8073 178 22,07%
Fonte: Amorim, Barone e Mansur (2008).

A experincia foi considerada bem sucedida, fato constatado atravs da comparao


entre a realidade encontrada na base e o resultado apresentado pelos classificadores. Cada um
dos classificadores foi aplicado nos valores anteriormente mencionados e obtiveram como
resultado:

Tabela 7 - Grau de acurcia dos classificadores na evaso


Bayes Net SMO J48
Classificao Correta 89,7084% 91,2521% 89,6512%
Classificao Incorreta 10,2916% 8,7479% 10,3488%
Fonte: Amorim, Barone e Mansur (2008).

Observa-se que existe uma diferena bem baixa entre os trs classificadores utilizados.
Para os autores o artigo contribuiu para a apresentao da tcnica de aprendizado de mquinas
e na escolha do melhor classificador, o que propicia ao gestor da IES, novos horizontes em
relao ao problema de evaso acadmica. Com base nesta nova informao, novas
estratgias de reteno podem ser tomadas.
108

4 APLICAO DAS TCNICAS DE MD EM AGE

Neste captulo apresentado como foram realizadas as tarefas de associao,


classificao e clusterizao, bem como a anlise dos resultados provenientes dessas tarefas.
Na Seo 4.1, so apresentadas caractersticas gerais sobre o problema a ser tratado. A seguir,
na Seo 4.2, so apresentados os experimentos de associao, sendo em seguida, na Seo
4.3 apresentados os experimentos da tarefa de classificao. E por fim, na Seo 4.4, so
apresentados os experimentos realizados usando a tarefa de clusterizao.

Inicialmente foram colhidos 238 registros relacionados as questes de identificao


dos acadmicos ingressantes e 165 registros relacionados as questes dos egressos.

Aps uma anlise prvia da base de dados, foi detectado que haviam vrios itens sem
o devido preenchimento ou com erros de digitao ou ainda com valores redundantes. Os
registros restantes foram adequados por meio de uma criteriosa avaliao manual, com
exceo de alguns registros que foram excludos da base, por no apresentarem condies de
correo. Por fim, trabalhou-se com 238 registros de ingressantes e 165 registros para
egressos.

4.1 CARACTERSTICAS DO PROBLEMA A SER TRATADO


Conforme o objetivo geral e os especficos propostos no incio deste trabalho e
alinhados com a metodologia empregada para a aquisio das informaes a serem mineradas,
num primeiro momento buscou-se compreender a necessidade dos gestores da IES, a fim de
poder oferecer uma soluo para seus questionamentos.

Para Dias (2001) na MD existe a possibilidade de no existir um problemas real a ser


solucionado, uma vez que a MD pode ser utilizada como um processo de descoberta, onde
nem sempres feito o levantamento das suposies a serem discutidas. Assim sendo o
primeiro passo para se decobrir conhecimento em bases de dados uma correta definio do
problema a ser tratado.

Nesta etapa da pesquisa entrou-se em contato com a diretoria da IES a ser pesquisada,
solicitando o acesso base de dados, para que fossem realizadas as etapas da Minerao de
Dados. A ela foi solicitada a permisso de acesso, mas observou-se que apenas o acesso no
109

permitiria obteno de todos os dados realmente necessrios a pesquisa, o que levou a


solicitao de uma cpia da base. Processo este, que vale ressaltar, foi um dos entraves na
elaborao desta pesquisa, pois tratam-se de dados considerados confidenciais e estratgicos a
IES.

A ferramenta WEKA, transformou os dados utilizados nesta pesquisa em regras com


informaes teis e mais claras aos gestores da IES. A ferramenta tornou possvel a
interpretao e compreenso dos resultados por parte de todos os envolvidos na realizao
desta pesquisa, sendo que os resultados foram considerados satisfatrios por todos.

Figura 23 - Dados para minerao em Excel


Fonte: Da pesquisa (2010)

O prximo passo foi enviar ao gestor da IES um documento pedindo-o que elaborasse
questes de seu interesse referente a gesto da instituio(Vide Anexo A). O objetivo destas
questes era o de definir o tipo de informao que seria interessante de ser descoberta na base
de dados e iniciar o processo de KDD, atravs da compreenso do domnio da aplicao e do
estabelecimento dos objetivos a serem atingidos (CRISP-DM, 2010).
110

4.1.1 Seleo, limpeza e transformao dos dados


Nesta etapa realizou-se a seleo dos dados conforme o processo de KDD, com
objetivo de analisar o conhecimento do gestor da IES em relao as informaes de interesse.
Entendeu-se que alguns dados seriam desnecessrios, como processo de inscrio, filiao,
entre outros, que foram eliminados antes do processo de limpeza dos mesmos.

Os dados aps a limpeza passaram pelo processo de converso de formato, a


ferramenta WEKA utiliza o formato ARFF. Este procedimento foi realizado convertendo o
arquivo gerado na ferramenta MS Excel, para o formato Comma-separated values (CSV),
em portugus, Valores separados por Vrgula, em seguida os dados foram formatados no
padro de uso do arquivo ARFF, contendo o cabealho, a descrio dos campos e respectivos
tipos de dados e por fim a sequncia de registros que compuseram a amostra, conforme
apresentado na Figura 24. Esta etapa foi realizada com o uso de um editor de textos, alterando
apenas a extenso do arquivo salvo para ARFF.

Figura 24 - Exemplo de Cabealho no arquivo ARFF


Fonte: Da pesquisa (2010)

Os atributos foram criados com o tipo de dados nominal, uma vez que a ferramenta
WEKA no trabalha a regra de classificao com atributos do tipo numrico. Em funo desta
limitao os atributos numricos foram enquadrados em faixas de valores nominais.
111

A escolha da base de dados onde ser feita a anlise e a escolha da ferramenta de


minerao a ser utilizada so consideradas atividades cruciais para o xito no trabalho.
Tambm deve ser levado em considerao a definio dos objetivos a serem contemplados.
Nesta seo foram descritas a estapas de pr-processamento, com intuito de descrever os
passos necessrios para aplicao das tcnicas de MD junto a ferramenta WEKA.

4.1.2 Aplicao das tcnicas de Minerao de Dados


Considerada como sendo o elemento principal no processo da descoberta de
conhecimento em bases de dados, a etapa de Minerao de Dados, resume-se na aplicao
efetiva de uma das tcnicas de MD, pela aplicao do algoritmo escolhido sobre os dados a
serem analisados com objetivo de descobrir padres. Tendo a base de dados sido preparada,
aps a aplicao do algoritmo, ocorre a busca por padres, associaes, classificaes e
criao de clusters, a fim de identificar novas relaes.

Figura 25- Instanciao dos atributos dos ingressantes para minerao


Fonte: Da pesquisa (2010)
112

Figura 26 - Instanciao dos atributos dos egressos para minerao


Fonte: Da pesquisa (2010)

Conforme observa-se nos Anexo A e Anexo B, as questes aplicadas a cada grupo de


entrevistados tm significativas diferenas.

4.1.3 Tipos de aprendizado


Todas as tarefas de MD passam por um treinamento, uma aprendizagem, sendo que
nesta fase os dados processados so apresentados ao algoritmo de minerao que ser
utilizado, com o objetivo de aprender, ou seja, de identificar os padres considerados teis no
processo de descoberta de conhecimento.

Em Minerao de Dados tm-se dois tipos de aprendizados indutivos chamados de


Aprendizagem Supervisionada e Aprendizagem No-Superivisionada. A Aprendizagem
Supervisionada direcionada a tomada de decises e por meio dela que se realizam
inferncias nos dados com objetivo de realizar predies, nas quais h o uso de atributos para
previso do valor futuro. Enquanto na Aprendizagem No-Supervisionada as atividades so
descritivas, permintindo a descoberta de pades e a gerao de novos conhecimentos.
113

4.1.4 Aprendizagem No Supervisionada (ANS)


Nestas tarefas o rtulo da classe a ser utilizadas para trabalhar no conhecido bem
como o nmero de classes que sero treinadas. O objetivo destas tarefas identificar padres
de comportamento semelhantes nos dados armazenados. As tarefas abordadas nesta pesquisa
que pertencem a esta tcnica so as tarefas de Associao e Clusterizao.

4.1.4.1 Associao
Na tarefa de associao, o objetivo a descoberta de regras de associao, que so
expresses X Y (onde se l: SE (X) ENTO (Y)), sendo que X e Y so conjuntos de itens,
X Y = . Esta regra tem com signicado que os conjuntos de itens X e Y ocorrem
frequentemente juntos numa mesma transao (registro). (Agrawal et al 1993).

Um exemplo de uma regra do tipo X Y poderia ser: 95% dos candidatos


ingressantes que j trabalham tambm possuem meio prprio de transporte. O valor 95%
dito a conana da regra, ou seja, representa o nmero de candidatos ingressantes que
trabalham e tambm possuem meio prprio de transporte, dividido pelo nmero de candidatos
ingressantes que j trabalham.

Para avaliar uma regra de associao existe outra medida que o valor do suporte da
regra, que representa a frequncia de ocorrncia dos itens X e Y em relao base de dados
(AGRAWAL et al.,1993)

Equao 1 - Frmula do clculo do suporte


Fonte:Tsunoda (2008)

A Figura 29 apresenta um exemplo de resultados gerados pelo WEKA quando da


aplicao da tarefa de regras de associao realizada, destacando-se os principais elementos:

a) As regras so ordenadas pela confiana;


114

b) Os valores depois de antecedentes e consequentes das regras representam o


nmero de suas respectivas ocorrncias.

Figura 27 - Regras criadas para ingressantes


Fonte: Da pesquisa (2010)

A primeira regra mostra que 86 (36% do total da amostra) que moram com os pais e
fizeram o ensino mdio em escola pblica ainda so solteiros com uma confiana de 100%.
Outra regra a ser considerada a regra 04 (Se Ocupacao=EEP e Meio_de_Transporte=Onibus
e Ensino_Medio=Publica, com 92 registros, implica que Quem_Decidiu=Propria com 86
ocorrncias, com um grau de confiana de 96%).

Observa-se na regra de nmero 7 que 97 dos ingressantes (representando 41% da


amostra), quem tem como ocupao se Empregado de Empresa Privada (EEP) e tem como
meio de transporte o nibus, estudou em escola pblica, com um grau de confiana de 96 %.
Estas regras foram geradas tendo como base todos os atributos utilizados na pesquisa.

A fim de verificar a consistncia da regra de associao, outro experimento foi


realizado, desta vez reduzindo o numero de atributos pesquisados, sendo eles apenas:
Conclusao_Ensino_Medio, Razao_Escolha_Curso, Razao_Escolha_IES e Pos_Curso.
Estipulando um percentual mnimo de suporte de 40%, applicou-se a frmula para os
seguintes atributos: Conclusao_Ensino_Medio, Escolha_Curso e Pos_Curso.
115

Tabela 8 - Clculo do Suporte Conclusao_Ensino_Medio


CONCLUSAO_ENSINO_MEDIO NR. OCORRENCIAS %SUPORTE
ENTRE_01_E_03_ANOS 71 30%
ENTRE_04_E_06_ANOS 44 18%
ENTRE_07_E_10_ANOS 51 21%
MAIS_DE_10_ANOS 39 16%
MENOS_DE_01_ANO 33 14%
TOTAL DA AMOSTRA 238
Fonte: Da pesquisa (2010)

Como o resultado apresentado com maior percentual de suporte foi onde se encontra a
faixa de tempo relativa ao perodo de ingresso no curso aps a concluso do ensino mdio,
que apresentou 29,83% dos casos, aplicou-se ento uma segunda regra de suporte desta vez
analisando o atributo Razao_Escolha_Curso.

Tabela 9 - Clculo do Suporte Razao_Escolha_Curso


RAZAO_ESCOLHA_CURSO NR. OCORRENCIAS SUPORTE
ADEQUACAO_PESSOAL 39 55%
MERCADO_DE_TRABALHO 17 24%
OUTRA 4 6%
PRESTIGIO_PROFISSAO 6 8%
REMUNERACAO 5 7%
TOTAL DA AMOSTRA 71
Fonte: Da pesquisa (2010)

Para o atributo Razao_Escolha_Curso, a faixa de opes que obteve maior


expressividade foi a de Adequao Pessoal, isto indica que aqueles que logo iniciam um curso
de graduao procuram adequar-se ao gosto pessoal, trabalhar no que gosta. O que levou a
mais uma interao da frmula, agora aplicada ao atributo Pos_Curso, cujos resultados so
apresentados na Tabela 10:

Tabela 10 - Clculo do Suporte Pos_Curso


POS_CURSO NR. OCORRNCIAS %SUPORTE
CONCURSO_PUBLICO 5 13%
EMPREGADO 13 33%
NEGOCIO_FAMILIAR 5 13%
NEGOCIO_PROPRIO 16 41%
TOTAL 39
Fonte: Da pesquisa (2010)

A fim de validar o resultado obtido, tornou-se necessrio a utilizao de mais um


atributo Razao_Escolha_IES, para o qual o resultado est demonstrado na Tabela 11:
116

Tabela 11 - Clculo do Suporte Razao_Escolha_IES


RAZAO ESCOLHA IES NR. OCORRNCIAS SUPORTE
CREDIBILIDADE 3 8%
LOCALIZACAO 36 92%
TOTAL 39
Fonte: Da pesquisa (2010)

De posse destes resultados foi ento calculado o grau de confiana para as instncias
da unio dos trs atributos com maior expressividade, aplicando-se a frmula descrita na
Equao 2, a confiana uma medida de fora da regra. (AGRAWAL ET ALL., 1993):

Equao 2 - Clculo da Confiana


Fonte: Tsunoda (2008)

O resultado final para a confiana fica em 92% da ocorrncia da unio entre estes
quatro atributos anteriormente descritos, uma vez que estes atributos tiveram os resultados
acima do valor estipulado para o suporte que era de 40%. O que se observa com a aplicao
desta regra pode ser melhor visualizado pelo resultado gerado pela ferramenta WEKA.
117

Figura 28 Resultado da Associao feita no WEKA


Fonte: Da pesquisa (2010)

Para aplicao da regra de associao foram utilizadas as 238 instancias, nas quais
observou-se que os ingressantes que concluiram o ensino mdio num perodo entre 01
e 03 anos e escolheram o curso por motivo de adequao pessoal, com 39 instancias, so
alunos que escolheram a IES por sua localizao, em 36 ocorrncias, haja vista a mesma
localizar-se no centro da cidade. Esta regra demostra que um ponto a favor da IES est em
situar no centro da cidade, tendo seu acesso facilitado em funo da prximidade de pontos de
nibus.

Esta relao tem um grau de confiana de 92%. O que ficou mais evidente quando
se analisou os atributos Ensino_Medio, Meio_Transporte, Razao_Escolha_IES.

As regras observadas trazem como tendncia a formao dos ingressantes, que


realizaram o ensino mdio em escola pblica, na escolha da IES, em conjunto com a renda
familiar (de R$ 1.501,00 a R$ 2.500,00) sendo que estes formam a grande parte do pblico
ingressante na IES. Os resultados tambm indicaram que um dos principais fatores para a
escolha da IES sua localizao, que fica no centro da cidade. Outro resultado da anlise
demonstra que os ingressantes deste conjunto so em maioria EEP.
118

Grfico 4 - Renda X Razao da Escolha do Curso


Fonte: Da pesquisa (2010)

Conforme anlise efetuada utilizando os atributos Renda_Mensal_Familiar e


Razao_Escolha_Curso, verificou que existem dois grandes grupos:

a) Ingressantes com renda bruta familiar de R$ 1.500,00 at R$ 2.500,00, cuja


principal razo para escolha do curso foi a adequao pessoal;

b) Ingressantes com a mesma faixa de renda, mas com o foco voltado para o
mercadode trabalho.

O que demonstra a preocupao dos ingressantes em estarem buscando atravs


do curso superior uma forma de melhoria em sua condio de vida relativa ao seu
sustento. Observa-se tambm que existe um vazio na faixa de renda entre R$ 3.501,00 at R$
4.500,00, o que representa que pessoas que se encontram nesta faixa salarial, ou j possuem
um curso superior, fato este que poderia ser utilizado como atrativo numa campanha, como a
concesso de algum benefcio para quem j possue uma graduao e quer fazer outra.
119

Sob a mesma tica de anlise do ponto de vista econmico dos ingressantes, foram
analisadas as possveis associaes entre os atributos: Curso, Ponto_de_Vista_Financeiro e
Pos_Curso, conforme expresso no Grfico 5.

Grfico 5 - Anlise Curso X Ponto de Vista Financeiro e Pos Curso


Fonte: Da pesquisa (2010)

O que se observa no resultado desta anlise que a grande maioria dos ingressantes
contribui de alguma forma monetria na renda familiar, sendo que destes, os alunos do curso
de Administrao, 54% so responsveis pelo sustento da famlia e tm como meta Ps_Curso
o ingresso numa carreira estvel, por meio da realizao de um concurso pblico, como ser
melhor explicitado na tarefa de Clusterizao.

Para os egressos, foram analisadas num primeiro experimento 165 instancias da base
de dados, com grau de confiana de 90% (automtica gerada pela ferramenta), o que resultou
na gerao de 10 regras, conforme Figura 29.
120

Figura 29 - Regra de associao na base dos egressos


Fonte: Da pesquisa (2010)

A regra mais expressiva foi a de nmero 4, Se indicaria a IES = No, com um total de
126 registros, uma vez que a mesma regra demonstrou que 117 egressos No conhecem a
poltica de Ex-aluno, com 93% de confiana. Assim como a regra 5, Se contactado = No,
com 129 registros, sendo que destes 119 No conhecem a poltica de Ex-aluno.

Figura 30 - Anlise Egressos: Curso X Renda Bruta, Avaliao Qualidade e Contribuio


Fonte: Da pesquisa (2010)
121

A qualidade dos cursos de graduao oferecidos pela IES considerada boa por 23
egressos que possuem renda bruta mensal de 2 SM at 5 SM, o que representa apenas 14%
dos registros, podendo ser compravado quando a anlise feita com os alunos do curso de
Administrao que se enquadram nesta situao, sendo que dos 33 egressos 25 consideram
como boa, o que representa 76% da amostra dos egressos do curso de Administrao, porm
apenas 15% do universo total da amostra.

Figura 31 - Anlise Contribuio X Qualidade Matriz Curricular


Fonte: Da pesquisa (2010)

A Matriz curricular da IES procura estar em ateno com o mercado, de forma que
pode ser verificado com a anlise das consideraes registradas peloa egressos. O que se
observa que a Qualidade da Matriz Curricular contribui de alguma forma no ingresso da
profisso e principlamente na ascenso de cargos por parte dos egressos.

Estas regras refletem a no interao da IES com seus egressos, o que acarreta em
mais custos na angariao de alunos para os cursos de extenso e ps graduao que so
oferecidos pela IES. Uma poltica de benefcios para ex-alunos pode ser implantada com
122

maior clareza se for divulgada nos semestres finais dos cursos de graduao ou nos demais
nveis, fato este que serveria de base para a prospeco dos servios prestados pela IES.

Um forte elemento que pode ser utilizado a qualidade da Matriz Curricular, que
est alinhada com as exigncias do mercado no qual a IES est inserida e que tem grande
influncia na vida profissional dos egressos.

4.1.4.2 Anlise de Componentes Principais


A ACP uma tcnica estatstica que tem por objetivo a reduo do nmero de
variveis afim de fornecer uma nova viso estatstica de um determinado conjunto de dados.
Esta tcnica fornece ferramentas que possibilitam a identificao de variveis, consideradas
mais importantes, no espao das componentes principais.

Em funo de que apenas os atributos Idade, Renda_Mensal e


Concluso_Ensino_Medio serem numricos, a ACP foi realizada somente nestes trs
atributos, assim obtendo os seguintes resultados:

a) Atributo: Idade, resultado: 9,57%;

b) Atributo: Renda_Mensal, resultado: 33,53% e

c) Atributo: Conclusao_Ensino_Medio, resultado: 56,88%.

Assim sendo, o atributo que melhor expressa o conjunto de dados para posterior
anlise o atributo Concluso_Ensino_Medio. Quanto aos egressos a tcnica de ACP foi
aplicada nos seguintes atributos:

a) Inicio_Atividade_Profissional, resultado: 20,62%;

b) Renda_Bruta_Mensal, resultado: 22,65%;

c) Avaliao_Qualidade, resultado: 30,87%;

d) Matriz_Curricular, resultado: 13,95% e

e) Valores, resultado: 11,88%.


123

Tendo como atributo mais significativo para posterior anlise o atributo


Avaliao_Qualidade.

4.1.4.3 Clusterizao
A Clusterizao exercida sobre dados nos quais as classes no se encontram
definidas. Esta tcnica consiste na identificao de novos grupos, que contenham
caractersticas semelhantes e segmentar os registros com tais caractersticas.

Kampff (2009, p.69) define que:

A clusterizao busca descobrir conhecimento de forma indireta, a partir da


identificao de grupos de dados com caractersticas semelhantes. O objetivo desta
tcnica consiste em identificar agrupamentos de dados que podem ser classificados
em uma classe comum, descoberta no processo de clusterizao.

Em determinadas situaes, tornas-se imprescindvel que se faa a verificao de


como os registros de uma base de dados se agrupam em funo de determinadas
caractersticas intrnsecas de seus atributos. Estes registros podem ser agrupados em
clusters com caractersticas semelhantes.

Tendo por base uma medida de similaridade, os dados so agrupados, resultando em


informaes que possibilitam o encontro de relaes interessantes entre as instncias. Assim
sendo o usurio pode aplicar uma nova ao em um novo subconjunto de dados, buscando o
conhecimento novo sobre os mesmos.

Diferente da tarefa de classificao, onde h classes pr-definidas, a tarefa de


clusterizao uma das primeiras tcnicas a ser realizada em Minerao de Dados. Nesta
pesquisa o algoritmo utilizado para a clusterizao foi o algoritmo K Means em conjunto com
a medida Euclidiana para medir a similaridade entre os objetos.
124

Figura 32 - Tarefa de clusterizao Ingressantes


Fonte: Da pesquisa (2010)

Num primeiro experimento foram selecionados os atributos: Curso, Sexo,


Renda_Mensal_Familiar, Ponto_Vista_Finan, Ensino_Medio, Conclusao_Ensino_Medio,
Pos_Curso, com os 238 registro contios na base de dados, o que acarretou na gerao de dois
clusters. O resultado foi equivalente para ambos os clusters, uma vez que a quantidade de
registros prximos ao Cluster 0 foi de 118 instancias, enquanto para o Cluster 1 foi de 120
instncias.

No Cluster 0 (zero), as caractersticas para a similaridade foram:

Tabela 12 - Cluster 0 sobre os ingressantes


Atributo Caracterstica
Curso Direito
Sexo Feminino
Renda_Mensal_Familiar De 1500 a 2500
Ponto_Vista_Finan Responsavel_Pelo_Sustento
Ensino_Medio Publica
Conclusao_Ensino_Medio Entre 07 e 10 Anos
Pos_Curso Concurso_Publico
Fonte: Da pesquisa (2010)
125

No Cluster 1 (um), as caractersticas para a similaridade foram:

Tabela 13 - Cluster 1 sobre os ingressantes


Atributo Caracterstica
Curso Administrao
Sexo Feminino
Renda_Mensal_Familiar De 1500 a 2500
Ponto_Vista_Finan Trabalha e Contribui
Ensino_Medio Trabalha e Contribui
Conclusao_Ensino_Medio Entre 01 e 03 Anos
Pos_Curso Negocio_Proprio
Fonte: Da pesquisa (2010)

Ao aumentar o nmero de clusters, a diviso foi mais significativa no grupo que estava
prximo ao cluster 1, uma vez que a diviso ficou sendo da seguinte maneira:

Figura 33 - Criao do terceiro cluster Ingressantes


Fonte: Da pesquisa (2010)

O que vem a reforar os resultados apresentados na tarefa de Associao e


posteriormente sero comprovados com a tarefa de classificao, onde se percebe que os
ingressantes no curso de Direito tendem ao finalizar o curso em questo prestar algum
concurso pblico, enquanto os ingressantes no curso de Administrao preferem a abertura de
um negcio prprio.
126

Figura 34 - Cluster gerado para os egressos


Fonte: Da pesquisa (2010)

Quanto aos egressos foram criados inicialmente 03 clusters, o que mostrou uma
caracterstica muito boa, pois 60% dos registros foram agrupados no cluster 0, que retrata a
contribuio do curso na questo de ascenso na vida profissional mas apesar disto no
indicaria a realizao de um curso na IES para outras pessoas.

4.1.5 Aprendizagem Supervisionada


A Aprendizagem Supervisionada (AS), trabalha com algoritmos preditivos, haja vista
que suas tarefas de minerao fazem inferncias nos dados com objetivo de fornecer previses
ou tendncias, tendo como base informaes no disponveis dos dados a serem minerados.

A AS faz uso de uma classe especificada, isto , determinada instncia contm um


atributo classe que determina qual classe ela est inserida. Diversas tcnicas de minerao
utilizam este tipo de aprendizado, dentre elas a classificao, que foi uma das tcnicas
utilizadas nesta pesquisa.
127

4.1.5.1 Classificao
A tarefa de classificao tem por objetivo encontrar caractersticas comuns entre um
conjunto de objetos de uma base de dados e classific-los em classes diferentes. Para chegar a
estas classes necessrio seguir alguns passos: 1) definir um conjunto de exemplos
(previamente conhecido) para treinamento; 2) aplicar o treinamento sobre este conjunto
conhecido e por fim gerar as regras de classificao.

Para Martinhago (2005, p. 20), Nessa tarefa cada tupla (registro), pertence a uma
classe entre um conjunto pr-definido de classes. Pode-se por exemplo classificar os
ingressantes em relao o que pretende fazer quando conclurem o curso, atributo Pos_Curso,
em: ser empregado de empresa privada, participar de concurso pblico, gerenciar negcio
familiar, gerenciar negcio prprio ou outras atividades.

Figura 35 - Tarefa de classificao Ingressantes


Fonte: Da pesquisa (2010)

Uma forma de validar o desempenho da tarefa de classificao calcular por meio de


uma medida de preciso os resultados do classificador, o que acarreta na atribuio de um
nvel de confiana ao exemplo classificado.
128

Uma forma bastante utilizada para validao da classificao feita com o uso da
chamada matriz de confuso, que uma matriz quadrada de dimenses N x N, onde N o
nmero de classes que se encontram sob investigao. As linhas desta matriz representam as
classes desejadas enquanto as colunas so as associaes definidas pelo algoritmo
classificador. Mori (2008, p. 85) define que Os elementos da matriz diagonal representam o
nmero de exemplos corretamente classificados (coincidncias ou concordncias). Os
elementos acima da diagonal representam os erros de omisso e os abaixo da diagonal os de
incluso.

Figura 36 - Matriz de confuso gerada pelo WEKA para ingressantes


Fonte: Da pesquisa (2010)

A matriz gerada apresenta a classificao dos ingressantes em relao ao atributo


Pos_Curso, que retrata duas situaes interessantes: 1) a classificao de 62 registros para a
opo de aps a concluso do curso em questo o ingressante pretende fazer um concurso
pblico, seguida por, 2) a classificao de 54 registros para a abertura do negcio prprio,
independente de curso.

Isto tende a estar em acordo com o curso realizado pelos ingressantes, pois dos 71
ingressantes no curso de Direito, 53 optaram pela opo de concurso pblico, o que representa
75% dos ingressantes neste curso, enquanto no curso de Administrao 37% dos ingressantes
optaram por abrirem o negcio prprio, sendo 31 num total de 83 ingressantes no curso de
Administrao.
129

Figura 37 - Matriz de confuso gerada pelo WEKA para os egressos


Fonte: Da pesquisa (2010)

A matriz de confuso gerada para o atributo Contribuio mostra que a matriz


curricular aplicada pela IES, tem forte influencia em dois dos quesitos apresentados. A
classificao correta para o ingresso na profisso foi de 25 casos e 24 classificaes para os
egressos que obtiveram ascenso no cargo. Isto vem a comprovar que a matriz curricular
oferecida pela IES procura estar adequada ao mercado e oferece a capacidade aos egressos de
fazer carreira dentro das organizaes.
130

5 CONCLUSES

A aplicao das tcnicas de Minerao de Dados com o intuito de descobrir novos


conhecimentos auxilia no processo de explorao de uma base de dados, o que permite gerar
informaes teis para os gestores, auxiliando-os nas tomadas de decises.

O objetivo desta pesquisa foi o de mostrar a aplicabilidade das tcnicas de Minerao


de Dados em um ambiente de gesto educacional de uma IES, apresentando mesma o perfil
de seus ingressantes e egressos, desta forma contribuindo para a gesto e organizao de
campanhas dirigidas a estes diferentes tipos de perfis de seus futuros e ex-alunos.

A pesquisa apresentou importantes anlise sobre o perfil dos ingressantes e egressos


da IES, por meioda aplicao das tcnicas de Minerao de Dados implementadas na
ferramenta WEKA, Associao, Classificao e Clusterizao. Os experimentos apresentam
uma importante contribuio em termos de quais aspectos so caractersticos para os
ingressantes e tambm para os egressos.

Uma das principais caractersticas que pode ser observada que a maioria dos
ingressantes so oriundos de escolas pblicas, escolheram a IES por sua localizao, tendo
concluido o ensino mdio num perodo relativamente curto de no mximo trs anos e
pretendem aplicar o seu lado empreendedor, ou seja, abrir seu negcio prprio.

Quanto aos egressos observou-se que a principal caracterstica que, a matriz


curricular aplicada pela IES, influenciou em muito na escolha da mesma e do curso e ainda
que a matriz curricular est alinhada com os interesses do mercado, haja vista que muitos
egressos conseguiram se promover dentro de suas organizaes.

Outra caracterstica importante que pode ser extrada e que deve preocupar os gestores
que a grande maioria dos egressos no recomendaria a realizao de um curso na IES. Cabe
aos gestores uma investigao mais aprofundada da situao afim de sanar este
descontentamento.

A utilizao das tcnicas de Minerao de Dados mostrou-se til para o descobrimento


do conhecimento que se encontrava escondido na base de dados do ambiente de gesto da
IES. A consistncia e eficcia das tarefas de associao, classificao e clusterizao
131

geradas pela ferramenta WEKA, foram analisadas e comprovadas pelo gestor da instituio, o
qual ir incorporar este novo conhecimento na tomada de suas decises.

O trabalho apresentado teve por objetivo contribuir para a anlise do perfil


dos ingressantes e dos egressos da IES. Acredita-se com este trabalho possa ser utilizado
como complemento das tcnicas de gesto utilizadaspelos gestores da IES para a melhoria
nos procesos de ingresso e tambm como no trabalho que possa a ser desenvolvido
com os egressos.

5.1 CONTRIBUIES
Esta dissertao teve tambm como objetivo contribuir para a rea de Inteligncia
Aplicada atravs do uso das tcnicas e ferramentas de Minerao de Dados em conjunto com
a metodologia CRISP-DM e a aplicao das tarefas de Associao, Classificao e de
Clusterizao com o intuito de auxiliar na tomada de decises. Desta forma, as principais
contribuies so:

O uso da metodologia CRISP-DM possibilita a resoluo de problemas de extrao de


informaes de uma forma organizada e progressiva, tendo como incio uma anlise de alto
nvel, a qual busca a compreenso das regras do negcio, direcionando-se para a definio e
implantao de modelos que permitem a obteno efetiva dos objetivos da minerao.

A utlizao da metodologia no ambiente proposto, permitiu a viabilidade e a utilidade


prtica da metodologia em um estudo de caso real, sendo que os resultados podero auxiliar
os gestores elucidar caractersticas relevantes em relao a diversas situaes observadas
neste estudo. As concluses perimitiram mostrar a relevncia da metodologia CRISP-DM na
obteno dos resultados da minerao de dados.

O resultado da utilizao desta metodologia tende a proporcionar uma melhor


interpretao das atividade inerentes ao uso das tcnicas de minerao de dados pelos gestores
da IES, haja vista que os mesmos no esto familiarizados com tais tcnicas e tero mais um
recurso a sua disposio para auxiliar nas tomadas de decises.

A anlise de dados feita pelo uso de tcnicas de minerao de dados ainda um pouco
difundido em IES, apesar de ser ensino em vrias delas, assim sendo este estudo e as
sugestes para trabalhos futuros visam contibuir para que o uso das tcnicas e metodologas de
132

minerao de dados seja utilizados como um diferencial competitivo tambm no setor


educacional.

Nesta pesquisa foi demonstrada a relevncia do processo de minerao de dados a


obteno de informaes no que se refere a anlise das informaes constantes nos
questionrios scio-econmicos aplicados aos ingressante e egressos da IES. Assim, teve-se
o objetivo de analisar os motivos que levam aos acadmicos ingressarem na IES e as
consideraes a respeito da IES por parte dos egressos por meio da aplicao das tarefas de
associao, classificao e de clusterizao.

Quando bem aplicada, a Minerao de Dados, atravs das tcnicas de Associao,


Classificao e Clusterizao, traz muitos benefcios as organizaes, auxiliando na tarefa das
tomadas de decises, que so utlizadas para a obteno de vantagens competitivas. No
segmento de Ensino Superior, que est cada vez mais acirrado, a utilizao das tcnicas de
Minerao de dados esto se tornando obrigatrias.

Alguns desafios e dificuldades foram encontrados durante o desenvolver desta


pesquisa, entre eles:

a) A dificuldade inicial neste trabalho foi a liberao a base de dados da


instituio, haja vista tratar-se de dados pessoais dos acadmicos ali
inscritos e matriculados;

b) A dificuldade de definio dos atributos, por parte dos gestores, que


compuseram a base de dados para a minerao;

c) A limitao das informaes contidas na base de dados, que no contempla


informaes a respeito da efetivao de matrculas por candidatos
aprovados nos processos seletivos, uma vez que aps a aplicao das
tarefas de poderia se ter regras relacionadas a condio social do candidato,
exemplo se o candidato no efetivou a matrcula pelo fato de no estar
trabalhando.
133

5.2 SUGESTES PARA TRABALHOS FUTUROS


Aps o estudo abordado nesta dissertao, estabelecem-se algumas recomendaes
para pesquisas de mesmo cunho. Alguns assuntos merecem aprofundamento em pesquisas ou
trabalhos futuros. Os principais so:

a) Utilizao de outras tcnicas de Minerao de Dados no contempladas


neste estudo, como por exemplo, Redes Neurais e Algoritmos Genticos;

b) Implementao de algoritmos de Minerao de Dados junto a ferramenta de


gesto acadmica da IES, oportunizando ao prrpio gestor elaborar sua
minerao;

c) Implementao de um ambiente para a armazenagem dos dados,


possibilitando a gerao dos arquivos no formato apropriado para a
Minerao de Dados e a visualizao dos resultados da minerao,
acomplado ao ambiente de gesto da IES pesquisada;

d) Implementao do algoritmo fuzzy-means para realizao clusterizao ao


invs do algoritmo K-means disponvel no software WEKA.
134

REFERNCIAS BIBLIOGRFICAS

ABAR, Celina Aparecida Almeida Pereira. O uso de objetos de aprendizagem no ambiente


TELEDUC como apoio ao ensino presencial no contexto da matemtica. In: CONGRESSO
INTERNACIONAL DE EDUCAO A DISTNCIA, 11., 2004, Salvador. Anais...
Salvador: ABED, 2004. p. 01 07. Disponvel em: <
http://www.abed.org.br/congresso2004/>. Acesso em: 13 out. 2008.

AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining associations between sets of items in
massive databases. In: ACM-SIGMOD, 1993. Proceedings Intl Conference on
Management of Data, Washington D.C., May 1993..

ALMEIDA, F. J.; ALMEIDA, M. E. B. (Coord.) Liderana, gesto e tecnologias: para a


melhoria da educao no Brasil. So Paulo: [s.n.], 2006.

ALMEIDA, Felipe S. de. Otimizao de Estruturas de Materiais Compsitos Laminados


utilizando Algoritmos Genticos. 2006. 146 f. Dissertao (Mestrado em Engenharia na
modalidade Acadmico) - Universidade Federal do Rio Grande do Sul UFRG, 2006.

ALMEIDA, Manoel V. de.. Aplicao de Tcnicas de Redes Neurais Artificiais na


Previso de Curtssimo Prazo da Visibilidade e Teto para Aeroporto de Guarulhos SP.
2009. 182 f. Tese (Doutorado em Cincias em Engenharia Civil) Universidade Federal do
Rio de Janeiro UFRJ, Rio de Janeiro, 2009.

ALVARENGA, JLIO C. S. de. Parmetros de gesto da informao do Centro


Universitrio So Camilo Esprito Santo com nfase na inteligncia competitiva. 2006.
104 f. Dissertao (Mestrado em Cincia da Informao) - Pontifcia Universidade Catlica
de Campinas, Campinas, So Paulo, 2006.

ALVES, Claudia F. M.. Gesto da tecnologia da informao nas instituies de ensino


superior. 2005. 151 f. Dissertao (Mestrado em Administrao Estratgica) - Universidade
Salvador UNIFACS. Salvador, 2005.

AMORIM, M. ; MANSUR, A. F. U. ; BARONE, D. . Tcnicas de Aprendizado de


Mquina Aplicadas na Previso de Evaso Acadmica. In: SBIE 2008 - Simpsio
Brasileiro de informtica na Educao, 2008, Fortaleza - CE. Anais do SBIE 2008. Cear :
Sociedade Brasileira de Computao, 2008.

BARBOSA, Rommel Melgao (Org.). Ambientes virtuais de aprendizagem. Porto Alegre:


Artmed, 2005.

BARION, Eliana C. N. e LAGO, Decio. Minerao de Textos. Revista de Cincias Exatas e


Tecnologia. So Paulo, Vol. III, N. 3, p. 123-140. Dez, 2008.
135

BARIONI, MARIA C. N.. Visualizao de Operaes de Juno em Sistemas de Bases de


Dados para Minerao de Dados. 2002. 65 f. Dissertao (Mestrado em Cincias -
Computao e Matemtica Computacional) USP, So Carlos, 2002.

BARRETO ______. As estruturas de suporte da informao no processo do conhecimento: o


papel da fluncia digital. DataGramaZero Revista de Cincia da Informao, v. 7, n. 4,
ago. 2006.

BARRETO ______. Os agregados de informao: memrias, esquecimento e estoques de


informao. DataGramaZero: Revista de Cincia da Informao, Rio de Janeiro, v.1, n.3,
p.1-14, jun. 2000. Disponvel em: <http://datagramazero.org.br>. Acesso em: 04 ago. 2008.

BARRETO, Aldo de Albuquerque. A condio da informao. So Paulo em Perspectiva, v.


16, n. 3, p.67-74, 2002.

BATISTA P., SILVA M.J. Mining Web Access Logs of an On-line Newspaper,
Departamento de Informtica, Faculdade de Cincias Universidade de Lisboa. Disponvel
em:<http://xldb.fc.ul.pt/data/Publications_attach/rpec02.pdf>. Acesso em: 01 ago. 2008.

BERNARDES, Jos Francisco; ABREU, Aline Frana de. A contribuio dos sistemas
de informaes na gesto universitria. Florianpolis, 2004. Anais do IV Colquio
Internacional sobre Gesto Universitria na Amrica do Sul.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O., The Semantic Web, Scientific
American, May 2001.

BEUREN, I. M. Gerenciamento da informao. 2. ed. So Paulo: Atlas, 2000.

BISPO, Carlos A. F.. Uma Anlise da Nova Gerao de Sistemas de Apoio Deciso.
1998. 174 f. Dissertao (Mestrado em Engenharia da Produo) - Universidade de So Paulo
USP, So Carlos, 1998.

BOENTE, A. N. P. ; OLIVEIRA, F. S. G. ; ROSA, J. L. A.. Utilizao de Ferramenta de


KDD para Integrao de Aprendizagem e Tecnologia em Busca da Gesto Estratgica
do Conhecimento na Empresa. Anais do Simpsio de Excelncia em Gesto e Tecnologia,
v. 1, p. 123-132, 2007.

BRAGA, R.; MONTEIRO, C. A. Planejamento estratgico sistmico para instituies de


ensino. So Paulo: Hoper, 2005.

BRASIL. Lei n 9.394, de 20 de dezembro de 1996. Dispe sobre as diretrizes e bases da


educao nacional. Braslia, p.10. 1996.

______. Decreto n 3.860, de 9 de julho de 2001. Dispe sobre a organizao do ensino


superior, a avaliao de cursos e instituies, e d outras providncias. Braslia, p. 01. 2001.

BRAY, T.; PAOLI, J.; SPERBERG-MCQUEEN, C. M. Extensible Markup Language


(XML) 1.0 W3C Recommendation 10-February-1998. [S.l.], fev. 1998.
136

BUCKLAND, M. K. Information as thing. Journal of the American Society for Information


Science (JASIS), v. 45, n. 5, p. 351-360, 1991.

BUKOWITZ, Wendi R.; WILLIANS, Ruth. Manual de gesto do conhecimento:


ferramentas e tcnicas que criam valor para a empresa. Porto Alegre: Bookman, 2002.

CARDOSO, Olinda N. P., MACHADO, Rosa T. M. Gesto do conhecimento usando data


mining: estudo de caso na Universidade Federal de Lavras. Revista de Administrao
Pblica. Rio de Janeiro 42(3) : 495-528, Maio/Jun. 2008.

CARVALHO, Lus A. V.de. Data mining: a minerao de dados no marketing, medicina,


economia, engenharia e administrao. So Paulo: rica, 2001.

CASTRO, Edna M. M. V.. Tecnologia da Informao: Fatores relevantes para o sucesso


da sua implantao dentro das organizaes. 2002. Dissertao (Mestrado) Universidade
Federal de Santa Catarina- UFSC. Florianpolis. 2002.

CELLA, Antonio S.. Sistemas de Informaes para a Gesto Estratgica das IES-
Privadas. 2006. 204 f. Dissertao (Mestrado em Cincia da Informao) - Pontifcia
Universidade Catlica de Campinas. So Paulo, 2006.

CHIARA, Ramon. Aplicao de Tcnicas de Data Mining em Logs de Servidores Web.


2003. Dissertao (Mestrado). Instituto de Cincias Matemticas e de Computao - ICMC-
USP. 2003.

CHIZZOTTI, Antonio. Pesquisa em cincias humanas e sociais. 2. ed. So Paulo: Cortez,


1995.

CITELLI. A comunicao e educao: A linguagem em movimento. So Paulo: Editora


SENAC, 2000.

COLENCI JUNIOR, A. ; GODOY, M. A. ; SAES, Maria Elizete Luz ; SPIGOLON, A. L. . A


Gesto Estratgica das Instituies de Ensino Superior: uma contribuio ao melhor
desempenho no caso brasileiro. In: III Workshop de Ps-Graduao e Pesquisa do Centro
Paula Souza, 2008, So Paulo. Anais do IIII Workshop de Ps-Graduao e Pesquisa do
Centro Paula Souza, 2008.

CORDEIRO, J.P.C., Extraco de Elementos Relevantes em Texto/Pginas daWorld


Wide Web. Dissertao(Mestrado). Faculdade de Cincias da Universidade do Porto. 2003.

COSTA, Cezar H. V.. Posicionamento Geogrfico de Dispositivos Mveis em Ambientes


Externos Utilizando a Tecnologia WiFi e Redes Neurais Artificiais. 2010. 100 f.
Dissertao (Mestrado em Cincias em Engenharia Civil) Universidade Federal do Rio de
Janeiro UFRJ, Rio de Janeiro, 2010.

CRISP-DM. Cross Industry Standart Process for Data Mining. Disponvel em:<
http://www.crisp-dm.org/>. Acesso em: out. 2010.
137

CRISP-DM. Cross Industry Standart Process for Data Mining. Disponvel em:
<http://www.crisp-dm.org/>. Acesso em: 11 nov. 2010.

CRUZ, Armando J. R. da. Data Mining via Redes Neuronais Artificiais e Mquinas de
Vectores de Suporte. 2007. 123 f. Dissertao (Mestrado em Sistemas de Informao)
Universidade do Minho, Lisboa, 2007.

DALFOVO, Oscar. Desenho de um Modelo de Sistema de Informao Estratgico para a


Tomada de Deciso nas Pequenas e Mdias Empresas do Setor Txtil de Blumenau.
1998. Dissertao (Mestrado em Administrao) Universidade Regional de Blumenau
FURB. Blumenau. 1998.

______. Modelo de Integrao de Um Sistema de Inteligncia Competitiva com um


Sistema de Gesto da Informao e de Conhecimento. 2007. Tese (Doutorado em
Engenharia e Gesto do Conhecimento) UFSC, Universidade Federal de Santa Catarina.
2007.

DAVENPORT, Thomas H. Ecologia da Informao: por que s tecnologia no basta para o


sucesso na era da informao. So Paulo: Futura, 1998.

______.; PRUSAK, Laurence. Conhecimento empresarial: como as organizaes gerenciam


o seu capital intelectual. 4. ed. Rio de Janeiro: Campus, 1998.

______; MARCHAND, Donald A.; DICKSON, Tim. Dominando a Gesto da Informao.


Porto Alegre: Bookmann, 2004.

______; PRUSAK, Laurence. Conhecimento empresarial: como as organizaes gerenciam


o seu capital intelectual. 4.ed. Rio de Janeiro: Campus, 1998.

DE MORI, Luci M. Sistema de Informao Gerencial para Previso de Produtividade do


Trabalho na Alvenaria de Elevao. 2008. 232 f. Tese (Doutorado em Engenharia Civil)
Universidade Federal de Santa Catarina UFSC, Florianpolis, 2008.

DIAS, Maria M. Um Modelo de Formalizao do Processo de Desenvolvimento de


Sistemas de Descoberta de Conhecimento em Banco de Dados. 2001. 212 f. Tese
(Doutorado em Engenharia da Produo) Universidade Federal de Santa Catarina UFSC,
Florianpolis, 2001.

DIAS, Maxwel M.; et all. Aplicao de Tcnicas de Minerao de Dados no Processo de


Aprendizagem na Educao a Distncia. XIX Simpsio Brasileiro de Informtica na
Educao. Florianpolis, 2008.

DINGSOYR, Torgeir. Knowledge Management in Medium-Sized Software Consulting


Companies. 2002. 256p. (Tese, Doutorado em Cincia da Computao). Trondheim:
Norwegian University of Science and Technology. 2002.
138

FAYYAD ______; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to


Knowledge Discovery: An Overview. Menlo Park, CA: AAAI Press/The MIT Press, 1996

FAYYAD, U. Advances in knowledge discovery and data mining. Cambridge: MIT Press,
1996.

FERNEDA , Edberto. Recuperao de Informao: Anlise sobre a contribuio da


Cincia da Computao para a Cincia da Informao.2003. Tese (Doutorado em
Cincias da Comunicao) USP, Universidade de So Paulo, 2003.

FERREIRA, Jos G. H. de M.. Tratamento de Dados Geotcnicos para Predio de


Mdulos De Resilincia de Solos e Britas Utilizando Ferramentas de Data Mining. 2008.
264 f. Tese (Doutorado em Cincias em Engenharia Civil) - Universidade Federal do Rio de
Janeiro- UFRJ, Rio de Janeiro, 2008.

FIALHO, Regina C. N.. Tecnologia de informao como vantagem competitiva na cadeia


de suprimento da FIAT automveis. 2001. 170 f. Dissertao (Mestrado em Administrao)
- Programa de Ps-Graduao em Engenharia de Produo, Universidade Federal de Santa
Catarina, Florianpolis, 2001.

FIGUEIRA, Rafael. Minerao de dados e bancos de dados orientados a objetos. 1998.


Dissertao (Mestrado em Cincias da Computao) Universidade Federal do Rio de
Janeiro, Rio de Janeiro, 1998.

FONSECA, Oswaldo L. H.. Anlise de crdito utilizando inteligncia artificial - validao


com dados do carto BNDES. 2008. 143 f. Tese (Doutorado) - Universidade do Estado do
Rio de Janeiro, Instituto Politcnico, Nova Friburgo, 2008.

FUNDAO NACIONAL DA QUALIDADE. Cadernos de Excelncia: Informaes e


Conhecimento. So Paulo. Fundao Nacional da Qualidade, 2007. - (Srie Cadernos de
Excelncia, n. 5.)

FURTADO, M. I. V. Inteligncia competitiva para o ensino superior privado: Uma


abordagem atravs da minerao de textos. 2004. Tese (Doutorado). COPPE/UFRJ.
Universidade Federal do Rio de Janeiro, Rio de Janeiro. 2004.

GALLUCCI, Laura. Gesto do conhecimento em instituies privadas de ensino superior:


Bases para a construo de um modelo de compartilhamento de conhecimento entre os
membros do corpo docente. 2007. Dissertao (Mestrado) Pontifcia Universidade Catlica
de So Paulo. 2007.

GIL, Antnio Carlos. Como elaborar projetos de pesquisa. So Paulo: Atlas, 2002.

GODOI, Christiane Kelinbing, BANDEIRA-DE-MELO, Rodrigo, DA SILVA, Arielson


Barbosa (Organizadores). Pesquisa Qualitativa em Estudos Organizacionais: Paradigmas,
Estratgias e Mtodos. So Paulo. Saraiva, 2006.

GOLDSCHMIDT, R.R.; PASSOS, E. Data Mining: Um guia prtico, conceitos, tcnicas,


ferramentas, orientaes e aplicaes. So Paulo: Elselvier 2005.
139

GONALVES, Caio Mrcio, COLAUTO, Romualdo Douglas. BEUREN, Ilse Maria.


Proposta de Indicadores para um Sistema de Inteligncia Competitiva em Instituio de
Ensino Superior. Disponvel em:< http://www.inpeau.ufsc.br/wp/wp-
content/BD_documentos/1301.doc.> Acesso em: 02 nov. 2009.

GOUVEIA, Luis Borges e RANITO, Joo. Sistemas de Informao de Apoio Gesto.


Sociedade Portuguesa de Inovao. Porto, 2004. Disponvel em: <
https://bdigital.ufp.pt/dspace/bitstream/10284/264/1/Manual_VII.pdf>. Acesso em: 12 Maio
2010.

GOUVEIA, Roberta M. M.. Minerao de Dados em Data Warehouse para Sistema de


Abastecimento de gua. 2009. 147 f. Dissertao (Mestrado em Informtica) Universidade
Federal da Paraba UFPB. Paraba, 2009.

HADDAD, Claudia M. S.. Sistemas de Informao e a Tomada de Deciso Executiva: Um


Estudo Exploratrio na Indstria Qumica Nacional. 2007. 147 f. Dissertao (Mestrado
em Gesto de Negcios) Universidade Catlica de Santos UCS. Santos, So Paulo, 2007.

HARJINDER, G; RAO, P.C. The official design the data warehousing. Que Corporation,
1996.

HIRAGI, GILBERTO de O.. Minerao de Dados em Base de Germoplasma. 2008, 108 f.


Dissertao (Mestrado em Informtica) - Universidade de Braslia- UnB, Braslia, 2008.

HOMMERDING, Ndia M. dos S.. O profissional da informao e a Gesto do


conhecimento nas empresas: um novo espao de atuao com nfase no processo de
mapeamento do conhecimento e disponibilizao por meio da Intranet. 2001. 221 f.
Dissertao (Mestrado) Escola de Comunicaes e Artes da Universidade de So Paulo -
ECA/ USP. So Paulo, 2001.

INEP Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira. Censo


Superior 2008. Disponvel em :
<http://www.inep.gov.br/superior/censosuperior/sinopse/default.asp>. Acesso em: 02 Jan
2010.

INMON, Willian H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.

JANISSEK-MUNIZ, R.; FREITAS, H.; LESCA, H. A Inteligncia Estratgica


Antecipativa e Coletiva como apoio ao desenvolvimento da capacidade de adaptao das
organizaes. Revista Gesto das Organizaes. 2008.

KAMPFF , Adriana J. C.. Minerao de Dados Educacionais para Gerao de Alertas em


Ambientes Virtuais de Aprendizagem como Apoio Prtica Docente. 2009. 189 f. Tese
(Doutorado em Informtica na Educao) UFRGS, Universidade Federal do Rio Grande do
Sul, 2009.
140

KAMPFF, Adriana Justin Cerveira ; REATEGUI, Eliseo ; LIMA, Jos Valdeni de .


Minerao de dados educacionais para a construo de alertas em ambientes virtuais de
aprendizagem, como apoio a prtica docente. RENOTE. Revista Novas Tecnologias na
Educao, v. 6, p. 1, 2008.

KANASHIRO, Augusto. Um data warehouse de publicaes cientcas: indexao


automtica da dimenso tpicos de pesquisa dos datamarts. 2007. 109 f. Dissertao
(Mestrado em Cincia de Computao e Matemtica Computacional) USP, So Carlos,
2007.

KIMBALL, Ralph; MERZ, Richard. Data Webhouse: construindo o Data Warehouse para
a Web,. Traduo: Edson Furmankiewicz, Joana Figueiredo. Rio de Janeiro, Campus, 2000.

KOBS, Fabio F.; REIS, Dlcio R. dos.. Gesto nas Instituies de Ensino Superior Privado.
Revista Cientfica de Administrao, v. 10, n. 10, jan./jun. 2008.

KSHIRSAGAR, Sumedha; MAGNENAT - THALMANN, Nadia. Multimedia


communication with virtual humans. Disponvel em: <
http://www.miralab.unige.ch//repository/papers/11.pdf>. Acesso em: 02 out. 2008.

LACERDA, Rafael de Alencar. Um modelo pedaggico de atividades colaborativas na web


para desenvolvimento de equipes de alto desempenho. In: CONGRESSO
INTERNACIONAL DE EDUCAO A DISTNCIA, 12., 2005, Florianpolis. Anais...
Florianpolis: ABED, 2005. p. 01 10. Disponvel em:
<http://www.abed.org.br/congresso2005/>. Acesso em: 14 out. 2008.

LASSILA, O.; SWICK, R. R. Resource Description Framework (RDF) Model and Syntax
Specification. 1999. W3C Recommendation. http://www.w3.org/TR/REC-rdf-syntax/.

LAUDON, Kenneth C. e LAUDON, Jane Price. Management information systems:


organization and technology. 4th ed. New Jersey - Ed. Prentice-Hall, Inc.1996.

______. Gerenciamento de sistemas de informao. 3. Ed. Rio de Janeiro: LTC. 2001.

LE COADIC, Y. F. A Cincia da Informao. 2. ed. Braslia: Briquet de Lemos, 2004.

LOYOLLA, Waldomiro; PRATES, Maurcio. Ferramental pedaggico da educao a


distncia mediada por computador. In: CONGRESSO INTERNACIONAL DE
EDUCAO A DISTNCIA, 8., 2001, Braslia. Anais... Braslia: ABED, 2001. p. 01 10.
Disponvel em: <http://www.abed.org.br/congresso2001/>. Acesso em: 02. nov. 2008.

LUCAS, Anelise de Macedo. Utilizao de Tcnicas de Minerao de Dados considerando


os Aspectos Temporais. 2002. Dissertao (Mestrado). Porto Alegre: PPGC da UFRGS,
2002.

MACCARI, Emerson Antonio, SAUAIA, Antonio Carlos Aidar. Aderncia dos Sistemas de
Informao na Tomada de Deciso em Jogos de Empresa. In: Revista de Gesto da
141

Tecnologia e Sistemas de Informao. Vol. 3, No.3, 2006, p. 371-388. Disponvel em: <
www.revistasusp.sibi.usp.br/pdf/jistem/v3n3/07.pdf> . Acesso em: 20 Jul 2010.

MARTINHAGO, Sergio. Descoberta de Conhecimento sobre o Processo Seletivo da


UFPR. 2005. 125 f. Dissertao (Mestrado em Cincias) - Universidade Federal do Paran
UFP, Curitiba, 2005.

MORATE, Diego G. Manual de WEKA. Valladolid, 2010. Disponvel em: <


http://www.metaemotion.com/diego.garcia.morate/>. Acesso em: 12 jan 2010.

MOTTA, Custdio Gouva Lopes da. Metodologia para Minerao de Regras de


Associao Multinveis Incluindo Pr e Ps-Processamento. 2010. Tese (Doutorado em
Engenharia Civil) - UFRJ/ COPPE. Rio de Janeiro. 2010.

MURRAY, Peter J.; MASON, Robin. Computer-mediated communication (CMC): state


of the art. Revista Brasileira de Aprendizagem Aberta a Distncia, Braslia, v. 1, n. 2, jan.
2003.

NEVES, Jos Luiz. Pesquisa qualitativa - Caractersticas, usos e possibilidades. Caderno de


Pesquisas em Administrao, So Paulo, V.1, N 3, 2 Sem. 1996.

NOBREGA, Clemente. A cincia da gesto: marketing, inovao, estratgia: um fsico


explica a gesto - a maior inovao do sculo XX - como uma cincia. 2 ed. Rio de Janeiro.
Ed. Senac Rio, 2004.

NOGUEIRA, Mrio Lcio de Lima. A educao a distncia como ferramenta de incluso.


In: Congresso Internacional de Qualidade em EAD, 5, 2005. So Leopoldo. Anais...So
Leopoldo: UNISINOS, 2005.

NONAKA, Ikujiro e TAKEUCHI, Hirotaka. Criao de Conhecimento na empresa. Rio de


Janeiro: Campus, 1997.

OLIVEIRA, Djalma de P. R. de. Sistemas de informaes gerenciais. 7. ed. So Paulo:


Atlas, 2001.

PERRENOUD, Phillipe (2000). Entrevista. Disponvel em:<http:// www.unige.ch /


fapse/SSE /teachers / perrenoud/ php main / php_ 2000/2000_31.html>. Acesso em 15 Mar
2008.

PICCOLI, G.; AHMAD, R.; IVES, B. Web-based virtual learning environments: a


research framework and a preliminary assessment of effectiveness in basic IT skill training.
Mis Quarterly, v. 25, n. 4, p. 410 426, dec. 2001.

POE, Vidette, KLAUER, Patricia, BROBST, Stephen. Building a data warehouse for
decision support. New Jersey, Prentice Hall PTR. 1998.

PRESCOTT, J; MILLER, S. Inteligncia Competitiva na prtica. Rio de Janeiro: Campus,


2002.
142

PRETTI, Orestes. Autonomia do Aprendiz na Educao a Distncia: Significados e


Dimenses IN O. Pretti (Org). Educao a Distncia: Construindo Significados, p. 126-
145. Cuiab: Plano, 2000.

QUONIAM, L., et al. Inteligncia obtida pela aplicao de data mining em base de teses
francesas sobre o Brasil, Revista Cincia e Informao, Braslia, v. 30, n. 2, p. 20-28,
maio/ago. 2001.

RABELO, Emerson. Avaliao de Tcnicas de Visualizao para Minerao de Dados.


2007. 103 f. Dissertao (Mestrado em Cincia da Computao) - Universidade Estadual de
Maring. Maring, 2007.

RAMASWAMI, M.; e BHASKARAN, R. A Study on Feature Selection Techniques in


Educational Data Mining. In: Journal of Computing, volume 1, ISSUE 1, december, 2009.
Disponvel em: < http://arxiv.org/abs/0912.3924> . Acesso em: 23 out 2009.

REGO, Tereza Cristina. Vygotsky: uma perspectiva histrico-cultural da educao.


Petrpolis, RJ: Vozes, 1995.

REYES, Sady. C. Fuentes. LOBAINA, Marina. Ruiz. Minera Web: un recurso


insoslayable para el profesional de la informacin. Acimed. Cuba. N 16,4 out-2007.
Disponvel em: < http://scielo.sld.cu/pdf/aci/v16n4/aci111007.pdf> Acesso em: 20 set 2008.

REZENDE, Denis A. e ABREU, Aline F.. Tecnologia da Informao Aplicada a Sistemas


de Informao Empresariais. So Paulo: Atlas, 2000.

REZENDE, Denis A., Tecnologia da informao aplicada a sistemas de informao


empresariais, 2. ed. So Paulo: Atlas, 2001.

ROBREDO, J. da. Cincia da Informao revisitada aos sistemas humanos de


informao. Braslia: Thesaurus, 2003.

RODRIGUES, Leonel C., MACARRI. Emerson. A. Gesto do conhecimento em


instituies de ensino superior. Revista de Negcios, Vol. 8, No 2 (2003). Disponvel em:
<http://proxy.furb.br/ojs/index.php/rn/article/viewArticle/318>. Acesso em: 20 out 2009.

RODRIGUES, Carlos Rangel et all. Ambiente virtual: ainda uma proposta para o ensino.
Cincias & Cognio 2008; Vol 13 (2): 71-83. Disponvel
em:<http://www.cienciasecognicao.org>, Acesso em: 16 de out. 2008.

ROESCH, S. M. A. Projetos de estgios e de pesquisa em administrao: guias de


estgios, trabalhos de concluso, dissertaes e estudo de casos. 2. ed. So Paulo: Atlas,
1999.

ROSSETTI, Adroaldo Guimares ; PACHECO, Ana Paula R ; SALLES, Bertholdo W ;


GARCIA, Marcos Antonio ; SANTOS, Neri dos . A organizao baseada no
143

conhecimento: novas estruturas, estratgias e redes de relacionamento. Cincia da


Informao, v. 37, p. 61-72, 2008.

SANTOS, George Frana dos. Uma avaliao dos nveis de aceitao de curso de
preparao de monitores para educao distncia da UVB Universidade Virtual
Brasileira. 2002. 90 f. Dissertao (Mestrado em Engenharia de Produo) Programa de
Ps-Graduao em Engenharia de Produo, Universidade Federal de Santa Catarina,
Florianpolis, Santa Catarina, 2002.

SANTOS, Geraldo de O. Redes Complexas em Minerao de Dados: Aplicao no


Segmento De Segurana, Meio Ambiente e Sade. 2008. 174 f. Tese (Doutorado em
Cincias em Engenharia Civil) - Universidade Federal do Rio de Janeiro UFRJ, Rio de
Janeiro, 2008.

SANTOS, N. Estado da arte em espaos virtuais de ensino e aprendizagem. Revista


Brasileira de Informtica na Educao, n.4, abril 1999. p 75-94.

SCARINCI, Rui G.. SES : sistema de extrao semntica de informaes. 1997, 165 f.
Dissertao (Mestrado em Cincia da Computao) Universidade Federal do Rio Grande do
Sul UFRG, Porto Alegre, 1997.

SCOSS, Anne M.. A Clusterizao e Classificao no Processo De Data Mining para


Anlise do Desempenho Docente no Ensino de Graduao. 2006. 86 f. Trabalho de
Concluso de Curso (Especializao) - Universidade do Extremo Sul Catarinense - UNESC,
Cricima, 2006.

SHIBA, Sonia Kaoru. Modelagem de processo de extrao de conhecimento em banco de


dados para sistemas de suporte deciso. 2008. Dissertao (Mestrado) - Escola
Politcnica da Universidade de So Paulo. 2008

SILVA F.; CNDIDO G., Aplicao da Tecnologia da Informao como Ferramentade apoio
para Inteligncia Competitiva e a Gesto do Conhecimento: Um Estudo de Caso no Setor
Varejista, 2003.

SILVA, E. L. da; MENEZES, E. M. Metodologia da pesquisa e elaborao de dissertao.


4. ed. Florianpolis: UFSC, 2005. 138 p. Disponvel em:
<www.posarq.ufsc.br/download/metPesq.pdf>. Acesso em: 04 set. 2010.

SILVEIRA, Murilo A. A. Da. Rede de Textos Cientficos: um estudo sob tica da


institucionalizao da Cincia da Informao no Brasil. 2008. 133 p. Dissertao
(Mestrado em Cincia da Informao) - Pontifcia Universidade Catlica de Campinas.
Campinas, 2008.

SMITH, M.; WELTY,C.; MCGUINNESS D. OWL Web Ontology Language Guide


HomePage. 2004. Disponvel em: <http://www.w3.org/TR/owl-guide/>. Acesso em: 08 set
2008.
144

SOUZA, Renato R.. Uma proposta de metodologia para escolha automtica de


descritores utilizando sintagmas nominais. 2005. 197 f. Tese (Doutorado em Cincia da
Informao) - Universidade Federal de Minas Gerais UFMG, Belo Horizonte, 2005.

SRIVASTAVA, Jaideep. DESIKAN, Prasanna. KUMAR, Vipin .Web Mining


Accomplishments & Future Directions. Disponvel em:<
http://www.cs.umbc.edu/~kolari1/Mining/webmining.html>. Acesso em : 23 out. 2008.

STAIR, Ralph M. Princpios de sistema de informao: uma abordagem gerencial. 2. ed.


Rio de Janeiro: CTC, 2002.

STAIR, Ralph M; REYNOLDS, George W. Princpios de sistemas de informao: uma


abordagem gerencial. Trad. Flvio Soares Corra da Silva (coord.) Giuliano Mega, Igor
Ribeiro Sucupira. 6 ed. So Paulo: Cengage Learning, 2008.

STAREC, Cludio. A dinmica da informao: a gesto estratgica da informao para a


tomada de deciso nas organizaes , in STAREC,C.; GOMES E.; BEZERRA J.(Org).
Gesto estratgica da Informao e inteligncia competitiva . So Paulo : Saraiva, 2005. p.
47-64.

STATA, R. Aprendizagem Organizacional: a chave da inovao gerencial. In:STARKEY,


K. (Ed.). Como as Organizaes Aprendem: relatos do sucesso de grandes empresas. So
Paulo: Futura, 1997. cap. XVII, p. 376-96.

SVEIBY, Karl Erik. A nova riqueza das organizaes: gerenciando e avaliando patrimnios
de conhecimento. Rio de Janeiro: Campus, 1998.

TACHIZAWA, Takeshy; ANDRADE, Rui Otvio Bernardes de. Gesto de instituies de


ensino. 3. ed. Rio de Janeiro : FGV, 2002.

TEIVE, Raimundo C. G. Raciocnio Baseado em Casos. Material da Disciplina RBC no


Programa de Ps-Graduao em Computao Aplicada, UNIVALI, 2008.

TERRA, Jos Claudio Cyrineu e GORDON, Cindy. Portais Corporativos: A revoluo na


Gesto do Conhecimento. So Paulo: Negcio, 2002.

TESTA, M. G. Efetividade dos ambientes virtuais de aprendizagem na internet: A


influncia da autodisciplina e da necessidade de contato social do estudante. Disponvel em:
<http://professores.ea.ufrgs.br/hfreitas/orientacoes/dout_arq/pdf/proposta_gregianin.pdf>.
Acesso em 02 nov. 2008.

UNIVERSITY OF WAIKATO. Weka 3 Machine Learning Software in Java. Disponvel


em:< http://www.cs.waikato.ac.nz/ml/weka>. Acesso em: 20 Jan 2009.

VEDOVELLI, Alexandre S.. Desenvolvimento de um Sistema de Informao para o


Processo de Implantao do Planejamento Estratgico: O Caso de uma IES. 2005. 133 f.
145

Dissertao (Mestrado em Administrao de Negcios) Pontifcia Universidade Catlica do


Rio Grande do Sul PUCRS, Porto Alegre, 2005.

VERGARA, S. C. Projetos e relatrios de pesquisa em administrao. 4. ed. So Paulo.


Atlas, 2003

VICTORINO, Ana Lcia Quental et al. Utilizao de ambiente colaborativo na internet como
suporte para o ensino de graduao e ps-graduao. In: CONGRESSO
INTERNACIONAL DE EDUCAO A DISTNCIA, 10., 2003, Porto Alegre. Anais...
Porto Alegre: ABED, 2003. p. 01 09. Disponvel em: <
http://www.abed.org.br/congresso2003/>. Acesso em: 13 out. 2008.

VIEIRA, Alexandre Thomaz; ALMEIDA, Maria Elizabeth Bianconcini de; ALONSO,


Myrtes. Gesto educacional e tecnologia. So Paulo : Avercamp, 2003.

WANGENHEIM, Christiane Gresse von. WANGENHEIM, Aldo von. Raciocnio Baseado


em Casos. Barueri, So Paulo: Manole, 2003. 293p.

WAZLAWICK, Raul Sidney. Metodologia de Pesquisa para Cincia da Computao. Rio


de Janeiro: Elsevier, 2008.

WILEY, D. A. Connecting learning objects to instructional design theory: A definition, a


metaphor, and a taxonomy. In D. A. Wiley (Ed.) The instructional use of learning objects.
2001. Disponivel em <http://reusability.org/read/chapters/wiley.doc>. Acesso em 25 nov
2008.

WOODY JR, Thomaz. Quo vadis, Pindorama?. Disponvel em:<


http://cartacapital.com.br/edicoes/2006/11/421/quo-vadis-pindorama/>. Acesso em 28 nov.
2008.

ZAMBENEDETTI, Christian. Extrao de informao sobre bases de dados textuais.


2002. 142 f. Dissertao (Mestrado em Cincia da Computao) - Universidade Federal do
Rio Grande do Sul, UFRGS, Porto Alegre, 2002.

ZWIEREWICZ, Marlene; MOTTA, Neide de Oliveira; VALLEJO, Antonio Pantoja.


Inclusin de la diversidad em ambientes virtuales de aprendizaje. In: CONGRESSO
INTERNACIONAL DE EDUCAO A DISTNCIA, 12., 2005, Florianpolis. Anais...
Florianpolis: ABED, 2005. p. 01 10. Disponvel em:
<http://www.abed.org.br/congresso2005/>. Acesso em: 14 out. 2008.
146

ANEXO A QUESTIONRIO APLICADO AOS


INGRESSANTES

Os itens abaixo relacionados so provenientes do questionrio scio-educacional


aplicado aos ingressantes pela IES no ato da inscrio. Os itens foram aproveitados na integra
como atributos para base de dados desta pesquisa.

Com o objetivo de traar um perfil dos ingressantes no semestre ANO/1 e avaliar a eficcia
das campanhas de marketing, solicitamos a sua ateno para responder as questes que
seguem.

1. Curso
(1) Administrao
(2) Cincias Contbeis
(3) Publicidade e Propaganda
(4) Jornalismo
(5) Direito
(6) Psicologia

2. Sexo
(1) Masculino
(2) Feminino

3. Idade
(1) At 20 anos
(2) 21 a 25 anos
(3) 26 a 30 anos
(4) 31 a 40 anos
(5) Mais de 40 anos

4. Bairro: __________________________

5. Ocupao
(1) Empregado de empresa privada.
(2) Funcionrio pblico.
(3) Tem negcio prprio.
(4) Administra negcios da famlia.
(5) No trabalha.
(6) Outra (descreva). _________________

6. Estado civil
(1) Solteiro(a)
(2) Casado(a)
(3) Separado(a)//divorciado(a)
(4) Vivo(a)
(5) Outro
147

7. Com quem voc mora atualmente?


(1) Com os pais
(2) Com esposo(a) e/ou filho(s)
(3) Com amigos
(4) Sozinho(a)
(5) Outro

8. Qual a faixa de renda mensal da sua famlia?


(1) At R$ 2.325,00
(2) De R$ 2.325,01 a R$ 4.650,00
(3) De R$ 4.650,01 a R$ 6.975,00
(4) De R$ 6.975,01 a R$ 9.300,00
(5) Mais de R$ R$ 9.300,00

9. Qual meio de transporte utiliza para vir faculdade?


(1) Veculo prprio
(2) nibus
(3) Carona
(4) Outro (descreva) __________________

10. Assinale a situao que melhor descreve seu caso do ponto de vista financeiro.
(1) No trabalho e meus gastos so financiados pela famlia.
(2) Trabalho e recebo ajuda da famlia.
(3) Trabalho e me sustento.
(4) Trabalho e contribuo com o sustento da famlia.
(5) Trabalho e sou o principal responsvel pelo sustento da famlia.

11. Em que tipo de escola voc cursou o ensino mdio?


(1) Todo em escola pblica.
(2) Todo em escola particular.
(3) A maior parte do tempo em escola pblica.
(4) A maior parte do tempo em escola particular.
(5) Metade em escola pblica e metade em escola particular.

12. Que meio voc mais utiliza para se manter atualizado(a)? (resposta NICA)
(1) Jornais
(2) Revistas
(3) TV
(4) Rdio
(5) Internet

13. H quanto tempo concluiu o Ensino Mdio?


(1) Menos de 1 ano
(2) Entre 1 e 3 anos
(3) Entre 4 e 6 anos
(4) Entre 7 e 10 anos
(5) Mais de 10 anos
148

14. Por que razo voc escolheu o seu curso?


(1) Adequao s minhas aptides pessoais.
(2) Prestgio da profisso.
(3) Bom mercado de trabalho.
(4) Perspectiva de boa remunerao.
(5) Outra (descreva). _________________

15. Porque escolheu o IBES?


(1) Localizao
(2) Credibilidade/Qualidade
(3) Preo
(4) Parceria com FGV
(5) Outro (descreva). _________________

16. Quem tomou a deciso de voc estudar no IBES? (UNICA resposta)


(1) Eu mesmo(a)
(2) Meus pais
(3) Companheiro(a)
(4) Eu e meus pais
(5) Eu e meu (minha) companheiro(a)
(6) Outro

17. Quem influenciou a deciso de voc estudar no IBES? (MLTIPLA resposta)


(1) Amigos
(2) Familiares
(3) Companheiro(a)
(4) Colegas de trabalho
(5) Empregador/chefe
(6) Outro

18. Por quais meios voc obteve informaes sobre o IBES e seu processo seletivo?
(MLTIPLA resposta)
(1) Panfleto
(2) Rdio
(3) Jornal
(4) Televiso
(5) Internet
(6) Blitz do Vestibular
(7) Outdoor
(8) Display em Relgios
(9) Boca-a-boca
(10) Convnio com minha empresa
(11) Outro (descreva) ________________

19. Qual deles mais atingiu voc? (resposta NICA)


(1) Panfleto
(2) Rdio
(3) Jornal
(4) Televiso
(5) Internet
149

(6) Blitz do Vestibular


(7) Outdoor
(8) Display em Relgios
(9) Boca-a-boca
(10) Convnio com minha empresa
(11) Outro (descreva) ________________

20. De que forma voc se sentiu tocado pelas aes de divulgao promovidas pelo
IBES?
(1) No me senti tocado.
(2) Fui tocado, mas no o suficiente para me convencer.
(3) As aes de marketing foram responsveis pela minha deciso.

21. Por qual meio voc buscou mais informaes sobre o Processo Seletivo do IBES?
(1) Amigos e/ou familiares
(2) Na internet
(3) Por telefone
(4) Vindo pessoalmente ao IBES
(5) Outro (descreva) __________________

22. Se acessou o site do IBES para buscar informaes, qual sua avaliao?
(1) Encontrei facilmente as informaes que precisava.
(2) Encontrei com dificuldade as informaes que precisava.
(3) Encontrei uma parte das informaes que precisava.
(4) No encontrei as informaes que precisava.
(5) No acessei o site.

23. Se buscou informaes por telefone, qual sua avaliao?


(1) Obtive facilmente as informaes que precisava.
(2) Obtive com dificuldade as informaes que precisava.
(3) Obtive uma parte das informaes que precisava.
(4) No obtive as informaes que precisava.
(5) No busquei informaes por telefone.

24. Qual sua inteno aps concluir o curso?


(1) Atuar como empregado de empresa privada.
(2) Realizar concurso pblico.
(3) Administrar negcios da famlia.
(4) Criar negcio prprio.
(5) Outra (descreva) __________________

25. Comentrios finais (OPCIONAL).

___________________________________________________________________________
___________________________________________________________________________
___________________________________________________________________________

Muito obrigado por sua ateno!


150

ANEXO B QUESTIONRIO APLICADO AOS EGRESSOS

PESQUISA DE EGRESSO
GRADUAO

Nome: __________________________________________e-mail:
_______________________
Graduao:______________________________________ Ano de
Concluso:_____________
Telefone:__________________________ Idade:_________Sexo:
_______________________
Cidade que cursou a graduao_______________________ Polo (para EAD)
______________

1- Voc est trabalhando atualmente?


Sim No
2 - Trabalha na rea da sua formao acadmica?
Sim - Especifique a rea:
_______________________________________________
No - Motivo:
_________________________________________________________
3 - Situao profissional:
DADOS PROFISSIONAIS

Empregado rea: Administrativa Produo Comercial


Outro Qual:
_________________________________________________________

Autnomo rea: Prestao de servios Especializados Vendas


Outro Qual:
_________________________________________________________
4 - Dados da empresa em que trabalha:

Nome:______________________________Cidade:_____________________________
N de funcionrios: ____________________ Tempo de atividade:
_________________
Segmento de Atuao:
Indstria Servios Pblica Comrcio 3 Setor
Outro Qual:
________________________________________________________
5 - A sua atividade profissional atual teve incio:
antes da graduao durante a graduao aps formao acadmica

6 - Classifique sua Renda Bruta Mensal atual:


151

At 2 salrios mnimos De 2 a 5 salrios mnimos


De 5 a 10 salrios mnimos Acima de 10 salrios mnimos

7 - Como voc avalia a qualidade da graduao realizada na Instituio de


Ensino?
AVALIAO DA IES

Muito Bom Bom Regular Fraco


8 - A sua formao contribuiu para:
Ingressar no trabalho atual Ocupar o cargo atual Aumento de Salrio
Ascenso profissional No contribuiu
9 - As matrizes curriculares de todos os cursos de graduao da Sociesc so
elaboradas para preparar profissionais de alto desempenho, neste
sentido voc classifica a matriz curricular do seu curso como:
Muito Bom Bom Regular Fraco
10 - Quando voc comenta sobre a graduao realizada na nossa Instituio
de Ensino a reao das pessoas :
Reconhecimento Respeito Simpatia Indiferena

11 No momento, voc est estudando?


Sim SOCIESC Outra Instituio Qual:
__________________________
No Por qu?
________________________________________________________
12 - Voc entra em contato com a Sociesc?
INFORMAES IMPORTANTES

Sim No
Meios de contato: E-mail Telefone Site Pessoalmente
Motivo do contato:
______________________________________________________
13 - Voc contactado pela nossa Instituio de Ensino?
Sim No
Meios de contato: E-mail Telefone Correio
Motivo pelo qual a nossa Instituio de Ensino entra em contato com voc:
Notcias e Informaes Divulgao de Novos Cursos
Convite para eventos, encontros ou seminrios
Outros
Qual:________________________________________________________

14 - Voc tem conhecimento da poltica de descontos para ex-alunos?


Sim No
Qual nvel de aprimoramento lhe interessa:
Outra Graduao Ps-graduao Mestrado Idiomas
Cursos de Extenso

15 - Voc indicaria os servios de Educao da nossa Instituio de Ensino


para algum?
152

Sim No
Para
quem?:___________________________________________________________
Por
qu?______________________________________________________________

16 Os valores fundamentais da nossa Instituio de Ensino so:


1 Crescer com reconhecimento;
2 Ser responsvel socialmente;
3 Valorizar as pessoas.
Na sua avaliao, estes valores influenciaram a sua vida profissional de
forma:
Muito Boa Boa Regular Fraco
17 - Sugira aes que a nossa Instituio de Ensino poderia adotar para
estreitar o relacionamento com seus egressos:

_____________________________________________________________________
________________________________________________________________
____
________________________________________________________________
____

A sua participao nesta pesquisa foi primordial para que possamos validar os Valores da
Nossa Instituio de Ensino.

Obrigado.

Você também pode gostar