ARTIGO
ANÁLISECOMPARATIVA
E DE CONSISTÊNCIAENTRE
REPRESENTAÇÕES
AUTOMÁTICAE MANUAL
DE INFORMAÇÕESDOCUMENTÁRIAS*
COMPARATIVE
ANO CONSISTENCYANALYSIS
BETWEEN
AUTOMATlCANO MANUALREPRESENTATIONS
OF OOCUMENTARYINFORMATION
GabrielSantosALCAIDE**
Roberto Júlio GAVA***
Willame Santos RODRIGUES****
Débora Ferreira SANTOS*****
RESUMO
Analisa a consistência dos produtos de indexação automática em domínios científicos de
Saneamento Básico e de Educação. Procura averiguar se essa via se assemelha, em resultados,
aos processos de indexação que utilizam a metodologia da Análise Documentária. Busca
referencial teórico na Análise Documentária, afim de reconhecer os parâmetros norteadores
da análise e síntese de textos escritos, e na Terminologia, enquanto Ciência e objeto, para
compreender a organização e as características dos vocabulários dos domínios do saber.
Utiliza uma representação automática baseada em um modelo estatístico-morfológico, onde
a extração dos léxicos éfeita com o auxílio de um dicionário que possui somente uma lista de
palavras e as suas respectivas c/asses gramaticais. Observa que se o método vir a reconhecer
signíficados e termos compostos, e a partir destes operar com relações/redes semânticas, o
processo/produto de representação automática apresentará adequados níveis de desempenho
em uma efetiva indexação automática.
Palavras-chave:
Indexação automática; Terminologia;
Representação documentária; Método estatístico-morfológico.
,',
Consistência;
Indexação;
Sintese do Trabalho de Conelusão de Curso - TCC, aprovado na Faculdade de Bibliotcconomia c Ciência da Informação - FaBCI da
Fundaçào Eseola de Soeiologia e Política de São Paulo - FESP, em dczembro dc 2000, sob a oricntação da Prof.a Silvia Gagliardi Rocha
e a coordenação do Prof. Claudio Marcondes Filho.
Bacharel em Biblioteconomia, Bibliotecário Analista da Faculdade Santa Marcelina - E-mail:gsalcaide@uol.eom.br
Bacharel em Biblioteconomia, Chefe da Seção de Manuseritos Arquivo da Cúria Metropolitana de São Paulo - E-mail:robertogava@yahoo.com
Bacharel em Biblioteconomia, Encarregado de Biblioteca Sindicato dos Contabilistas de São Paulo, Auxiliar de Ensino na Faculdade de
Biblioteconomia e Ciência da Informação - 11-4186-6482res.!11-3224-5115com.!11-223-2390fax - E-mail:willame@brfree.com.br
Bacharel em Biblioteeonomia, Bibliotecária da Universidade Nove de Julho - UNINOVE - E-mail: debbsan@yahoo.eom
Transinformação,
v. 13, nQ 1, p. 23-41, janeiro/junho/200
I
.,..
24
G.S. ALCAIDE el aI.
ABSTRACT
lt a/lalyzes the cO/lsite/lcy ofthe prodl/cts of al/tomatic i/ldexatio/l i/l scie1ltific domai1ls ofbasic
sa1litatio/l a/ld edl/cati01l. lt i1lte1lds to verify whether this procedl/re is similar, i/l its resl/lts, to
the i1ldexati01l processes that I/se docl/me1ltary a1lalysis methodology. lt seeks theoretical
re(ere/lce i/l docl/me/ltary a/lalysis, with the pl/rpose of recog1lizi1lg the gl/idi1lg parameters of
a/lalysis sY/lthesis ofwritte1l texts a1ld i1lthe termi1l010gyas a scie1lce a1ld object to 1/1Idersta1ldi1lg
the orga1lizati01l a1ld the characteristics ofthe vocabl/laries ofthe k1l0wledge domai1ls. lt I/ses
a/l al/tomatic represe1ltati01l, based i1la1lstatistic-morphologicalmodel,
where the extmctio/l of
lhe words is made with the help of a dictio/lary that is CO/lstitl/ted solely by a /ist ofwords a1ld
their respeclil'e grammar classes. lt 1Iotes that, ifthe method recog1lizes mea1li/lgs a/ld compol/1Id
lerms i1l sema/ltic relatio/ls a/ld /lets, the procedl/re/prodl/ct
of al/tomatic represe1ltatio/l will
reach sati.ifactOl:v levels of achieveme1lt i/l a/l eJJective al/tomatic i/ldexatio/l.
Key-words: AI/lomatic i/ldexatio1l; Termi/lology;
represe/ltati01l; Statistic-morphologicalmethod.
CO/lsiste/lcy;
!tulexatio/l;
Docl/me/ltary
sabemos que o processo de extração não resolve o
problema da contextualização. Não basta usar termos da
terminologia como condição de referência a objetos. É
preciso articulá-Ios em rede (relações) para que
constituam um sistema de significação (TÁLAMO,
1997, p. 4). A resposta poderia ser a extração de
sintagmas? Se a indexação automática enquanto produto
documentário resultante da análise de textos/discursos
científicos atribui léxicos de uma terminologia, como
denominar este estudo: Processamento de Linguagem
Terminológica ou Natural?2 Na tentativa de obter
respostas possíveis reportaremo-nos
à Análise
Oocumentária, por ser a disciplina que norteia os
procedimentos de análise e a síntese de textos/
documentos com vistas à representação via linguagens
formalizadas.
INTRODUÇÃO
A representação via linguagens documentárias LO's é uma das condições para se transferir
informações e, portanto, mediar a comunicação entre
produtores e consumidores de informações e as bases
de dados. O uso do computador como um instrumento
aplicado à Análise Oocumentária é tema de discussão
deste artigo. Pretendeu-se verificar qual era o
desempenho dos sistemas automáticos de indexação,
em texto integral, em dois domínios científicos: o de
Saneamento Básico e o de Educação. O primeiro
pertence à área de Exatas e o segundo, à área de
Ciências Humanas. O tema justifica-se como tentativa
de averiguar como são tratados os documentos
eletrônicos em ambientes da Internet e quais os
resultados da indexação automática em domínios onde
há ou não fixação terminológica, e se essa via se
assemelha, em resultados, aos processos de indexação
que utilizam a metodologia da Análise Documentária,
e em qual área este tipo de representação pode vir a ser
aplicado.
A Análise Oocumentária (AO), enquanto
disciplina integrante do domínio da Ciência da
Informação (CI), é definida por GARDIN como "um
conjunto de procedimentos seguidos para expressar o
conteúdo de documentos científicos sob formas
destinadas a facilitar sua recuperação ou consulta"
(GARDIN, 198I, p. 29). Por permitir transcender a noção
de documento textual e representar informações
independente do suporte, nosso objeto de trabalho são
Mas, como preservar a contextualização de um
termo que faz parte de um discurso' que foi indexado
automaticamente? No âmbito terminológico de uma área
técnica essa descontextualização estaria diminuída? Pois
," Segundo CINTRA. existe uma variação significativa entre texto c discurso c diz rcspcito à força dc intcr-rclação cntrc componcntes lingüisticos
e extralingüistieos. A definição dos lingüistieos é tida como o "conjunto de refcrentes textuais. composto por palavras, frascs, pcriodos,
parágrafos. eapitulos. partes do texto" c os componcntes extralingüisticos "os referentes situacionais que envolvem o próprio contexto
situacional onde se dá o texto/discurso" (CINTRA, 1994, p. I).
,',
A partir da observação
documcntária
especialidades
(AD)
de Gardin,
trabalha
da ciência
com
para
LD
inferimos
tcxtos
esta denominação
científicos,
- linguagem
e por esta
doeumentária
de proccssamcnto
razão,
questiona
(GARDIN,
1981,
dc linguagem
tcrminológica,
se a transformação
p. 32-36).
realizada
De acordo
com
porque cle diz quc "Análise
não seria
Gardin,
de LE
existe
- linguagens
uma distinção
de
entre
os textos científicos produzidos no domínio das Cíências Exatas e Naturais dos que são produzidos no domínio das Ciêneias Humanas: "as
ciêncías cxatas e naturais possuem constituintes lexicais e estruturas textuais mais distintas da tinguagem natural do que as ciências
humanas (Ibid. p. 32-36).
Transinfonnação,
v. 13, nll I, p. 23-4 t, janeiro/junho/200
I
__,
ANÁLISE COMPARATIVA
E DE CONSISTÊNCIA
textos escritos em formato eletrônico acessível por
computador,
ou, adotando
a term~nologia
contemporânea, documentos eletrônicos.
Os métodos para a AD são tema de investigação
de vários autores na tentativa de impor rigor às atividades
com fins documentários. Os métodos são expostos
através da identificação de operações/etapas. As fases
indicadas por CUNHA são a de análise e a de síntese,
onde a análise "visa, primeiramente, identificar a
organização metodológica do discurso do autor/produtor
através da segmentação do texto" (CUNHA, 1990, p.
73). A síntese tem como premissa "chegar a conceitos/
palavras-chave capazes de traduzir o conteúdo do
discurso analisado. Procede-se então, primeiramente, a
>
Documento
ENTRE...
2S
uma seleção e, depois, a uma fixação desses conceitos/
palavras-chave" (ibid., 1990, p. 76). Segundo AMARO,
Cunha afirma que na análise se faz a leitura do texto,
ou a contextualização
e a segmentação, ou se
identifica a informação principal do texto; e na
síntese, realiza-se a passagem da linguagem natural
(LN) para uma linguagem documentária (LD)
(AMARO, 1991,p. 6).
As operações propostas por KOBASHI mostram
que primeiro os textos são desestruturados,
e
posteriormente, as informações selecionadas são
estruturadas, ou seja, parte-se à elaboração de
informações documentárias. A figura abaixo mostra as
operações segundo KOBASHI:
Análise
Desestruturaçâo
Resumo
. Indexação
]
Síntese
]<
]
Representação
Estruturação
Figura 1: Fabricação da Informação Documentária (KOBASHI, 1995, p.ll)
A representação para LARA é o "resultado das
operações de análise e síntese do conteúdo cujo objetivo
é a transferência da informação" (ibid, 1999, p. 136).
KOBASH1, baseada na definição de Borko e Bernie,
diz que "a indexação é o processo de analisar o conteúdo
informacional dos registros do conhecimento e sua
expressão na linguagem do sistema de indexação"
(KOBASH1, 1995,p. 29).
O objetivo da AD é a recuperação da informação
e a inserção do usuário no processo de AD, possibilita
construir um conceito que realmente pode abranger
todas as etapas envolvidas e o fim a que se destina a
análise documentária: "a informação (00') só tem
existência a partir de sua apropriação pelo usuário
quando este identifica 'do que se fala' e 'de onde se fala'
(lugar de sentido), a partir de suas experiências e
necessidades de conhecimento ( LARA, 1999, p. 8).
Um dos requisitos para se recuperar informações
documentárias é o acréscimo do elemento interpretante.
LARA reconhece este elemento e enfatiza que "enquanto
signos documentários, as representações documentárias
não podem ser vistas numa relação simples entre objeto
e representação, mas supondo uma relação triádica que
compreende objeto, representação e interpretante"
(LARA, 1999,p. 9). Tendo como base o estabelecimento
da comunicação nesse processo, a atribuição de uma
linguagem de termos livres ou controlados é o que
media essa comunicação usuário-sistema. Portanto, a
representação, como atividade, desenvolve-se no
universo da linguagem, o que permite uma
comunicaçã03 (ibid, 1999, p. 161).
As informações são construídas para efetuar a
comunicação do conhecimento, a transferência. As
LDs funcionam como instrumentos dessa ação
comunicativa, na qual estão envolvidas a mediação e
tradução deste conhecimento/informação
para o
interpretante (NOYELLINO, 1996,p. 43). Entendemos,
assim como LARA, que o estudo da representação se
desenvol ve no universo da linguagem (LARA, 1999, p.
54) e a transferência
de informação pode ser
'" A comunicação neste ãmbito é denominada comunicação doeumentária: "processo que envolve a codifieação c a deeodificação de conteúdos
informacionais,
ou seja, o tratamento c a recuperação da informação" (LARA, 1993, p. 72, grifo nosso). A comunicação se estabelece ao se
aproximar o objeto que se quer representar do sujeito que irá interpretar esta relação (ibid, 1993, p.73).
Transinformação,
v. 13, nQ I, p. 23-41, janeiro/junho/200
I
G.S. ALCAIDE el ai.
26
caracterizada como uma ação comunicativa. A função
principal da linguagem é instaurar a comunicação e, a
seu modo, o processo de representação documentária é
IingÜístico-comunicacional. A linguagem documentária
é que funciona como mediador entre produtores e
consumidores de informação e as bases de dados.
GOMES também afirma que o processo de comunicação
não se estabelece "apenas entre um pólo emissor e outro
receptor, mas também por canais de transferência que
interagem como mediadores da ação comunicativa
(GOMES, 2000, p.64). De acordo com a autora, "a
interpretação é uma ação de composição" (ibid, 2000,
p.64).
A Terminologia como Parâmetro para a Construção
de Linguagens de Representação Documentárias
As linguagens documentárias (LDs), por serem
construídas, são linguagens formalizadas. A fim de
servirem como instrumentos de medição, transformam
texto em Linguagem natural (LN) ou Linguagem
especializada (LE), em produtos documentários
normalizados. Mas para garantir efetividade na
comunicação documentária e a recuperação do contexto,
o uso da Terminologia possibilita à representação
remeter a determinados sistemas de significação.
A terminologia, como meio de comunicação
formal entre especialistas de um domínio, é constituída
por termos monorreferenciais: cada termo tem um
conceito específico e se relaciona com os demais por
intermédio de sua definição, permitindo a precisão e
normalização desta linguagem. Isto confere, à
comunicação especializada, univocidade (LIMA, 1999,
p. 31). Em virtude da terminologia trabalhar com
palavras em funcionamento, é possível delimitar
seus valores e sua significação dentro do universo
onde ocorrem, ou seja, possibilitar à representação
remeter a sistemas de significação nos textos (LARA,
1993, p. 76).
A Terminologia é "um campo interdisciplinar e
transdisciplinar e envolve não só a descrição e o
ordenamento do conceito (nível cognitivo), mas também
a transferência de conhecimento (nível comunicacional).
Seus elementos centrais são conceitos e termos" (ISO
704). As terminologias enquanto objetos concretos são
um "conjunto de termos que representam um sistema de
conceitos de um domínio particular" (ISO 1087).
Sager, citado por DIAS, afirma que o termo
terminologia é polissêmico, apontando para três
concepções diferentes acerca dos termos. Como teoria,
a Terminologia "é um conjunto de premissas,
Transinformação,
argumentos e conclusões necessário para explicar o
relacionamento entre conceitos e termos especializados"
(SAGER apud DIAS, 2000, p. 90). Como prática se
define como um conjunto de métodos e atividades que
visam a coleta, descrição, processamento e apresentação
de termos. Enquanto produto, constitui-se por "um
conjunto de termos, ou vocabulário, de um determinada
especialidade" (ibid, 2000, p. 90)
Termos, Conceitos e Vocabulários dos Domínios
do Saber
De acordo com a norma ISO 1087, o termo é a
"designação de um conceito por meio de uma unidade
lingüística definida numa língua de especialidade" (ISO
1087). Enquanto produto de uma relação extralingüística
que parte do objeto, é mediado pelo conceito (LARA,
1999, p. 124). O objeto é o elemento passível de ser
percebido e pode ser representado por um termo ou
símbolo (ISO 1087).
Para HERMANS, o "termo científico é uma
unidade lexical definida num texto científico e a
condição para ser termo é a de ser definido no discurso
científico". Disso resulta que "todo termo deve ser
monossêmico, unívoco, prescritivo" (HERMANS,
1989, p. 529). Hermans afirma a existência de dois
tipos de termos nos vocabulários científicos: os termos
técnicos e os termos teóricos.
"Os termos técnicos designam observações,
medidas, experiências. instrumentos (...) Para
constituir a terminologia de um domíllio técnico
parte-se dos objetospreexistentes aos termos. O termo
não é definido a partir de seu jilllcionamento 110
discurso. mas como correspolldelldo a uma noção
particular dentro do campo lIociollal" (ibid. p. 529)
Já os termos teóricos não se relacionam às noções
preexistentes ou a representações mentais a objetos
concretos e abstratos. Estes termos são utilizados com
uma ou várias significações.
A significação destes
termos depende de seu funcionamento no contexto e
das relações que ele mantém com os outros termos no
enunciado (id., 1989, p. 529-530).
A significação gerada continuamente dos termos
científicos é dada pelo uso que os cientistas fazem dos
termos e pela forma como tal uso é assimilado pelos
outros. Isso pode ocasionar termos imprecisos. No
entanto, a estabilidade nas ciências é comparada à
estagnação. Os cientistas procuram uma instabilidade
próxima entre a indeterminação e a determinação, pois
se os conceitos científicos forem muito determinados,
v. 13, nQ I, p. 23-41, janciro/junho/200
1
ANÁLISE COMPARATIVA
E DE CONSISTÊNCIA
eles não podem funcionar como instrumentos de
descoberta ou explicação (id., 1989, p. 530).
27
ENTRE...
ROBREDO afirma que a comparação de "cada
palavra do texto com uma relação de palavras vazias de
significado, previamente estabelecidas, conduz por
eliminação, e considera as palavras restantes dos textos
como palavras significativas" (ROBREDO, 1982, p.
236).
Segundo lARA, "a referência dos termos na
Terminologia é formulada através de uma operação de
definição" (lARA, 1999, p. 120). A definição, de
acordo com a norma ISO 1087, é um "enunciado que
descreve um conceito e que permite diferenciá-lo de
outros conceitos no interior de um sistema de conceitos"
(ISO 1087). Definir os termos teóricos implica em
especificar as diferentes significações que podem ter
estes termos: "especificações cronológicas, por escola
de pensamento ...". E propor uma definição teórica
"equivale a propor a aceitação de uma teoria e (...)
as teorias são notoriamente discutíveis". Com isso
é possível afirmar, segundo COPI, "que uma
definiç'ão é substituída por outra à medida que nosso
conhecimento e compreensão teóricos aumentam"
(COPI, 1978, p. 117).
O processo de indexação automática que opera
com base na constituição de dicionários e antidicionários de "palavras vazias invariáveis" e "raízes
de palavras não significativas"5, segundo KOBASHI,
"inspira-se no distribucionalismo". Em virtude de se
basear em "critérios semânticos estatísticos", KOBASHI
considera que esta é uma metodologia de indexação
viável apenas em áreas cuja terminologia esteja
estabilizada (KOBASHI, 1995, p. 30).
Com base nas afirmações de Chaumier, para
CASTIlHO, a indexação automática opera com texto
integral e realiza de forma automática todas as
etapas da indexação, inclusive as etapas de análise e
sintese (CASTIlHO, 1995, p. 12, grifo nosso).
INDEXAÇÃO AUTOMÁTICA
ROLE, opondo-se à indexação automática, diz
que os sistemas informatizados não realizam nenhuma
espécie de análise, mas trabalham somente com a
extração de palavras do texto (ROLE, 1993, p.140).
No final da década de 50, luhn desenvolve o
índice Keyword in Context (KWIC), baseado em
linguagem natural4 , que retirava termos dos títulos dos
trabalhos comparando com um indice de palavras
proibidas. Caso não houvesse coincidência, o termo
seria admitido como palavra-chave. Essa "novidade",
para GOMES, era resultado não "do aproveitamento
das palavras-chave presente nos títulos dos documentos,
mas da rapidez com que a tarefa poderia ser executada"
(GOMES, 1989, p. 166). Mais tarde, percebeu-se que
outras palavras dos trabalhos poderiam constituir
palavras-chave, acrescentando-se desta forma os
subtermos.
Através da revisão de literatura, pode-se verificar
que a mecanização do processo manual de indexação
somente é realizado em parte, em específico na fase de
síntese, ou seja, na atribuição de léxicos documentários,
portanto, com a prepoderância da representação sobre
a análise.
Afirmar hoje que a indexação é um processo
subjetivo é inadequado, por haver um campo que propõe
processos meto dológicos de análise e síntese: a AO.
Poderá haver subjetividade quando não for empregado
um parâmetro metodológico. Entretanto, a extração
seria capaz de evitar a subjetividade? Os teóricos
abordam a existência de subjetividade, mas não
esclarecem/propõem uma sistematização analítica.
De acordo com GARCIA GUTIÉRREZ, nos
anos 60 surgiram "modelos de representação
automática" baseados na leitura seqüencial do texto; o
autor afirma que em tais modelos predominam a
representação sobre a análise (GARCIA GUTIÉRREZ,
1992, p. 33).
Métodos Estatístico-Morfológicos Aplicados a Textos
Escritos
Segundo MAMFRIM, a mecanização do
processo manual de indexação, no todo ou em parte,
visa "a estabelecer rotinas que reduzam a interferência
da subjetividade do indexador, tanto na análise do
documento, quanto na seleção dos termos significativos"
(MAMFRIM, 1991, p. 191).
Os modelos estatístico-morfológicos partem da
premissa de que "as palavras de um texto dividem-se
em duas categorias: aquelas que são portadoras de uma
significação e as demais" (COUlON & KAYSER,
'"
A linguagem natural é "sinõnimo de discurso comum, isto é, a linguagem
vocabulário controlado" (LANCASTER,
1993, p. 200).
'SI
O dicionário de "palavras vazias invariáveis" é eonstituido de preposições, conjunções, advérbios, entre outros. O outro, de "raizes de palavras
nào significativas"
na área de conhecimento
processada
Transinforrnaçào,
(KOBASHI,
utilizada
habitualmente
na escrita c na fala, c que é o contrário
1995, p. 30).
v. 13, nQ I, p. 23-4 I, janeiro/junho/200
I
de
28
a.s. ALCAIDE et aI.
METODOLOGIA
1992,p. 18).Os modelos dividem-se em análise estatística
e análise léxico-morfológica.
A análise estatística é uma indexação baseada
em cálculo freqüencial automático: "consiste em extrair
os termos de um texto e contabilizar suas repetições"
(GARClA GUTlÉRREZ, 1992, p. 133). Desta forma,
pode-se comparar sua freqüência com a de outros termos
do mesmo texto ou de outros.
Luhn, ao criar o Keyword in Context (KWIC),
utilizou o cálculo freqüencial automático centralizandose no fato de que "a freqüência de determinadas palavras
em um texto dá a medida da representatividade destas
palavras no mesmo" (COYAVO, 1967, p. li).
Foram selecionados quatro textos dentro dos
domínios científicos Educação e Saneamento básico,
que correspondem respectivamente às áreas de Ciências
Humanas e de Ciências Exatas. Sendo 3 científicos e I
de divulgação
apresenta:
A análise léxico-morfológica iniciou-se também
com os estudos de Luhn, e visa solucionar as falhas que
ocorrem devido à recuperação de palavras não
signitícativas"6 através da utilização de antidicionários,
compostos por palavras sem significância, também
chamadas de palavras vazias; comparam-se as palavras
extraídas do texto com este antidicionário e, caso haja
coincidência, são desconsideradas na elaboração do
índice (LANC;ASTER, 1993, p.48).
ROLE destaca, em seu trabalho sobre sistemas,
o critério de substituir os termos do texto por outros
julgados mais adequados, "ou seja, as palavras extraídas
do texto são comparadas com um vocabulário
controlado
possibilitando o controle de sinonímias
e polissemias" (ROLE, 1993, p.138).
(00')
A partir do momento em que se identificam, nos
textos, os termos, pela análise estatística, o "analisador
morfológico
consiste em achar
a forma
representativa" destes termos "armazenada no léxico".
Esta forma representativa, "como nos dicionários,
conserva-se em forma Única (00')devendo encontrar-se
as demais por meio de regras que descrevem as flexões
possíveis" (COULON & KAYSER, 1992, p.40).
(00')
1(')Palavras
não significativas,
conforme
Laneaster,
são "artigos,
O conjunto
se
FARIA FILHO, Luciano Mendes de. O espaço escolar como
objeto da história da educação: algumas reflexões. Revista
da Faculdade de Educação [online], São Paulo, v.24, n.l,
jan./jun. 1998.Disponível na internet: <http://www.scielo.br/
c g i - b i n I fb p e I fb t e x t ? g o t = I as t & P i d = S O I 0225551998000 I000 IO&lng=pt&nrm=isso;::
COY AUD afirma que este método. "não
considera possíveis sinonímias ou polissemias presentes
no texto" (Ibid, p.14). À partir desta constatação,
GARCIA GUTlÉRREZ propõe a utilização deste
método somente a textos com "estabilidade
termino lógica", observando que é "tarefa impossível
em grande quantidade de textos, especialmente os que
contêm informações sobre atualidades ou Ciências
Sociais" (GARCIA GUTlÉRREZ, 1992, p.133).
li
para cada domínio.
preposições,
KA WASAKI, Clarice Sumi. Universidades públicas e
sociedade: uma parceria necessária. Revista da Faculdade
de Educação (online], São Paulo, v.23, n.I-2, jan./dez.
1997. Disponível na internet: <http://www.scielo.br/cgi-bin/
fb p e I fb t e x t? g o t = I a s t & P i d = S O 10 2551997000 I000 13&lng=pt&nrm=isso;::
SILVA, Luiz Carlos Faria da. Possíveis incompletudes e
equívocos dos discursos sobre a questão da disciplina.
Educação & Sociedade [online], Campinas, v.19, n.62, abr.
1998. Disponível na internet: <http://www.scielo.br/cgi-bin/
fbpe/fbtext?got=last&pid=SO
I O 1301998000 I00007 &Ing=pt&nrm=isso;::
ZENTI, Luciana. A arte de ser professor. Nova Escola online
[online], out. 2000. Disponível na internet: <http://
www.uol.com.br/novaesco
Iai;::
MOTA, Suetônio, BEZERRA, Francisco Cesar, TOMÉ,
Luciana Mota. A avaliação do desempenho de culturas
irrigadas
com esgoto tratado.
Tn: CONGRESSO
BRASILEIRO
DE ENGENHARIA
SANITÁRIA E
AMBIENTAL, 20, Rio de Janeiro, 1999. Anais.., [online].
Rio de Janeiro: ABES. 1999. Disponível na interneI: <http:/
Iwww.saneamentobasico.com.br/materi
aiestudos/fi Iesl
textos97 li-003 .doc;::
LIMA, Márcio Rogério Azevedo, REALI, Marco Antonio
Penalva. Tratamento tlsico-químico das águas residuárias de
uma indústria de papel utilizando-se a flotação por ar
dissolvido.
In: CONGRESSO
BRASILEIRO
DE
ENGENHARIA SANITÁRIA E AMBIENT AL, 20, Rio de
Janeiro, 1999. Anais... [online]. Rio de Janeiro: ABES.
1999.
Disponível
na
internet:
<http://
www.saneamentobasico.com.br/ma
te ri aies tudo si fi Iesl
textos97/i-006.doc;::
COSTA, Alberto José Moitta Pinto da, et al/. Estudo de
tratabilidade de água residuária sintética simulando despejo
líquido de coquerias. In: CONGRESSO BRASILEIRO DE
ENGENHARIA SANITÁRIA E AMBIENTAL, 20, Rio de
conjunções
e assemelhados"
Transinformação, V. 13, nQ I, p. 23-41, janeiro/junho/200 I
(ibid,
1993, p.48).
ANÁLISE COMPARATIVA
Janeiro, 1999. Anais ... [online]. Rio de Janeiro: ABES.
1999.
Disponível
na
internet:
<http://
www.saneamentobasico.com.br/materia/estudos/fi Ies/
textos97/i-060.doc~
LUCÍRIO, Ivonete D. Parados e sufocados.
Superinteressante online [online].jun. 1996.Disponívelna
internet: <http://www2.uol.com.br/super/super0696/
polu.html~
Para o processo
de indexação
manual e
automática7 foram utilizadas as seguintes linguagens
documentárias:
VIEIRA, Maria da Graça Camargo (org.). Vocabulário
controlado [de educação]. São Paulo: Fundação Carlos
Chagas,.Biblioteca Ana Maria Poppovic,Departamentode
Pesquisas Educacionais, 1998.
VOCABULÁRIOControlado[de saneamentobásico].2 ed.
São Paulo: Sabesp,TDST, 1997.
Para a indexação automatizada foi utilizado o
protótipoS de FERNEDA.
Os termos compostos dos vocabulários
controlados foram fatorados, quanto à forma sintática,
em termos simples. Estes, com os já existentes no
vocabulário, foram alfabetados e suas duplicatas
excluídas, mantendo-se somente uma unidade de cada
palavra.
Com as palavras organizadas em ordem
alfabética e de posse de dicionários de língua portuguesa
foram atribuídas as categorias gramaticais às palavras
da relação. Aos nomes próprios e termos em língua
estrangeira foi atribuída a classe substantivo. Às palavras
pertencentes a mais de uma classe gramatical foi
atribuída a classe na qual a palavra apresenta maior
significação no universo estudado.
Os termos, que são a forma canônica9 das
palavras, foram normalizados para masculino-singular
no caso de substantivos e adjetivos e na forma infinitiva
para os verbos. Com as classes gramaticais atribuídas
às palavras procedeu-se à alimentação do dicionário
que o protótipo utiliza para o processamento dos textos.
Todos os artigos foram coletados via internet,
sem exceção, através de ferramentas de busca da rede
e pelos serviços disponíveis aos assinantes de
provedores de acesso.
Os artigos foram gravados em um computador
local (ojJ fine) na forma integral de seu conteúdo
(7)
E DE CONSISTÊNCIA
29
ENTRE...
apresentado na rede. Trabalhando em modo local (ojJ
fine), os artigos foram abertos em um processador de
textos, o Winword.
O título do periódico bem como as demais
informações deste, o título do artigo, o resumo, as
palavras-chave, biografias dos autores, ilustrações,
tabelas, gráficos, legendas e referências bibliográficas
foram apagados deixando-se somente os títulos dos
capítulos e o texto na íntegra. Através do mesmo
processador de textos foi realizada a contagem das
palavras dos artigos. Estes foram gravados com a
extensão que o protótipo é capaz de reconhecer 10.
O protótipo trabalha em três fases distintas, mas
interdependentes:
.
Primeiramente
são extraídos do texto os termos
significativos existentes em seu dicionário e é
feita a contagem total de termos. Aos termos é
relacionado o número do texto que está sendo
indexado, já que podem existir vários
consecutivamente, os números do parágrafo
em que aparece o termo e sua posição neste
parágrafo;
.
No segundo passo o protótipo cria uma matriz
relacional entre os termos, onde são avaliadas
a freqüência que um termo aparece no texto e
sua relação com os demais termos;
.
Por último o protótipo extrai as palavras-chaves
baseando-se nas forças relacionais calculadas
na matriz gerada no passo anterior (FERNEDA,
1997, p. 47-58).
Para a indexação manual os textos foram
impressos e enumerados. Excluíram-se o resumo e as
palavras-chave. Os vocabulários controlados foram
entregues aos indexadores especialistas nas áreas dos
domínios tratados.
RESULTADOS
E ANÁLISECOMPARATIVAE DE
CONSISTÊNCIADOS PROCESSOSE PRODUTOS
DOCUMENTÁRIOS
O protótipo identificou uma quantidade de
termos significativos nos textos relativamente baixa:
23,50%notexto 1, 17,00% no texto 2, 19,13% no texto
3,16,83% no texto 4,23,41% no texto 5, 21, 47% no
texto 6, 17, 76% no texto 7 e 13,27% no texto 8.
O protótipo consegue efetuar a extração de palavras através da comparação a um dicionário morfológico. Para possibilitar o processo
alimentamos o programa com os vocabulários citados.
"I FERNEDA nos cedeu gentilmente este protótipo.
,91 Referimo-nos ao verbete propriamente
dito.
""I O protótipo trabalha com arquivos de extensão txl.
Transinformação,
v. 13, nQ I, p. 23-41, janeiro/junho/200
I
G.S. ALCAIDE et aI.
30
Estando, portanto, entre a faixa de 10% e 25%, com
valor médio de 19,05%.
Os textos de divulgação, 4 e 8, foram os que
apresentaram menor índice de ocorrência de termos
significativos,
obtendo
16,83% e 13,27%
respectivamente. Estes percentuais estão claramente
identificados com os textos que possuem menor
quantidade de palavras, 2.697 e 1.364 tanto na área de
Exatas como na de Humanas.
Os maiores índices não demonstraram o mesmo
comportamento, não estando relacionados aos textos
com maior quantidade de palavras. Este fato pode ser
atribuído a um maior domínio terminológico do autor
dos artigos, estando mais consciente de sua área de
atuação, como também estar relacionado a um dicionário
morfológico" alimentado no sistema com maior ou
menor abrangência.
As palavras-chave
apresentaram uma relação
atribuídas
somente
clara quanto a suas
quantidades aos textos de divulgação, textos 4 e 8,
tendo ocorrido os menores índices atribuídos, 5 e 2,
respectivamente. Nos demais textos as quantidades não
puderam ser avaliadas por ocorrerem de forma aleatória,
tanto em relação a quantidade de palavras quanto a
quantidade de termos significativos identificados.
Observamos uma quantidade média de palavras
alta nos textos da área de humanas, 5.397 palavras
aproximadamente, em comparação a área de exatas,
1.385 palavras.
Numericamente
a indexação automática
mostrou-se extensiva com relação a indexação manual.
Novamente a exceção é feita aos textos de divulgação,
4 e 8, que apresentam valores baixos e muito próximos
para as duas formas de indexação e no caso do texto 8,
na área de exatas, a quantidade de palavras-chave
atribuídas pela indexação manual foi maior que a
automática, como pode ser observado no quadro a
segUIr:
PALA VRAS-CHA VE
PALA VRAS-CHA VE
TEXTOS
INDEXAÇÃO AUTO MÁTICA
INDEXAÇÃO MANUAL
1
47
6
2
36
5
3
31
5
4
5
4
5
14
7
I1
6
27
4
I
7
10
5
S
2
4
r
I
Quadro I: Quantidade de palavras-chave empregadas por ambas as indexações
A título de complementação foi feita uma
comparação entre os termos de indexação utilizados na
representação dos textos na internet e os resultados
obtidos nesse trabalho, para averiguar, mesmo não
tendo conhecimento acerca do uso ou não de uma LD,
se os produtos se assemelham aos automáticos ou aos
manuaIs.
A indexação "original" aproxima-se do que foi
realizada pelo processo manual: uso da generalidade,
significado ambíguo; mas em determinados contextos,
os léxicos documentários remetiam com pertinência ao
sistema de significação dos discursos.
li" Lista de palavras
com suas respectivas
calegorias
Salientamos que para os nossos modelos de
indexação não se determinou uma política de indexação
e que para a indexação "original" esta política é
desconhecida.
Os resultados no Domínio de Educação foram:
Texto 1: Universidades públicas e sociedade:
parceria necessária.
./ Total de palavras do texto: 5192 palavras
Indexação automática
./ Foram localizados 1220 termos significativos pelo sistema.
gramalieais.
Transinformaçào,
uma
v. 13, nQ I, p. 23-4],
janeiro/junho/200]
--
ANÁLISE COMPARATIVA
E DE CONSISTÊNCIA
31
ENTRE...
I. Ambiente conselho meio
2.
Área ambiental
3. Ambiental controle
4.
Ambiental estudo
5. Ambiental gestão
6.
Ambiental impacto
7. Ambientallicença
8.
Ambiental questões
9. Aspecto econômico
10. Econômico social
11. Econômico conhecimento valor
12. Econômico globalização
13. Atividade pesquisa
14. Atividade obra
15. Pesquisa científica educação
16. Pesquisa centro
17. Pesquisa básica educação
18. Pesquisa universidade
19. Pesquisa aplicado'2
20. Captação científico tecnológico
21. Científico social
22. Científico conhecimento
23. Científico patrimônio
24. Social demanda
25. Social problema
26. Conhecimento produção
27. Desenvolvimento política
28. Desenvolvimento modelo
29. Desenvolvimento projeto
30. Política pública
3 I. Educação superior
32. Espaço público
33. Formação profissional
34. Gestão participativa
35. Globalização processo
36. Igualdade condição
37. Instituição educativo
38. Lei mercado
39. Novas tecnologia
40. Papel universidade
41. Universidade pública
42. Universidade projeto
43. Universidade estadual
44. Universidade sociedade
45. Projeto nacional
46. Qualidade total
47. Sistema educacional
Quadro 2: Palavras-chave extraídas do texto I
Indexação
manual
I. Universidades públicas
4. Universidades públicas
2. Globalização
5. Globalização
3. Desigualdades sociais
6. Desigualdades sociais
Quadro 3: Palavras-chave atribuídas ao texto I
"') Como já dissemos,
p. 25, os léxicos do dicionário
morfológico
Transinformação,
que alimentamos
no protótipo
v. 13, nQ I, p. 23-41, janciro/junho/200
estão no masculino-singular.
I
...-
32
G.S. ALCAIDE el ai.
o processo documentário manual realizado no
texto I de educação atribuiu o termo IMeio ambiente/l3.
No entanto, ao pós-coordenar os termos IMeio ambiente
e Universidades pÚblicasl o significado será ambíguo,
por remeter a outro sentido: poderia indicar que o texto
aborda sobre como é a área ambiental das universidades
pÚblicas". O aspecto abordado é o do dever das
universidades pÚblicas em elaborar projetos para o
meio ambiente a fim de atender às necessidades
sociais. Para uma recuperação pertinente do contexto,
deveria-se qualificar o termo IMeio ambientei com I
Projetos/. No processo automático seria possível
recuperar este contexto, pois o protótipo précoordenou 15 os termos IUniversidade projetol e
realizando a lógica booleana entre os pré-coordenados
e IMeio ambientei, recuperaria-se o sentido.
Ambos os processos reconheceram como
termo IUniversidades pÚblicas/, mas o automático não
o tlexionou. Isso não impediria de recuperá-Io. A
discussão do autor sobre as universidades pÚblicas é
abordada no contexto da globalização: este termo
também foi tido como significativo, entretanto, o
automático gerou os léxicos IProcessol e IEconomial
que poderiam ser considerados como qualificadores.
Os termos IUniversidades pÚblicasl pós-coordenado com ISociedadel não conseguiria resgatar o
significado: poderia ser a comunidade científica ou
não. Por se tratar da discussão do papel das universidades
pÚblicas na sociedade brasileira, ou se acrescentaria o
termo IPapel das universidades pÚblicas/,ou se atribuiria
o termo encontrado no vocabulário IRelações
universidade-sociedade/. Na automática este aspecto
foi extraído sob o termo IPapel universidade/. Se
fizéssemos uma pós-coordenação com este e o termo I
Formação profissionall que é relacionado ao anterior, o
sentido seria recuperado. O termo relacionado foi
reconhecido por nós, em virtude da discussão ser no
contexto globalização e o papel da universidades
pÚblicas em formar profissionais para este mundo
globalizado. O léxico ISociedadel sem o qualificador I
Brasil! acarretaria na perda do significado. Suponhamos
que nesta base de dados alguém queira consultar sobre
1111
Adotou-se
escrever
o termo entre barras, porquc "este artificio
a sociedade e o meio ambiente, ao efetuar a lógica
booleana este texto seria recuperado, mas não o contexto,
não a significação construída através do discurso do
autor. Percebe-se que as falsas associações ocorrem
não somente na automática, por ser exaustiva, por ter
uma alta revocação. As falsas associações também
acontecem porque não se qualificam os termos. O
mesmo ruído poderia ocorrer na comunicação
documentária do termo IEconomia/. Se um interpretante
necessitasse acessar informações sobre a situação
econômica das universidades
pÚblicas, e pós
coordenasse os termos, recuperaria-se este textol6, logo,
a indexação proporcionaria uma falsa coordenação, e
perda de significado.
No processo automático houve uma aproximação
a um termo relacionado IIgualdade condiçãol ao
atribuído pelo manual IDesigualdades sociais/.
Independente do automático não o ter extraído como I
Desigualdades sociaisl através da relação assimilada
por nós, seria perfeitamente adequado o uso do termo I
Igualdade condiçãol.
A indexação manual gerou 6 termos, e
poderíamos inferir que foi utilizado como parâmetro a
precisão, no entanto, a quantidade relativamente
pequena não quer dizer uso de precisão. Deve-se
averiguar se os termos realmente representam os
contextos dos discursos científicos. A precisão implica
em fixar sentidos, como tentativa de diminuir a
plurissignificação e permitir uma alta especificidade.
Como os termos eram genéricos, não possuíam
qualificadores, a revocação tornou-se alta e perdeu-se
o significado, em virtude dos léxicos documentários
não serem unívocos: recuperariam-se informações
relevantes, mas não precisas.
A indexação automática foi exaustival7, por
gerar 47 termos, teoricamente sendo exaustiva, a
revocaçãol8 seria alta. A maior parte dos termos
extraídos são sinônimos, portanto, a exaustividade
ocorreu em virtude da sinonímia.
Texto 2: Possíveis incompIetudes e equívocos
dos discursos sobre a questão da disciplina
./ Total de palavras do texto: 8.433 palavras.
gráfico indica um signo assumido
na sua forma significante"
(ECO, 1997, p.
24).
t") Para Minsky, as ambigüidades na linguagem natural "não advém apenas do fato de que as palavras podem ser reagrupadas de diversas
maneiras, mas ainda do fato de que cada palavra pode ter diferentes sentidos..." (MINSKY, 1969 apud KURAMOTO, 1995, p. 5).
li;)
O protótipo aproxima-se de uma pré-eoordenação.
ti,.) A relevãncia é entendida como a "capacidade do sistema em fornecer respostas (referências) que realmente eorrespondam à questão proposta"
(CARNEIRO;
1985, p. 234).
tl7) Ao possibilitar um número grande de pontos de acesso, a exaustividade
tenta recuperar o âmbito de abrangêneia do documento. Segundo
LANCASTER, "...a indexação exaustiva redundará em menor precisão das buseas...será recuperado um número maior de itens que o usuário
considera como não sendo pertinentes a sua necessidade de informação" (LANCASTER,
1993, p. 23).
I") Para CARNEIRO, a revoeação "é a capacidade do sistema em assegurar a recuperação...
de documentos relevantes c a precisão se relaciona
à capacidade do sistema em impedir a recuperação de documentos não-relevantes"
(CARNEIRO,
1985, p. 234).
Transinformação,
v. 13, nQ I, p. 23-41, janeiro/junho/200
I
ANÁLISE COMPARATIVA
E DE CONSISTÊNCIA
ENTRE...
33
Indexação automática
./
./
Foram localizados
1.441 termos significati-vos
pelo sistema
I. Ação educacional
2. Ação educativo
3. Ação humano
4. Ações humano
5. Aplicado educação
6. Aplicado psicodrama
7. Educação conteúdo político
8. Educação disciplina escolar
9. Educação disciplina poder
10. Educação disciplina relação
11. Ato educativo
12. Concepção histórica
13. História homem
14. Dimensão psicológico
15. Disciplina abordagem
16. Disciplina problema
17. Disciplina questão
18. Escolar instituição
19. Poder disciplinar
20. Poder autoridade
21. Disciplinar escola
22. Escola nova
23. Escola relação
24. Escola violência
25. Nova qualidade
26. Natureza conceitual
27. Prática educacional
28. Prática educativo
29. Processo educativo
30. Professor aluno relação
3 I . Projeto pedagógico
32. Psicodrama teoria
33. Relação punição vigilância
34. Teoria educacional
35. Termo discurso
36. Trabalho grupo
Quadro 4: Palavras-chave
Indexação
extraídas do texto 2
manual
I. Normas disciplinares
4. Educação
2. Autoridade
5. Prática de ensino
~
3. Relações sociais
Quadro 5: Palavras-chave atribuídas ao texto 2
I
Neste texto são abordados dois aspectos acerca
da questão da disciplina, sendo que um classificado em
formulações teóricas (psicologia) e o outro em análise
crítica da realidade do poder.
Na indexação manual a atribuição do termo /
Educação/ pós-coordenado com /Normas disciplinares/
perde significado, pois tenciona ao sentido de leis e
regras disciplinares na educação. O autor enfoca as
relações entre disciplina escolar, educação e
Transinformação,
transformação social. No processo aut
estes sentidos foram representados, po
pré-coordenou /Educação disciplina relação/. Ao passo
que transformação social, tanto a manual quanto a
automática
não o consideraram
como termo
representativo.
A indexação automática, sendo exaustiva, extraiu
termos sinônimos como /Prática educacional/ e/Prática
educativo/ e seus sub-conjuntos /Aplicado psicodrama,
v. 13, n2 I, p. 23-4 I, janciro/junho/200
I
I
34
a.s. ALCAIDE et ai.
ITrabalho grupol e IPsicodrama teoria/, e a manual
atribuiu somente IPrática de Ensinol. Ambos os produtos
documentários conseguiriam recuperar o contexto.
O autor analisa a questão do poder relacionado
à disciplina. Neste caso a manual atribuiu o termo I
Normas disciplinaresl mas, em virtude de sua falta de
precisão não considerou a relação com o termo poder.
A automática pré-coordenou IEducação disciplina
poderl podendo-se realizar a lógica booleana entre précoordenados e /Relação/, o que possibilitaria a
recuperação da pertinência.
O termo atribuído pelo processo manual I
Relações sociaisl pré-coordenado com IEducaçãol
torna-se ambíguo: poderia indicar educação como
apenas a integração do indivíduo na sociedade. O texto
analisa a educação como transformação da sociedade.
A automática também não conseguiu reconhecer estes
termos, no máximo pré-coordenou IProcessoeducativol
e mesmo realizando a lógica booleana entre IRelaçãol
e INova qualidadel ainda não remeteria ao significado
proposto pelo discurso.
Texto 3: O espaço escolar como objeto da
história da educação: algumas reflexões
./ Total de palavras no texto: 5.267 palavras.
Indexação automática
./ Foram localizados 1.008termos significativos
pelo sistema.
I.' Água potável
2. Arquitetura escolar
3. Escolar construção
4. Escolar cultura nova
5. Escolar educação
6. Escolar educativo
7. Escolar escola
8. Escolar espaço grupo
9. Escolar museu
10. Escolar relação
11. Construção novo
12. Controle professor
13. Corpo docente
14. Cultura urbano
15. Cultura primeira
16. Urbano espaço
17. Urbano mundo
18. Dimensão espacial
19. Escola instituição
20. Escola pública
21. Pública instrução
22. Espaço interno
23. Exercício fisico
24. Físico mundo
25. Nova capital
26. Nova pedagogia
27. Número aluno
28. Planta tipo
29. Político econômico
30. Sala aula
3 I . Trabalho livre
Quadro 6: Palavras-chave extrai das do texto 3
Indexação manual
!. História da educação
4. Arquitetura
2. Escolas
5. Espaço fisico
3. Minas Gerais
Quadro 7: Palavras-chave atribuídas ao texto 3
Transinformaçào,
v. 13, nQ I, p. 23-41, janciro/junho/200
1
ANÁLISE COMPARA TIV A E DE CONSISTÊNCIA
No processo automático para o texto 3 de
educaçào foi extraído IÁgua potável/, termo este
completamente fora do contexto abordado pelo autor.
Pela aIimentaçào no protótipo de duas áreas de
especialidade distintas em um mesmo arquivo de termos,
a possibilidade dessa ocorrência é real pelo fato do
programa não criterizar conceitos, mas sim ocorrências.
É referenciado INova capital/, termo que
realmente apresenta relevância no texto, porém, o autor
se refere a Belo Horizonte como a nova capital de
Minas Gerais, já que se trata de um estudo histórico.
Logo, a ocorrência de IMinas Geraisl na indexação
manual é pertinente, apesar de sua atribuição não estar
contida em uma situação de qualificador mas como
termo atribuído.
ICultura urbanol e IUrbano mundol demonstram
relações de sinonímia possíveis em um processo de
indexação automatizado sem o controle de conceitos,
como ocorre neste caso.
ENTRE...
3S
Os termos IFísico mundo/, IEspaço interno/, I
Planta tipo/, IDimensão espacial/, IArquitetura escolarl
e IEscolar construçãol são, também, sinonímias, apesar
de estarem representando o conteúdo do artigo. Isto é
conferido pela extração de IEscolas/, I Arquitetural e I
Espaço fisicol no processo manual, que em uma situação
de pós-coordenação, por exemplo, entre IEscolal e I
Arquitetural recuperaria o conteúdo pertinente. Sendo
que IArquitetural é um termo relacionado à área em
questão.
A atribuição, na indexação manual, do descritor
IHistória da educaçãol apresenta-se como termo geral
necessário, o que não ocorre na indexação automática.
Texto 4: A arte de ser professor
./ Total de palavras no texto: 2.697 palavras.
Indexação automática
./ Foram localizados 454 termos significativos
pelo sistema.
I. An professor
2. Energia elétrico
3. Ensino fundamental
4. Escola pública
5. Zona rural
Quadro 8: Palavras-chave extraídas ao texto 4
Indexação manual
I. Relação professor-aluno
3. Comunidade
2. Prática de ensino
4. Professores
Quadro 9: Palavras-chave atribuídas ao texto 4
o termo
IRei ação professor-alunol
atribuído
pelo
processo manual é pertinente ao assunto abordado no
texto. No entanto, no automático não se conseguiu gerar
essa particularidade.
Tanto IPrática de ensinol
conseguiria remeter ao contexto, quanto IComunidadel
, por meio de pós-coordenação. Entretanto, o termo I
Professoresl é inadequado por ser genérico, pois o texto
trata sobre a satisfação profissional através do relato de
experiências. Para resolver este problema, seria
necessário utilizar um qualificador IProfessor (relato
de experiências)/ ou IProfessor (satisfação profissional)1
No processo de indexação automática, o
protótipo reconheceu os termos IEnsino fundamentall e
IEscola pública/, mas para recuperar a pertinência e a
Transinformaçào,
representação do sentido, construído pelo discurso do
autor, é necessário efetuar uma pós-coordenação entre
os citados, IZona rurall e o que indicamos no parágrafo
anterior.
IAno professorl não tem representação lógica;
foi extraído, pela freqüência que estas palavras aparecem
no texto; entretanto, mesmo reconhecendo a freqüência,
o método não possibilita o reconhecimento da
significância. É abordado no texto a satisfação
profissional , através do relato de professores em
diversas regiões do Brasil.
IEnergia elétricol foi extraído pelo fato de alguns
professores terem tido experiências em lecionar em
comunidades onde não havia energia elétrica. Foi
v. 13, nQ I, p. 23-41, janciro/junho/2001
G.S. ALCAlDE et aI.
36
abordado superficialmente, sendo assim, não seria
adequado considerá-Io como termo significante.
Os de Saneamento Básico podem ser observados
abaixo:
Texto 5: A avaliação do desempenho de
culturas irrigadas com esgoto tratado
./ Total de palavras no texto:
1.512 pala-
vras.
Indexação automática
./ Foram localizados 354 termos significativos
pelo sistema.
I. Abastecimento humano
2. Água esgoto
3. Água irrigação
4. Água curso
5. Água reuso
6. Esgoto característica
7. Esgoto Doméstico tratado
8. Esgoto estação tratamento
9. Irrigação sistema
10. Efluente estação tratamento
11. Engenharia sanitário
12. Sanitário ambiental
13. Matéria seca
14. Seea proteína bruta
Quadro 10: Palavras-chave extraídas do texto 5
Indexação manual
I. Esgoto doméstico
5. Reuso da água
2. Irrigação
6. Reutilização de esgoto tratado
3. Irrigação com esgoto tratado
7. Tratamento de esgoto
4. Lodo ativado
II
Quadro 11: Palavras-chave atribuídas ao texto 5
I,
No texto 5 de Saneamento básico, a indexação
manual gerou como léxico /Esgoto doméstico/, mas o
ponto de vista privilegiado é o do Tratamento de esgoto
doméstico, e este aspecto foi reconhecido como
significativo pelo processo automático sob o termo /
Esgoto doméstico tratado/, mesmo que não esteja
normalizado este produto, seria possível recuperar a
relevância desta informação. A manual atribuiu somente
/Tratamento de esgoto/, no entanto isso geraria uma
ambigÜidade, pois este esgoto tratado é o doméstico ou
o industrial? E como já foi explicitado na proposição
anterior, o protótipo conseguiu captar este aspecto.
Outro termo relacionado, reconhecido por nós, foi
considerado como produto /Esgoto estação tratamento/
, já a manual não conseguiu captar essa nuance,
entretanto, é necessário refletir que o tratamento de
esgoto doméstico ou industrial somente poderá ser
realizado a partir de uma estação de tratamento, com a
aplicação de técnicas e equipamentos.
Observamos que o protótipo levantou um
conceito /Água reuso/, mesmo estando pré-coordenado
seria possível recuperá-Io com pertinência. O meio
manual gerou uma sinonímia ao atribuir /Reuso da
água/ e /Reutilização de esgoto tratado/, no entanto, o
automático somente reconheceu um dos termos, o qual
já tínhamos dito que é um conceito. Pós-coordenando /
Água reuso/ e/Irrigação sistema/ ou /Esgoto doméstico
tratado/ e/Irrigação sistema/ seria alcançada a precisão
e o contexto do discurso. Insistimos em enfatizar que a
exaustividade dos produtos documentários automáticos
ocorreu em virtude da sinonímia, mas neste domínio
técnico, foi gerada também porque o protótipo
reconheceu termos genéricos e sem r(:presentatividade
como /Curso água/ e/Abastecimento humano/, em
virtude de serem tratados de forma secundária.
A princípio poderíamos considerar os léxicos
que o protótipo extraiu /Matéria seca/ e /Seca proteína
brutal como assuntos com leve menção, no entanto,
Transinformaçào, v. 13, nQ I, p. 23-41, janciro/junho/200 I
ANÁLISE COMPARA TIV A E DE CONSISTÊNCIA
suponhamos que um interpretante, para fundamentar
seu projeto de pesquisa, deseje encontrar um estudo de
irrigação com esgoto tratado que utilizou como
característícas agronômicas de culturas a proteína bruta
e a massa seca. Imaginar este alto grau de especificidade
na transferência implíca em considerar como relevantes
determinados casos de secundarísmo em léxicos
documentários.
37
ENTRE...
semânticos. Isso ocorreu provavelmente pelo uso de
uma lista alfabética de assuntos, e segundo LARA
"nestas listas as palavras não são portadoras de
significado
porque este é remetido às várias
possibílídades de sentido registradas pelo léxico: ao
signíficar potencialmente tudo, acabam por não
significar nada" (LARA, 1999, p. 62).
Texto 6: Tratamento físico-químico das águas
residuárias de uma indústria de papel utilizando-se
a tlotação por ar dissolvido
Se a indexil,:;o automática não fosse exaustiva
em virtude da sinonímia
iria se aproximar
potencialmente da manual. Foi possível averiguar que
em determinadas representações,
a automática
conseguiu remeter aos significados dos discursos e a
manual em outras, necessitava ser precisa, não como
referência a fins quantitativos, mas em aspectos
v' Total de palavras no texto: 2.40 I palavras.
Indexação automática
v'
Foram localizados522 termossignificativos
pelo sistema.
l. Amostra bruta
2. Amostra flotação
3. Amostra pH
4. Ar dissolvido
5. Engenharia sanitário ambiental
6. Engenharia sanitário brasileiro
7. Congresso brasileiro
8. Cloreto férrico ensaio
9. Férrico remoção ensaio
10. Dosagem coagulante
11. Dosagem ensaio
12. Dosagem valor
13. Coagulante pH
14. Eficiência flotação
15. Eficiência remoção
16. Remoção resultado ensaio
17. Resultado tabela
18. Ensaio flotação
19. Ensaio pH
20. Ensaio amido
21. Recirculação volume
22. Volume água
23. Variação
24. Medida
25. Menores
26. Valor nH
27. Tabela nota
Quadro 12: Palavras-chave extraídas do texto 6
Indexação manual
I. Flotação por ar dissolvido
2. Reuso da água
3. Tratamento de efluentes de industrias de papel
. .
Quadro 13: Palavras-chave atnbUldas
ao texto 6 4. Tratamentotlsico-químico
A indexação manual do texto 6, da área de
Saneamento Básico, não conseguiu resgatar, de forma
até mesmo genérica, tratamento de resíduos industriais.
A indexação automática extraiu 26 palavras-chave,
enquanto a manual atribuiu apenas 4.
Transinformaçào,
o autor relata neste estudo sobre o tratamento
de resíduos industriais a partir da técnica de flotação
por ar dissolvido, em uma empresa de papel e
embalagens, utilizando dosagens de alguns materiais
para a recirculação da água.
v. 13, nQ I, p. 23-41, janciro/junho/200
I
..38
G.S. ALCAIDE et ai.
Ao propor uma leitura documentá ria do texto,
notamos a preocupação do autor com o meio ambiente.
Neste sentido a manual não reconheceu nenhum termo.
O automático pré-coordenou /Engenharia sanitário
ambienta 1/além de reconhecer que tal estudo é feito no
Brasil, gerando o léxico /Brasileiro/.
A indexação automática foi exaustiva, extraiu
termos que não possuem relevância por se tratarem de
testes como /Amostra pH/, /Coagulante ph/, /Remoção
resultado ensaio/ e/Ensaio amido/ e outros que não têm
representação lógica como /Congresso brasileiro/.
Tanto na manual, a técnica utilizada pelo
autor /Flotação por ar dissolvido/, quanto na automática
/Flotação/ e/Ar dissol vido/ foram reconhecidos como
termos significativos.
Texto 7: Estudo de tratabilídade de água
residuária sintética simulando despejo líquido de
coquerias
./
O léxico /Recirculação/ pós-coordenado com /
Água/ conseguiria recuperar o sentido, no entanto, é
sinônimo de /Reuso da água/, o qual foi atribuído pela
manual.
Total de palavras no texto: 2.066 palavras.
Indexação automática
./ Foram localizados 367 termos significativos
pelo sistema.
I. Amônia livre
2. Cianeto livre
3. DQO total
4. Efeito processo
5. Processo nitrificação
6. Efluente final sistema
7. Idade lodo
8. Matéria orgânico
9. Tratamento biológico
10. Tratamento unidade
Quadro 14: Palavras-chave extraídas do texto 7
Indexação manual
I. Coqueria
2. Tratamento da água
3. Lodo ativado
4. Tratamento de esgoto
5. Poluição da água
Quadro 15: Palavras-chave atribuídas ao texto 7
A indexação automática atribuiu ao texto 710
palavras-chave. Notou-se grande extensividade nas
extrações do protótipo quanto às fases do processo
descritas no texto como: /DQO total/, /Cianeto livrei, /
Processo nitrificação/ e/Idade lodo/. E extraiu ainda, /
Tratamento biológico/ e/Matéria orgânico/, podendo
estes serem considerados conceitos mais gerais.
Entretanto, não é representado o material que sofre o
processo ou sua origem, no texto aplicado, tendo estes
grande relevância por tratar-se de resíduos da indústria
de metalurgia ou esgoto industrial.
A extração de /Tratamento unidade/ é observada,
no caso, como uma palavra-chave fundamental na
situação de pós-coordenação com as fases do processo
de tratamento. /Efluente final sistema/ não tem nenhuma
rep!\ 'entação lógica dentro do conteúdo tratado.
Na indexação manual as palavras-chave
demonstraram conceitos mais gerais como /Tratamento
de Esgoto/ e /Poluição da água/o
/Coqueria/ é a fonte que origina o material a ser
tratado, estando, portanto, intimamente ligado ao
universo expresso pelo texto. /Lodo ativo/ como o
meio a ser tratado também possui grande
representatividade apesar de existir uma relação de
ambigüidade entre esta atribuição e /Poluição da água.
/Tratamento da água/ foge ao contexto, talvez
pelo texto tratar de despejos líquidos ou água residuária,
havendo assim uma interpretação inadequada do
conteúdo.
Neste texto aparece claro que a indexação
automática está direcionada para um sistema que permita
a pós-coordenação mais efetiva, com alto grau de
--Transinformaçào,
v. 13, nQ I, p. 23-41, janeiro/junho/200
1
--
ANÁLISE COMPARATIVA
extensividade e a indexação manual trata de conceitos
mais gerais sem muitas inter-relações entre as
palavras-chave.
Texto 8: Parados e sufocados
I. Meio ambiente
E DE CONSISTÊNCIA
39
ENTRE...
..r Total de palavras no texto: 1.364 palavras.
Indexação automática
..r Foram localizados 181 termos significativos
pelo sistema.
2. Região metropolitana
Quadro 1t1: Palavras-chave extraídas do texto 8
Indexação manual
I. Meio ambiente
3. Problemas respiratórios
2. Poluição do ar
4. Rodízio de automóveis
Quadro 17: Palavras-chave atribuídas ao texto 8
Nos dois métodos utilizados foi reconhecida a
palavra-chave IMeio ambientei. As demais vistas, I
Região metropolitanol pela indexação automática e /
Problemas respiratórios/, lrodízio de automóveisl
atribuídos pela indexação manual, são produtos que
podem ser considerados como termos relacionados a I
Meio ambientei.
Foi também atribuído IPoluição do arl pela
indexação manual, que pode ser considerado como
termo específico do campo semântico Saneamento
básico, conceito geral, e/ou termo relacionado a IMeio
ambientei. Este é o texto em que as indexações
demonstraram maior consistência quanto aos termos
atribuídos. Não houve ocorrência de conceitos vazios
ou nào relacionados ao conteúdo expresso.
CONCLUSÃO
Pode-se constatar que se não fossem as
ocorrências de sinonímias, os produtos automáticos
aproximariam-se
potencialmente
dos manuais.
Observamos que a indexação manual gerou léxicos
documentários genéricos e representações que não
possibilitariam uma recuperação pertinente do contexto.
Pudemos observar que a indexação automática
está direcionada para um sistema que permita a póscoordenação
mais efetiva, com alto grau de
extensividade e que a indexação manual tratou de
conceitos mais gerais sem muitas inter-relações entre
as palavras-chave.
produto documentário, ou seja, possibilidade de remeter
a determinados sistemas de significação dos textos.
No processo de indexação manual, mesmo tendo
uma quantidade menor de termos com relação à
automatizada, o significado dos léxicos teria uma
abrangência grande. Nesse caso, também, a revocação
seria alta por possibilitar a recuperação de documentos
relevantes, mas não precisos.
Não temos a pretensão de avaliar o processo de
indexação manual, entretanto, a partir dos resultados,
as representações remetiam a vários sentidos possíveis.
A análise que nos propusemos fazer não estava
direcionada em averiguar se foram atribuídos os mesmos
termos para ambos os processos: foi pautada no
significado que os léxicos teriam, ou seja, representavam
ou não os contextos dos discursos científicos. Com isso
seria possível obter resultados precisos ou não em uma
busca em sistema automatizado.
Os problemas apresentados na indexação manual
podem ser atribuídos a formação dos indexadores. A
aplicação e o conhecimento dos métodos de AD e das
interfaces Lingüística e Terminologia permitiria impor
rigor ao tratamento de informações e à construção de
linguagens com fins documentários. Ao utilizarem listas
alfabéticas estarão se assemelhando às representações
automáticas, pois uma lista alfabética não garante
significação, por operar a partir da palavra, com isso,
remeter a vários sentidos possíveis. O parâmetro que
norteia a construção de linguagens documentárias é o
onde nada significa de forma isolada,
sistema: "
mas a partir de cada palavra em relação às outras
A estrutura significa a presença de dois termos
vinculados por uma relação. Após a definição semântica
(00')
(00')"
A precisão é obtida não pela pequena quantidade
de termos, mas pela efetiva representatividade do
Transinformaçiio,
v. 13, n2 I, p. 23-41, janciro/junho/200
I
-
40
G.S. ALCAIDE et ai.
dos termos "(...) efetua-se uma relação dos termos,
reconhece-se
a polissemia
e propõe-se uma
interpretação
unívoca
do conceito/termo"
(RODRlGUES, 1999, p. 1).
Observamos que o processo automático tenta
remontar gramaticalmente um conceito,já que os termos
compostos foram fatorados, mas aproxima-se mais de
uma pré-coordenação sem o uso de sinais, como o hífen
em ambas as áreas. E que o termo composto fatorado na
forma sintática perde significado, por operar a partir da
palavra. Na maior parte dos estudos sobre sistemas
automáticos de indexação realiza-se a representação de
uma informação sem a sua análise, ou seja, indexação
assistida por computador, mas no caso estudado, a
análise seria feita posteriormente para efetuar correções/
acréscimos no vocabulário alimentado para o protótipo.
De acordo com a análise, os resultados
demonstraram uma maior ambigüidade na área de
Humanas relativamente à de Exatas que demonstrou
uma representação mais voltada às particularidades,
portanto, gerando pouca ambigüidade. É possível
afirmar que a representação automática pode vir a ser
empregada na área de Exatas com uma margem de
acertos considerável.
Foi possível averiguar que, em determinadas
representações, a automática conseguiu remeter aos
significados dos discursos, e a manual, em outras,
necessitava ser precisa, não como referência a fins
quantitativos,
mas em aspectos semânticos. A
automática aproximou-se da manual provavelmente
por terem sido extraídos termos que remetiam a seus
referentes: aos objetos de uma realidade extralinguística,
entretanto, como já dissemos teria-se que efetuar uma
análise após o processo automático, na tentativa de
consistir
os produtos
documentários,
quer
acrescentando-os, quer corrigindo ou eliminando-os,
em razão dos níveis altos de exaustividade, portanto
seria uma indexação assistida por computador.
O método poderia ser melhor utilizado para uma
efetiva indexação automática se reconhecesse termos
compostos, relações semânticas e sistematizasse os
métodos automáticos de análise., porque só é possível
representar a partir do conhecimento, ou seja conhecer
é condição necessária para representar e transferir
informações. Conhecer no âmbito da AD é analisar e
representar à partir de LD's estruturadas segundo
parâmetros linguístico-terminológicos.
jornalística.
São Paulo : ECA/USP, 1991. Dissertação
(Mestrado em Ciência da Informação)
Escola de
Comunicações e Artes, Universidade de São Paulo.
-
CANT ARELLI, Elisa Maria Pivetta. Acesso a base de dados
através da linguagem natural. [online]. Uruguai, 1998.
[Trabalho
de Conclusão
de Curso
- Universidade
Regional
Integrada do Alto Uruguai]. Disponivel na internet: <http://
www.biblio.virtual.urifw.tche.br/bvinf/tcI998/elisa.htm>
CARNEIRO, Marília Vidigal. Diretrizes para uma política
de indexação. Revista da Escola de Biblioteconomia da
UFMG, Belo horizonte, v.14, n.2, p. 221-241, seI. 1985.
CASTILHO, Virginia. Para uma indexação automática:
métodos de análise de textos em sistemas informatizados
aplicados à indexação. São Paulo, 1995. [Trabalho de
Conclusão
de Curso
- Departamento
de Biblioteconomia
e
Documentação, Escola de Comunicação e Artes, Universidade
de São Paulo]
CINTRA, Ana Maria Marques. Análise de texto/análise de
discurso e possíveis relações com a análise documentária
: texto provisório I. São Paulo: [s.n.]., 1994 Texto utilizado
na disciplina Lingüística e Documentação do Departamento
de Biblioteconomia
e Documentação
da Escola de
Comunicação e Artes da Universidade de São Paulo.
. Análise de texto/análise de discurso e
possíveis relações com a análise documentária : texto
provisório 2. São Paulo: [s.n.]., 1994 Texto utilizado na
disciplina Lingüística e Documentação do Departamento de
Biblioteconomia e Documentação da Escola de Comunicação
e Artes da Universidade de São Paulo.
COPI, I.M. Introdução
1978.
à lógica. São Paulo: Mestre Jou,
COULON, Daniel, KA YSER, Daniel. Informática
e
linguagem natural: uma visão geral dos métodos de
interpretação de textos escritos. Brasília: IBICT, 1992.
COYAUD, M. Étude théorique des différentes méthodes
d'analyse automatique des documents. In: COY AUD, M.,
SIOT-DECAUVILLE, N. L'analyse automatique des
documents. Paris: Mouton. p.2-57,1967.
CUNHA, Izabel Maria Ribeiro Ferin. Do mito à análise
documentária. São Paulo: Edusp, 1990. (Teses, 11).
DIAS, Cláudia Augusto. Terminologia: conceitos e
aplicações. Ciência da Informação. Brasília, v.29, n.l, p.
90-92, jan./abr. 2000.
ECO, Humberto. O signo. Lisboa: Presença, 1997.
FERNEDA, Edberto.
thesaurus retangular.
Dissertação
Construção automática de um
Campina Grande, Paraíba, 1997.
(Mestrado
em Ciência
da Computação)
-
Universidade Federal da Paraíba, 1997.
REFERÊNCIASBIBLIOGRÁFICAS
GARCÍA GUTIÉRREZ, A. Analisis documental deI discurso
periodístico. Madrid: CTD, Centro de Tratamiento de Ia
Documentación, 1992.
AMARO, R.K.O.F. Contribuição da análise do discurso
para uma análise documentária: o caso da documentação
GARDIN, l-C. La logique du pausible. Paris: Maison des
sciences de I'homme, 1981.
Transinformaçào,
v. 13, nQ I, p. 23-4\,
janciro/junho/200
I
ANÁLISE COMPARATIVA
GOMES, H.E. Q. indexador face às novas tecnologias de
informação. Trans-in-formação,
Campinas, v. I, n.2, p.
161-171, maio/ago. 1989.
GOMES, Henriette Ferreira. ° ambiente informacional e
suas tecnologias na construção dos sentidos e significados.
Ciência da Informação, Brasília, v.29, n.l, p.61-70,
jan.labr. 2000.
HERMANS, A. La définition des termes scientifiques.
Meta, v.34, n.3, p. 529-532.
ISO 704. Princípios e métodos da atividade termino1ógica,
1994. Proposta da norma brasileira.
ISO 1087. Terminologia - vocabulário, 1994. Proposta da
norma brasileira [trad. e adapto Grupo ABNT/IBICT]
KOBASHI, Nair Yumiko. Análise documentária:
metodologias para indexação e resumo.[s.l] : [s.n.], 1995.
KURAMOTO, Hélio. Uma abordagem alternativa para o
tratamento e a recuperação de informação: os sintagmas
nominais. Ciência da informação online, Brasília, v.25,
n.2, p. 1-17, 1996. Disponível na internet: <http://
www.ibict.br/cionline/250296/25029605.htm>
LANCASTER, F.W. Indexação e resumos: teoria e prática.
Briquet de Lemos/Livros. 1993.
LARA, Marilda Lopes Ginez de. Linguagens documentárias:
instrumentos de mediação e comunicação. Revista Brasileira
de Biblioteconomia e Documentação, São Paulo, v.26,
11.1/2,p. 72-80, jan.ljun. 1993.
. Representação e linguagens documentárias: bases teórico-metodológicas. São Paulo: M.L.G.
Lara. 1999. Tese (Doutorado em Ciência da Comunicação) - Escola de Comunicação e Artes, Universidade de
São Paulo.
Transinformaçào,
E DE CONSISTÊNCIA
41
ENTRE...
LIMA, Vânia M.A. Comunicação
e representação
documentária. São Paulo: APB, 1999. (Ensaios APB, 62).
MAMFRIM, Flávia Pereira Braga. Representação de
conteúdo via indexação automática em textos integrais em
língua portuguesa. Ciência da Informação, Brasília, v.20,
n. 2, p. 191-203,jul./dez. 1991.
NA VARRO, Sanderlei. Interface entre lingüística e
indexação: revisão de literatura. Revista Brasileira de
Biblioteconomia e Documentação, São Paulo, v.21, n. 1/2,
p.46-62, jan.ljun. 1988.
NOVELLINO, Maria Salet Ferreira. A linguagem como
meio de representação ou de comunicação da informação.
Perspectivas em Ciência da Informação, Belo Horizonte,
v.3, n.l, p. 137-146,jul./dez. 1998
ROBREDO, Jaime. A indexação automática de textos: o
presente já entrou no futuro. In: MACHADO, U.D. Estudos
avançados de Biblioteconomia e Ciência da Informação.
Brasília: ABDF, 1982.
. Indexação automática de textos: uma
abordagem otimizada e simples. Ciência da Informação,
Brasília, v.20, n. 2, p.130- 136, jul/dez. 1991.
RODRIGUES, Willame Santos. Auxílio da lingüística na
construção de linguagens documentárias:
conceitos
uti lizados no arranjo dos termos. São Paulo, 1999.
[Trabalho apresentado
à disciplina Linguagem de
Indexação 11- Faculdade de Biblioteconomia e Ciência
da Informação].
ROLE, François. De Ia lettre au sens: les recherche en texte
integral. Documentaliste, v.30, n. 3, p. 140-146, 1993.
TÁLAMO, Maria de Fátima Gonçalves Moreira. Linguagem
documentária. São Paulo: APB, 1997. (Ensaios APB ; 45)
v. 13, n2 I, p. 23-41, janciro/junho/200
I