Mineria de Texto

Parsing:métodos computacionales para el análisis formal de lenguajes naturales
INTRODUCCION
Estamos en una era del conocimiento, donde la gran parte de conocimiento existe en forma
de lenguaje natural: libros, artículos, revistas científicas, etc. La posesión de toda esta
información dependerá de nuestra habilidad para hacer ciertas operaciones con esta
información, por ejemplo, buscaremos información interesante en diferentes medios, luego
pasaremos a comparar las fuentes de información y resumir grandes conjuntos de
información. La lingüística computacional se enfoca principalmente en el diseño de los
mecanismos que permitan a las computadoras entender el lenguaje natural, aunque también
considera varias tareas relacionadas con el procesamiento de información textual.
Se han creado nuevas herramientas para facilitar el acceso al cúmulo de información que se
genera diariamente. Una de las más utilizadas a nivel organizacional es la minería de texto
(Text Mining) que ofrece a la organización la posibilidad de explorar grandes cantidades de
textos, no organizados en forma de datos, establecer patrones y extraer conocimientos útiles.
actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de
datos, particularmente datos no estructurados como los textos, tomando cada vez más
protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento.
Existe mucha semejanza con la minería de datos la diferencia es que este analiza datos
estructurados en grandes repositorios de base de datos relacionales y la minería de texto analiza
datos no estructurados
Minería de texto (Text Mining)
La minería de texto es el área de investigación más reciente del procesamiento automático de
textos. Ella se define como el proceso automático de descubrimiento de patrones interesantes en
una colección de textos. Estos patrones no deben de existir explícitamente en ningún texto de la
colección, y deben de surgir de relacionar el contenido de varios de ellos. (Hearst, 1999;
Kodratoff, 1999).
La minería de texto recoge muchas técnicas formuladas en el ámbito de la recuperación textual.
Text mining es una herramienta empírica que tiene la capacidad de identificar nueva
información o patrones significativos que no son evidentes a partir de una colección de
documentos no estructurados.
En principio se puede utilizar cualquiera de los métodos de clasificación estándar usado en
data mining para la aplicación en text mining, pero el conjunto de datos proveniente de los
documentos de textos necesita un tratamiento previo. Para aplicar text mining a grandes
colecciones de documentos es necesario realizar un preprocesamiento de los documentos de
textos y almacenar la información de una forma estructurada. (Hotho & Nurnberger, 2005)
La recolección, extracción, preprocesamiento, transformación de texto, extracción de
características, selección de patrones y los pasos de evaluación son parte del proceso de minería
de texto. Adicionalmente, diferentes técnicas de minería de texto ampliamente utilizadas, es
decir, agrupación, la categorización del árbol de decisión y su aplicación en diversos campos.

Los problemas en aplicaciones y técnicas de minería de texto. Discutieron que lidiar con texto
no estructurado es difícil en comparación a datos estructurados o tabulares utilizando
herramientas de minería tradicionales y técnicas. Han mostrado las aplicaciones del texto proceso
minero en bioinformática, inteligencia de negocios y sistema de seguridad nacional
procesamiento de lenguaje natural y las técnicas de reconocimiento de entidades han reducido
los problemas que ocurren durante el proceso de minería de texto. Sin embargo, existen muchos
problemas que necesita atención.
ETAPAS DE LA MINERIA DE TEXTO
Las técnicas de la minería textual adoptan una serie de técnicas procedentes de la recuperación
de información y de la lingüística computacional. Estas técnicas incluyen:
 Pre-procesamiento de los documentos
 Identificación de nombres propios.
 Representación de los documentos mediante el modelo vectorial.
 Clustering
 Categorización automática.
 Relaciones entre términos y conceptos.
Pre-procesamiento de los documentos Esta técnica consiste en extraer las palabras utilizadas en
un documento, o segmentar el texto en distintas formas gráficas (Etxeberría, p. 146)
Una tarea habitual en el pre-procesamiento de los documentos es la eliminación de palabras
vacías, carentes de significado, como son preposiciones, artículos, conjunciones, etc. Sin
embargo, no todos los autores coinciden en la conveniencia de eliminar las palabras vacías.
Un aspecto importante en el pre-procesamiento es la identificación de los llamados “segmentos
repetidos” o “frases”. Es decir, secuencias de palabras que aparecen contiguas en el texto y que
usadas de esta forma tienen un significado especial. Normalmente, las aplicaciones de indexación
y recuperación textual han prestado poca atención a este problema y han tendido a dividir los
segmentos de repetición potenciales. Este enfoque es lógico: si un sistema de indexación permite
formular búsquedas con operadores adyacentes (del tipo “recuperar los documentos que
contengan la palabra marketing seguida de la palabra relacional”), no es necesario identificar los
segmentos de repetición.
Identificación de nombres propios.
La extracción de nombres propios relativos a personas, organizaciones, eventos, funciones, así
como cantidades monetarias y fechas es una de las principales funciones que debe satisfacer la
minería textual. Además, la minería textual también debería permitirnos identificar las relaciones
que existen entre estos nombres propios. Un tema más complejo es la extracción de las relaciones
que existen entre los términos. En este sentido, es necesario recurrir a técnicas de parsing y
análisis sintáctico de las sentencias, para identificar los verbos que sirven de nexo entre los
nombres propios y tratar de deducir así posibles relaciones.
Representación de documentos mediante el modelo vectorial.
Un vector es una estructura consistente en un numero fijo de elementos o componentes, la
posición de cada elemento es significativa en un modelo vectorial, cada termino que aparece en
el documento, será un componente del vector, el método de recuperación se da a traves de la
distancia que hay entre los vectores correspondientes

Una premisa en cualquier aplicación de recuperación y tratamiento documental es la necesidad
de representar el contenido de los documentos mediante un modelo. El modelo generalizado a
día de hoy, tanto en los sistemas de indexación como en las aplicaciones de minería textual, es el
vectorial.
Análisis de clusters.
Es una clasificación no supervisada, en la clasificación supervisada se debe ordenar un conjunto
de objetos en una serie de grupos predefinidos con anterioridad. En el caso del análisis de cluster
no existirán grupos predefinidos a los que haya que asignar los objetos durante el proceso de
clasificación. en clusters o grupos en base a su similitud. Aquellos patrones que pertenezcan a un
mismo cluster o grupo serán más similares entre sí, que con los patrones que pertenecen al resto
de los grupos.
Categorización automática.
Esta técnica se utiliza en la minería textual para clasificar documentos en una serie de categorías
preestablecidas. Su origen se remonta a la década de los sesenta (Maron, 1961).
Existen dos tipos de categorización: single-label y de multilabel.
Single-label se asignará cada documento a una única categoría.
Multilabel un mismo documento podrá asignarse a más de una categoría. En ambos casos se
procederá de forma similar. Así, en el caso de la categorización multilabel el proceso de clasificar
un documento en una serie de categorías puede tratarse como problemas independientes
consistentes en saber si se debe clasificar al documento en la categoría primera, segunda...
Relaciones entre términos y conceptos.

Esta técnica se centra en la extracción de términos y conceptos y las relaciones existentes
entre ellos. Entre las técnicas utilizadas por la minería de textos se encuentra la extracción de
términos o conceptos y la identificación de relaciones entre estos términos. En apartados
anteriores nos hemos referido a la extracción de términos y a su ponderación para identificar
aquellos que resulten más significativos del contenido de los documentos.
El diagrama de Venn
Para la interrelación entre las técnicas de minería de texto y su núcleo funcionalidad
clasificación de documentos (clasificación de texto, estandarización de documentos),
recuperación de información (búsqueda de palabras clave / consulta e indexación),
agrupación de documentos (agrupación de frases), procesamiento del lenguaje natural
(corrección ortográfica, lematización, análisis gramatical y desambiguación de sentido de las
palabras), extracción de información (extracción de relaciones / análisis de enlaces), y
minería web (análisis de enlaces web).
Minería de datos utilizando grafos contextuales
La minería de texto a nivel detalle basado en el uso de representaciones semánticas –grafos
conceptuales– de los documentos. Primero se definen los criterios para la comparación de
dos grafos conceptuales, y después de presentan algunos métodos para descubrir patrones
interesantes (grupos, asociaciones y desviaciones) en una colección de grafos conceptuales.
(Sowa and Way, 1986; Sowa, 1999).

Mineria de Texto

Cargado por

Copyright:

Formatos disponibles

Mineria de Texto

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Texto

Cargado por

Copyright:

Formatos disponibles

Parsing:métodos computacionales para el análisis formal de lenguajes naturales

información, por ejemplo, buscaremos información interesante en diferentes medios, luego

pasaremos a comparar las fuentes de información y resumir grandes conjuntos de

información. La lingüística computacional se enfoca principalmente en el diseño de los

considera varias tareas relacionadas con el procesamiento de información textual.

(Text Mining) que ofrece a la organización la posibilidad de explorar grandes cantidades de

textos, no organizados en forma de datos, establecer patrones y extraer conocimientos útiles.

actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de

protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento.

estructurados en grandes repositorios de base de datos relacionales y la minería de texto analiza

La minería de texto es el área de investigación más reciente del procesamiento automático de

textos. Ella se define como el proceso automático de descubrimiento de patrones interesantes en

colección, y deben de surgir de relacionar el contenido de varios de ellos. (Hearst, 1999;

La minería de texto recoge muchas técnicas formuladas en el ámbito de la recuperación textual.

información o patrones significativos que no son evidentes a partir de una colección de

En principio se puede utilizar cualquiera de los métodos de clasificación estándar usado en

colecciones de documentos es necesario realizar un preprocesamiento de los documentos de

La recolección, extracción, preprocesamiento, transformación de texto, extracción de

de texto. Adicionalmente, diferentes técnicas de minería de texto ampliamente utilizadas, es

decir, agrupación, la categorización del árbol de decisión y su aplicación en diversos campos.

no estructurado es difícil en comparación a datos estructurados o tabulares utilizando

minero en bioinformática, inteligencia de negocios y sistema de seguridad nacional

procesamiento de lenguaje natural y las técnicas de reconocimiento de entidades han reducido

problemas que necesita atención.

ETAPAS DE LA MINERIA DE TEXTO

de información y de la lingüística computacional. Estas técnicas incluyen:

 Pre-procesamiento de los documentos

 Identificación de nombres propios.

 Representación de los documentos mediante el modelo vectorial.

 Relaciones entre términos y conceptos.

un documento, o segmentar el texto en distintas formas gráficas (Etxeberría, p. 146)

Una tarea habitual en el pre-procesamiento de los documentos es la eliminación de palabras

segmentos de repetición potenciales. Este enfoque es lógico: si un sistema de indexación permite

contengan la palabra marketing seguida de la palabra relacional”), no es necesario identificar los

Identificación de nombres propios.

La extracción de nombres propios relativos a personas, organizaciones, eventos, funciones, así

nombres propios y tratar de deducir así posibles relaciones.

Representación de documentos mediante el modelo vectorial.

Un vector es una estructura consistente en un numero fijo de elementos o componentes, la

el documento, será un componente del vector, el método de recuperación se da a traves de la

distancia que hay entre los vectores correspondientes

de representar el contenido de los documentos mediante un modelo. El modelo generalizado a

Es una clasificación no supervisada, en la clasificación supervisada se debe ordenar un conjunto

clasificación. en clusters o grupos en base a su similitud. Aquellos patrones que pertenezcan a un

preestablecidas. Su origen se remonta a la década de los sesenta (Maron, 1961).

Existen dos tipos de categorización: single-label y de multilabel.

Single-label se asignará cada documento a una única categoría.

procederá de forma similar. Así, en el caso de la categorización multilabel el proceso de clasificar

un documento en una serie de categorías puede tratarse como problemas independientes

consistentes en saber si se debe clasificar al documento en la categoría primera, segunda...

Relaciones entre términos y conceptos.

términos o conceptos y la identificación de relaciones entre estos términos. En apartados

anteriores nos hemos referido a la extracción de términos y a su ponderación para identificar

aquellos que resulten más significativos del contenido de los documentos.

Para la interrelación entre las técnicas de minería de texto y su núcleo funcionalidad

clasificación de documentos (clasificación de texto, estandarización de documentos),

recuperación de información (búsqueda de palabras clave / consulta e indexación),

agrupación de documentos (agrupación de frases), procesamiento del lenguaje natural

(corrección ortográfica, lematización, análisis gramatical y desambiguación de sentido de las