Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Mineria de Texto

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

Parsing:métodos computacionales para el análisis formal de lenguajes naturales

INTRODUCCION
Estamos en una era del conocimiento, donde la gran parte de conocimiento existe en forma

de lenguaje natural: libros, artículos, revistas científicas, etc. La posesión de toda esta

información dependerá de nuestra habilidad para hacer ciertas operaciones con esta

información, por ejemplo, buscaremos información interesante en diferentes medios, luego

pasaremos a comparar las fuentes de información y resumir grandes conjuntos de

información. La lingüística computacional se enfoca principalmente en el diseño de los

mecanismos que permitan a las computadoras entender el lenguaje natural, aunque también

considera varias tareas relacionadas con el procesamiento de información textual.

Se han creado nuevas herramientas para facilitar el acceso al cúmulo de información que se

genera diariamente. Una de las más utilizadas a nivel organizacional es la minería de texto

(Text Mining) que ofrece a la organización la posibilidad de explorar grandes cantidades de

textos, no organizados en forma de datos, establecer patrones y extraer conocimientos útiles.

actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de

datos, particularmente datos no estructurados como los textos, tomando cada vez más

protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento.

Existe mucha semejanza con la minería de datos la diferencia es que este analiza datos

estructurados en grandes repositorios de base de datos relacionales y la minería de texto analiza

datos no estructurados
Minería de texto (Text Mining)

La minería de texto es el área de investigación más reciente del procesamiento automático de

textos. Ella se define como el proceso automático de descubrimiento de patrones interesantes en

una colección de textos. Estos patrones no deben de existir explícitamente en ningún texto de la

colección, y deben de surgir de relacionar el contenido de varios de ellos. (Hearst, 1999;

Kodratoff, 1999).

La minería de texto recoge muchas técnicas formuladas en el ámbito de la recuperación textual.

Text mining es una herramienta empírica que tiene la capacidad de identificar nueva

información o patrones significativos que no son evidentes a partir de una colección de

documentos no estructurados.

En principio se puede utilizar cualquiera de los métodos de clasificación estándar usado en

data mining para la aplicación en text mining, pero el conjunto de datos proveniente de los

documentos de textos necesita un tratamiento previo. Para aplicar text mining a grandes

colecciones de documentos es necesario realizar un preprocesamiento de los documentos de

textos y almacenar la información de una forma estructurada. (Hotho & Nurnberger, 2005)

La recolección, extracción, preprocesamiento, transformación de texto, extracción de

características, selección de patrones y los pasos de evaluación son parte del proceso de minería

de texto. Adicionalmente, diferentes técnicas de minería de texto ampliamente utilizadas, es

decir, agrupación, la categorización del árbol de decisión y su aplicación en diversos campos.


Los problemas en aplicaciones y técnicas de minería de texto. Discutieron que lidiar con texto

no estructurado es difícil en comparación a datos estructurados o tabulares utilizando

herramientas de minería tradicionales y técnicas. Han mostrado las aplicaciones del texto proceso

minero en bioinformática, inteligencia de negocios y sistema de seguridad nacional

procesamiento de lenguaje natural y las técnicas de reconocimiento de entidades han reducido

los problemas que ocurren durante el proceso de minería de texto. Sin embargo, existen muchos

problemas que necesita atención.

ETAPAS DE LA MINERIA DE TEXTO

Las técnicas de la minería textual adoptan una serie de técnicas procedentes de la recuperación

de información y de la lingüística computacional. Estas técnicas incluyen:

 Pre-procesamiento de los documentos

 Identificación de nombres propios.

 Representación de los documentos mediante el modelo vectorial.

 Clustering

 Categorización automática.

 Relaciones entre términos y conceptos.

Pre-procesamiento de los documentos Esta técnica consiste en extraer las palabras utilizadas en

un documento, o segmentar el texto en distintas formas gráficas (Etxeberría, p. 146)

Una tarea habitual en el pre-procesamiento de los documentos es la eliminación de palabras

vacías, carentes de significado, como son preposiciones, artículos, conjunciones, etc. Sin

embargo, no todos los autores coinciden en la conveniencia de eliminar las palabras vacías.
Un aspecto importante en el pre-procesamiento es la identificación de los llamados “segmentos

repetidos” o “frases”. Es decir, secuencias de palabras que aparecen contiguas en el texto y que

usadas de esta forma tienen un significado especial. Normalmente, las aplicaciones de indexación

y recuperación textual han prestado poca atención a este problema y han tendido a dividir los

segmentos de repetición potenciales. Este enfoque es lógico: si un sistema de indexación permite

formular búsquedas con operadores adyacentes (del tipo “recuperar los documentos que

contengan la palabra marketing seguida de la palabra relacional”), no es necesario identificar los

segmentos de repetición.

Identificación de nombres propios.

La extracción de nombres propios relativos a personas, organizaciones, eventos, funciones, así

como cantidades monetarias y fechas es una de las principales funciones que debe satisfacer la

minería textual. Además, la minería textual también debería permitirnos identificar las relaciones

que existen entre estos nombres propios. Un tema más complejo es la extracción de las relaciones

que existen entre los términos. En este sentido, es necesario recurrir a técnicas de parsing y

análisis sintáctico de las sentencias, para identificar los verbos que sirven de nexo entre los

nombres propios y tratar de deducir así posibles relaciones.

Representación de documentos mediante el modelo vectorial.

Un vector es una estructura consistente en un numero fijo de elementos o componentes, la

posición de cada elemento es significativa en un modelo vectorial, cada termino que aparece en

el documento, será un componente del vector, el método de recuperación se da a traves de la

distancia que hay entre los vectores correspondientes


Una premisa en cualquier aplicación de recuperación y tratamiento documental es la necesidad

de representar el contenido de los documentos mediante un modelo. El modelo generalizado a

día de hoy, tanto en los sistemas de indexación como en las aplicaciones de minería textual, es el

vectorial.

Análisis de clusters.

Es una clasificación no supervisada, en la clasificación supervisada se debe ordenar un conjunto

de objetos en una serie de grupos predefinidos con anterioridad. En el caso del análisis de cluster

no existirán grupos predefinidos a los que haya que asignar los objetos durante el proceso de

clasificación. en clusters o grupos en base a su similitud. Aquellos patrones que pertenezcan a un

mismo cluster o grupo serán más similares entre sí, que con los patrones que pertenecen al resto

de los grupos.

Categorización automática.

Esta técnica se utiliza en la minería textual para clasificar documentos en una serie de categorías

preestablecidas. Su origen se remonta a la década de los sesenta (Maron, 1961).

Existen dos tipos de categorización: single-label y de multilabel.

Single-label se asignará cada documento a una única categoría.

Multilabel un mismo documento podrá asignarse a más de una categoría. En ambos casos se

procederá de forma similar. Así, en el caso de la categorización multilabel el proceso de clasificar

un documento en una serie de categorías puede tratarse como problemas independientes

consistentes en saber si se debe clasificar al documento en la categoría primera, segunda...

Relaciones entre términos y conceptos.


Esta técnica se centra en la extracción de términos y conceptos y las relaciones existentes

entre ellos. Entre las técnicas utilizadas por la minería de textos se encuentra la extracción de

términos o conceptos y la identificación de relaciones entre estos términos. En apartados

anteriores nos hemos referido a la extracción de términos y a su ponderación para identificar

aquellos que resulten más significativos del contenido de los documentos.

El diagrama de Venn

Para la interrelación entre las técnicas de minería de texto y su núcleo funcionalidad

clasificación de documentos (clasificación de texto, estandarización de documentos),

recuperación de información (búsqueda de palabras clave / consulta e indexación),

agrupación de documentos (agrupación de frases), procesamiento del lenguaje natural

(corrección ortográfica, lematización, análisis gramatical y desambiguación de sentido de las

palabras), extracción de información (extracción de relaciones / análisis de enlaces), y

minería web (análisis de enlaces web).

Minería de datos utilizando grafos contextuales

La minería de texto a nivel detalle basado en el uso de representaciones semánticas –grafos

conceptuales– de los documentos. Primero se definen los criterios para la comparación de

dos grafos conceptuales, y después de presentan algunos métodos para descubrir patrones

interesantes (grupos, asociaciones y desviaciones) en una colección de grafos conceptuales.

(Sowa and Way, 1986; Sowa, 1999).

También podría gustarte