Mineria de Texto
Mineria de Texto
Mineria de Texto
INTRODUCCION
Estamos en una era del conocimiento, donde la gran parte de conocimiento existe en forma
de lenguaje natural: libros, artículos, revistas científicas, etc. La posesión de toda esta
información dependerá de nuestra habilidad para hacer ciertas operaciones con esta
mecanismos que permitan a las computadoras entender el lenguaje natural, aunque también
Se han creado nuevas herramientas para facilitar el acceso al cúmulo de información que se
genera diariamente. Una de las más utilizadas a nivel organizacional es la minería de texto
datos, particularmente datos no estructurados como los textos, tomando cada vez más
Existe mucha semejanza con la minería de datos la diferencia es que este analiza datos
datos no estructurados
Minería de texto (Text Mining)
una colección de textos. Estos patrones no deben de existir explícitamente en ningún texto de la
Kodratoff, 1999).
Text mining es una herramienta empírica que tiene la capacidad de identificar nueva
documentos no estructurados.
data mining para la aplicación en text mining, pero el conjunto de datos proveniente de los
documentos de textos necesita un tratamiento previo. Para aplicar text mining a grandes
textos y almacenar la información de una forma estructurada. (Hotho & Nurnberger, 2005)
características, selección de patrones y los pasos de evaluación son parte del proceso de minería
herramientas de minería tradicionales y técnicas. Han mostrado las aplicaciones del texto proceso
los problemas que ocurren durante el proceso de minería de texto. Sin embargo, existen muchos
Las técnicas de la minería textual adoptan una serie de técnicas procedentes de la recuperación
Clustering
Categorización automática.
Pre-procesamiento de los documentos Esta técnica consiste en extraer las palabras utilizadas en
vacías, carentes de significado, como son preposiciones, artículos, conjunciones, etc. Sin
embargo, no todos los autores coinciden en la conveniencia de eliminar las palabras vacías.
Un aspecto importante en el pre-procesamiento es la identificación de los llamados “segmentos
repetidos” o “frases”. Es decir, secuencias de palabras que aparecen contiguas en el texto y que
usadas de esta forma tienen un significado especial. Normalmente, las aplicaciones de indexación
y recuperación textual han prestado poca atención a este problema y han tendido a dividir los
formular búsquedas con operadores adyacentes (del tipo “recuperar los documentos que
segmentos de repetición.
como cantidades monetarias y fechas es una de las principales funciones que debe satisfacer la
minería textual. Además, la minería textual también debería permitirnos identificar las relaciones
que existen entre estos nombres propios. Un tema más complejo es la extracción de las relaciones
que existen entre los términos. En este sentido, es necesario recurrir a técnicas de parsing y
análisis sintáctico de las sentencias, para identificar los verbos que sirven de nexo entre los
posición de cada elemento es significativa en un modelo vectorial, cada termino que aparece en
día de hoy, tanto en los sistemas de indexación como en las aplicaciones de minería textual, es el
vectorial.
Análisis de clusters.
de objetos en una serie de grupos predefinidos con anterioridad. En el caso del análisis de cluster
no existirán grupos predefinidos a los que haya que asignar los objetos durante el proceso de
mismo cluster o grupo serán más similares entre sí, que con los patrones que pertenecen al resto
de los grupos.
Categorización automática.
Esta técnica se utiliza en la minería textual para clasificar documentos en una serie de categorías
Multilabel un mismo documento podrá asignarse a más de una categoría. En ambos casos se
entre ellos. Entre las técnicas utilizadas por la minería de textos se encuentra la extracción de
El diagrama de Venn
dos grafos conceptuales, y después de presentan algunos métodos para descubrir patrones