Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
MARÍA AGUJETAS Y PEDRO SÁNCHEZ-PRIETO Scriptum digital Vol. 11 (2022), pp. 5-54 NUEVAS VÍAS PARA LA RECUPERACIÓN DE INFORMACIÓN EN CORPUS HISTÓRICOS: CLASIFICACIÓN DEL VOCABULARIO María Agujetas Ortiz (Universidad de Alcalá) m.agujetas@edu.uah.es ORCID-iD: http://orcid.org/0000-0002-5859-584X Pedro Sánchez-Prieto Borja (Universidad de Alcalá) pedro.sanchezp@uah.es ORCID-iD: https://orcid.org/0000-0001-7264-3986 RESUMEN El objetivo de este artículo es explorar la aplicación de modelos ontológicos en corpus diacronicos, ensayada en el subcorpus CN de CODEA; para ello, se ha procedido a la lematización interactiva y los lemas resultantes se han clasificado en una estructura jerárquica de tres niveles, próxima a las de las taxonomías. Los vínculos semánticos entre palabras vienen reforzados por su presencia, a veces, en más de un campo nocional. Se ha explorado también la navegación por raíces léxicas, estableciendo así asociaciones inmediatas entre palabras formalmente relacionadas. De esta manera, será posible la recuperación de información semántica, lo que constituirá un avance significativo respecto de las búsquedas meramente formales. PALABRAS CLAVE: Historia de la lengua española, corpus lingüísticos, humanidades digitales, ontología, taxonomía, lexicología NEW TECHNIQUES FOR INFORMATION RETRIEVAL IN HISTORICAL CORPORA: VOCABULARY CLASSIFICATION ABSTRACT The aim of this paper is to explore the application of ontological models in diachronic corpora. It has been tested in the CN subcorpora of CODEA. First of all, interactive lemmatisation has been carried out; the resulting lemmas have then been classified in a three-level hierarchical structure, similar to taxonomies. The semantic links between words are reinforced by their presence in more than one notional field. Navigation through lexical roots has also been explored, allowing the immediate associations are established between formally related words. In this way, the retrieval of semantic information will be possible, which will constitute significant progress compared with purely formal searches. KEY WORDS: History of the Spanish language, linguistic corpora, digital Humanities, ontology, taxonomy, lexicology INTRODUCCIÓN El objeto de este trabajo es proporcionar una serie de recursos que faciliten la tarea de recuperar información dentro de corpus lingüísticos; en nuestro caso, pensamos en CODEA, pero la intención es que sea aplicable a cualquier otro corpus, particularmente, diacrónico. El proceso de recuperación quiere suponer un salto desde el plano formal al semántico, puesto que hasta ahora los corpus lingüsiticos proporcionan, sobre todo, Fecha de recepción: 18/10/2022 Fecha de aceptación: 6/12/2022 ISSN: 2014-640X MARÍA AGUJETAS Y PEDRO SÁNCHEZ-PRIETO Scriptum digital Vol. 11 (2022), pp. 5-54 recursos formales1, mientras que ha sido menos frecuente disponer de herramientas capaces de obtener información semántica. Para ello, el primer paso es lematizar el vocabulario del corpus, aunque no se alcance una fiabilidad absoluta2. El siguiente peldaño es superar la ambigüedad semántica, al menos, entre homónimos de diferentes categoriales gramaticales, como poder (v) y poder (n), que podría llevarse a cabo automáticamente, pero, en nuestro caso, todo el texto se ha procesado de manera interactiva. Nuestro punto de partida es la lematización del corpus CODEA que elabora el grupo GITHE de la UAH; este objetivo se ha cumplido en un 93% cuando escribimos estas líneas. Según se verá, hemos llevado a cabo una clasificación nocional del léxico, de la que quedan excluidas las palabras gramaticales. Todo el vocabulario del corpus se encuadra en clases organizadas en diferentes niveles: Sociedad> Sociedad y comunidad> Urbanismo> acera, adarve, arrabal, atajea, etc. El objetivo final es llegar a la interacción entre palabras, marcando los haces de significado compartidos, como entre vaso y vino que, a pesar de incluirse en clases nocionales diferentes (Hogar y Alimentación, respectivamente), están relacionadas entre sí. Una regla sencilla nos permite identificar relaciones similares a las que se observan entre estas palabras; lo difícil será conectar todos los téminos del corpus de acuerdo con las exigencias de la Web Semántica. Las páginas que siguen quieren mostrar qué camino hemos recorrido, en qué punto nos encontramos y dónde se nos antoja, de momento, imposible ir. 1. ORGANIZACIÓN DEL CONOCIMIENTO: TESAURO, TAXONOMÍA Y ONTOLOGÍA La escasez de antecedentes en la organización del vocabulario de los corpus lingüísticos ha dificultado nuestra tarea. A pesar de todo, ha prevalecido la voluntad de situar cada vocablo en el espacio asociativo correspondiente. En palabras de García Marco y Esteban (1993), la mente humana tiende a organizar y estructurar el mundo que la rodea, y para ello el lenguaje es la herramienta por excelencia. Tres son los recursos fundamentales en la clasificación del vocabulario: tesauros, taxonomías y ontologías. De entre estos tres Sistemas de Organización del Conocimiento (SOC), son los dos primeros los que han conocido un desarrollo técnico y aplicación más completo. Por ejemplo, la búsqueda de secuencias por caracteres (tokens); también son usuales las consultas por secuencia inicial, medial y final. P. ej., en CODEA el * (asterisco) sustituye a cualquier secuencia de caracteres (trux* para recuperar trux-eren, trux-o, trux-esen, etc.). La búsqueda de secuencias puramente gráficas seguirá teniendo plena validez, pues será el usuario el que determine el valor del recurso; p, ej. *nt permite obtener los restos de morfología latina (sunt) o las muestras de apócope extrema (puent). La tarea viene facilitada por el hecho de que las partes en latín llevan una marca que las excluye del texto romance. 2 Un caso es el lema franco, adjetivo en «e que las dichas justicias fagan pregonar el dicho mercado franco en la manera que dicha es por las plaças, e mercados e otros logares» (Toledo 1465, CODEA 2184) y sustantivo en «don Ponz, don Pere Ponz, don Ponz, doña Jurdana, francos de Sangüessa» (Navarra 1262, CODEA 0863). 1 6