Procesamiento Del Lenguaje Natural

MÁSTER EN LAS TECNOLOGÍAS DE LA
INFORMACIÓN Y LA COMUNICACIÓN EN
LA ENSEÑANZA Y EL TRATAMIENTO DE
LENGUAS
PROCESAMIENTO DEL LENGUAJE

NATURAL
TRABAJO FINAL
Eva María Esteban Pérez
31-01-2023
ÍNDICE
1. INTRODUCCIÓN .................................................................................................... 2
2. ESTADO DE LA CUESTIÓN .................................................................................. 3
3. METODOLOGÍA ..................................................................................................... 5
1. Primera parte de la propuesta de unidad didáctica basada en el análisis de

dependencias y constituyentes ...................................................................................... 5
2. Segunda parte de la propuesta de unidad didáctica basada en el análisis semántico

y la extracción de relaciones ....................................................................................... 12
4. CONCLUSIONES .................................................................................................. 40
5. BIBLIOGRAFÍA ..................................................................................................... 41
1
1. INTRODUCCIÓN
En el presente trabajo se expondrá la elaboración de una unidad didáctica para estudiantes

de alemán como lengua extranjera que a su vez están interesados en el aprendizaje del
Procesamiento del lenguaje natural (PLN). De manera que el principal fin es combinar
estas dos áreas: la aplicación de herramientas del procesamiento del lenguaje natural en
el uso de una segunda lengua. Se propondrá a los estudiantes tareas que pongan en
práctica sus conocimientos de alemán mientras aprenden a usar recursos básicos del PLN.
La unidad didáctica se basará en las prácticas dos y tres elaboradas en la asignatura

de PLN pero enfocadas a la práctica del alemán como lengua extranjera o DaF (Deutsch
als Fremdsprache). Las actividades se realizarán tanto empleando esta lengua como la
lengua materna del estudiante (español en este caso). Estará formada por dos partes: en
la primera se trabajará el análisis sintáctico y léxico y en la segunda el análisis semántico
y la extracción de relaciones.
En primer lugar, se empleará el demostrador en línea CoreNLP versión 4.4.0 para

el procesar análisis sintáctico y léxico comparativo de la lengua alemana y española,
aplicado a la mejora de conocimientos sobre la sintaxis de la lengua germánica. Para ello
se analizará una oración en alemán y se compararán los resultados con su equivalente en
la lengua materna, abordando a la vez las diferencias entre el análisis de dependencias y
de constituyentes.
En segundo lugar, se detallarán una serie de pasos que se deberán seguir para
aplicar la biografía de tres personajes célebres germanoparlantes en el análisis semántico
y en la extracción de relaciones a partir de la herramienta CoreNLP y PowerShell de
Windows. A través de la aplicación del módulo KBP a las biografías y a la lista de
relaciones el estudiante adquirirá una serie de conocimientos básicos en el uso de este
tipo de herramientas del PLN. Las indicaciones que se deberán seguir en cada parte se
detallarán posteriormente paso a paso con el apoyo de capturas de pantalla para facilitar
la explicación y aclaración de los contenidos y de las tareas que se deben realizar.
2
2. ESTADO DE LA CUESTIÓN
La evolución de las Tecnologías de la información y de la comunicación (TIC) han llevado

consigo una evolución tanto en la enseñanza de lenguas extranjeras o L2 como en el
desarrollo del PLN. Hoy en día las herramientas a través de las cuáles aprender o practicar
una L2 son infinitas, pudiendo considerarse herramienta didáctica cualquier recurso TIC
que implique un uso y entrenamiento pasivo u activo de la lengua extranjera que se está
aprendiendo.
El procesamiento del lenguaje natural está formado por dos partes: Natural
Language Understanding y Natural Language Generation. El Natural Language
Understanding (NLU) equivale a los distintos conocimientos lingüísticos que engloban
una lengua y que están directamente relacionados con el aprendizaje de le lenguas
extranjeras. Es por ello que merece la pena mencionar los distintos componentes que
forman el NLU: fonología, morfología, léxico, sintaxis, semántica, discurso, pragmática.
El presente trabajo se centrará especialmente en el léxico, sintaxis y morfología de la
lengua (Khurana et al., 2022, p.3).
Asimismo, más autores destacan el trabajo y el progreso de PLN dentro del área
lingüística de la sintaxis y el desarrollo de técnicas de análisis (Sparck-Jones, 1994, p.14)
o los distintos sistemas de modelado creados partir del PLN. Es decir, en relación con lo
anterior, el modeling o modelado consiste en analizar, descodificar y generar vectores de
cada parte de las frases de una oración. Y dentro del modelado existen tres tipos: el
Sequence-to-sequence, el Word Embedding y el Sentence Embedding (Zhou et al., 2020).
Por otro lado, como se ha mencionado anteriormente este trabajo pretende crear
un punto de unión entre el PLN y el aprendizaje; autores como Zhou et al. (2020) proponen
los siguientes distintos tipos de aprendizaje a partir del PLN: aprendizaje dirigido,
aprendizaje semidirigido y no dirigido, aprendizaje de multitarea, aprendizaje activo y
aprendizaje de modelo preconfigurado y transferencia.
En esta misma línea Llisterri (2003) ofrece una clasificación de las tecnologías
lingüísticas, entre las que se encuentran, las tecnologías del habla, los recursos
lingüísticos y las tecnologías del texto escrito. Dentro de estas últimas se encuentran las
herramientas para el tratamiento del texto de ayuda a la escritura o de análisis lingüístico.
Las herramientas para el tratamiento del texto de análisis lingüístico son, por ejemplo,
3
herramientas de análisis léxico y sintáctico, como el demostrado de Stanford CoreNLP
que se empleará posteriormente.
Además, dentro de las tecnologías lingüísticas del texto escrito existen las
herramientas del PLN de generación y comprensión del lenguaje, de traducción automática
y de recuperación y extracción de la información (Llisterri, 2003). La extracción de
relaciones que se trata en el siguiente apartado forma parte de esta extracción de
información.
También cabe mencionar el trabajo reciente de Jurafsky & Martin (2021) que
aborda, entre muchos aspectos del PLN, el análisis de dependencias y constituyentes que
se llevan a cabo en la metodología. Se tratan de análisis sintácticos que forman parte del
proceso lingüístico en el que se determina la estructura sintáctica interna de la oración a
través del etiquetado morfosintáctico de cada elemento. Este proceso resulta
imprescindible para realizar un análisis sintáctico de una oración en el PLN.
El análisis de dependencias consta en detectar las relaciones internas entre los

elementos de la oración o entre cada palabra, mientras que en el análisis de constituyentes
la oración se divide en partes más pequeñas para llegar hasta las palabras y dar lugar a los
constituyentes. Es decir, en el análisis de constituyentes la oración se fracciona en cada
uno de los componentes por los que está formada. Si se tiene en cuenta la estructura de la
lengua extranjera a la que se va a recurrir en la propuesta de este trabajo, es decir, el
alemán, cabe señalar que el análisis de dependencias resulta más interesante desde una
perspectiva didáctica (Jurafsky & Martin, 2021).
A pesar de ser complejo, el resultado obtenido a partir del análisis de dependencias

resulta más claro y práctico para un estudiante de DaF, pues la comprensión de la
estructura sintáctica de una oración tal y como se presenta en este tipo de análisis es
crucial en el buen uso y en la comprensión de la lengua alemana. Precisamente en alemán
la posición de cada termino o unidad de la oración juega un papel importante y
previamente premeditado, es decir, la posición de los elementos en la oración es clave en
el empleo correcto de esta lengua, a diferencia de otras lenguas románicas como el
español o el francés (Jurafsky & Martin, 2021).
Una de las características propias de estos modelos de análisis es el concepto de

relación binaria entre palabras que describe la estructura sintáctica de una oración. Los
4
constituyentes de la oración y su estructura no están conectados de manera directa, sino
que presentan una relación binaria asimétrica entre sus términos, a partir del núcleo hacia
sus dependientes, por lo que las relaciones están etiquetadas (Jurafsky & Martin, 2021).
En cuanto al análisis de constituyentes cabe señalar que fue popularizado por

Bloomfield y formalizado posteriormente por Chomsky. Asimismo, es relevante destacar
que en este proceso de análisis los componentes se segmentan clasificándose a su vez en
categorías gramaticales, por lo que hace que sea interesante esta tarea para aplicarla a un
uso didáctico. Esta característica es también propia del análisis de dependencias.
En cuanto a su representación, a diferencia del análisis de dependencias que

presenta una estructura más propia de los análisis sintácticos más comunes, el análisis de
constituyentes se muestra con un esquema en forma de árbol más espacioso. También
cabe mencionar los elementos terminales y no terminales, pues se consideran otra de las
características de estos modelos de análisis sintáctico (Jurafsky & Martin, 2021).
3. METODOLOGÍA
A continuación, se expondrán las dos tareas que forman la unidad didáctica propuesta,
cuyo objetivo general y principal es la familiarización de herramientas del PLN, al mismo
tiempo que se trabajan conocimientos del alemán como lengua extranjera.
Asimismo, la principal motivación de los estudiantes consta de la introducción en

un ámbito desconocedor para ellos, es decir, no se considera que tengan conocimientos
previos en cuanto al PLN, por lo que el hecho de trabajar con recursos nuevos por primera
vez resulta novedoso para ellos. Así, descubrir el funcionamiento y la aplicación de estas
herramientas y emplearlas para mejorar conocimientos lingüísticos supone una gran
motivación para el estudiante.
1. Primera parte de la propuesta de unidad didáctica basada en el análisis de

dependencias y constituyentes
En esta primera parte se propone al estudiante realizar una serie de tareas utilizando el
demostrador de Stanford CoreNLP. Los principales objetivos de esta parte es la
familiarización con esta herramienta y el trabajo de análisis sintáctico de oraciones en
alemán y en español, así como su análisis contrastivo. Esto resulta especialmente
5
interesante y útil ya que los conocimientos en sintaxis juegan un papel relevante en el
estudio de la lengua alemana.
Así, en esta primera parte se pretende dar y mostrar un uso didáctico en el

aprendizaje de lenguas extranjeras, alemán en este caso, al demostrador en línea CoreNLP
versión 4.4.0. Y todo ello a través de la puesta en práctica de dos tipos de análisis
sintácticos: el análisis de dependencias y el de constituyentes, abordados anteriormente.
La tarea consiste en realizar un análisis sintáctico y léxico de tres oraciones en voz

activa tanto en español como en alemán para poder comparar y contrastar los resultados
obtenidos. Está basada en la segunda práctica realizada en la asignatura de PLN. A
continuación, se va a explicar y a detallar el procedimiento de la tarea mediante capturas
de pantalla que muestren un ejemplo de cada paso que hay que seguir.
1. Redacción de la oración en español y de su equivalente en alemán:

Me gusta leer, por eso formo parte de la asociación de lectura de la universidad.
Ich lese gern, deshalb nehme ich am Leseverein der Universität teil.
2. Búsqueda y apertura de la página web del demostrador:
Demostrador del Stanford CoreNLP: https://corenlp.run/
3. Modificar el idioma, primero se analizará la oración en español y después se

cambiará a la lengua alemana para analizar la oración en alemán:
6
4. Escribir primero la oración en español y realizar el análisis de dependencias:
5. Analizar los resultados obtenidos del análisis de dependencias y abrir una nueva
pestaña de CoreNLP para realizar la búsqueda de la oración en alemán:
7
6. Obtener los resultados del análisis de dependencias de la oración en alemán:
7. Observar los resultados obtenidos y fijarse en las relaciones binarias entre las
dependencias de los términos que forman la oración en las dos lenguas:
8
8. Comparar del análisis léxico, morfológico y sintáctico en ambas lenguas y obtener
los resultados:
Como se puede contemplar, el sujeto en la lengua alemana suele ir en primera o tercera
posición y sin posibilidad a elidirse, mientras que en español puede elidirse y es flexible
en cuanto a su posición en la oración. Es decir, o bien no aparece o bien aparece en a la
posición que el emisor lo desee:
(yo) formo parte de la asociación = deshalb nehme ich am Leseverein…teil
9. Pasar al análisis de constituyentes de las mismas oraciones en ambas lenguas:
9
10. Analizar los resultados obtenidos y el esquema de árbol:
Tal y como se puede contemplar la estructura del árbol difiere de un idioma a otro. El
esquema de la oración en español presenta un mayor tamaño. Esto se debe probablemente
a la naturaleza en sí de la lengua española que emplea un mayor número de palabras y
preposiciones para expresar una idea. Mientras que la tendencia de la lengua alemana es
juntar términos para crear nuevas palabras y usar preposiciones con menos frecuencia.
De esta manera para expresar un mismo significado se adquiere en español un mayor
número de constituyentes. Por ejemplo:
por eso (dos términos) = deshalb (un término)

10
de la asociación de lectura (cinco términos) = am Leseverein (dos términos)
de la universidad (tres términos) = der Universität (dos términos)
En el análisis se observa que en la estructura del español hay un total de diecisiete

constituyentes finales (en color amarillo), mientras que en de alemán hay catorce.
11
11. Comparar los resultados obtenidos y llevar a cabo un análisis exhaustivo de los
constituyentes de la oración en alemán. Por ejemplo, el uso de la mayúscula en los
sustantivos en la lengua alemana o la existencia de las declinaciones y los casos para
señalar los complementos de una oración:
Fijarse en an (preposición que rige dativo en este caso) + dem (artículo determinado
masculino dativo) = am
asociación = Leseverein
universidad = Universität
2. Segunda parte de la propuesta de unidad didáctica basada en el análisis

semántico y la extracción de relaciones
El principal objetivo de esta segunda parte consiste en la adquisición de una serie de

conocimientos básicos en el PLN, más concretamente en el empleo de CoreNLP,
PowerShell de Windows y Java.
También, con la propuesta de búsqueda de tres personajes germanoparlantes

célebres se busca lograr otro objetivo: familiarizarse o ser conocedores de biografías
importantes y mejorar la competencia cultural germanoparlante del estudiante. Esta tarea
se basa en la práctica número tres de la asignatura.
12
Como se ha expuesto en la primera parte de la tarea, se detalla a continuación paso
por paso las acciones que el estudiante debe llevar a cabo para realizar exitosamente la
propuesta didáctica:
1. Instalación y descarga de CoreNLP y Java:
13
2. Ejecución de Java a partir del PowerShell de Windows:
14
3. Se ejecuta a partir de la carpeta en la que se encuentra el archivo descargado, en
este caso Descargas:
15
4. Búsqueda y descarga de la lengua española y alemana para CoreNLP dentro de la
carpeta de Stanford:
5. Una vez descargados deben aparecer dentro de la carpeta de Stanford:
16
6. A continuación, el estudiante debe documentarse sobre biografías de personajes famosos
de algún país germanoparlante:
7. Tras reflexionar se procede a elegir tres personajes célebres germanoparlantes y se realiza

la búsqueda en alemán de sus biografías en la Wikipedia:
Rosa Luxemburg
Emilie Flöge
Immanuel Kant
8. Lectura de la introducción y de los datos más importantes de los personajes en alemán,

para familiarizarse y adquirir conocimientos básicos sobre ellos, al mismo tiempo que se
practica la comprensión escrita en la lengua extranjera:
17
18
9. Descarga de las biografías en alemán en formato texto o .txt dentro de la misma
carpeta de Stanford mencionada anteriormente (todos los documentos con los que se
trabajan se encuentran en esta carpeta creada a partir de la instalación de Stanford
CoreNLP):
19
10. Se comprueba que los documentos se han descargado adecuadamente. Se abre el
archivo de texto a través de la aplicación de Bloc de notas:
20
21
11. Una vez que ya se tiene las biografías de Wikipedia descargadas en formato .txt
se vuelve al PowerShell y se pasa a ejecutarlas para generar el análisis semántico y la
extracción de relaciones. Al mismo tiempo se procesa el archivo de salida con el formato
texto .txt.out. Se vuelve a abrir la ventana de PowerShell y se continua con los pasos
siguientes:
22
23
24
25
12. Si se ha realizado adecuadamente el análisis semántico y la minería de textos a
través de la extracción de relaciones se obtiene el siguiente documento de salida con el
formato .txt.out:
26
27
28
13. Como puede comprobarse en el documento generado de salida se contemplan los
tokens y los análisis lingüísticos. Debido a que los datos de la biografía eran extensos el
documento obtenido también lo es, por lo que no se muestran capturas de la totalidad de
su extensión.
14. A continuación, se pasa a la ejecución y la obtención de los documentos de las
otras dos biografías. En estas no se ha logrado el documento deseado en el primer intento,
a pesar de haber seguido los mismos pasos. No obstante, resulta interesante mostrar a los
estudiantes estos intentos fallidos, pues señalan posibles casos de resultados que podrían
obtener. Un resultado no exitoso es importante para aprender de los errores, pues el
29
estudiante debe tener en cuenta que la obtención de fallos es normal y que la
familiarización con el programa que se alcanza en estos casos también es relevante.
15. Las siguientes capturas muestran como el procedimiento se ha llevado a cabo
adecuadamente pero aparentemente ha aparecido el fallo en la memoria del software:
30
16. Si el estudiante obtiene estos resultados una posible solución es modificar el
parámetro de la línea de comandos -Xmx4g por -Xmx8g. Esto ampliaría la memoria del
procesamiento de archivos:
31
17. La siguiente captura muestra como tras haber realizado numerosos intentos
cambiando el parámetro de la línea de comandos en cuanto a la memoria y tras haber
esperado un par de horas se han obtenido los resultados deseados en cuanto a la extracción
de relaciones y el análisis semántico. El tiempo de espera ha resultado tan largo debido al
tamaño de los archivos con los que se trabaja:
32
33
18. Finalmente se comprueba si se ha generado correctamente el documento de salida
con el formato de texto .txt.out:
34
35
36
37
38
19. Si se fija en el tamaño de los distintos documentos de salida se puede comprobar
como la talla de este segundo es bastante superior, lo que explica que se haya tenido que
esperar aproximadamente dos horas para procesar el archivo de salida:
39
4. CONCLUSIONES
Una vez finalizadas las dos partes de la propuesta didáctica se da por finalizada la tarea a
través de una autoevaluación del estudiante. Se propone al estudiante realizar una
reflexión propia de los ejercicios llevados a cabo con el fin de ser consciente y de exponer
sus puntos fuertes y débiles. Es decir, saber reconocer dónde se han encontrado mayores
dificultades y dónde se ha conseguido alcanzar la tarea con éxito.
Asimismo, es importante evaluar en qué aspectos se ha aprendido más y se han

obtenido un mayor número de conocimientos. Por ejemplo, el estudiante puede
replantarse y preguntarse a sí mismo qué ha aprendido sobre las herramientas del PLN y
los análisis lingüísticos llevados a cabo, así como qué competencias lingüísticas de
alemán ha practicado y mejorado.
También se debe plantear si se han alcanzado adecuadamente los objetivos

propuestos al principio de este trabajo. A pesar de las dificultades y de los errores posibles
que se han obtenido, ¿se ha aprendido y se ha introducido al estudiante en el ámbito del
PLN? ¿se han puesto en práctica los conocimientos de DaF y se ha practicado el uso de la
lengua extranjera de manera pasiva? ¿se ha mejorado la cultura germanoparlante
aprendiendo sobre la biografía de personajes célebres?
De manera que a partir de la autoevaluación se lleva a cabo una introspección

sobre los avances y aprendizajes de las actividades realizadas. Cabe destacar el
40
aprendizaje a partir de los fallos cometidos y de la autocrítica constructiva, que juegan un
papel relevante en el proceso de aprendizaje.
En conclusión, se ha cumplido con el objetivo de combinar ambos campos, el PLN

y el tratamiento y aprendizaje de lengua extranjera, concretamente DaF, a través de la
propuesta didáctica formada por dos tareas que tratan el análisis lingüístico a partir de
herramientas del procesamiento del lenguaje natural.
5. BIBLIOGRAFÍA
Jurafsky, D. & Martin, J. (2021). Speech and Language Processing.
Khurana, D., Koli, A., Khatter, K. et al. (2022). Natural language processing: state of the
art, current trends and challenges. Multimed Tools and Applications.
Llisterri, J. (2003). Lingüística y tecnologías del lenguaje. Lynx. Panorámica de Estudios

Lingüísticos, 2, 9-71.
Sparck-Jones, K. (1994). Natural Language Processing: A Historical Review, Current

issues in computational linguistics, Linguistica Computazionale, vol. 9-10.
Zhou, M., Duan, N. et al. (2020). Progress in Neural NLP: Modeling, Learning, and
Reasoning, Engineering, vol.6, pp. 275-290.
41

Procesamiento Del Lenguaje Natural

Cargado por

Copyright:

Formatos disponibles

Procesamiento Del Lenguaje Natural

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Procesamiento Del Lenguaje Natural

Cargado por

Copyright:

Formatos disponibles

MÁSTER EN LAS TECNOLOGÍAS DE LA

PROCESAMIENTO DEL LENGUAJE

Eva María Esteban Pérez

2. ESTADO DE LA CUESTIÓN .................................................................................. 3

1. Primera parte de la propuesta de unidad didáctica basada en el análisis de

2. Segunda parte de la propuesta de unidad didáctica basada en el análisis semántico

En el presente trabajo se expondrá la elaboración de una unidad didáctica para estudiantes

La unidad didáctica se basará en las prácticas dos y tres elaboradas en la asignatura

En primer lugar, se empleará el demostrador en línea CoreNLP versión 4.4.0 para

La evolución de las Tecnologías de la información y de la comunicación (TIC) han llevado

El análisis de dependencias consta en detectar las relaciones internas entre los

A pesar de ser complejo, el resultado obtenido a partir del análisis de dependencias

Una de las características propias de estos modelos de análisis es el concepto de

En cuanto al análisis de constituyentes cabe señalar que fue popularizado por

En cuanto a su representación, a diferencia del análisis de dependencias que

Asimismo, la principal motivación de los estudiantes consta de la introducción en

1. Primera parte de la propuesta de unidad didáctica basada en el análisis de

Así, en esta primera parte se pretende dar y mostrar un uso didáctico en el

La tarea consiste en realizar un análisis sintáctico y léxico de tres oraciones en voz

1. Redacción de la oración en español y de su equivalente en alemán:

Demostrador del Stanford CoreNLP: https://corenlp.run/

3. Modificar el idioma, primero se analizará la oración en español y después se

(yo) formo parte de la asociación = deshalb nehme ich am Leseverein…teil

9. Pasar al análisis de constituyentes de las mismas oraciones en ambas lenguas:

por eso (dos términos) = deshalb (un término)

de la universidad (tres términos) = der Universität (dos términos)

En el análisis se observa que en la estructura del español hay un total de diecisiete

2. Segunda parte de la propuesta de unidad didáctica basada en el análisis

El principal objetivo de esta segunda parte consiste en la adquisición de una serie de

También, con la propuesta de búsqueda de tres personajes germanoparlantes

1. Instalación y descarga de CoreNLP y Java:

5. Una vez descargados deben aparecer dentro de la carpeta de Stanford:

7. Tras reflexionar se procede a elegir tres personajes célebres germanoparlantes y se realiza

8. Lectura de la introducción y de los datos más importantes de los personajes en alemán,

Asimismo, es importante evaluar en qué aspectos se ha aprendido más y se han

También se debe plantear si se han alcanzado adecuadamente los objetivos

De manera que a partir de la autoevaluación se lleva a cabo una introspección

En conclusión, se ha cumplido con el objetivo de combinar ambos campos, el PLN

Jurafsky, D. & Martin, J. (2021). Speech and Language Processing.

Llisterri, J. (2003). Lingüística y tecnologías del lenguaje. Lynx. Panorámica de Estudios

Sparck-Jones, K. (1994). Natural Language Processing: A Historical Review, Current

También podría gustarte