Procesamiento Del Lenguaje Natural
Procesamiento Del Lenguaje Natural
Procesamiento Del Lenguaje Natural
INFORMACIÓN Y LA COMUNICACIÓN EN
LA ENSEÑANZA Y EL TRATAMIENTO DE
LENGUAS
TRABAJO FINAL
31-01-2023
ÍNDICE
1. INTRODUCCIÓN .................................................................................................... 2
3. METODOLOGÍA ..................................................................................................... 5
4. CONCLUSIONES .................................................................................................. 40
5. BIBLIOGRAFÍA ..................................................................................................... 41
1
1. INTRODUCCIÓN
En segundo lugar, se detallarán una serie de pasos que se deberán seguir para
aplicar la biografía de tres personajes célebres germanoparlantes en el análisis semántico
y en la extracción de relaciones a partir de la herramienta CoreNLP y PowerShell de
Windows. A través de la aplicación del módulo KBP a las biografías y a la lista de
relaciones el estudiante adquirirá una serie de conocimientos básicos en el uso de este
tipo de herramientas del PLN. Las indicaciones que se deberán seguir en cada parte se
detallarán posteriormente paso a paso con el apoyo de capturas de pantalla para facilitar
la explicación y aclaración de los contenidos y de las tareas que se deben realizar.
2
2. ESTADO DE LA CUESTIÓN
que implique un uso y entrenamiento pasivo u activo de la lengua extranjera que se está
aprendiendo.
El procesamiento del lenguaje natural está formado por dos partes: Natural
Language Understanding y Natural Language Generation. El Natural Language
Understanding (NLU) equivale a los distintos conocimientos lingüísticos que engloban
una lengua y que están directamente relacionados con el aprendizaje de le lenguas
extranjeras. Es por ello que merece la pena mencionar los distintos componentes que
forman el NLU: fonología, morfología, léxico, sintaxis, semántica, discurso, pragmática.
El presente trabajo se centrará especialmente en el léxico, sintaxis y morfología de la
lengua (Khurana et al., 2022, p.3).
Asimismo, más autores destacan el trabajo y el progreso de PLN dentro del área
lingüística de la sintaxis y el desarrollo de técnicas de análisis (Sparck-Jones, 1994, p.14)
o los distintos sistemas de modelado creados partir del PLN. Es decir, en relación con lo
anterior, el modeling o modelado consiste en analizar, descodificar y generar vectores de
cada parte de las frases de una oración. Y dentro del modelado existen tres tipos: el
Sequence-to-sequence, el Word Embedding y el Sentence Embedding (Zhou et al., 2020).
Por otro lado, como se ha mencionado anteriormente este trabajo pretende crear
un punto de unión entre el PLN y el aprendizaje; autores como Zhou et al. (2020) proponen
los siguientes distintos tipos de aprendizaje a partir del PLN: aprendizaje dirigido,
aprendizaje semidirigido y no dirigido, aprendizaje de multitarea, aprendizaje activo y
aprendizaje de modelo preconfigurado y transferencia.
En esta misma línea Llisterri (2003) ofrece una clasificación de las tecnologías
lingüísticas, entre las que se encuentran, las tecnologías del habla, los recursos
lingüísticos y las tecnologías del texto escrito. Dentro de estas últimas se encuentran las
herramientas para el tratamiento del texto de ayuda a la escritura o de análisis lingüístico.
Las herramientas para el tratamiento del texto de análisis lingüístico son, por ejemplo,
3
herramientas de análisis léxico y sintáctico, como el demostrado de Stanford CoreNLP
que se empleará posteriormente.
Además, dentro de las tecnologías lingüísticas del texto escrito existen las
herramientas del PLN de generación y comprensión del lenguaje, de traducción automática
y de recuperación y extracción de la información (Llisterri, 2003). La extracción de
relaciones que se trata en el siguiente apartado forma parte de esta extracción de
información.
También cabe mencionar el trabajo reciente de Jurafsky & Martin (2021) que
aborda, entre muchos aspectos del PLN, el análisis de dependencias y constituyentes que
se llevan a cabo en la metodología. Se tratan de análisis sintácticos que forman parte del
proceso lingüístico en el que se determina la estructura sintáctica interna de la oración a
través del etiquetado morfosintáctico de cada elemento. Este proceso resulta
imprescindible para realizar un análisis sintáctico de una oración en el PLN.
4
constituyentes de la oración y su estructura no están conectados de manera directa, sino
que presentan una relación binaria asimétrica entre sus términos, a partir del núcleo hacia
sus dependientes, por lo que las relaciones están etiquetadas (Jurafsky & Martin, 2021).
3. METODOLOGÍA
A continuación, se expondrán las dos tareas que forman la unidad didáctica propuesta,
cuyo objetivo general y principal es la familiarización de herramientas del PLN, al mismo
tiempo que se trabajan conocimientos del alemán como lengua extranjera.
En esta primera parte se propone al estudiante realizar una serie de tareas utilizando el
demostrador de Stanford CoreNLP. Los principales objetivos de esta parte es la
familiarización con esta herramienta y el trabajo de análisis sintáctico de oraciones en
alemán y en español, así como su análisis contrastivo. Esto resulta especialmente
5
interesante y útil ya que los conocimientos en sintaxis juegan un papel relevante en el
estudio de la lengua alemana.
6
4. Escribir primero la oración en español y realizar el análisis de dependencias:
5. Analizar los resultados obtenidos del análisis de dependencias y abrir una nueva
pestaña de CoreNLP para realizar la búsqueda de la oración en alemán:
7
6. Obtener los resultados del análisis de dependencias de la oración en alemán:
7. Observar los resultados obtenidos y fijarse en las relaciones binarias entre las
dependencias de los términos que forman la oración en las dos lenguas:
8
8. Comparar del análisis léxico, morfológico y sintáctico en ambas lenguas y obtener
los resultados:
Como se puede contemplar, el sujeto en la lengua alemana suele ir en primera o tercera
posición y sin posibilidad a elidirse, mientras que en español puede elidirse y es flexible
en cuanto a su posición en la oración. Es decir, o bien no aparece o bien aparece en a la
posición que el emisor lo desee:
9
10. Analizar los resultados obtenidos y el esquema de árbol:
Tal y como se puede contemplar la estructura del árbol difiere de un idioma a otro. El
esquema de la oración en español presenta un mayor tamaño. Esto se debe probablemente
a la naturaleza en sí de la lengua española que emplea un mayor número de palabras y
preposiciones para expresar una idea. Mientras que la tendencia de la lengua alemana es
juntar términos para crear nuevas palabras y usar preposiciones con menos frecuencia.
De esta manera para expresar un mismo significado se adquiere en español un mayor
número de constituyentes. Por ejemplo:
11
11. Comparar los resultados obtenidos y llevar a cabo un análisis exhaustivo de los
constituyentes de la oración en alemán. Por ejemplo, el uso de la mayúscula en los
sustantivos en la lengua alemana o la existencia de las declinaciones y los casos para
señalar los complementos de una oración:
Fijarse en an (preposición que rige dativo en este caso) + dem (artículo determinado
masculino dativo) = am
asociación = Leseverein
universidad = Universität
12
Como se ha expuesto en la primera parte de la tarea, se detalla a continuación paso
por paso las acciones que el estudiante debe llevar a cabo para realizar exitosamente la
propuesta didáctica:
13
2. Ejecución de Java a partir del PowerShell de Windows:
14
3. Se ejecuta a partir de la carpeta en la que se encuentra el archivo descargado, en
este caso Descargas:
15
4. Búsqueda y descarga de la lengua española y alemana para CoreNLP dentro de la
carpeta de Stanford:
16
6. A continuación, el estudiante debe documentarse sobre biografías de personajes famosos
de algún país germanoparlante:
Rosa Luxemburg
Emilie Flöge
Immanuel Kant
19
10. Se comprueba que los documentos se han descargado adecuadamente. Se abre el
archivo de texto a través de la aplicación de Bloc de notas:
20
21
11. Una vez que ya se tiene las biografías de Wikipedia descargadas en formato .txt
se vuelve al PowerShell y se pasa a ejecutarlas para generar el análisis semántico y la
extracción de relaciones. Al mismo tiempo se procesa el archivo de salida con el formato
texto .txt.out. Se vuelve a abrir la ventana de PowerShell y se continua con los pasos
siguientes:
22
23
24
25
12. Si se ha realizado adecuadamente el análisis semántico y la minería de textos a
través de la extracción de relaciones se obtiene el siguiente documento de salida con el
formato .txt.out:
26
27
28
13. Como puede comprobarse en el documento generado de salida se contemplan los
tokens y los análisis lingüísticos. Debido a que los datos de la biografía eran extensos el
documento obtenido también lo es, por lo que no se muestran capturas de la totalidad de
su extensión.
14. A continuación, se pasa a la ejecución y la obtención de los documentos de las
otras dos biografías. En estas no se ha logrado el documento deseado en el primer intento,
a pesar de haber seguido los mismos pasos. No obstante, resulta interesante mostrar a los
estudiantes estos intentos fallidos, pues señalan posibles casos de resultados que podrían
obtener. Un resultado no exitoso es importante para aprender de los errores, pues el
29
estudiante debe tener en cuenta que la obtención de fallos es normal y que la
familiarización con el programa que se alcanza en estos casos también es relevante.
15. Las siguientes capturas muestran como el procedimiento se ha llevado a cabo
adecuadamente pero aparentemente ha aparecido el fallo en la memoria del software:
30
16. Si el estudiante obtiene estos resultados una posible solución es modificar el
parámetro de la línea de comandos -Xmx4g por -Xmx8g. Esto ampliaría la memoria del
procesamiento de archivos:
31
17. La siguiente captura muestra como tras haber realizado numerosos intentos
cambiando el parámetro de la línea de comandos en cuanto a la memoria y tras haber
esperado un par de horas se han obtenido los resultados deseados en cuanto a la extracción
de relaciones y el análisis semántico. El tiempo de espera ha resultado tan largo debido al
tamaño de los archivos con los que se trabaja:
32
33
18. Finalmente se comprueba si se ha generado correctamente el documento de salida
con el formato de texto .txt.out:
34
35
36
37
38
19. Si se fija en el tamaño de los distintos documentos de salida se puede comprobar
como la talla de este segundo es bastante superior, lo que explica que se haya tenido que
esperar aproximadamente dos horas para procesar el archivo de salida:
39
4. CONCLUSIONES
Una vez finalizadas las dos partes de la propuesta didáctica se da por finalizada la tarea a
través de una autoevaluación del estudiante. Se propone al estudiante realizar una
reflexión propia de los ejercicios llevados a cabo con el fin de ser consciente y de exponer
sus puntos fuertes y débiles. Es decir, saber reconocer dónde se han encontrado mayores
dificultades y dónde se ha conseguido alcanzar la tarea con éxito.
40
aprendizaje a partir de los fallos cometidos y de la autocrítica constructiva, que juegan un
papel relevante en el proceso de aprendizaje.
5. BIBLIOGRAFÍA
Khurana, D., Koli, A., Khatter, K. et al. (2022). Natural language processing: state of the
art, current trends and challenges. Multimed Tools and Applications.
Zhou, M., Duan, N. et al. (2020). Progress in Neural NLP: Modeling, Learning, and
Reasoning, Engineering, vol.6, pp. 275-290.
41