guia (4)
guia (4)
guia (4)
FICHA IDENTIFICATIVA
Datos de la Asignatura
Código 36429
Nombre Procesado del lenguaje natural
Ciclo Grado
Créditos ECTS 6.0
Curso académico 2024 - 2025
Titulación(es)
Titulación Centro Curso Periodo
1400 - Grado en Ingeniería Informática Escuela Técnica Superior de 4 Segundo
Ingeniería cuatrimestre
1406 - Grado en Ciencia de Datos Escuela Técnica Superior de 3 Segundo
Ingeniería cuatrimestre
Materias
Titulación Materia Carácter
1400 - Grado en Ingeniería Informática 16 - Materia Optativa Optativa
1406 - Grado en Ciencia de Datos 9 - Aprendizaje automático y minería Obligatoria
de datos
Coordinación
Nombre Departamento
VILA FRANCES, JOAN 242 - Ingeniería Electrónica
RESUMEN
Actualmente, gran parte de los datos disponibles para el análisis están formados por información no
estructurada en forma de textos en lenguaje natural. Entre esta información encontramos páginas web
(Wikipedia, periódicos digitales, blogs) o redes sociales (Facebook, Twitter). Poder analizar estos textos,
mediante algoritmos de procesado de lenguaje natural (PLN), resulta muy útil para que las organizaciones
puedan tomar mejores decisiones.
Los algoritmos de aprendizaje automático no son capaces de entender texto o caracteres, por lo que el
PLN realiza todo el procesado necesario para convertir estos datos en forma de texto en un formato
entendible por las máquinas (números) y así poder realizar todo tipo de análisis posterior. Entre las
aplicaciones más comunes del PLN se encuentran la clasificación de textos, búsqueda y extracción de
información, traducción automática o sistemas de respuesta automática, entre otros.
Todos los pasos del PLN, desde la captura del texto en cualquier formato a la manipulación y análisis de
este para obtener la información relevante, son abordados en la asignatura obligatoria 36429, Procesado
de Lenguaje Natural que se imparte en el segundo cuatrimestre del tercer curso.
Las clases de teoría se impartirán en castellano y las clases prácticas y de laboratorio según consta en la
ficha de la asignatura disponible en la web del grado.
CONOCIMIENTOS PREVIOS
- (CE07) Capacidad para modelar la dependencia entre una variable respuesta y varias variables
explicativas, en conjuntos de datos complejos, mediante técnicas de aprendizaje máquina,
interpretando los resultados obtenidos.
- (CB5) Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para
emprender estudios posteriores con un alto grado de autonomía.
Como consecuencia de los resultados de aprendizaje adquiridos, el alumnado adquirirá las siguientes
destrezas:
• Conocer y saber usar las librerías más importantes de PLN para Python.
• Ser capaz de convertir texto en vectores numéricos para su posterior tratamiento con algoritmos de
aprendizaje máquina.
• Ser capaz de analizar grandes volúmenes de texto para extraer sus temáticas más representativas y
realizar búsquedas de información.
DESCRIPCIÓN DE CONTENIDOS
3. Preprocesado de texto
3.1. División de texto (tokens)
3.2. Limpieza y normalización del texto
3.3. Análisis morfológico (lemmas)
3.4. Análisis semántico (Part of Speech)
3.5. Análisis gramatical (dependencias)
4. Extracción de características
4.1. Características simples
4.2. Modelo Bag of Words
4.3. Modelo TF-IDF
4.4. Vectores de palabra (Word embeddings)
4.5. Vectores de documento
VOLUMEN DE TRABAJO
ACTIVIDAD Horas % Presencial
Clases de teoría 30,00 100
Prácticas en laboratorio 20,00 100
Prácticas en aula 10,00 100
Elaboración de trabajos en grupo 10,00 0
Elaboración de trabajos individuales 10,00 0
Estudio y trabajo autónomo 15,00 0
Lecturas de material complementario 5,00 0
Preparación de actividades de evaluación 10,00 0
Preparación de clases de teoría 10,00 0
Preparación de clases prácticas y de problemas 10,00 0
Resolución de casos prácticos 15,00 0
Resolución de cuestionarios on-line 5,00 0
TOTAL 150,00
METODOLOGÍA DOCENTE
Además de las actividades presenciales, los estudiantes deberán realizar tareas personales (fuera del aula)
sobre: cuestiones y problemas, así como la preparación de clases y exámenes (estudio). Estas tareas se
realizarán principalmente de manera individual, con el fin de potenciar el trabajo autónomo, pero
adicionalmente se incluirán trabajos, especialmente la preparación y resolución de prácticas de
laboratorio, que requieran la participación de pequeños grupos de estudiantes (2-3) para fomentar la
capacidad de integración en grupos de trabajo.
Se utilizará la plataforma de e-learning (Aula Virtual) de la Universitat de València como soporte de
comunicación con el alumnado. A través de ella se tendrá acceso al material didáctico utilizado en clase y
los guiones de las prácticas de laboratorio, así como los problemas y ejercicios a resolver.
EVALUACIÓN
La evaluación del aprendizaje de los conocimientos y competencias conseguidas por los estudiantes se
hará de forma continuada a lo largo del curso, y constará de los siguientes bloques:
• SE1 - Prueba objetiva, consistente en un examen que consta tanto de cuestiones teórico-prácticas
como de problemas (evaluación de competencias CB05, CT05, CE03, CE07) (50%) (Nota: Todos
los porcentajes están referidos a la nota final)
La nota final de la asignatura se calculará como la media ponderada de cada uno de los apartados
anteriores, de acuerdo con el siguiente criterio: SE-1 (50%), SE-2 (35%), SE-3 (15%).
REFERENCIAS
Básicas
- Sohom Ghosh, Dwight Gunning. Natural Language Processing Fundamentals. Packt Publishing, 2019.
- Akshay Kulkarni, Adarsha Shivananda. Natural Language Processing Recipes: Unlocking Text Data
with Machine Learning and Deep Learning using Python. Apress, 2019 (disponible e-libro)
- Dipanjan Sarkar. Text Analytics with Python: A Practitioner's Guide to Natural Language Processing.
Apress 2019 (disponible e-libro)
- Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. OReally Media,
2009.
Complementarias
- Jacob Eisentein. Natural Language Processing. 2018 (disponible bajo licencia CC-BY-NC-ND)
- Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language
Processing. OReally Media, 2020