El objetivo principal de la asignatura es presentar las técnicas más comunes en el procesado del diálogo y la voz. Durante el curso veremos los principales métodos, desde sistemas basados en reglas, hasta sistemas basados en deep learning que aprender de corpus de millones de ejemplos. Al final de la asignatura, los alumnos podrán comprender el funcionamiento de sistemas de diálogo como los asistentes telefónicos, asistentes virtuales (como Alexa o Siri) o chatbots como ChatGPT.
Profesorado
Responsable
Carlos Escolano Peinado (
)
Otros
Jordi Luque Serrano (
)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
6
Competencias
Competencias Transversales
Transversales
CT1 - Emprendimiento e innovación. Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio.
CT2 - Sostenibilidad y Compromiso Social. Conocer y comprender la complejidad de los fenómenos económicos y sociales típicos de la sociedad del bienestar; tener capacidad para relacionar el bienestar con la globalización y la sostenibilidad; lograr habilidades para utilizar de forma equilibrada y compatible la técnica, la tecnología, la economía y la sostenibilidad.
CT6 [Avaluable] - Aprendizaje autónomo. Detectar deficiencias en el propio conocimiento y superarlas mediante la reflexión crítica y la elección de la mejor actuación para ampliar dicho conocimiento.
CT8 - Perspectiva de género. Conocer y comprender, desde el propio ámbito de la titulación, las desigualdades por razón de sexo y género en la sociedad; integrar las diferentes necesidades y preferencias por razón de sexo y de género en el diseño de soluciones y resolución de problemas.
Básicas
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.
CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a un público tanto especializado como no especializado.
CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía
Competencias Técnicas
Específicas
CE14 - Dominar los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación, incluido la robótica.
CE15 - Adquirir, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación,percepción y actuación en ambientes o entornos inteligentes.
CE16 - Diseñar y evaluar interfaces persona-máquina que garanticen la accesibilidad y usabilidad de los sistemas, servicios y aplicaciones informáticas.
CE17 - Desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona-computadora y persona-robot.
CE18 - Adquirir y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
CE27 - Diseñar y aplicar técnicas de procesado de la voz, de reconocimiento del lenguaje hablado y comprensión del lenguaje humano, con aplicación en la inteligencia artificial social.
Competencias Técnicas Genéricas
Genéricas
CG3 - Definir, evaluar y seleccionar plataformas hardware y software para el desarrollo y la ejecución de sistemas, servicios y aplicaciones informáticas en el ámbito de la inteligencia artificial.
CG4 - Razonar, analizando la realidad y diseñando algoritmos y formulaciones que la modelen. Identificar problemas y construir soluciones algorítmicas o matemáticas válidas, eventualmente nuevas, integrando el conocimiento multidisciplinar necesario, valorando distintas alternativas con espíritu crítico, justificando las decisiones tomadas, interpretando y sintetizando los resultados en el contexto del dominio de aplicación y estableciendo generalizaciones metodológicas a partir de aplicaciones concretas.
CG5 - Trabajar en equipos y proyectos multidisciplinares relacionados con la inteligencia artificial y la robótica, interactuando fluidamente con ingenieros/as y profesionales de otras disciplinas.
CG6 - Identificar oportunidades para aplicaciones innovadoras de la inteligencia artificial y la robótica en entornos tecnológicos en continua evolución.
CG7 - Interpretar y aplicar la legislación vigente, así como especificaciones, reglamentos y normas en el ámbito de la inteligencia artificial.
CG8 - Observar un ejercicio ético de la profesión en todas sus facetas, aplicando criterios éticos en el diseño de sistemas,algoritmos, experimentos, utilización de datos, de acuerdo con los sistemas éticos recomendados por los organismos nacionales e internacionales, con especial énfasis en seguridad, robustez, privacidad, transparencia, trazabilidad, prevención de sesgos (de raza, género, religión, territorio, etc.) y respeto a los derechos humanos.
CG9 - Afrontar nuevos retos con una visión amplia de las posibilidades de la carrera profesional en el ámbito de la Inteligencia Artificial. Desarrollar la actividad aplicando criterios de calidad y mejora continua, y actuar con rigor en el desarrollo profesional. Adaptarse a los cambios organizativos o tecnológicos. Trabajar en situaciones de carencia de información y/o con restricciones temporales y/o de recursos.
Objetivos
Entender las teorias y técnicas fundamentales asociadas al procesamineto i la generación de diálogo
Competencias relacionadas:
CG3,
CG5,
CG6,
CT6,
CB3,
CB4,
CE14,
CE17,
Entender las teorías i las técnicas fundamentales asociadas al procesamiento de la voz y el habla.
Competencias relacionadas:
CE27,
CG3,
CG5,
CT6,
CB2,
CB3,
CB4,
CE14,
CE17,
Conocer los recursos y aplicaciones más relevantes del Procesado y Generación de Diálogo.
Competencias relacionadas:
CE27,
CG3,
CG4,
CG5,
CG6,
CT6,
CT8,
CB3,
CB4,
CB5,
CE15,
Desarrollar programas para resolver tareas particuales del area del Procesado del Diálogo y el Habla.
Competencias relacionadas:
CE27,
CG5,
CG7,
CG8,
CG9,
CT1,
CT2,
CT6,
CT8,
CB2,
CB3,
CE14,
CE16,
CE18,
Contenidos
Introducción
Introducción a los contenidos de la asignatura y al procesamiento de la voz y el diálogo.
Sistemas basados en reglas.
Sistemas de diálogo basados en reglas creadas manualmente.
Sistemas basados en corpus: Frame-based y retrieval.
Sistemas de dialogo estadísticos basados en un corpus de ejemplos.
Sistemas de diálogo basados en Deep Learning
Introducción a los modelos seq2seq, Transformer y su aplicación al diálogo.
Consideraciones éticas y política de diálogo.
Posibles riesgos de los sistemas de diálogo i técnicas para mitigarlos.
Procesamiento de voz.
Técnicas para transformar la voz y poder usarla en nuestros sistemas.
Reconocimiento automático del habla.
Métodos de reconocimiento de voz basados en Deep Learning.
Sistemas de texto a voz.
Sistemas de generación de voz a partir de texto usando Deep Learning.
Actividades
ActividadActo evaluativo
Sesión Introductoria
Introducción a los conceptos de diálogo y el procesado del lenguaje. También se revisarán conceptos básicos del procesado del lenguaje necesarios para realizar la asignatura (tokenización y embeddings).
Teoría: Explicar los objetivos y evaluación de la assignatura i revisal conceptos básicos de procesado del lenguaje natural.
Laboratorio: Presentar las práctica que se realizarán durante la asignatura.
Corpus-based dialog systems: Retrieval and frame-bases systems.
En aquesta activitat s'explicaràn els sistemes basats en un corpus d'exemples i les seves principals diferències amb els sistemes basats en regles. Dins d'aquests nous sistemes, ens centrarem en sistemes que recuperen exemples d'una base d'exemples (retrieval) i de sistemes generatius a partir de frames (frame-based).
Teoría: En esta actividad se explicarán los sistemas basados en un corpus de ejemplos y sus principales diferencias con los sistemas basados en reglas. Dentro de estos nuevos sistemas, nos centraremos en los sistemas que recuperan ejemplos de una base de ejemplos (retrieval) y los sistemas generativos a partir de frames (frame-based).
El curso profundiza en los conceptos de Procesamiento del Lenguaje Humano, ampliándolos a tareas de diálogo. Además, introduce una nueva modalidad de datos, el habla, y cómo se pueden combinar ambas tareas a la hora de crear nuestros sistemas.
Las clases están organizadas en sesiones de teoría y laboratorio. En las clases de teoría, el profesor presentará los conceptos a los alumnos combinándolos con ejercicios y preguntas para realizar las clases más interactivas y asegurar que los alumnos adquieren los conceptos de la asignatura. En las clases del laboratorio, los alumnos trabajan en grupos de forma autónoma para aplicar a datos reales los conceptos que han visto en clase. Estas tareas incluyen sesiones de laboratorio donde los alumnos pueden realizar consultas y resolver sus dudas, con trabajo autónomo para desarrollar sus sistemas. Se valoró la capacidad de los alumnos para investigar y encontrar nuevas soluciones a los problemas propuestos. Además, al final de la asignatura los alumnos tendrán que probar su capacidad para alcanzar nuevo conocimiento autónomamente, haciendo una presentación de un artículo de investigación sobre uno de los temas tratados en la asignatura.
La parte teórica de la asignatura se evaluará a partir de dos exámenes. El primer examen parcial se centrará en el blog de diálogo (Contenidos 1-5). El segundo examen (Final) evaluará el segundo bloque de procesamiento del habla (Contenidos 6-8). En este examen se incluirán ejercicios que combinen el habla con el diálogo para evaluar cómo los alumnos han adquirido los conocimientos de ambos bloques.
Sobre la parte de laboratorio, las tres actividades tendrán el mismo peso, un 15% del total de la asignatura. Los alumnos tendrán alrededor de cuatro semanas para realizarlas. El objetivo es evaluar cómo los alumnos aplican a la práctica los contenidos vistos en clase así como su capacidad de solucionar problemas y trabajar en equipo.
Finalmente, al final del curso los alumnos tendrán que escoger un artículo sobre el procesamiento del diálogo o la voz y hacer una presentación en clase. El objetivo de esta tarea es evaluar su capacidad de analizar nueva información y ser capaces de lograr un nuevo conocimiento de la materia, autónomamente.
Evaluación de las competencias.
La evaluación de la competencia sobre uso autónomo de la información se realizará con la presentación oral del artículo científico (10%). Los alumnos tendrán que ser capaces de extraer sus conclusiones sobre un nuevo trabajo relacionado con los temas vistos en clase.
Reevaluación.
Únicamente los estudiantes que se han presentado a los exámenes y hayan suspendido se pueden presentar a la reevaluación. La nota máxima que se puede obtener en la reevaluación es un 7.
Bibliografía
Básica:
Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition -
Jurafsky, Dan; Martin, James H,
Els autors, 2019.
Para poder realizar esta asignatura, es recomendable haber cursado anteriormente las siguientes asignaturas:
XNDL-IA: En esta asignatura, se explican los fundamentos de deep learning, incluyendo redes recurrentes. Conocer estos temas es necesario para comprender cómo funcionan los modelos basados en arquitecturas Seq2Seq, estado del arte tanto en procesamiento de la voz como del diálogo.
PLH-IA: Esta asignatura explica los fundamentos del procesamiento del lenguaje humano. Conceptos como el preprocesamiento del texto para reducir ambigüedades o la representación continua del texto son necesarios para poder desarrollar los sistemas que estudiaremos en la asignatura.