Este curso es una introducción a las tareas, aplicaciones, técnicas y recursos más relevantes usados en el proceso del lenguaje natural (PLN) basado en métodos empíricos, básicamente estadísticos y basados en aprendizaje anutomático.
Horas semanales
Teoría
3
Problemas
0
Laboratorio
0
Aprendizaje dirigido
0.6
Aprendizaje autónomo
6.4
Competencias
Competencias Técnicas Genéricas
Genéricas
CG1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
CG3 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.
Competencias Transversales
Uso solvente de los recursos de información
CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.
Razonamiento
CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.
Básicas
CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios
CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
Competencias Técnicas de cada especialidad
Específicas comunes
CEC1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
CEC2 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.
CEC3 - Capacidad para aplicar soluciones innovadoras y realizar avances en el conocimiento que exploten los nuevos paradigmas de la Informática, particularmente en entornos distribuidos.
Objetivos
Justificar la pertinencia de aplicar determinada técnica estadística al abordaje de determinada tarea de PLN.
Competencias relacionadas:
CG1,
CG3,
CB6,
CB7,
CEC1,
CEC2,
CEC3,
CTR4,
CTR6,
Evaluar la utilidad de la inclusión de determinados componentes estadísticos en determinadas aplicaciones de PLN para resolver determinadas tareas de PLN
Competencias relacionadas:
CG3,
CEC3,
Búsqueda y selección de recursos y procesadores estadísticos de PLN para ser usados en tareas y aplicaciones de PLN.
Competencias relacionadas:
CG3,
CB7,
CB9,
CEC1,
CEC2,
CEC3,
CTR4,
Diseño e implementación de nuevos componentes de PLN, adaptación de componentes ya existentes e integración en una aplicación de PLN.
Competencias relacionadas:
CG3,
CB6,
CB9,
CEC2,
CEC3,
CTR4,
Contenidos
Introducción
PLN vs Lingüística Computacional vs Tecnologia de la lengua
Métodos basados en el conocimiento vs mètodos empíricos
Recursos
Recursos Léxicos
Corpus
Gramàticas
Ontologias
Modelos de lenguaje
Introducción
Modelos basados en palabras, clases y sintagmas
Contenido de información
entropia
información mutua
entropia conjunta y condidional
información mutua pointwise
Kullback-Leibler divergence (KL)
modelos "Noise channel"
modelos de alineado
Applicación a tareas de PLN
Modelos de estados finitos
Autómatas de estados finitos y Gramáticas regulares
Transdurctores de estados finitos (FST)
Modelos de estados finitos probabilisticos
Aplicación a tareas de PLN
Modelos log-lineales y de máxima entropia
Problemas de clasificación MLE vs MEM
Modelos Generativos y condicionales (discriminativos).
MM y HMM.
CRF
Construcción de modelos de ME
Maximum Entropy Markov Models (MEMM)
Applicaciones al PLN
Modelos para el análisis sintáctico
Análisis sintáctico de constituyentes
Stochastic Context Free Grammars (SCFG)
Modelps probabilísticos más ricos
Aplicaciones al PLN.
Syntactic parsing
Semantic parsing
Análisis sintácticoc de dependencias
Aprendizaje automático supervisado para PLN
Problemas de Clasificación.
Margin-based classifiers: Perceptron, SVM, AdaBoost.
Kernel-based mehods.
Aprendizaje semi-supervisado
Bootstrapping
Aprendizaje no supervisado (agrupación)
Similitud
Agrupación jerárquica
Agrupación no jerárquica
Evaluación de la agrupación
Uso de técnicas estadísticas en aplicaciones de PLN
Traducción automàtica (MT) en detalle
Otras tareas (Part of Speech (POS) tagging, Named Entity Recognition and Classification (NERC), Mention detection & tracking, Coreference resolution, Text Alignment, Lexical Acquisition, Relation Extraction, Semantic Role Labeling (SRL), Word Sense Disambiguation (WSD)) y aplicaciones (Information Extraction (IE), Information Retrieval (IR), Question Answering (Q&A), Automatic Summarization, Sentiment Analysis, and Text Classification) sólo en forma resumida.
Actividades
ActividadActo evaluativo
Introducción
Introducción
asistencia a clase de teoria
Discusión y tutoría sobre el ejercicio Objetivos:2 Contenidos:
Los alumnos deberán resolver cada ejercicio fuera de las horas de clase aunque podrán recibir asesoramiento por parte del profesor.
Los alumnos deberán entregar su solución al cabo de dos semanas y recibirán la evaluación comentada Objetivos:4 Contenidos:
Examen final de la asignatura
El examen es presencial Objetivos:123 Semana:
16 Tipo:
examen final
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h
Metodología docente
La metodología docente es la siguiente:,
La materia está organizada en 9 temas. Per cada un de los temas habrá normalmente una clase de teoria (en algún cas0 más de una).
Adicionalmente, a lo largo del curso se propondrán 5 ejercicios relacionados con los temas.
Los ejercicios podrán ser de solución manual o implicar la construcción de algún pequeño programa.
Método de evaluación
La evaluaci és basa en dos componentes:
1) El 'examen final
2) Los 5 ejercicios que se proponen a lo largo del curso
La nota final se obtiene a partir de les notas de estos dos components.
El peso de los dos componentes es el mismo (50%).
El peso de cada uno de los 5 ejercicios es el mismo (20%).
Bibliografía
Básica:
Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition and Computational Linguistics -
Jurafsky, Daniel & Martin, James H.,
ISBN: 0131873210 http://www.cs.colorado.edu/~martin/slp.html