Este curso es una introducción a las tareas, aplicaciones, técnicas y recursos más relevantes usados en el proceso del lenguaje natural (PLN) basado en métodos empíricos, básicamente estadísticos y basados en aprendizaje anutomático.
Horas semanales
Teoría
3
Problemas
0
Laboratorio
0
Aprendizaje dirigido
0.6
Aprendizaje autónomo
6.4
Objetivos
Justificar la pertinencia de aplicar determinada técnica estadística al abordaje de determinada tarea de PLN.
Competencias relacionadas:
CG1,
CG3,
CB6,
CB7,
CEC1,
CEC2,
CEC3,
CTR4,
CTR6,
Evaluar la utilidad de la inclusión de determinados componentes estadísticos en determinadas aplicaciones de PLN para resolver determinadas tareas de PLN
Competencias relacionadas:
CG3,
CEC3,
Búsqueda y selección de recursos y procesadores estadísticos de PLN para ser usados en tareas y aplicaciones de PLN.
Competencias relacionadas:
CG3,
CB7,
CB9,
CEC1,
CEC2,
CEC3,
CTR4,
Diseño e implementación de nuevos componentes de PLN, adaptación de componentes ya existentes e integración en una aplicación de PLN.
Competencias relacionadas:
CG3,
CB6,
CB9,
CEC2,
CEC3,
CTR4,
Contenidos
Introducción
PLN vs Lingüística Computacional vs Tecnologia de la lengua
Métodos basados en el conocimiento vs mètodos empíricos
Recursos
Recursos Léxicos
Corpus
Gramàticas
Ontologias
Modelos de lenguaje
Introducción
Modelos basados en palabras, clases y sintagmas
Contenido de información
entropia
información mutua
entropia conjunta y condidional
información mutua pointwise
Kullback-Leibler divergence (KL)
modelos "Noise channel"
modelos de alineado
Applicación a tareas de PLN
Modelos de estados finitos
Autómatas de estados finitos y Gramáticas regulares
Transdurctores de estados finitos (FST)
Modelos de estados finitos probabilisticos
Aplicación a tareas de PLN
Modelos log-lineales y de máxima entropia
Problemas de clasificación MLE vs MEM
Modelos Generativos y condicionales (discriminativos).
MM y HMM.
CRF
Construcción de modelos de ME
Maximum Entropy Markov Models (MEMM)
Applicaciones al PLN
Modelos para el análisis sintáctico
Análisis sintáctico de constituyentes
Stochastic Context Free Grammars (SCFG)
Modelps probabilísticos más ricos
Aplicaciones al PLN.
Syntactic parsing
Semantic parsing
Análisis sintácticoc de dependencias
Aprendizaje automático supervisado para PLN
Problemas de Clasificación.
Margin-based classifiers: Perceptron, SVM, AdaBoost.
Kernel-based mehods.
Aprendizaje semi-supervisado
Bootstrapping
Aprendizaje no supervisado (agrupación)
Similitud
Agrupación jerárquica
Agrupación no jerárquica
Evaluación de la agrupación
Uso de técnicas estadísticas en aplicaciones de PLN
Traducción automàtica (MT) en detalle
Otras tareas (Part of Speech (POS) tagging, Named Entity Recognition and Classification (NERC), Mention detection & tracking, Coreference resolution, Text Alignment, Lexical Acquisition, Relation Extraction, Semantic Role Labeling (SRL), Word Sense Disambiguation (WSD)) y aplicaciones (Information Extraction (IE), Information Retrieval (IR), Question Answering (Q&A), Automatic Summarization, Sentiment Analysis, and Text Classification) sólo en forma resumida.
Actividades
ActividadActo evaluativo
Introducción
Introducción
asistencia a clase de teoria
Discusión y tutoría sobre el ejercicio Objetivos:2 Contenidos:
Los alumnos deberán resolver cada ejercicio fuera de las horas de clase aunque podrán recibir asesoramiento por parte del profesor.
Los alumnos deberán entregar su solución al cabo de dos semanas y recibirán la evaluación comentada Objetivos:4 Contenidos:
Examen final de la asignatura
El examen es presencial Objetivos:123 Semana:
16
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h
Metodología docente
La metodología docente es la siguiente:,
La materia está organizada en 9 temas. Per cada un de los temas habrá normalmente una clase de teoria (en algún cas0 más de una).
Adicionalmente, a lo largo del curso se propondrán 5 ejercicios relacionados con los temas.
Los ejercicios podrán ser de solución manual o implicar la construcción de algún pequeño programa.
Método de evaluación
La evaluaci és basa en dos componentes:
1) El 'examen final
2) Los 5 ejercicios que se proponen a lo largo del curso
La nota final se obtiene a partir de les notas de estos dos components.
El peso de los dos componentes es el mismo (50%).
El peso de cada uno de los 5 ejercicios es el mismo (20%).
Bibliografía
Básica:
Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition and Computational Linguistics -
Jurafsky, Daniel & Martin, James H.,
ISBN: 0131873210 http://www.cs.colorado.edu/~martin/slp.html