Procesamiento Estadístico del Lenguaje Natural

Usted está aquí

Créditos
6
Tipos
Complementaria de especialidad (Ciencia de los Datos)
Requisitos
Esta asignatura no tiene requisitos
Departamento
CS
Este curso es una introducción a las tareas, aplicaciones, técnicas y recursos más relevantes usados en el proceso del lenguaje natural (PLN) basado en métodos empíricos, básicamente estadísticos y basados en aprendizaje anutomático.

Profesores

Responsable

  • Horacio Rodríguez Hontoria ( )

Otros

  • Alicia Maria Ageno Pulido ( )
  • Jordi Turmo Borrás ( )
  • Lluis Padro Cirera ( )

Horas semanales

Teoría
3
Problemas
0
Laboratorio
0
Aprendizaje dirigido
0.6
Aprendizaje autónomo
6.4

Competencias

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CG3 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.

Competencias Transversales

Uso solvente de los recursos de información

  • CTR4 - Gestionar la adquisición, la estructuración, el análisis y la visualización de datos e información del ámbito de la ingeniería informática y valorar de forma crítica los resultados de esta gestión.

Razonamiento

  • CTR6 - Capacidad de razonamiento crítico, lógico y matemático. Capacidad para resolver problemas dentro de su área de estudio. Capacidad de abstracción: capacidad de crear y utilizar modelos que reflejen situaciones reales. Capacidad de diseñar y realizar experimentos sencillos, y analizar e interpretar sus resultados. Capacidad de análisis, síntesis y evaluación.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.

Competencias Técnicas de cada especialidad

Específicas comunes

  • CEC1 - Capacidad para aplicar el método científico en el estudio y análisis de fenómenos y sistemas en cualquier ámbito de la Informática, así como en la concepción, diseño e implantación de soluciones informáticas innovadoras y originales.
  • CEC2 - Capacidad para el modelado matemático, cálculo y diseño experimental en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación e innovación en todos los ámbitos de la Informática.
  • CEC3 - Capacidad para aplicar soluciones innovadoras y realizar avances en el conocimiento que exploten los nuevos paradigmas de la Informática, particularmente en entornos distribuidos.

Objetivos

  1. Justificar la pertinencia de aplicar determinada técnica estadística al abordaje de determinada tarea de PLN.
    Competencias relacionadas: CG1, CG3, CB6, CB7, CEC1, CEC2, CEC3, CTR4, CTR6,
  2. Evaluar la utilidad de la inclusión de determinados componentes estadísticos en determinadas aplicaciones de PLN para resolver determinadas tareas de PLN
    Competencias relacionadas: CG3, CEC3,
  3. Búsqueda y selección de recursos y procesadores estadísticos de PLN para ser usados en tareas y aplicaciones de PLN.
    Competencias relacionadas: CG3, CB7, CB9, CEC1, CEC2, CEC3, CTR4,
  4. Diseño e implementación de nuevos componentes de PLN, adaptación de componentes ya existentes e integración en una aplicación de PLN.
    Competencias relacionadas: CG3, CB6, CB9, CEC2, CEC3, CTR4,

Contenidos

  1. Introducción
    PLN vs Lingüística Computacional vs Tecnologia de la lengua
    Métodos basados en el conocimiento vs mètodos empíricos
    Recursos
    Recursos Léxicos
    Corpus
    Gramàticas
    Ontologias
  2. Modelos de lenguaje
    Introducción
    Modelos basados en palabras, clases y sintagmas
    Contenido de información
    entropia
    información mutua
    entropia conjunta y condidional
    información mutua pointwise
    Kullback-Leibler divergence (KL)
    modelos "Noise channel"
    modelos de alineado
    Applicación a tareas de PLN
  3. Modelos de estados finitos
    Autómatas de estados finitos y Gramáticas regulares
    Transdurctores de estados finitos (FST)
    Modelos de estados finitos probabilisticos
    Aplicación a tareas de PLN
  4. Modelos log-lineales y de máxima entropia
    Problemas de clasificación – MLE vs MEM
    Modelos Generativos y condicionales (discriminativos).
    MM y HMM.
    CRF
    Construcción de modelos de ME
    Maximum Entropy Markov Models (MEMM)
    Applicaciones al PLN
  5. Modelos para el análisis sintáctico
    Análisis sintáctico de constituyentes
    Stochastic Context Free Grammars (SCFG)
    Modelps probabilísticos más ricos
    Aplicaciones al PLN.
    Syntactic parsing
    Semantic parsing
    Análisis sintácticoc de dependencias
  6. Aprendizaje automático supervisado para PLN
    Problemas de Clasificación.
    Margin-based classifiers: Perceptron, SVM, AdaBoost.
    Kernel-based mehods.
  7. Aprendizaje semi-supervisado
    Bootstrapping
  8. Aprendizaje no supervisado (agrupación)
    Similitud
    Agrupación jerárquica
    Agrupación no jerárquica
    Evaluación de la agrupación
  9. Uso de técnicas estadísticas en aplicaciones de PLN
    Traducción automàtica (MT) en detalle
    Otras tareas (Part of Speech (POS) tagging, Named Entity Recognition and Classification (NERC), Mention detection & tracking, Coreference resolution, Text Alignment, Lexical Acquisition, Relation Extraction, Semantic Role Labeling (SRL), Word Sense Disambiguation (WSD)) y aplicaciones (Information Extraction (IE), Information Retrieval (IR), Question Answering (Q&A), Automatic Summarization, Sentiment Analysis, and Text Classification) sólo en forma resumida.

Actividades

Actividad Acto evaluativo


Introducción

Introducción asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 2
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
4h

Modelos de lenguaje

Modelos de lenguaje asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 3
Contenidos:
Teoría
6h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
10h

Modelos de estados finitos

Modelos de estados finitos asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 3
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
4h

Modelos log-lineales y de máxima entropia

Modelos log-lineales y de máxima entropia asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 3 4
Contenidos:
Teoría
9h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
12h

Modelos para el análisis sintáctico

Modelos para el análisis sintáctico asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 4
Contenidos:
Teoría
6h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
10h

Aprendizaje automático supervisado para PLN

Aprendizaje automático supervisado para PLN asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 4
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
5h

Aprendizaje semi-supervisado

Aprendizaje semi-supervisado asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 3 4
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
5h

Aprendizaje no supervisado (agrupación)

Aprendizaje no supervisado (agrupación) asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 3 4
Contenidos:
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
4h

Uso de técnicas estadísticas en aplicaciones de PLN

Uso de técnicas estadísticas en aplicaciones de PLN asistencia a clase de teoria Discusión y tutoría sobre el ejercicio
Objetivos: 1 2 3 4
Contenidos:
Teoría
9h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
1h
Aprendizaje autónomo
9h

Ejercicios

Los alumnos deberán resolver cada ejercicio fuera de las horas de clase aunque podrán recibir asesoramiento por parte del profesor. Los alumnos deberán entregar su solución al cabo de dos semanas y recibirán la evaluación comentada
Objetivos: 4
Contenidos:
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
30h

Examen final

Examen final de la asignatura El examen es presencial
Objetivos: 1 2 3
Semana: 16
Tipo: examen final
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Metodología docente

La metodología docente es la siguiente:,

La materia está organizada en 9 temas. Per cada un de los temas habrá normalmente una clase de teoria (en algún cas0 más de una).

Adicionalmente, a lo largo del curso se propondrán 5 ejercicios relacionados con los temas.

Los ejercicios podrán ser de solución manual o implicar la construcción de algún pequeño programa.

Método de evaluación

La evaluaci és basa en dos componentes:

1) El 'examen final
2) Los 5 ejercicios que se proponen a lo largo del curso

La nota final se obtiene a partir de les notas de estos dos components.

El peso de los dos componentes es el mismo (50%).
El peso de cada uno de los 5 ejercicios es el mismo (20%).

Bibliografía

Básica: