Introducción a la Tecnologia del Lenguaje Humano

Usted está aquí

Créditos
5
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
CS
Esta asignatura introduce la problemática que presenta el procesamiento del lenguaje natural (PLN), las técnicas y recursos que se utilizan para tratarlos y los fundamentos teóricos en que se basan. La asignatura también introduce brevemente las aplicaciones más importantes del procesamiento de la lengua.
El temario de la asignatura se centra en las dos aproximaciones más utilizadas en el procesamiento del lenguaje natural: la aproximación basada en el conocimiento y la aproximación basada en métodos empíricos (básicamente de tipo estadístico y de aprendizaje automático).

IHLT proporciona los conocimientos básicos de PLN para cursar posteriormente las asignaturas optativas AHLT y HLE. Por una parte, AHLT profundiza en las técnicas estadísticas de PLN. Por otra parte, HLE revisa el estado del arte sobre las aplicaciones reales de la tecnología de PLN.

Profesores

Responsable

  • Jordi Turmo Borrás ( )

Otros

  • Gerard Escudero Bakx ( )

Horas semanales

Teoría
1.5
Problemas
0
Laboratorio
1.5
Aprendizaje dirigido
0.21
Aprendizaje autónomo
8.93

Competencias

Competencias Técnicas Genéricas

Genéricas

  • CG1 - Capacidad para proyectar, diseñar e implantar productos, procesos, servicios e instalaciones en todos los ámbitos de la Inteligencia Artificial.
  • CG3 - Capacidad para la modelización, cálculo, simulación, desarrollo e implantación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Inteligencia Artificial.

Competencias Técnicas de cada especialidad

Académicas

  • CEA5 - Capacidad de comprender los principios básicos de funcionamiento de las técnicas de Procesamiento del Lenguaje Natural, y saber utilizarlas en el entorno de un sistema o servicio inteligente.

Profesionales

  • CEP4 - Capacidad para disenar, redactar y presentar informes sobre proyectos informaticos en el area especifica de Inteligencia Artificial.
  • CEP6 - Capacidad de asimilar e integrar los cambios del entorno economico, social y tecnologico a los objetivos y procedimientos del trabajo informatico en sistemas inteligentes.
  • CEP7 - Capacidad de respetar la normativa legal y la deontología en el ejercicio profesional.

Competencias Transversales

Trabajo en equipo

  • CT3 - Ser capaz de trabajar como miembro de un equipo interdisciplinar ya sea como un miembro mas, o realizando tareas de direccion con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Razonamiento

  • CT6 - Capacidad de evaluar y analizar de manera razonada y critica sobre situaciones, proyectos, propuestas, informes y estudios de caracter cientifico-tecnico. Capacidad de argumentar las razones que explican o justifican tales situaciones, propuestas, etc.

Objetivos

  1. Conocer los conceptos fundamentales del Procesamiento del Lenguaje Natural, las técnicas de procesamiento más relevantes y los recursos existentes utilizados.
    Competencias relacionadas: CEA5, CG1, CG3, CEP6, CT4, CT6,
  2. Conocer las aplicaciones mas importantes del Porcesamiento del Lenguaje Natural y relacionarlas con las teorías, técnicas y recursos más relevantes.
    Competencias relacionadas: CEA5, CG1, CG3, CEP6, CT4, CT6,
  3. Realizar programas para resolver problemas que impliquen el análisis de las técnicas y recursos del Procesamiento del Lenguaje mas apropiados, así como el uso de recursos existentes y el desarrollo de otros nuevos. Uno de estos programas será de mediana envergadura y se realizará en grupos de dos estudiantes.
    Competencias relacionadas: CEA5, CG1, CG3, CEP4, CEP6, CEP7, CT3, CT4, CT6,
  4. Resolver problemas (de forma individual y grupal) en el entorno del Procesamiento del Lenguaje Natural en los que se deba analizar las técnica y los recursos más apropiados para su resolución.
    Competencias relacionadas: CEA5, CG1, CG3, CEP7, CT3, CT4, CT6,

Contenidos

  1. Estructura e idioma de documento
    Selección de zonas textuales, tokenización, separación de oraciones.
    Identificadores de idioma
  2. Palabras
    Morfología. Autómatas de estados finitos. Transductores de estados finitos.
    Desambiguación morfológica, Modelos ocultos de Markov.
    Semántica léxica. Recursos semánticos.
    Desambiguación de sentidos de palabras.
  3. Secuencias de palabras
    Reconocimiento y clasificación de secuencias de parabras que formen un significado.
    Modelos discriminativos BIO. Conditional Random Fields (CRF).
    Reconocimiento y clasificación de entidades nombradas (NERC).
    Reconocimiento de frases nominales.
  4. Oracions
    Gramáticas sintácticas, tipología.
    Gramáticas libres de contexto.
    Gramaticas probabilísticas libres de contexto.
    Gramáticas en forma normal de Chomsky.

    Analitzadors sintàctics, propietats i estratègies. Analizadores CKY y CKY probabilístico
  5. Secuencias de oraciones
    Resolución de coreferencias. Detección de menciones. Tipos de técnicas de cadenas de menciones de coreferentes. Modelo mención-mención. Modelo entidad-mención. Model de ranking.

Actividades

Actividad Acto evaluativo


Introducción


Objetivos: 1 2
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
3h

Estructura e idioma de documento


Objetivos: 1 3
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Análisis morfológíco

Automatas de estados finitos. Transductores de estados finitos
Objetivos: 1 2
Teoría
3h
Problemas
0h
Laboratorio
3h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Semántica léxica. Recursos semánticos.


Objetivos: 1 4 2
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Desambiguación de sentidos de palabras.


Objetivos: 1 4 2
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Reconocimiento y clasificación de secuencias de parabras que formen un significado.

Modelos discriminativos BIO. Conditional Random Fields (CRF). Reconocimiento y clasificación de entidades nombradas (NERC). Reconocimiento de frases nominales.
Objetivos: 1 4 3
Teoría
3h
Problemas
0h
Laboratorio
3h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Análisis sintactico: Gramáticas sintácticas

Tipología. Gramáticas libres de contexto. Gramaticas probabilísticas libres de contexto. Gramáticas en forma normal de Chomsky.
Objetivos: 1 4 2
Teoría
3h
Problemas
0h
Laboratorio
3h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Examen final


Objetivos: 1 4 2
Semana: 15 (Fuera de horario lectivo)
Tipo: examen final
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
2h
Aprendizaje autónomo
0h

Análisis sintáctico: analizadores

Analizadores sintácticos, propiedades y estrategias. Analizadores CKY y CKY probabilístico
Objetivos: 1 4 2
Teoría
3h
Problemas
0h
Laboratorio
3h
Aprendizaje dirigido
0h
Aprendizaje autónomo
16h

Resolución de coreferencias


Objetivos: 1 2
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Desambiguación morfológica

Modelos ocultos de Markov
Objetivos: 1 4 2
Teoría
1.5h
Problemas
0h
Laboratorio
1.5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
8h

Presentación del proyecto


Objetivos: 4 3
Semana: 16
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
2h

Metodología docente

Las clases están organizadas en sesiones de teoría/problemas y laboratorio.

En cada sesión de teoría&problemas se introducirán los nuevos conceptos, problemáticas relacionadas y aproximaciones para resolverlas.Además, se resolverán ejercicios para fijar los conceptos, técnicas y algoritmos explicados.

En las sesiones de laboratorio se desarrollarán pequeñas prácticas utilizando herramientas y lenguajes adecuados al PLN que permitirán practicar y reforzar los conocimientos de las clases de teoría.

Método de evaluación

La evaluación consistirá en un examen final, una proyecto y una entrega por sesión de laboratorio. En el examen final entrará el contenido de todo el curso.
La nota de proyecto y de entregas de lab se calculará a partir de los informes presentados por los estudiantes.
El cálculo de la nota final se hará de la siguiente forma:
Nota Final = Nota examen final* 0.5 + Nota de práctica * 0.4 + Nota de entregas de lab * 0.1

Bibliografía

Básica:

  • Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition and Computational Linguistics - Jurafsky, Daniel & Martin, James H., Prentice-Hall, Inc., 2009.
  • Handbook of natural language processing - Somers, Harold L; Dale, Robert, Marcel Dekker, cop.2000. ISBN: 0824790006
    http://cataleg.upc.edu/record=b1172244~S1*cat
  • Foundations of Statistical Natural Language Processing - Manning,Chris & Schütze, Hinrich, MIT Press, 1999.
    http://nlp.stanford.edu/fsnlp/
  • The Oxford handbook of Computational Linguistics - Mitkov, Ruslan, Oxford University Press, 2004. ISBN: 978-0199276349

Web links

Capacidades previas

Las adquiridas en la asignatura de Inteligencia Artificial (IA) del Grado en Ingeniería Informática.