Tecnologies Avançades del Llenguatge Humà

Esteu aquí

Crèdits
5
Tipus
  • MIRI: Complementària d'especialitat (Ciència de les Dades)
  • MAI: Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS;TSC
This course offers an in-depth coverage of main basic tasks for Natural Language Processing. We will present fundamental models and tools to approach a variety of Natural Language Processing tasks, ranging from named entity recognition to syntactic processing and document classification. The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks

Professorat

Responsable

  • Salvador Medina Herrera ( )

Altres

  • Bardia Rafieian ( )
  • Lluis Padro Cirera ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
5.3

Competències

Competències Tècniques Generals

Genèriques

  • CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.

Competències Tècniques de cada especialitat

Acadèmiques

  • CEA3 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques principals d'Aprenentatge Automàtic, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.
  • CEA5 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques de Processament del Llenguatge Natural, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.

Competències Transversals

Treball en equip

  • CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

Raonament

  • CT6 - Capacitat d'avaluar i analitzar de manera raonada i crítica sobre situacions, projectes, propostes, informes i estudis de caracter cientific-tecnic. Capacitat d'argumentar les raons que expliquen o justifiquen aquestes situacions, propostes, etc.

Analisis i sintesis

  • CT7 - Capacitat d'anàlisi i resolució de problemes tècnics complexos.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma.

Objectius

  1. Learn to apply statistical methods for NLP in a practical application
    Competències relacionades: CEA3, CEA5, CT3, CB6, CB8,
  2. Understand statistical and machine learning techniques applied to NLP
    Competències relacionades: CEA3, CG3, CT6, CT7, CB6,
  3. Develop the ability to solve technical problems related to statistical and algorithmic problems in NLP
    Competències relacionades: CEA3, CEA5, CG3, CT7, CB6, CB8, CB9,
  4. Understand fundamental methods of Natural Language Processing from a computational perspective
    Competències relacionades: CEA5, CT7, CB6,

Continguts

  1. Statistical Models for NLP
    Introduction to statistical modelling for language. Maximum Likelhood models and smooting. Maximum entropy estimation. Log-Linear models
  2. Distances and Similarities
    Distances (and similarities) between linguistic units. Textual, Semantic, and Distributional distances. Semantic spaces (WN, Wikipedia, Freebase, Dbpedia).
  3. Sequence Predicion
    Prediction in word sequences: PoS tagging, NERC. Local classifiers, HMM, global predictors, Log-linear models.
  4. Syntactic Parsing
    Parsing constituent trees: PCFG, CKY vs Inside/outside
    Parsing dependency trees: CRFs for parsing. Earley algorithm
  5. Document-level modelling
    Document representation: from BoW to NLU.
    Document similarities.
    Document classification.
  6. Deep Leaning approaches - Introduction
    Introduction to ANN for NLP
    Lexical semantics. Word Embeddings
  7. Deep Learning approaches - Word Sequences
    PoS tagging, NERC
  8. Deep Learning Approaches - Sentences
    Sentence similarity, sentence classification. LSTM. BERT. Sentence embeddings
  9. Deep Learning approaches - Document Level
    Document similarity, document classification, document embeddings - doc2vec
  10. Deep Learning Approaches - Machine Translation
    Neural Machine Translation

Activitats

Activitat Acte avaluatiu


Course Introduction

Introduction to statistical modelling for language. Maximum Likelhood models and smooting. Maximum entropy estimation. Log-Linear models
Objectius: 4 2
Teoria
2h
Problemes
1h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Distances and Similarities

Distances (and similarities) between linguistic units. Textual, Semantic, and Distributional distances. Semantic spaces (WN, Wikipedia, Freebase, Dbpedia).
Objectius: 4 2
Continguts:
Teoria
5h
Problemes
3h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Sequence Models in NLP

These lectures will present sequence models, an important set of tools that is used for sequential tasks. We will present this in the framework of structured prediction (later in the course we will see that the same framework is used for parsing and translation). We will focus on machine learning aspects, as well as algorithmic aspects. We will give special emphasis to Conditional Random Fields. Also Deep Learning models will be presented
Objectius: 4 2
Continguts:
Teoria
6h
Problemes
4h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Syntax and Parsing

We will present statistical models for syntactic structure, and in general tree structures. The focus will be on probabilistic context-free grammars and dependency grammars, two standard formalisms. We will see relevant algorithms, as well as methods to learn grammars from data based on the structured prediction framework. Sentence similarity, sentence classification. LSTM. BERT. Sentence embeddings
Objectius: 4 2
Continguts:
Teoria
6h
Problemes
3h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Document-level modelling

Document representation: from BoW to NLU. Document similarities. Document classification document embeddings - doc2vec
Objectius: 4 2
Continguts:
Teoria
4h
Problemes
2h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Neural Machine Translation

Neural Machine Translation
Objectius: 4 2
Continguts:
Teoria
4h
Problemes
2h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Final Exam


Objectius: 4 2 3
Setmana: 15
Tipus: examen de teoria
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
10.5h

Project


Objectius: 4 2 1
Setmana: 16
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
45h

Metodologia docent

The course will be structured around four different linguistic analysis levels: word level, phrase level, sentence level, and document level. Typical NLP tasks and solutions corresponding to each level will be presented.
The first half of the course is devoted to "classical" statistical and ML approaches. The second half of the course revisits the same levels under a deep learning perspective

Theoretical background and practical exercises will be developed in class.

Finally, students will develop a practical project in teams of two students. The goal of the project is to put into practice the methods learned in class, and learn how the experimental methodology that is used in the NLP field. Students have to identify existing components (i.e. data and tools) that can be used to build a system, and perform experiments in order to perform empirical analysis of some statistical NLP method.

Mètode d'avaluació

Final grade = 0.5*FE + 0.5*LP

where

FE is the grade of the final exam

LP is the grade of the lab project

Bibliografia

Bàsica:

Web links

Capacitats prèvies

- Although not mandatory, familiarity with basic concepts and methods of Natural Language Processing is strongly recommended

- Good understanding of basic concepts and methods of Machine Learning.

- Advanced programming skills.