Processament Estadístic del Llenguatge Natural

Esteu aquí

Crèdits
6
Tipus
Complementària d'especialitat (Ciència de les Dades)
Requisits
Aquesta assignatura no té requisits
Departament
CS
Aquest curs és una introducció a les tasques, aplicacions, tècniques i recursos més rellevants utilitzats en el processament del llenguatge natural (PLN) basat en mètodes empírics, bàsicament estadístics i basats en aprenentatge anutomàtic.

Hores setmanals

Teoria
3
Problemes
0
Laboratori
0
Aprenentatge dirigit
0.6
Aprenentatge autònom
6.4

Competències

Competències Tècniques Generals

Genèriques

  • CG1 - Capacitat per aplicar el mètode científic en l'estudi i anàlisi de fenòmens i sistemes en qualsevol àmbit de la Informàtica, així com en la concepció, disseny i implantació de solucions informàtiques innovadores i originals.
  • CG3 - Capacitat per al modelatge matemàtic, càlcul i disseny experimental en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca i innovació en tots els àmbits de la Informàtica.

Competències Transversals

ús solvent dels recursos d'informació

  • CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.

Raonament

  • CTR6 - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma.

Competències Tècniques de cada especialitat

Específiques comunes

  • CEC1 - Capacitat per aplicar el mètode científic en l'estudi i anàlisi de fenòmens i sistemes en qualsevol àmbit de la Informàtica, així com en la concepció, disseny i implantació de solucions informàtiques innovadores i originals.
  • CEC2 - Capacitat per al modelatge matemàtic, càlcul i disseny experimental en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca i innovació en tots els àmbits de la Informàtica.
  • CEC3 - Capacitat per aplicar solucions innovadores i realitzar avanços en el coneixement que explotin els nous paradigmes de la Informàtica, particularment en entorns distribuïts.

Objectius

  1. Justificar la pertinència d' aplicar determinada tècnica estadística al tractament de determinada tascade PLN.
    Competències relacionades: CB6, CB7, CTR4, CTR6, CEC1, CEC2, CEC3, CG1, CG3,
  2. Evaluar l' utilitat d' incloiure determinats components estadístics en determinadae aplicacions de PLN per a resoldre determinades tasques de PLN
    Competències relacionades: CEC3, CG3,
  3. Cerca i selecció de recursos i procesadors estadístics de PLN per a ser utilitzats en tasques i aplicacions de PLN.
    Competències relacionades: CB7, CB9, CTR4, CEC1, CEC2, CEC3, CG3,
  4. Disseny i implementació de nous components de PLN, adaptació de components ja existents i integració en una aplicació de PLN.
    Competències relacionades: CB6, CB9, CTR4, CEC2, CEC3, CG3,

Continguts

  1. Introducció
    PLN vs Lingüística Computacional vs Tecnologia del llenguatge humà
    Métods basats en el coneixement vs mètods empírics
    Recursos
    Recursos Léxics
    Corpus
    Gramàtiques
    Ontologies
  2. Models de llenguatge
    Introducció
    Models basats en paraules, classes i sintagmes
    Contingut d'informació
    entropia
    informació mutua
    entropia conjunta i condidional
    informació mutua pointwise
    Kullback-Leibler divergence (KL)
    models "Noise channel"
    models d'aliniació
    Applicació a tasques de PLN
  3. Models d'estats finits
    Autòmats d'estats finits i Gramàtiques regulars
    Transdurctors d'estats finits (FST)
    Models d'estats finits probabilistics
    Aplicació a tasques de PLN
  4. Models log-linials i de màxima entropia
    Problemes de classificació – MLE vs MEM
    Models Generatius i condicionals (discriminatius).
    MM i HMM.
    CRF
    Construcció de models de ME
    Maximum Entropy Markov Models (MEMM)
    Applicacions al PLN
  5. Models per l' analisi sintàctic
    Anàlisi sintàctic de constituents
    Stochastic Context Free Grammars (SCFG)
    Models probabilístics més rics
    Aplicacions al PLN.
    Syntactic parsing
    Semantic parsing
    Anàlisi sintàctic de dependencies
  6. Aprenentatge automàtic supervisat per PLN
    Problemes de Classificació.
    Margin-based classifiers: Perceptron, SVM, AdaBoost.
    Kernel-based mehods.
  7. Aprenentatge semi-supervisat
    Bootstrapping
  8. Aprenentetge no supervisat (agrupació)
    Similitut
    Agrupació jeràrquica
    Agrupació no jeràrquica
    Avaluació de l' agrupació
  9. Utilitzacó de tècniques estadístiques en aplicacions de PLN
    Traducció automàtica (MT) en detall
    Altres tasques (Part of Speech (POS) tagging, Named Entity Recognition and Classification (NERC), Mention detection & tracking, Coreference resolution, Text Alignment, Lexical Acquisition, Relation Extraction, Semantic Role Labeling (SRL), Word Sense Disambiguation (WSD)) i aplicacions (Information Extraction (IE), Information Retrieval (IR), Question Answering (Q&A), Automatic Summarization, Sentiment Analysis, and Text Classification) només en forma resumida.

Activitats

Activitat Acte avaluatiu


Introducció

Introducció assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
4h

Models de llenguatge

Models de llenguatge assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 3
Continguts:
Teoria
6h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
10h

Models d'estats finits

Models d'estats finits assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 3
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
4h

Models log-linials i de màxima entropia

Models log-linials i de màxima entropia assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 3 4
Continguts:
Teoria
9h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
12h

Models per l' analisi sintàctic

Models per l' analisi sintàctic assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 4
Continguts:
Teoria
6h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
10h

Aprenentatge automàtic supervisat per PLN

Aprenentatge automàtic supervisat per PLN assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 4
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
5h

Aprenentatge semi-supervisat

Aprenentatge semi-supervisat assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 3 4
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
5h

Aprenentetge no supervisat (agrupació)

Aprenentetge no supervisat (agrupació) assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 3 4
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
4h

Utilitzacó de tècniques estadístiques en aplicacions de PLN

Utilitzacó de tècniques estadístiques en aplicacions de PLN assistència a classe de teoria Discusió i tutorització sobre l'exercisi
Objectius: 1 2 3 4
Continguts:
Teoria
9h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
1h
Aprenentatge autònom
9h

Exercisis

Els estudiants hauran de resoldre cada exercisi fora de loes hores de classe, encara que podran rebre assesorament per part dels professors. Els estudiants hauran d' entregar la seva solució en dues setmanes i rebràn una avaluació comentada.
Objectius: 4
Continguts:
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
30h

Examen final

Examen final de l'assignatura L'examen és presencial
Objectius: 1 2 3
Setmana: 16
Tipus: examen final
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

La metodologia docent és la següent,

La materia está organitzada en 9 temes. Per cada un dels temes hi ha normalment una classe de teoria (en algun càs més de una).

Al llarg del curs es proposaran 5 exercisis relacionats amb els temes.
Els exercisis poden ser de solució manual o implicar la construcció d'algun petit programa.

Mètode d'avaluació

La avaluació és basa en dos components:

1) L'examen final
2) Els 5 exercisis que es proposan al llarg del curs

La nota final s'obté a partir de les notes d'quests dos components.

El pés dels dos components és el mateix (50%).
El pés de cadescú dels 5 exercisis és el mateix (20%).

Bibliografia

Bàsica: