Aquest curs és una introducció a les tasques, aplicacions, tècniques i recursos més rellevants utilitzats en el processament del llenguatge natural (PLN) basat en mètodes empírics, bàsicament estadístics i basats en aprenentatge anutomàtic.
Hores setmanals
Teoria
3
Problemes
0
Laboratori
0
Aprenentatge dirigit
0.6
Aprenentatge autònom
6.4
Objectius
Justificar la pertinència d' aplicar determinada tècnica estadística al tractament de determinada tascade PLN.
Competències relacionades:
CG1,
CG3,
CB6,
CB7,
CEC1,
CEC2,
CEC3,
CTR4,
CTR6,
Evaluar l' utilitat d' incloiure determinats components estadístics en determinadae aplicacions de PLN per a resoldre determinades tasques de PLN
Competències relacionades:
CG3,
CEC3,
Cerca i selecció de recursos i procesadors estadístics de PLN per a ser utilitzats en tasques i aplicacions de PLN.
Competències relacionades:
CG3,
CB7,
CB9,
CEC1,
CEC2,
CEC3,
CTR4,
Disseny i implementació de nous components de PLN, adaptació de components ja existents i integració en una aplicació de PLN.
Competències relacionades:
CG3,
CB6,
CB9,
CEC2,
CEC3,
CTR4,
Continguts
Introducció
PLN vs Lingüística Computacional vs Tecnologia del llenguatge humà
Métods basats en el coneixement vs mètods empírics
Recursos
Recursos Léxics
Corpus
Gramàtiques
Ontologies
Models de llenguatge
Introducció
Models basats en paraules, classes i sintagmes
Contingut d'informació
entropia
informació mutua
entropia conjunta i condidional
informació mutua pointwise
Kullback-Leibler divergence (KL)
models "Noise channel"
models d'aliniació
Applicació a tasques de PLN
Models d'estats finits
Autòmats d'estats finits i Gramàtiques regulars
Transdurctors d'estats finits (FST)
Models d'estats finits probabilistics
Aplicació a tasques de PLN
Models log-linials i de màxima entropia
Problemes de classificació MLE vs MEM
Models Generatius i condicionals (discriminatius).
MM i HMM.
CRF
Construcció de models de ME
Maximum Entropy Markov Models (MEMM)
Applicacions al PLN
Models per l' analisi sintàctic
Anàlisi sintàctic de constituents
Stochastic Context Free Grammars (SCFG)
Models probabilístics més rics
Aplicacions al PLN.
Syntactic parsing
Semantic parsing
Anàlisi sintàctic de dependencies
Aprenentatge automàtic supervisat per PLN
Problemes de Classificació.
Margin-based classifiers: Perceptron, SVM, AdaBoost.
Kernel-based mehods.
Aprenentatge semi-supervisat
Bootstrapping
Aprenentetge no supervisat (agrupació)
Similitut
Agrupació jeràrquica
Agrupació no jeràrquica
Avaluació de l' agrupació
Utilitzacó de tècniques estadístiques en aplicacions de PLN
Traducció automàtica (MT) en detall
Altres tasques (Part of Speech (POS) tagging, Named Entity Recognition and Classification (NERC), Mention detection & tracking, Coreference resolution, Text Alignment, Lexical Acquisition, Relation Extraction, Semantic Role Labeling (SRL), Word Sense Disambiguation (WSD)) i aplicacions (Information Extraction (IE), Information Retrieval (IR), Question Answering (Q&A), Automatic Summarization, Sentiment Analysis, and Text Classification) només en forma resumida.
Activitats
ActivitatActe avaluatiu
Introducció
Introducció
assistència a classe de teoria
Discusió i tutorització sobre l'exercisi Objectius:2 Continguts:
Utilitzacó de tècniques estadístiques en aplicacions de PLN
Utilitzacó de tècniques estadístiques en aplicacions de PLN
assistència a classe de teoria
Discusió i tutorització sobre l'exercisi Objectius:1234 Continguts:
Els estudiants hauran de resoldre cada exercisi fora de loes hores de classe, encara que podran rebre assesorament per part dels professors.
Els estudiants hauran d' entregar la seva solució en dues setmanes i rebràn una avaluació comentada. Objectius:4 Continguts:
Examen final de l'assignatura
L'examen és presencial Objectius:123 Setmana:
16
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Metodologia docent
La metodologia docent és la següent,
La materia está organitzada en 9 temes. Per cada un dels temes hi ha normalment una classe de teoria (en algun càs més de una).
Al llarg del curs es proposaran 5 exercisis relacionats amb els temes.
Els exercisis poden ser de solució manual o implicar la construcció d'algun petit programa.
Mètode d'avaluació
La avaluació és basa en dos components:
1) L'examen final
2) Els 5 exercisis que es proposan al llarg del curs
La nota final s'obté a partir de les notes d'quests dos components.
El pés dels dos components és el mateix (50%).
El pés de cadescú dels 5 exercisis és el mateix (20%).
Bibliografia
Bàsica:
Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition and Computational Linguistics -
Jurafsky, Daniel & Martin, James H.,
ISBN: 0131873210 http://www.cs.colorado.edu/~martin/slp.html