Introducció a la Tecnologia del Llenguatge Humà

Esteu aquí

Crèdits
5
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
L'objectiu de l'assignatura és aportar els fonaments del Processament del Llenguatge Natural (PLN) a l'estudiant. Concretament, s'introdueix la problemàtica que presenta el PLN, les tècniques i recursos que es fan servir per tractar-los i els fonaments teòrics en que es basen. L'assignatura també introdueix breument les aplicacions més importants del PLN. El temari de l'assignatura es centra en les dues aproximacions més utilitzades en el PLN: l'aproximació basada en el coneixement lingüístic i l'aproximació basada en mètodes empírics (bàsicament de tipus estadístic i d'aprenentatge automàtic).

IHLT proporciona els coneixements bàsics de PLN de cara a cursar posteriorment les assignatures optatives AHLT i HLE. D'una banda, AHLT aprofundeix en les tècniques estadístiques de PLN. D'altra banda, HLE revisa l'estat de l'art sobre les aplicacions reals de la tecnologia de PLN.

Professors

Responsable

  • Jordi Turmo Borrás ( )

Altres

  • Gerard Escudero Bakx ( )

Hores setmanals

Teoria
1.5
Problemes
0
Laboratori
1.5
Aprenentatge dirigit
0.21
Aprenentatge autònom
8.93

Competències

Competències Tècniques Generals

Genèriques

  • CG1 - Capacitat per a projectar, dissenyar i implantar productes, processos, serveis i instal·lacions en tots els àmbits de la Intel·ligència Artificial.
  • CG3 - Capacitat per a la modelització, càlcul, simulació, desenvolupament i implantació en centres tecnològics i d'enginyeria d'empresa, particularment en tasques de recerca, desenvolupament i innovació en tots els àmbits relacionats amb la Intel·ligència Artificial.

Competències Tècniques de cada especialitat

Acadèmiques

  • CEA5 - Capacitat de comprendre els principis bàsics de funcionament de les tècniques de Processament del Llenguatge Natural, i saber utilitzar-les en l'entorn d'un sistema o servei intel·ligent.

Professionals

  • CEP4 - Capacitat per dissenyar, redactar i presentar informes sobre projectes informaticos en l'area especifica d'Intel·ligència Artificial.
  • CEP6 - Capacitat d'assimilar i integrar els canvis de l'entorn econòmic, social i tecnològic als objectius i procediments del treball informàtic en sistemes intel·ligents.
  • CEP7 - Capacitat de respectar la normativa legal i la deontologia en l'exercici professional.

Competències Transversals

Treball en equip

  • CT3 - Ser capaç de treballar com a membre d'un equip interdisciplinari, ja sigui com un membre més o duent a terme tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes amb pragmatisme i sentit de la responsabilitat, tot assumint compromisos considerant els recursos disponibles.

ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Raonament

  • CT6 - Capacitat d'avaluar i analitzar de manera raonada i crítica sobre situacions, projectes, propostes, informes i estudis de caracter cientific-tecnic. Capacitat d'argumentar les raons que expliquen o justifiquen aquestes situacions, propostes, etc.

Objectius

  1. Conèixer els conceptes fonamentals del Processament del Llenguatge Natural, les tècniques de processament més rellavants i els recursos existents utilitzats.
    Competències relacionades: CEA5, CG1, CG3, CEP6, CT4, CT6,
  2. Conèixer les aplicacions més importants del processament del llenguatge natural i relacionar-les amb les teories, técniques i recursos més rellevants.
    Competències relacionades: CEA5, CG1, CG3, CEP6, CT4, CT6,
  3. Realitzar programes per resoldre problemes que impliquin l'anàlisis de les tècniques i recursos del Processament del Llenguatge més apropiats, així com la utizació de recusos existents i el desenvolupament de nous. Un d'aquests programes serà de mitjana envergadura i es realitzarà en grups de dos estudiants.
    Competències relacionades: CEA5, CG1, CG3, CEP4, CEP6, CEP7, CT3, CT4, CT6,
  4. Resoldre problemes (de forma individual i en grup) en l'entorn del Processsament del llenguatge Natural en els que s'hagin d'analitzar les técniques i els recursos més apropiats per la seva solució.
    Competències relacionades: CEA5, CG1, CG3, CEP7, CT3, CT4, CT6,

Continguts

  1. Estructura i idioma de document
    Selecció de zones textuals, tokenització, separació d'oracions.
    identificadors d'idioma
  2. Paraules
    Morfologia, Automats d'estats finits, Transductors d'estats finits.
    Desambiguació morfològica. Models ocults de Markov.
    Semàntica lèxica, Recursos semàntics.
    Desambiguació de sentits de paraules.
  3. Seqüències de paraules
    Reconocimiento y clasificación de secuencias de parabras que formen un significado.
    Models discriminatius BIO. Conditional Random Fields (CRF).
    Reconeixement i classificació d'entidades nombrades (NERC).
    Reconeixement de frases nominals.
  4. Oracions
    Gramàtiques sintàctiques, tipologia.
    Gramàtiques lliures de context.
    Gramàtiques probabilístiques lliures de context.
    Gramátiques en forma normal de Chomsky.

    Analitzadors sintàctics, propietats i estratègies. Analizadores CKY y CKY probabilístico.
  5. Sequències d'oracions
    Resolució de coreferencies. Deteccíó de mencions. Tipus de tècniques de generació de cadenes de mencions de coreferents. Model menció-menció. Model entitat-menció. Models de ranking.

Activitats

Activitat Acte avaluatiu


Introducció


Objectius: 1 2
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
3h

Estructura i idioma de document


Objectius: 1 3
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Análisi morfològica

Automats d'estats finits, Transductors d'estats finits.
Objectius: 1 2
Teoria
3h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Semàntica lèxica, Recursos semàntics.


  • Aprenentatge dirigit: 6.0
Objectius: 1 4 2
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Desambiguació de sentits de paraules.


Objectius: 1 4 2
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Reconeixement i classificació de seqüències de paraules que formin un significat.

Models discriminatius BIO. Conditional Random Fields (CRF). Reconeixement i classificació d'entidades nombrades (NERC). Reconeixement de frases nominals.
Objectius: 1 4 3
Teoria
3h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Anàlisi sintàctica: Gramàtiques sintàctiques

Tipologia. Gramàtiques lliures de context. Gramàtiques probabilístiques lliures de context. Gramátiques en forma normal de Chomsky.
Objectius: 1 4 2
Teoria
3h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Examen final


Objectius: 1 4 2
Setmana: 15 (Fora d'horari lectiu)
Tipus: examen final
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
2h
Aprenentatge autònom
0h

Anàlisi sintàctica: analitzadors

Analitzadors sintàctics, propietats i estratègies. Analizadores CKY y CKY probabilístico.
Objectius: 1 4 2
Teoria
3h
Problemes
0h
Laboratori
3h
Aprenentatge dirigit
0h
Aprenentatge autònom
16h

Resolució de coreferencies


Objectius: 1 2
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Desambiguació morfològica

Models ocults de Markov
Objectius: 1 4 2
Teoria
1.5h
Problemes
0h
Laboratori
1.5h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Presentació del projecte


Objectius: 4 3
Setmana: 16
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
2h

Metodologia docent

Les classes estan organitzades en sessions de teoria/problemes i de laboratori.

A cada sessió de teoria/problemes es presentaran els nous conceptes, problemàtiques relacionades i aproximacions per resoldre-les, i es resoldràn exercicis per tal d'e fixar els conceptes, tècniques i algorismes explicats.

A les sessions de laboratori es desenvoluparan petites pràctiques utilitzant eines i llenguatges adequats al PLN que permetran practicar i reforçar els coneixements apresos les classes de teoria.

Mètode d'avaluació

L'avaluació consistirà en un examen final, un projecte i un lliurament per cada sessió de laboratori. A l'examen final entrarà el contingut de tot el curs.
La nota del projecte i lliuraments de laboratori es calcularà a partir dels informes presentats pels estudiants.
El càlcul de la nota final es farà de la següent manera:
Nota Final = Nota examen final * 0.5 + Nota de projecte * 0.4 + Nota de lliuraments de laboratori * 0.1

Bibliografia

Bàsica:

  • Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition and Computational Linguistics - Jurafsky, Daniel & Martin, James H., Prentice-Hall, Inc., 2009.
  • Handbook of natural language processing - Somers, Harold L; Dale, Robert, Marcel Dekker, cop.2000. ISBN: 0824790006
    http://cataleg.upc.edu/record=b1172244~S1*cat
  • Foundations of Statistical Natural Language Processing - Manning,Chris & Schütze, Hinrich, MIT Press, 1999.
    http://nlp.stanford.edu/fsnlp/
  • The Oxford handbook of Computational Linguistics - Mitkov, Ruslan, Oxford University Press, 2004. ISBN: 978-0199276349

Web links

Capacitats prèvies

Les adquirides a l'assignatura de Intel.ligència Artificial (IA) del Grau en Enginyeria Informàtica