La lingüística quantitativa és una branca de la lingüística que s'ocupa principalment dels patrons estadístics del llenguatge (les anomenades lleis lingüístiques), la seva explicació i la construcció de teories. El curs és rellevant per a qualsevol persona interessada en com són les llengües (i la comunicació animal) i per què.
Aquest curs abasta una munió de lleis estadístiques del llenguatge (més enllà de l'abast dels cursos tradicionals sobre recuperació d'informació o processament del llenguatge natural), com analitzar-les i els seus orígens.
Una hipòtesi de treball fonamental és que aquestes lleis sorgeixen de la necessitat de reduir l'esforç cognitiu dels parlants o oients. Aquest curs posa èmfasi en les possibles explicacions en termes de principis generals de la cognició en humans i altres espècies. El curs cobreix els models matemàtics i computacionals que s'han desenvolupat per explicar aquestes regularitats. Durant aquest viatge, els estudiants enriquiran els seus coneixements actuals amb conceptes i eines de la lingüística, la biologia, la ciència cognitiva, la teoria de la informació i la física multidisciplinària sota la vista d'ocell de la filosofia de la ciència.
El curs és rellevant per a investigadors interessats en processar dades lingüístiques, així com avaluar o adaptar algoritmes, mètodes d'aprenentatge automàtic,... basats en les propietats estadístiques reals del llenguatge i la teoria subjacent. Atès que aquestes regularitats sovint són el resultat de la reducció de l'esforç cognitiu dels usuaris del llenguatge, el curs també és rellevant per a investigadors interessats en desenvolupar recursos o sistemes que siguin més fàcils d'utilitzar o entendre pels humans o interessats a desenvolupar eines de processament del llenguatge que aprofitin les limitacions reals del cervell humà.
Professorat
Responsable
Ramon Ferrer Cancho (
)
Hores setmanals
Teoria
2.5
Problemes
0.5
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
7.11
Objectius
Conèixer els fonaments de la ciència i del mètode científic. Entendre la diferència entre hipòtesi i teoria, entre modelar i comprendre, entre descriure i explicar, entre manifestació i principi. Entendre el valor de la predicció i els tipus de predicció.
Competències relacionades:
CTR6,
Conèixer les lleis estadístiques del llenguatge i entendre els seus orígens.
Competències relacionades:
CTR4,
CTR6,
CTR7,
Conèixer i entendre els principis d'organització de les llengües i altres sistemes de comunicació
Competències relacionades:
CTR6,
CTR7,
Conèixer els fonaments matemàtics de la lingüística quantitativa. Conèixer teoria de probabilitat bàsica i teoria de la informació.
Competències relacionades:
CTR6,
CTR7,
Conèixer els mètodes d'anàlisi estadística de la lingüística quantitativa.
Competències relacionades:
CTR4,
Aprendre a redactar un article científic. Saber distingir entre un informe de laboratori i un article de recerca. Aprendre a redactar un article científic en equip.
Competències relacionades:
CTR3,
CTR4,
CTR6,
CTR7,
CTR9,
Continguts
Introducció a la Lingüística Quantitativa
Què és la lingüística quantitativa? Panoràmica de lleis lingüístiques, conceptes clau i problemes de recerca en lingüística quantitativa.
Llei de brevetat i problema de la compressió
La llei de brevetat en humans i altres espècies. Mètodes d'anàlisi de la llei de brevetat. Introducció a la teoria de la informació. Prediccions de la codificació òptima.
Teoria de la informació
Teoria de la informació clàssica i extensions per a sistemes de comunicació naturals.
Teoria de lleis potencials
Relacions entre lleis potencials. Deducció de lleis potencials. Mètodes d'anàlisi de lleis potencials.
Models de la llei de Zipf per a la freqüència de les paraules
Fites de Debowski. Models clàssics. Models zipfians d'optimizació de la comunicació.
L'estructura estadística de les seqüències simbòliques
Retorn de paraules. Correlacions en seqüències simbòliques. Persistència i antipersistència. Models basats en n-grames. Models generatius.
Sintaxi de dependències
Introducció a la sintaxi de dependències. Restriccions formals sobre estructures de dependències sintàctiques
Teoria d'ordre de les paraules
Principis d'ordre de les paraules. Prediccions. Ordre def subjecte (S), complement directe (O) i verb (V).
Construcció de teoria
El mètode científic. Un teoria general. Tancament
Activitats
ActivitatActe avaluatiu
Introducció
Introducció a la lingüística quantitativa. Introducció a l'assignatura Objectius:12 Continguts:
Les sessions de teoria les durà a terme principalment el professor, ja sigui mitjançant la pissarra o projectant diapositives.
El treball de laboratori es farà davant de l'ordinador. S'espera que els estudiants treballin en els seus deures i el professor explicarà tot el necessari per seguir la classe al principi de la sessió. Cada sessió de laboratori anirà acompanyada d'una guia completa que descriurà el treball que cal fer.
El projecte de recerca es durà a terme sota la supervisió del professor.
Tot el material rellevant per al curs estarà disponible al Racó o al lloc web del curs.
Mètode d'avaluació
La qualificació es fa mitjançant exàmens i informes sobre diverses tasques (pràctiques de laboratori i un projecte de recerca) al llarg del curs.
Hi haurà dos exàmens parcials que compten un 30% de la nota. S'espera que els estudiants lliurin 4 informes de treballs de laboratori aproximadament dues setmanes després de la sessió de laboratori corresponent, que compten fins al 30% de la nota final. Finalment, els estudiants hauran de lliurar un projecte de recerca al final del curs que representa el 40% de la nota final. El projecte de recerca és l'activitat més important i s'ha d'entendre com un projecte del curs (no com una pràctica més). Cal entendre les pràctiques com a un entrenament per al projecte de recerca.
Per tant, la fórmula per calcular la nota final és:
on P1 és la nota del primer examen parcial, P2 és la nota del segon examen parcial, Li correspon a la nota de la i-èsima pràctica de laboratori i RP és la nota del projecte de recerca.
Information theory meets power laws: Stochastic processes and language models -
Debowski, Lukasz, Wiley ,
2021.
Web links
Laws of language outside human language. Statistical laws of language in the behavior of other species, genomes and beyond https://cqllab.upc.edu/biblio/laws/