Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits
, però té capacitats prèvies
Departament
CS
Professorat
Responsable
- Marta Arias Vicente (marias@cs.upc.edu)
Altres
- Jordi Turmo Borrás (turmo@cs.upc.edu)
- Juan Luis Esteban Ángeles (esteban@cs.upc.edu)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
6
Competències
Competències tècniques
Transversals
Bàsiques
Genèriques
Objectius
-
Descriure diferents models per avaluar similaritat entre textos, i com s'apliquen a la cerca textual. Decidir quin dels models és el més adequat a un escenari concret que involucra cerca de textos. Implementar els models des de zero (en un sistema molt bàsic) o damunt un sistema d'indexació de textos que sigui altament escalable.
Competències relacionades: CB2, CB3, CT5, CT6, CT7, CE1, CE4, CE6, CE7, CG2, CG4, CG5, -
Descriure els avantatges, de cara a efectuar cerques efectives, d'utilitzar la informació donada pels enllaços en estructures hiperenllaçades, com ara la web, les xarxes socials digitals, i la web semàntica. Descriure els principals paràmetres que s'usen per caracteritzar aquestes estructures enllaçades. Reproduir els algorismes més utilitzats per establir importància en aquestes estructures (p.ex. pagerank), per descobrir estructura en elles (p.ex., descobriment de comunitats) i per millorar els resultats de cerques proposades per un usuari. Implementar aquests algorismes des de zero en un sistema molt bàsic, o damunt de sistemes de processament de dades massives de manera que puguin escalar.
Competències relacionades: CB2, CB3, CT5, CT6, CT7, CE1, CE4, CE6, CE7, CG2, CG4, CG5, -
Avaluar l'efectivitat de sistemes de cerca en sistemes complexos, descrivint-la en termes de mesures dures com ara "recall" i "precision" però també en termes de mesures toves com ara la satisfació dels usuaris, la novetat i la finalització de tasques. Adaptar el funcionament i la presentació de sistemes de cerca d'informació amb el feedback de l'experiència d'usuaris metòdicament recollida.
Competències relacionades: CB2, CB3, CB4, CT4, CT5, CT6, CT7, CE1, CG3, CG4, CG5, -
Definir el problema de la recomanació i les diferències amb altres problemes relacionats amb informació prèviament emmagatzemada (cerca, aprenentatge, ...). Descriure els principals abordatges al problema de la recomanació d'items i els avantatges i inconvenients de cadascun. Descriure els principals algorismes de cadascun dels abordatges. Ser capaç d'implementar-ne versions bàsiques des de zero, o versions avançades damunt de sistemes de processament massius de dades. Avaluar l'efectivitat de sistemes de recomanació, tant en termes de mesures dures com de mesures toves com ara la satisfacció de l'usuari. Decidir les formes de recomanació més adequades a escenaris reals simples, incloent la caracterització dels usuaris potencials.
Competències relacionades: CB2, CB3, CB4, CT5, CT6, CT7, CE1, CE4, CE7, CG2, CG4, CG5, -
Recórrer de manera a paradigmes algorísmics coneguts per tractar amb problemes de dades caracteritzats per alt volum i alta velocitat. S'inclouen: algorismes de "streaming" que tracten fluxos de dades amb poc temps per element, i poca memòria. Algorismes per respondre preguntes de proximitat, en particular amb informació geolocalitzada. Algorismes que utilitzen mostreig per extreure conclusions fiables sobre grans volums de dades. Integració de les tècniques vistes a la resta del curs amb tècniques algorísmiques d'altres assignatures, com ara "machine learning", "clustering" i "pattern mining". Tècniques per tractar amb dades sensibles, com ara anonimització i "privacy-preserving machine learning". "Caching" consistent i distribuït.
Competències relacionades: CB2, CB3, CT5, CT6, CT7, CE1, CE4, CE7, CG2, CG4, CG5, -
Integrar les tècniques descrites als anteriors objectius en un projecte petit però realista. Tenir la capacitat per dissenyar l'arquitectura d'un sistema complex i triar les tècniques, i les tecnologies vistes amb anterioritat durant el curs que s'hi aplicarien. L'objectiu no és finalitzar la implementació del sistema, sinó arribar a un nivell de detall del disseny que permetés encarregar a un equip de programació la seva finalització.
Competències relacionades: CB2, CB4, CT4, CT5, CT7, CE1, CE4, CE6, CE7, CG2, CG3, CG4, CG5, -
Avaluar de manera elemental les implicacions dels sistemes que s'aprenen a construir en l'assignatura pel que fa a privacitat, seguretat, ètica i drets de les persones. S'enten per "de manera elemental" ser capaç de detectar que aquestes implicacions són prou significatives com per buscar l'opinió d'un experts en la matèria, en particular en relació al RGPD i la necessitat de dur a terme anàlisis de risc i impacte.
Competències relacionades: CB2, CB3, CB4, CT5, CE7, CG4,
Continguts
-
Cerca i anàlisi d'informació textual
Models booleà i vectorial. Cerca basada en paraules clau. Preprocés dels textos. Indexació. Avaluació d'estratègies de cerca. Formació de grups i classificació de textos. Models generatius (LSI, LDA). -
Cerca i anàlisi en estructures enllaçades
La web: Algorísmes d'avaluació en estructures hiperenllaçades. "Crawling" i "scraping". Xarxes socials: Mesures de centralitat. Comunitats. Influència. Web semàntica. -
Recomanació
Sistemes recomanadors. Recomanació basada en contingut i recomanació basada en la comunitat ("collaborative filtering"). Consideracions pràctiques. -
Algorismes per a dades massives
Resums (sketches) i fluxos de dades (streaming). Mostratge (sampling). Preguntes de proximitat. Dades geolocalitzades. "Caching" consistent i distribuït. Tractament de dades sensibles: anonimització, "end-to-end encryption" i "privacy-preserving machine learning"
Activitats
Activitat Acte avaluatiu
Activitat sobre el contingut "Cerca i anàlisi d'informació textual"
A teoria, el professor presenta les motivacions i principals conceptes, i en acabar professor i estudiants resolen conjuntament 2-3 problemes de consolidació. A laboratori, els estudiants resolen un cas relacionat amb el contingut.- Teoria: Format classe magistral + resolució grupal de problemes
- Laboratori: Els estudiants treballen en un cas pràctic relacionat amb el contingut, que pot incloure tasques de disseny, implementació, avaluació. La feina pot ser individual o grupal.
Continguts:
Teoria
6h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
12h
Activitat sobre el contingut "Cerca i anàlisi en estructures enllaçades"
A teoria, el professor presenta les motivacions i principals conceptes, i en acabar professor i estudiants resolen conjuntament 2-3 problemes de consolidació. A laboratori, els estudiants resolen un cas relacionat amb el contingut.- Laboratori: Els estudiants treballen en un cas pràctic relacionat amb el contingut, que pot incloure tasques de disseny, implementació, avaluació. La feina pot ser individual o grupal.
Teoria
6h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
12h
Activitat sobre el tema "Recomanació"
A teoria, el professor presenta les motivacions i principals conceptes, i en acabar professor i estudiants resolen conjuntament 2-3 problemes de consolidació. A laboratori, els estudiants resolen un cas relacionat amb el contingut.- Teoria: Format classe magistral + resolució grupal de problemes
- Laboratori: Els estudiants treballen en un cas pràctic relacionat amb el contingut, que pot incloure tasques de disseny, implementació, avaluació. La feina pot ser individual o grupal.
Continguts:
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h
Activitat sobre el contingut "Algorismes per a dades massives"
A teoria, el professor presenta les motivacions i principals conceptes, i en acabar professor i estudiants resolen conjuntament 2-3 problemes de consolidació. A laboratori, els estudiants resolen un cas relacionat amb el contingut.- Teoria: Format classe magistral + resolució grupal de problemes
- Laboratori: Els estudiants treballen en un cas pràctic relacionat amb el contingut, que pot incloure tasques de disseny, implementació, avaluació. La feina pot ser individual o grupal.
Continguts:
Teoria
8h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
18h
Integració. Construcció de sistemes reals. Implicacions en privacitat, seguretat i drets de les persones.
A teoria, el professor presenta les motivacions i principals conceptes, i en acabar professor i estudiants resolen conjuntament 2-3 problemes de consolidació. A laboratori, els estudiants resolen un cas relacionat amb el contingut.- Teoria: Plantejament de diferents aspectes sobre el contingut per part del professor. Resolució conjunta dels alumnes d'alguns casos pràctics, i posada en comú de les conclusions.
- Laboratori: Resolució de casos de disseny a partir d'una especificació difusa, incloent tria de tecnologies i la identificació de problemes de privacitat i seguretat.
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h
Metodologia docent
Classes "de teoria" expositives per part del professor. Es proposaran un cert nombre d'exercicis a resoldre fora de classe per a la propera sessió.Classes "de teoria" dedicades a la resolució. Es comentaran en comú les solucions dels exercicis proposats a la/les sessions precedents. S'esperarà que els estudiants hagin intentat resoldre'ls.
Classes "de laboratori": A partir d'un guió que rebran al principi de la sessió, els estudiants duran a terme alguna tasca amb ordinador per consolidar els conceptes vistos a les classes de "teoria". Típicament serà l'implementació i experimentació amb algun algorisme, o l'anàlisi d'algun conjunt de dades.
Mètode d'avaluació
P = nota d'un examen parcialF = nota d'un examen final fet a final de curs.
L = nota dels informes a lliurar sobre les sessions de laboratori.
La nota final es calcularà com 25% P + 50% F + 25% L.
La nota de la competència transversal CT6 "aprenentatge autònom" es calcularà en base a un tema proposat durant el curs que els i les estudiants hauran d'estudiar pel seu compte. S'avaluarà si s'han assimilat els conceptes d'aquest tema a partir de preguntes als examens i/o a informació plasmada als informes de les pràctiques.
Bibliografia
Bàsic
-
Modern information retrieval: the concepts and technology behind search
- Baeza-Yates, R.; Ribeiro-Neto, B,
Addison-Wesley / Pearson,
2011.
ISBN: 9780321416919
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991003938679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Mining of massive datasets
- Leskovec, J.; Rajaraman, A.; Ullman, J.D,
Cambridge University Press,
2020.
ISBN: 9781108476348
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004193679706711&context=L&vid=34CSUC_UPC:VU1&lang=ca -
Everybody lies : what the internet can tell us about who we really are
- Stephens-Davidowitz, S,
Bloomsbury Publishing,
2018.
ISBN: 9781408894736
https://discovery.upc.edu/discovery/fulldisplay?docid=alma991004177379706711&context=L&vid=34CSUC_UPC:VU1&lang=ca