L'objectiu principal d'aquesta assignatura és adquirir una visió general i pràctica de la fase central del procés de Knowledge Discovery from Data Bases, la Mineria de Dades, disciplina que s'encarrega d'extreure informació rellevant per a la presa de decisions a partir de dades de diferent índole (d'enquestes, de monitorització, de data-warehouses....) i procedents de fenòmens o organitzacions d'alts nivells de complexitat. El curs es centra en proporcionar els elements necessaris per a poder dissenyar processos de Mineria de Dades eficaços, eficients i adequats a la resolució del problema real plantejat en cada ocasió. A més de revisar els principals mètodes de Mineria de Dades, es treballaran àmpliament aspectes pràctics de gran repercussió com els efectes d'un mal pre-processament de les dades, de l'elecció incorrecta del mètode d'explotació de dades, d'una mala interpretació dels resultats o l'assumpció de falses hipòtesis sobre el procés a analitzar, per tal de garantitzar la validesa i utilitat dels resultats obtinguts. S'analitzaran casos reals diversos de l'àmbit de la medicina, economia o mediambient que posaran de manifest la versatilitat de la disciplina per a donar suport a una àmplia gamma de problemes reals de gran complexitat.
Professorat
Responsable
Karina Gibert Oliveras (
)
Altres
Xavier Angerri Torredeflot (
)
Hores setmanals
Teoria
1.5
Problemes
0
Laboratori
1.5
Aprenentatge dirigit
0
Aprenentatge autònom
0
Competències
Competències Tècniques de cada especialitat
Direcció i gestió
CDG1 - Capacitat per a la integració de tecnologies, aplicacions, serveis i sistemes propis de l'Enginyeria Informàtica, amb caràcter generalista, i en contextos més amplis i multidisciplinaris.
Específiques
CTE9 - Capatitat per a aplicar mètodes matemàtics, estadístics i d'intel·ligència artificial per a modelar, dissenyar i desenvolupar aplicacions, serveis, sistemes intel·ligents i sistemes basats en el coneixement.
Competències Tècniques Generals
Genèriques
CG8 - Capacitat per a l'aplicació dels coneixements adquirits i de resoldre problemes en entorns nous o poc coneguts dins de contexts més amplis i multidisciplinaris, essent capaços d'integrar aquests coneixements.
Competències Transversals
Sostenibilitat i compromís social
CTR2 - Conèixer i comprendre la complexitat dels fenòmens econòmics i socials típics de la societat del benestar. Ser capaç d'analitzar i valorar l'impacte social i mediambiental.
Treball en equip
CTR3 - Ser capaç de treballar com a membre d'un equip, ja sigui com a un membre més, ja sigui realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes d'una manera pragmàtica i amb sentit de la responsabilitat; assumir compromisos tenint en compte els recursos disponibles.
ús solvent dels recursos d'informació
CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.
Actitud adequada davant el treball
CTR5 - Tenir motivació per a la realització professional i per a afrontar nous reptes, tenir una visió àmplia de les possibilitats de la carrera professional en l'àmbit de l'enginyeria en informàtica. Sentir-se motivat per la qualitat i la millora contínua, i actuar amb rigor en el desenvolupament professional. Capacitat d'adaptació als canvis organitzatius o tecnològics. Capacitat de treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.
Raonament
CTR6 - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.
Bàsiques
CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma.
Objectius
Saber realitzar l'anàlisi descriptivá bàsica automàtica d'una base de dades complexa
Competències relacionades:
CTE9,
CG8,
Saber traslladar un problema real donat a un problema de mineria de dades
Competències relacionades:
CTR2,
CTR6,
CB6,
CG8,
Saber triar la tècnica de mineria de dades adequada per un problema real donat
Competències relacionades:
CTR6,
CB6,
CG8,
Saber dissenyar un projecte integrat de knowledge discovery, amb totes les seves fases, des de la formulació d'objectius fins la producció explícita del coneixement, integrant les tècniques apropiades en cada punt del procés sota un enfoc multidisciplinar
Competències relacionades:
CTE9,
CDG1,
CTR2,
CTR4,
CTR6,
CB6,
CB7,
CB8,
CG8,
Saber triar i utilitzar les eines adequades per implementar i desplegar un projecte de Knowledge Discovery, utilitzant la combinació més eficaç d'entorns de programació de lliure distribució o paquets professionals especialitzats
Competències relacionades:
CTE9,
CDG1,
CTR4,
CG8,
Saber interpretar correctament els resultats d'un projecte de Knowledge Discovery, fer una validació crítica dels resultats i reportar-los amb claredat i poder comunicar-los per escrit (tant de forma detallada com sintètica) o oralment a destinataris tècnics o no especialitzats
Competències relacionades:
CTR2,
CTR4,
CTR6,
CB7,
CB8,
Poder recòrrer a bibliografia complementària per trobar solució a problemes nous, incorporant coneixements més avençats al disseny dels projectes de Knowledge Discovery. Poder incorporar a un projecte un software nou o una nova tècnica.
Competències relacionades:
CDG1,
CTR5,
CTR6,
CB9,
CG8,
Saber realitzar una planificació a mig termini (uns tres mesos) per al desenvolupament d'un projecte de Knowledge Discovery de certa envergadura
Competències relacionades:
CDG1,
CTR3,
CTR5,
Saber integrar-se en un equip de treball (potser multidisciplinar) per al desenvolupament d'un projecte de Knowledge Discovery
Competències relacionades:
CDG1,
CTR3,
CTR4,
CTR5,
CB8,
Saber dissenyar un preprocessament adequat de les dades a analitzar, d'acord amb els objectius de l'estudi i l'estat original de les pròpies dades
Competències relacionades:
CTR2,
CTR4,
CB6,
CG8,
Continguts
Introducció. Origens Data Mining,etapes, estadística i IA
Es situa la Mineria de Dades en el contexte històric
Es presenta el procés global de Knowledge Discovery from databases amb les seves etapes, inclosa la de Mineria de Dades pròpiament dita.
S'introdueixen els pil.lars disciplinaris de la Minería de Dades: L'Estadística, la Intel.ligència Artificial, Sistemes d'Informació i Visualització de Dades
Àmbit de la disciplina i eines
Es reflexiona sobre la diferent natura dels problemes reals i els seus diferents graus de complexitat d'acord amb la classificació de Simpson. S'introdueix la problemàtica lligada als problemes poc estructurats, el coneixement a priori i el coneixement implícit, discutint sobre llur causes i conseqüències.
S'introdueixen diferents eines software per a desenvolupar tasques de Mineria de Dades.
Elecció del mètode. Tipologia de mètodes (DMMCM)
El curs presenta el Knowledge Discovery (KDD) sota una aproximació orientada al problema, on la natura del problema determinarà en gran part el disseny del procés d'anàlisi. Es presenten els factors que determinen una correcta elecció del mètode de Mineria de Dades en casos reals. Introducció de la tipologia de mètodes DMMCM com a base conceptual per a la selecció.
Dades, Metadades
Principals estructures de Dades que es tracten en Mineria de Dades.
Importància de les metadades, formats i continguts.
Preprocessament de les dades
Breu introducció dels aspectos rellevants a la fase de preparació de les dades: Tractament de dades mancants, detecció i tractament d'outliers, generació de variables derivades, transformacions de les variables, filtratge, sampling, feature weighting techniques i reducció de la dimensionalitat. Es donarà criteris per a un bon preprocessament
Mètodes descriptius de Mineria de dades
Cluster estadístic: mètodes de particions, mètodes jeràrquics, density-based, model-based, escalabilitat. Clustering conceptual (IA) . Mètodes híbrids AI&Stats: Classificació basada en regles. Cas OMS de sistemes de salut mental
Mètodes Associatius de Mineria de Dades
Inducció de regles d'associació, Mètodes Factorials, Xarxes Bayesianes.
Mètodes predictius de Data Mining
Regressió, model.lització estadística en general. Mètodes temporals. Xarxes Neuronals Artificials. Swarm Intelligence.
Mètodes discriminants de Mineria de Dades
Arbres de decisió, Mètodes d'inducció de regles, Màquines de Vectors de Suport, Random Forest. Anàlisi discriminant, mètodes híbrids. Cas funcionament en ancians i cub de seguiment.
Espai-temporalitat
S'introduiran algunes eines per tractar dades que simultàniament inclouen informació espacial que evoluciona al llarg del temps. Cas qualitat de vida Guttmann
Post-processament i validació
Es veuran eines de post-processament i validació de models i resultats adequades als diferents mètodes de Mineria de Dades. Cas tractament d'aigues residuals
Conclusió
Reubicació de tots els elements vistos durant el curs sobre l'esquema del procés de Knowledge Discovery descrit a la secció 1, a modus de recapitolació global del curs i síntesi.
Activitats
ActivitatActe avaluatiu
Lectura d'un article
Es seleccionarà un article de revista d'impacte sobre una aplicació real de la Mineria de Dades a proposta de l'estudiant o el professor, que l'estudiant haùrà de llegir, i entendre'n el procés de Knowledge Discovery que s'ha utilitzat, amb tots els seus ingredients. S'omplirà un formulari amb aquesta informació. Objectius:67 Continguts:
Per grups, els estudiants triaran un tema i unes dades sobre les que resoldre un problema de Mineria de Dades Objectius:289
Teoria
0h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Presentació Control de projectes en equip
Cada grup presentarà en públic el plantejament del seu projecte. Descripció del projecte, objectius, estructura, contingut i origen de les dades, disseny del procés de Data Mining a aplicar, pla de treball
Laboratori: Es dedicaran dues sessions de laboratori a les presentacions dels grups i discussió
Cada grup entregarà l'informe de la pràctica i presentarà als seus companys els resultats de l'aplicació de mineria de dades desenvolupada. Hi haurà debat i discussió amb el professor sobre les decisions preses al llarg del projecte Objectius:12345689 Setmana:
18
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
14h
Conclusió Final del curs
Integra tots els elements que s'han vist i treballat durant el curs, així com la posta en comú dels projectes desenvolupats per grups i articles llegits durant el curs Objectius:36
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Introduccio
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Ambit, eines, Dades, metadades, Preprocessament
Teoria
6h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Mapa DMMCM, mètodes de Data Mining
Teoria
12h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Espai-temporalitat
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Post-processament
Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h
Metodologia docent
L'assignatura s'imparteix sota una metodologia mixta d'aprenentatge basat en casos, i aprenetatge basat en el desenvolupament de projectes.
La primera setmana es sentaran les bases conceptuals de l'assignatura i es farà el repartiment de les activitats on cada estudiant haurà de participar activament per dur a bon port el seu procés d'aprenentatge. Bàsicament dues, la lectura d'un article amb una aplicació de Data Mining i el desenvolupament d'un projecte de Data Mining per grups.
Les setmanes successives, es seguirà la següent estructura: De les quatre hores setmanals, cada setmana se'n dedicaran dues a presentar casos d'una certa família, incloent totes les etapes de desenvolupament del cas (preprocessament, anàlisi, post-processament i validació). Part de la tercera hora alguns estudiants presentaran, de forma sintètica, casos complementaris sobre els que s'hauran hagut de documentar individualment. La resta de la tercera hora i al quarta, es realitzaran activitats al laboratori d'aprenentatge dirigit pel professor lligades al projecte que cada grup d'estudiants desenvolupi al llarg del curs.
A part de l'adquisió de competències tècniques lligades directament al Data Mining, un objectiu important del curs és dotar l'estudiant de competències transversals rellevants en el seu exercici professional com la capacitat de treballar en equip, de planificar un treball de llarga durada, de comunicar oral, visualment i per escrit, de sintetitzar, d'argumentar decisions preses al llarg d'un projecte, de gestionar incidències en el desenvolupament del mateix i de relacionar i integrar coneixements per a la construcció de solucions a problemes de gran complexitat. Les activitats programades al llarg del curs estan especialment dissenyades a tal efecte.
L'última setmana del curs, es farà una presentació de cada projecte que anirà seguida de discussió i que servirà d'examen oral. El professor dedicarà l'última hora de classe a posar en relleu els punts en comú i les particularitats dels projectes desenvolupats en relació als esquemes bàsics d'un projecte de Data Mining i es reflexionarà conjuntament sobre el que els estudiants hagin pogut captar sobre la utilitat de la disciplina en enginyeria informàtica, completant així el missatge general del curs.
Mètode d'avaluació
Dues qualificacions corresponent a les dues activitats desenvolupades al llarg del curs
20% per l'activitat del Paper. Es valora la capacitat de comprensió (0.5), síntesi (0.5) i comunicació oral i visual (0.5) de cada estudiant individualment, així com la seva capacitat argumentativa (0.5), que es manifestarà a través de la discussió.
80% per l'activitat del projecte desenvolupat en grup. Es farà una valoració comuna per tots els components del projecte de la qualitat del projecte de Data Mining desenvolupat, tenint en compte el rigor metodològic (0.5), la correctesa del procés de Knowledge Discovery dissenyat (0,5), dels mètodes de preprocessing seleccionats (0,25), dels mètodes de mineria de dades seleccionats (0,25), les eines seleccionades (0,5), la correcta aplicació i interpretació de resultats (1), i la integració de diferents tècniques en el projecte (0,5), així com la qualitat de la memòria (1), i la presentació final (1). Una component important de la qualificació correspondrà al nivell de planificació i coordinació de l'equip, com ha gestionat les incidències aparegudes durant el curs (1). A més es farà una valoració individualitzada de les capacitats comunicatives de cada estudiant (0,5) i del seu nivell d'integració a l'equip de treball (1).
És convenient, però no imprescindible, tenir coneixements previs d'estadística en general i més particularment d'anàlisi multivariant de dades, i d'aprenentatge automàtic