Tècniques de Mineria de Dades

Esteu aquí

Crèdits
3
Tipus
Optativa
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
EIO
Mail
L'objectiu principal d'aquesta assignatura és adquirir una visió general i pràctica de la fase central del procés de Knowledge Discovery from Data Bases, la Mineria de Dades, disciplina que s'encarrega d'extreure informació rellevant per a la presa de decisions a partir de dades de diferent índole (d'enquestes, de monitorització, de data-warehouses....) i procedents de fenòmens o organitzacions d'alts nivells de complexitat. El curs es centra en proporcionar els elements necessaris per a poder dissenyar processos de Mineria de Dades eficaços, eficients i adequats a la resolució del problema real plantejat en cada ocasió. A més de revisar els principals mètodes de Mineria de Dades, es treballaran àmpliament aspectes pràctics de gran repercussió com els efectes d'un mal pre-processament de les dades, de l'elecció incorrecta del mètode d'explotació de dades, d'una mala interpretació dels resultats o l'assumpció de falses hipòtesis sobre el procés a analitzar, per tal de garantitzar la validesa i utilitat dels resultats obtinguts. S'analitzaran casos reals diversos de l'àmbit de la medicina, economia o mediambient que posaran de manifest la versatilitat de la disciplina per a donar suport a una àmplia gamma de problemes reals de gran complexitat.

Professorat

Responsable

  • Karina Gibert Oliveras ( )

Altres

  • Sergi Ramirez Mitjans ( )

Hores setmanals

Teoria
1.5
Problemes
0
Laboratori
1.5
Aprenentatge dirigit
0
Aprenentatge autònom
0

Competències

Competències Tècniques de cada especialitat

Direcció i gestió

  • CDG1 - Capacitat per a la integració de tecnologies, aplicacions, serveis i sistemes propis de l'Enginyeria Informàtica, amb caràcter generalista, i en contextos més amplis i multidisciplinaris.

Específiques

  • CTE9 - Capatitat per a aplicar mètodes matemàtics, estadístics i d'intel·ligència artificial per a modelar, dissenyar i desenvolupar aplicacions, serveis, sistemes intel·ligents i sistemes basats en el coneixement.

Competències Tècniques Generals

Genèriques

  • CG8 - Capacitat per a l'aplicació dels coneixements adquirits i de resoldre problemes en entorns nous o poc coneguts dins de contexts més amplis i multidisciplinaris, essent capaços d'integrar aquests coneixements.

Competències Transversals

Sostenibilitat i compromís social

  • CTR2 - Conèixer i comprendre la complexitat dels fenòmens econòmics i socials típics de la societat del benestar. Ser capaç d'analitzar i valorar l'impacte social i mediambiental.

Treball en equip

  • CTR3 - Ser capaç de treballar com a membre d'un equip, ja sigui com a un membre més, ja sigui realitzant tasques de direcció, amb la finalitat de contribuir a desenvolupar projectes d'una manera pragmàtica i amb sentit de la responsabilitat; assumir compromisos tenint en compte els recursos disponibles.

ús solvent dels recursos d'informació

  • CTR4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i d'informació de l'àmbit de l'enginyeria informàtica, i valorar de forma crítica els resultats d'aquesta gestió.

Actitud adequada davant el treball

  • CTR5 - Tenir motivació per a la realització professional i per a afrontar nous reptes, tenir una visió àmplia de les possibilitats de la carrera professional en l'àmbit de l'enginyeria en informàtica. Sentir-se motivat per la qualitat i la millora contínua, i actuar amb rigor en el desenvolupament professional. Capacitat d'adaptació als canvis organitzatius o tecnològics. Capacitat de treballar en situacions de carència d'informació i/o amb restriccions temporals i/o de recursos.

Raonament

  • CTR6 - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma.

Objectius

  1. Saber realitzar l'anàlisi descriptivá bàsica automàtica d'una base de dades complexa
    Competències relacionades: CTE9, CG8,
  2. Saber traslladar un problema real donat a un problema de mineria de dades
    Competències relacionades: CTR2, CTR6, CB6, CG8,
  3. Saber triar la tècnica de mineria de dades adequada per un problema real donat
    Competències relacionades: CTR6, CB6, CG8,
  4. Saber dissenyar un projecte integrat de knowledge discovery, amb totes les seves fases, des de la formulació d'objectius fins la producció explícita del coneixement, integrant les tècniques apropiades en cada punt del procés sota un enfoc multidisciplinar
    Competències relacionades: CTE9, CDG1, CTR2, CTR4, CTR6, CB6, CB7, CB8, CG8,
  5. Saber triar i utilitzar les eines adequades per implementar i desplegar un projecte de Knowledge Discovery, utilitzant la combinació més eficaç d'entorns de programació de lliure distribució o paquets professionals especialitzats
    Competències relacionades: CTE9, CDG1, CTR4, CG8,
  6. Saber interpretar correctament els resultats d'un projecte de Knowledge Discovery, fer una validació crítica dels resultats i reportar-los amb claredat i poder comunicar-los per escrit (tant de forma detallada com sintètica) o oralment a destinataris tècnics o no especialitzats
    Competències relacionades: CTR2, CTR4, CTR6, CB7, CB8,
  7. Poder recòrrer a bibliografia complementària per trobar solució a problemes nous, incorporant coneixements més avençats al disseny dels projectes de Knowledge Discovery. Poder incorporar a un projecte un software nou o una nova tècnica.
    Competències relacionades: CDG1, CTR5, CTR6, CB9, CG8,
  8. Saber realitzar una planificació a mig termini (uns tres mesos) per al desenvolupament d'un projecte de Knowledge Discovery de certa envergadura
    Competències relacionades: CDG1, CTR3, CTR5,
  9. Saber integrar-se en un equip de treball (potser multidisciplinar) per al desenvolupament d'un projecte de Knowledge Discovery
    Competències relacionades: CDG1, CTR3, CTR4, CTR5, CB8,
  10. Saber dissenyar un preprocessament adequat de les dades a analitzar, d'acord amb els objectius de l'estudi i l'estat original de les pròpies dades
    Competències relacionades: CTR2, CTR4, CB6, CG8,

Continguts

  1. Introducció. Origens Data Mining,etapes, estadística i IA
    Es situa la Mineria de Dades en el contexte històric
    Es presenta el procés global de Knowledge Discovery from databases amb les seves etapes, inclosa la de Mineria de Dades pròpiament dita.
    S'introdueixen els pil.lars disciplinaris de la Minería de Dades: L'Estadística, la Intel.ligència Artificial, Sistemes d'Informació i Visualització de Dades
  2. Àmbit de la disciplina i eines
    Es reflexiona sobre la diferent natura dels problemes reals i els seus diferents graus de complexitat d'acord amb la classificació de Simpson. S'introdueix la problemàtica lligada als problemes poc estructurats, el coneixement a priori i el coneixement implícit, discutint sobre llur causes i conseqüències.
    S'introdueixen diferents eines software per a desenvolupar tasques de Mineria de Dades.
  3. Elecció del mètode. Tipologia de mètodes (DMMCM)
    El curs presenta el Knowledge Discovery (KDD) sota una aproximació orientada al problema, on la natura del problema determinarà en gran part el disseny del procés d'anàlisi. Es presenten els factors que determinen una correcta elecció del mètode de Mineria de Dades en casos reals. Introducció de la tipologia de mètodes DMMCM com a base conceptual per a la selecció.
  4. Dades, Metadades
    Principals estructures de Dades que es tracten en Mineria de Dades.
    Importància de les metadades, formats i continguts.
  5. Preprocessament de les dades
    Breu introducció dels aspectos rellevants a la fase de preparació de les dades: Tractament de dades mancants, detecció i tractament d'outliers, generació de variables derivades, transformacions de les variables, filtratge, sampling, feature weighting techniques i reducció de la dimensionalitat. Es donarà criteris per a un bon preprocessament
  6. Mètodes descriptius de Mineria de dades
    Cluster estadístic: mètodes de particions, mètodes jeràrquics, density-based, model-based, escalabilitat. Clustering conceptual (IA) . Mètodes híbrids AI&Stats: Classificació basada en regles. Cas OMS de sistemes de salut mental
  7. Mètodes Associatius de Mineria de Dades
    Inducció de regles d'associació, Mètodes Factorials, Xarxes Bayesianes.
  8. Mètodes predictius de Data Mining
    Regressió, model.lització estadística en general. Mètodes temporals. Xarxes Neuronals Artificials. Swarm Intelligence.
  9. Mètodes discriminants de Mineria de Dades
    Arbres de decisió, Mètodes d'inducció de regles, Màquines de Vectors de Suport, Random Forest. Anàlisi discriminant, mètodes híbrids. Cas funcionament en ancians i cub de seguiment.
  10. Espai-temporalitat
    S'introduiran algunes eines per tractar dades que simultàniament inclouen informació espacial que evoluciona al llarg del temps. Cas qualitat de vida Guttmann
  11. Post-processament i validació
    Es veuran eines de post-processament i validació de models i resultats adequades als diferents mètodes de Mineria de Dades. Cas tractament d'aigues residuals
  12. Conclusió
    Reubicació de tots els elements vistos durant el curs sobre l'esquema del procés de Knowledge Discovery descrit a la secció 1, a modus de recapitolació global del curs i síntesi.

Activitats

Activitat Acte avaluatiu


Lectura d'un article

Es seleccionarà un article de revista d'impacte sobre una aplicació real de la Mineria de Dades a proposta de l'estudiant o el professor, que l'estudiant haùrà de llegir, i entendre'n el procés de Knowledge Discovery que s'ha utilitzat, amb tots els seus ingredients. S'omplirà un formulari amb aquesta informació.
Objectius: 6 7
Continguts:
Teoria
0h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Definició del projecte en equip

Per grups, els estudiants triaran un tema i unes dades sobre les que resoldre un problema de Mineria de Dades
Objectius: 2 8 9
Teoria
0h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Presentació Control de projectes en equip

Cada grup presentarà en públic el plantejament del seu projecte. Descripció del projecte, objectius, estructura, contingut i origen de les dades, disseny del procés de Data Mining a aplicar, pla de treball
  • Laboratori: Es dedicaran dues sessions de laboratori a les presentacions dels grups i discussió
Objectius: 1 2 3 8 9 10
Teoria
0h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
7h

Presentació final del projecte en equip

Cada grup entregarà l'informe de la pràctica i presentarà als seus companys els resultats de l'aplicació de mineria de dades desenvolupada. Hi haurà debat i discussió amb el professor sobre les decisions preses al llarg del projecte
Objectius: 1 2 3 4 5 6 8 9
Setmana: 18
Tipus: examen final
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
14h

Conclusió Final del curs

Integra tots els elements que s'han vist i treballat durant el curs, així com la posta en comú dels projectes desenvolupats per grups i articles llegits durant el curs
Objectius: 3 6
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Introduccio



Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Ambit, eines, Dades, metadades, Preprocessament



Teoria
6h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Mapa DMMCM, mètodes de Data Mining



Teoria
12h
Problemes
0h
Laboratori
8h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Espai-temporalitat



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Post-processament



Teoria
2h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Metodologia docent

L'assignatura s'imparteix sota una metodologia mixta d'aprenentatge basat en casos, i aprenetatge basat en el desenvolupament de projectes.

La primera setmana es sentaran les bases conceptuals de l'assignatura i es farà el repartiment de les activitats on cada estudiant haurà de participar activament per dur a bon port el seu procés d'aprenentatge. Bàsicament dues, la lectura d'un article amb una aplicació de Data Mining i el desenvolupament d'un projecte de Data Mining per grups.

Les setmanes successives, es seguirà la següent estructura: De les quatre hores setmanals, cada setmana se'n dedicaran dues a presentar casos d'una certa família, incloent totes les etapes de desenvolupament del cas (preprocessament, anàlisi, post-processament i validació). Part de la tercera hora alguns estudiants presentaran, de forma sintètica, casos complementaris sobre els que s'hauran hagut de documentar individualment. La resta de la tercera hora i al quarta, es realitzaran activitats al laboratori d'aprenentatge dirigit pel professor lligades al projecte que cada grup d'estudiants desenvolupi al llarg del curs.

A part de l'adquisió de competències tècniques lligades directament al Data Mining, un objectiu important del curs és dotar l'estudiant de competències transversals rellevants en el seu exercici professional com la capacitat de treballar en equip, de planificar un treball de llarga durada, de comunicar oral, visualment i per escrit, de sintetitzar, d'argumentar decisions preses al llarg d'un projecte, de gestionar incidències en el desenvolupament del mateix i de relacionar i integrar coneixements per a la construcció de solucions a problemes de gran complexitat. Les activitats programades al llarg del curs estan especialment dissenyades a tal efecte.

L'última setmana del curs, es farà una presentació de cada projecte que anirà seguida de discussió i que servirà d'examen oral. El professor dedicarà l'última hora de classe a posar en relleu els punts en comú i les particularitats dels projectes desenvolupats en relació als esquemes bàsics d'un projecte de Data Mining i es reflexionarà conjuntament sobre el que els estudiants hagin pogut captar sobre la utilitat de la disciplina en enginyeria informàtica, completant així el missatge general del curs.

Mètode d'avaluació

Dues qualificacions corresponent a les dues activitats desenvolupades al llarg del curs
20% per l'activitat del Paper. Es valora la capacitat de comprensió (0.5), síntesi (0.5) i comunicació oral i visual (0.5) de cada estudiant individualment, així com la seva capacitat argumentativa (0.5), que es manifestarà a través de la discussió.

80% per l'activitat del projecte desenvolupat en grup. Es farà una valoració comuna per tots els components del projecte de la qualitat del projecte de Data Mining desenvolupat, tenint en compte el rigor metodològic (0.5), la correctesa del procés de Knowledge Discovery dissenyat (0,5), dels mètodes de preprocessing seleccionats (0,25), dels mètodes de mineria de dades seleccionats (0,25), les eines seleccionades (0,5), la correcta aplicació i interpretació de resultats (1), i la integració de diferents tècniques en el projecte (0,5), així com la qualitat de la memòria (1), i la presentació final (1). Una component important de la qualificació correspondrà al nivell de planificació i coordinació de l'equip, com ha gestionat les incidències aparegudes durant el curs (1). A més es farà una valoració individualitzada de les capacitats comunicatives de cada estudiant (0,5) i del seu nivell d'integració a l'equip de treball (1).

Web links

Capacitats prèvies

És convenient, però no imprescindible, tenir coneixements previs d'estadística en general i més particularment d'anàlisi multivariant de dades, i d'aprenentatge automàtic