Mineria de Dades

Esteu aquí

Crèdits
6
Tipus
Optativa
Requisits
  • Prerequisit: PE
  • Prerequisit: PRO2
Departament
CS;EIO
Mail
La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions i com a tal constitueix la fase central del procés d'extracció de coneixement a partir de bases de dades (KDD, Knowledge Discovery in Databases). La Mineria de Dades és un punt de trobada de diferents disciplines: l'estadística, l'aprenentatge automàtic (Machine Learning), les tècniques de bases de dades i els sistemes per a la presa de decisions. Juntes, permeten afrontar molts problemes actuals pel que fa al tractament de la informació.
L'assignatura introdueix les tècniques més establertes per la resolució de tres tipus de problemes fonamentals: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques (per exemple, de genòmica) i anàlisi de dades d'empreses, els quals configuren bona part dels problemes que tracta la disciplina. Com objectiu paral·lel està la utilització de l'R, un potent entorn de programació lliure.

De per què un estudiant del grau pot estar interessat en aquesta assignatura:
La Mineria de Dades és la disciplina que s'ocupa de processar grans quantitats de dades provinents de sistemes d'informació complexos de les grans organitzacions, per tal d'extreure'n coneixement rellevant, nou i comprensible, útil per a la presa de decisions en tota mena de contextes, des del comerç electrònic, fins a les xarxes socials, passant per la monitorització de sistemes ambientals, les targetes de fidelització de clients, consum en general, la salut pública, banca, finances o la producció industrial.

Es tracta d'un àrea paraigües on és necessari combinar tècniques i metodologies de diverses àrees informàtiques (com el disseny de data warehouses, el machine learning, la modelització estadística, l'anàlisi multivariant de dades, la visualització de dades, la computació intensiva, l'enginyeria del software) per a donar resposta a la complexitat de l'àrea.

Actualment és clar que el valor de les organitzacions està íntimament lligat a la informació que es pot extreure de les dades que disposa i que encara escasseja el perfil professional adequat per a fer-ho. La mineria de dades és precisament la ciència que transforma les dades en valor per les organitzacions i adquirir competències en aquest àmbit és un excel.lent complement per al professional de la informàtica sigui quina sigui la seva àrea d'especialització.

Per als estudiants de sistemes d'informació aquesta assignatura aporta capacitats per completar el procés de dades: sovint un excel.lent disseny del sistema d'informació de l'organització no és prou aprofitat per manca d'un bon servei d'explotació d'aquesta informació amb la mineria de dades adequada. D'altra banda, conèixer el que es pot haver d'extreure de les dades és un referent important a tenir en compte en el disseny de la pròpia estructura de dades. Als estudiants d'enginyeria del software, els aportarà criteri per poder identificar i estandarditzar serveis de mineria de dades a incloure en els grans aplicatius informàtics que donin suport a l'organització decidint i planificant quin consum de dades es proveeix.

Per als estudiants de l'àrea de tecnologies de la informació, resulta interessant el vincle entre la monitorització en temps real de sistemes fixes o mòbils, i les tècniques de data mining per reduir els senyals a indicadors rellevants, per detectar-ne els events a comunicar o per extreure'n la informació important de forma incremental (data stream mining). L'extracció de coneixement sobre dades distribuïdes o emmagatzemades al núvol és una area d'extrema projecció en el futur immediat.

Per als estudiants de computació, presenta reptes molt interessants relatius al desenvolupament de
nous algoritmes d'extracció d'informació més eficients i/o escalables per atacar conjunts de dades molt massius o altres estructures no tant clàssiques com grafs (social-nets mining) o documents (web mining).

Professorat

Responsable

  • Karina Gibert Oliveras ( )
  • Mario Martín Muñoz ( )

Altres

  • Caroline König ( )
  • Dante Conti ( )
  • Manuel Gijon Agudo ( )
  • Sergi Ramirez Mitjans ( )
  • Sonia Garcia Esteban ( )
  • Xavier Angerri Torredeflot ( )

Hores setmanals

Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0.4
Aprenentatge autònom
5.6

Competències

Competències Tècniques de cada especialitat

Especialitat sistemes d'informació

  • CSI2 - Integrar solucions de Tecnologies de la Informació i les Comunicacions, i processos empresarials per a satisfer les necessitats d'informació de les organitzacions, permetent que assoleixin els seus objectius de forma efectiva.
    • CSI2.2 - Concebre, desplegar, organitzar i gestionar sistemes i serveis informàtics, en contextos empresarials o institucionals, per a millorar-ne els processos de negoci; responsabilitzar-se'n i liderar-ne la posada en marxa i la millora contínua; valorar el seu impacte econòmic i social.
    • CSI2.3 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'extracció i de gestió del coneixement.
    • CSI2.6 - Demostrar coneixement i capacitat d'aplicació dels sistemes d'ajuda a la presa de decisions i de bussines intelligence.

Competències Transversals

Raonament

  • G9 [Avaluable] - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.
    • G9.3 - Capacitat crítica, capacitat d'avaluació.

Tercera llengua

  • G3 [Avaluable] - Conèixer l'idioma anglès amb un nivell adequat de forma oral i escrita, i en consonància amb les necessitats que tindran els graduats i les graduades en Enginyeria Informàtica. Capacitat de treballar en un grup multidisciplinar i en un entorn multilingüe i de comunicar, tant per escrit com de forma oral, coneixements, procediments, resultats i idees relacionats amb la professió d'enginyer tècnic en informàtica.
    • G3.2 - Estudiar amb materials escrits en anglès. Redactar un informe o un treball de tipus tècnic en anglès. Participar en una reunió tècnica en anglès.

Objectius

  1. Coneixer la tipologia dels principals problemes de la Mineria de Dades
    Competències relacionades: CSI2.3, CSI2.6, CSI2.2,
  2. Avaluació de la qualitat de les dades i la necessitat del seu preprocessat
    Competències relacionades: CSI2.3, CSI2.6, CSI2.2,
  3. Identificar les tecniques estadístiques i/o d'aprenentatge automàtic més apropiades al problema a resoldre
    Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
  4. Implementar algorismes senzills d'aprenentatge
    Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
  5. Avaluació dels resultats obtinguts
    Competències relacionades: G9.3, CSI2.3, CSI2.6, CSI2.2,
  6. Presentació dels resultats en un entorn professional per a la presa de decisions
    Competències relacionades: G9.3, CSI2.3, CSI2.6, G3.2, CSI2.2,

Continguts

  1. Introducció a la Mineria de Dades.
    Modelització estadística i tipus de problemes: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques i anàlisi de dades d'empreses
  2. Visualització i reducció de la dimensionalitat
    Métodes de selecció i extracció de variables. Visualització de dades multivariants.
  3. Clustering
    Métodes de partició directa, jeràrquics i maximització de l'esperança
  4. Mètodes Predictius
    Regressió lineal múltiple i generalitzada. Regressió Logística. Xarxes Neuronals
  5. Arbres de Decisió
    Arbres de regressió i classificació (CART).
  6. Protocols de validació i remostreig de dades
    Holdout, validació creuada i bootstrap
  7. Generació de regles d'associació
    Algorismes A-priori i Eclat.
  8. Mètodes baiesians
    Teoria de la decissió baiesiana. Anàlisi Discriminant LDA, QDA i Naïve Bayes
  9. Discriminació no paramètrica
    Veïns més propers
  10. Métodes de contracció i selecció de variables en regressió
    Regressió lineal regularitzada. Métodes LASSO i Elastic Net
  11. Anàlisi formal de conceptes
    Mètode formal per trobar patrons en dades
  12. Preprocessament de dades
    a
  13. Bagging i ensemble methods
    Bagging i ensemble methods

Activitats

Activitat Acte avaluatiu


Desenvolupament del Tema 1


Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Repas del llenguatge R



Teoria
0h
Problemes
0h
Laboratori
6h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Desenvolupament deTema 2


Objectius: 2
Continguts:
Teoria
4h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
8h

Desenvolupament del Tema 3


Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 4


Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 5


Objectius: 2
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 6


Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 7


Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 8


Objectius: 2
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
4h

Desenvolupament del Tema 9


Objectius: 2
Continguts:
Teoria
3h
Problemes
0h
Laboratori
2h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Desenvolupament del Tema 10


Objectius: 5
Continguts:
Teoria
3h
Problemes
0h
Laboratori
4h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Practica 1


Objectius: 2 5 4 3
Setmana: 13
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
3h
Aprenentatge autònom
20h

Practica 2


Objectius: 5 4 3 6
Setmana: 15
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
3h
Aprenentatge autònom
20h

Metodologia docent

L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classes de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà l'entorn de programació lliure R.

Les classes de laboratori es dedicaran a resoldre problemes relacionats amb els coneixements proporcionats a les classes de teoria i a la resolució per part dels alumnes (de forma autònoma) d'un problema similar. Aquest problema pot incloure la resolució de preguntes molt breus de caràcter conceptual i serà entregat per ser avaluat. Per últim, els alumnes hauran de realitzar dues pràctiques completes, una de modelització estadística i una altra per resoldre un problema del tipus "científic", "transaccions" o "marketing" (un a escollir). Aquesta darrera pràctica serà presentada de forma oral davant el conjunt de la classe.

Mètode d'avaluació

L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en els exercicis desenvolupats durant les sessions de laboratori.
Per altra banda es realitzaran dues pràctiques, una realitzada a partir d'un problema de modelització estadística, i l'altra pràctica sobre un dels altres tipus de problemes tractats en l'assignatura. Per cada pràctica l'alumne presentarà el corresponent informe. I per últim, al finalitzar el curs, l'alumne haurà de fer la presentació oral de la segona pràctica.

L'alumne haurà de demostrar en aquests informes i en la presentació haver adquirit els elements de raonament i d'anglès de l'assignatura. Aquests s'avaluaran mitjançant la corresponent rúbrica.

La nota global de laboratori és el promig de les avaluacions dels exercicis desenvolupats a partir de les sessions de laboratori.

La nota final s'obtindrà així:

Labo = nota global de laboratori
Pr1 = nota de la primera pràctica
Pr2 = nota de la segona pràctica

Nota final = 0.2*Labo + 0.4*Pr1 + 0.4*Pr2

En les dues pràctiques, i respecte el seu 40%, el 35% correspon a la correcció tècnica i el 5% correspon a la competència transversal 'raonament', de manera que s'obté un pes global del 10% d'aquesta competència transversal en la nota final.

Bibliografia

Bàsica:

Complementaria:

Web links

Capacitats prèvies

Fonaments de probabilitat i estadística. Programació bàsica en R