Saltar al contingut Menu
Mapa
  • Inici
  • Informació
  • Contacte
  • Mapa

Mineria de Dades (MD)

Crèdits Dept.
7.5 (6.0 ECTS) EIO-CS

Professors

Responsable:  (-)
Altres:(-)

Objectius Generals

La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions. La Mineria de Dades constitueix la fase central del procés d'extracció de coneixement de les bases de dades KDD (Knowledge Discovery in Databases). En aquest sentit la Mineria de Dades és un punt d'encontre de diferents disciplines: l'estadística, l'aprenentatge automàtic ('machine learning'), les tècniques de bases de dades i els sistemes per a la presa de decisions que, juntes, permeten afrontar problemes actuals de les organitzacions pel que fa al tractament de la informació.
L'assignatura es divideix en tres parts conceptuals, centrades en els temes de l'associació, la classificació i la predicció, els quals configuren la gran majoria de problemes que tracta la Mineria de Dades. Com objectiu paral.lel està la utilització d'un entorn de programació lliure, així com conèixer entorns professionals, per la resolució dels problemes propis de la Mineria de Dades.

De per què un estudiant d'informàtica pot estar interessat en aquesta assignatura:
La Mineria de Dades és la disciplina que s'ocupa de processar grans quantitats de dades provinents de sistemes d'informació complexos de les grans
organitzacions, per tal d'extreure'n coneixement rellevant, nou i comprensible, útil per a la presa de decisions en tota mena de contextes, des del comerç electrònic,
fins a les xarxes socials, passant per la monitorització de sistemes ambientals, les targetes de fidelització de clients, consum en general, la salut pública, banca,
finances o la producció industrial.
Es tracta d'un àrea paraigües on és necessari combinar tècniques i metodologies de diverses àrees informàtiques (com el disseny de data warehouses, el machine
learning, la modelització estadística, l'anàlisi multivariant de dades, la visualització de dades, la computació intensiva, l'enginyeria del software) per a donar resposta
a la complexitat de l'àrea.
Actualment és clar que el valor de les organitzacions està íntimament lligat a la informació que es pot extreure de les dades que disposa i que encara escasseja el
perfil professional adequat per a fer-ho. La mineria de dades és precisament la ciència que transforma les dades en valor per les organitzacions i adquirir
competències en aquest àmbit és un excel.lent complement per al professional de la informàtica sigui quina sigui la seva àrea d'especialització.
Per que fa als sistemes d'informació aquesta assignatura aporta capacitats per completar el procés de dades: sovint un excel.lent disseny del sistema
d'informació de l'organització no és prou aprofitat per manca d'un bon servei d'explotació d'aquesta informació amb la mineria de dades adequada. D'altra banda,
conèixer el que es pot haver d'extreure de les dades és un referent important a tenir en compte en el disseny de la pròpia estructura de dades. En enginyeria del software, aportarà criteri per poder identificar i estandarditzar serveis de mineria de dades a incloure en els grans aplicatius informàtics que donin
suport a l'organització decidint i planificant quin consum de dades es proveeix.
Quant a les tecnologies de la informació, resulta interessant el vincle entre la monitorització en temps real de sistemes fixes o mòbils, i les
tècniques de data mining per reduir els senyals a indicadors rellevants, per detectar-ne els events a comunicar o per extreure'n la informació important de forma
incremental (data stream mining). L'extracció de coneixement sobre dades distribuïdes o emmagatzemades al núvol és una area d'extrema projecció en el futur
immediat.
També presenta reptes molt interessants relatius al desenvolupament de
nous algoritmes d'extracció d'informació més eficients i/o escalables per atacar conjunts de dades molt massius o altres estructures no tant clàssiques com grafs
(social-nets mining) o documents (web mining).

El següent link dona una perspectiva general de l'área
http://videolectures.net/learning06_gibert_dmtae/

Objectius Específics

Coneixements

  1. La descripció estadística automàtica de bases de dades.
  2. Eines de reducció de la dimensionalitat i visualització multivariant.
  3. La generació de regles d'associació.
  4. Eines per a la definició de 'clusters'.
  5. La generació de models estadístics de predicció.
  6. La generació de regles de classificació.
  7. El funcionament del perceptró multicapa i la màquina de vectors suport.
  8. Utilització de l'entorn R de programació lliure per Mineria de Dades.

Habilitats

  1. Identificar problemes de Mineria de Dades en l'entorn professional.
  2. Identificar les tècniques estadístiques i/o de intel'ligència artificial més apropiades al problema a resoldre.
  3. Implementar algorismes senzills d'aprenentatge.
  4. Utilitzar sistemes de Mineria de Dades per a la resolució de problemes reals.
  5. Avaluació de la qualitat del resultats obtinguts.
  6. Construir un sistema de Mineria de Dades, per integració de diferents eines d'aprenentatge, enfocat a la presa de decisions.
  7. Conèixer els sistemes professionals més utilitzats de Mineria de Dades.

Competències

  1. Treball en equip.
  2. Capacitat de resolució de problemes quantitatius en l'entorn informàtic.
  3. Redacció d'informes i defensa oral dels mateixos.
  4. Capacitat crítica de les eines i resultats utilitzats en mineria de dades.

Continguts

Hores estimades de:

T P L Alt L Ext. Est A Ext.
Teoria Problemes Laboratori Altres activitats Laboratori extern Estudi Altres hores fora d'horari fixat

1. INTRODUCCIÓ A LA MINERIA DE DADES
T      P      L      Alt    L Ext. Est    A Ext. Total 
1,0 0 0 0 0 0 0 1,0
1. El procés d'aprendre de les dades.
2. Els problemes de la mineria de dades.
3. Les tècniques de mineria de dades.
4. Les dades. Tipus de dades. Preprocés

2. DESCRIPCIÓ ESTADÍSTICA AUTOMÀTICA DE BASES DE DADES
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. Concepte de prova de hipòtesis.
2. Descripció d'una variable continua.
3. Descripció d'una variable categòrica.
  • Laboratori:
    Realització de la pràctica 1.1. Descripció automàtica d'una Base de Dades
  • Activitats de laboratori addicionals:
    Realització de la pràctica 1.1. Descripció automàtica d'una Base de Dades

3. VISUALITZACIÓ MULTIVARIANT DE LES DADES
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0
1. Anàlisi de Components Principals.
2. Anàlisi de Correspondències Múltiples.
3. Projecció de informació suplementària.
  • Laboratori:
    Pràctica 1.2. Visualització multivariant
  • Activitats de laboratori addicionals:
    Pràctica 1.2. Visualització multivariant

4. GENERACIÓ DE REGLES D'ASSOCIACIÓ
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. "Market basket analysis".
2. Algoritmes de generació de regles.
3. Exemple de regles d'associació.
  • Laboratori:
    Pràctica 1.3. Generació de regles d'associació.
  • Activitats de laboratori addicionals:
    Pràctica 2.1. Generació de regles d'associació.

5. TÈCNIQUES DE CLUSTERING
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 0 2,0 0 2,0 4,0 0 12,0
1. Mètodes de partició directa: Algoritme de "k-means".
2. Algoritme k-means accelerat.
3. Mètodes ascendents.
4. Mètodes mixtes.
5. Algorisme EM.
6. Exemple de classificació.
  • Laboratori:
    Pràctica 2.2. Programació d'un algorisme de clustering
  • Activitats de laboratori addicionals:
    Pràctica 2.2. Programació d'un algorisme de clustering

6. MODELS DE PREDICCIÓ DE VARIABLES CONTINUES
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 0 2,0 0 1,0 4,0 0 11,0
1. Regressió lineal.
2. Models aditius.
3. Avaluació de la qualitat dels resultats.
4. Regressió sobre components incorrelacionades.

7. MODELS LINEALS GENERALITZATS
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 0 2,0 0 1,0 2,0 0 7,0
1. Formulació dels MLG.
2. Regressió logística.
3. Exemple de regressió logística
  • Laboratori:
    Pràctica 3. Model de predicció per regressió logística.
  • Activitats de laboratori addicionals:
    Pràctica 3. Model de predicció per regressió logística.

8. MÈTODES DE DISCRIMINACIÓ PARAMÈTRICS
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. Discriminació lineal i quadràtica.
2. Naive Bayes.
3. Exemple de discriminació paramètrica.
  • Laboratori:
    Practica 3. Model de predicció per discriminació lineal.
  • Activitats de laboratori addicionals:
    Practica 3. Model de predicció per discriminació lineal.

9. DISCRIMINACIÓ NO PARAMÈTRICA
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 2,0 0 1,0 3,0 0 9,0
1. Discriminació local KNN.
2. Exemple de discriminació local.
  • Laboratori:
    Pràctica 3. Models de predicció per KNN.
  • Activitats de laboratori addicionals:
    Pràctica 3. Models de predicció per KNN.

10. ARBRES DE DECISIÓ
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 2,0 0 2,0 3,0 0 10,0
1. CART.
2. Altres arbres de decisió.
3. Exemple d'arbre de decisió.
  • Laboratori:
    Pràctica 3. Model de predicció amb arbres.
  • Activitats de laboratori addicionals:
    Pràctica 3. Model de predicció amb arbres.

11. XARXES NEURONALS
T      P      L      Alt    L Ext. Est    A Ext. Total 
5,0 0 4,0 0 3,0 5,0 0 17,0
1. Formulació de les xarxes neuronals.
2. Perceptró mono i multicapa.
3. Exemple de xarxa neuronal.
4. mapes de Kohonen
  • Laboratori:
    Pràctica 3. Model de predicció per xarxa neuronal.
  • Activitats de laboratori addicionals:
    Pràctica 3. Model de predicció per xarxa neuronal.

12. MÈTODES FLEXIBLES DE DISCRIMINACIÓ
T      P      L      Alt    L Ext. Est    A Ext. Total 
3,0 0 0 0 0 3,0 0 6,0
1. Màquines de vectors suport.

13. COMBINACIÓ DE MODELS I APLICACIONS
T      P      L      Alt    L Ext. Est    A Ext. Total 
1,0 0 0 0 0 1,0 0 2,0
1. Bagging i boosting.
2. Web mining i text mining.

14. UTILITZACIÓ D'UN SISTEMA INTEGRAT DE MINERIA DE DADES.
T      P      L      Alt    L Ext. Est    A Ext. Total 
0 0 2,0 0 0 0 0 2,0
1. R
2. Weka
  • Laboratori:
    1. Introducció a R
    2. Introducció a Weka
  • Activitats de laboratori addicionals:
    L'aprenentatge de R es farà durant el curs, al llarg de les diferents sessions de laboratori

15. SISTEMES PROFESSIONALS DE MINERIA DE DADES
T      P      L      Alt    L Ext. Est    A Ext. Total 
0 0 4,0 0 0 0 0 4,0
1. Spad
2. Clementine
3. Enterprise Miner
  • Laboratori:
    Presentació de SPAD, Clementine i Enterprise Miner.

16. PRESENTACIÓ DE RESULTATS
T      P      L      Alt    L Ext. Est    A Ext. Total 
0 0 0 0 10,0 0 0 10,0
  • Activitats de laboratori addicionals:
    Preparació de la presentació de la pràctica 3.


Total per tipus T      P      L      Alt    L Ext. Est    A Ext. Total 
39,0 0 28,0 0 24,0 38,0 0 129,0
Hores addicionals dedicades a l'avaluació 10,0
Total hores de treball per l'estudiant 139,0

Metodologia docent

L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classe de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà el sistema R.
R es un sistema obert de programació, de distribució lliure, per bé que també es podrà utilitzar el software disponible a la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Atesa la utilitat finalista de l'assignatura, també es farà èmfasi en la utilització de sistemes professionals de mineria de dades, tals com SPAD, Clementine i Enterprise Miner.
Pel que fa al desenvolupament de les classes teòriques, es farà seguint els documents pdf dipositats al Racó de l'assignatura.

Mètode d'avaluació

L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en les tres pràctiques realitzades durant el curs i d'una petita prova escrita. La primera pràctica es basa en la resolució d'un problema de preprocés, visualització multivariant i "clustering" en una base de dades.
La segona pràctica comporta la generació de regles d'associació pel descobriment de coneixement interessant en una base de dades de transaccions comercials o similar.
La tercera pràctica és lliure sobre un problema de predicció, escollit per l'alumne entre diferents alternatives. Aquesta última pràctica incorpora els elements de les anteriors i té com a finalitat la resolució d'un problema real de predicció mitjançant diferents models i la seva comparació crítica. Aquesta pràctica haurà de ser presentada i defensada públicament i l'estudiant haurà de respondre les eventuals preguntes teòriques sobre els models i mètodes usats a la seva solució. Les pràctiques es realitzaràn mitjançant el software R.
La prova escrita es realitzarà el darrer dia de classe i avaluarà de manera senzilla el grau d'enteniment i assimilació dels conceptes bàsics de l'assignatura.
Les pràctiques es ponderaran amb un 15%, 15% i 50% respectivament i la prova el 20% romanent. Cada pràctica comportarà la redacció del corresponent informe escrit i podrà ser efectuada conjuntament, fins un màxim de dos alumnes per grup.

Bibliografía bàsica

  • Tomàs Aluja Banet, Alain Morineau Aprender de los datos : el análisis de componentes principales : una aproximación desde el Data Mining, EUB, 1999.
  • D.J. Hand. Construction and assessment of classification rules, Wiley, 1997.
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman The Elements of statistical learning : data mining, Springer, 2001.
  • José Hernández Orallo, Mª José Ramírez Quintana, Cèsar Ferri Ramírez Introducción a la minería de datos, Pearson, 2004.
  • Ian H. Witten, Eibe Frank Data mining : practical machine learning tools and techniques with java implementations, Morgan Kaufmann Publishers, 1999.

Bibliografía complementària

  • Michael J. A. Berry, Gordon Linoff Data mining techniques : for marketing, sales, and customer relationship management, Wiley, 2004.
  • David Hand, Heikki Mannila Padrhraic Smyth Principles of data mining, MIT Press, 2001.
  • Ludovic Lebart, Alain Morineau, Marie Piron Statistique exploratoire multidimensionnelle, Dunod, 1997.
  • Daniel Peña Regresión y diseño de experimentos, Alianza, 2002.
  • B. D. Ripley Pattern recognition and neural networks, Cambridge University Press, 1996.
  • Christopher M. Bishop Neural networks for pattern recognition, Clarendon Press, 1995.
  • Leo Breiman ... [et al.]. Classification and regression trees, Chapman & Hall : ITP International Thomson Publishing, 1994.
  • Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski Data mining methods for knowledge discovery, Kluwer Academic, 1998.
  • Maria L. Rizzo Statistical Computing with R, Chapman and Hall, 2008.

Enllaços web

  1. http://www.cran.es.r-project.org
    Es la pàgina per baixar-se i informar-se sobre el sistema R.


  2. http://www.kdnuggets.com/
    Informació general sobre software, cursos, actualitat de la mineria de dades als Estats Units.


  3. http://www.cs.waikako.ac.nz
    Es la pàgina per baixar-se i informar-se sobre el sistema Weka.


Capacitats prèvies

L'assignatura es autocontinguda, però es bo que l'estudiant hagi adquirit una sèrie de conceptes, en particular els següents
-  Concepte de mitjana, matriu de covariancies i correlacions.
-  Concepte de prova de hipòtesis.
-  Descomposició en valors singulars d'una matriu
-  Programació d'algorismes.
-  Regressió lineal múltiple

Les assignatures que haurien de ser prerequisit són Estadística, Programació i Matemàtiques.


Compartir

 
logo FIB © Facultat d'Informàtica de Barcelona - Contacte - RSS
Aquest web utilitza cookies pròpies per oferir una millor experiència i servei. En continuar amb la navegació entenem que acceptes la nostra política de cookies.
Versió clàssica Versió mòbil