| Responsable: | Luis Antonio Belanche Muñoz (belanche Tomas Aluja Banet (tomas.aluja |
| Altres: | (-) |
| Crèdits | Dept. | Tipus | Requisits |
|---|---|---|---|
| 7.5 (6.0 ECTS) | EIO-LSI |
|
AL
- Pre-requisit per la EI CAL - Pre-requisit per la EI EST - Pre-requisit per la EI PRAP - Pre-requisit per la EI |
| Responsable: | Luis Antonio Belanche Muñoz (belanche Tomas Aluja Banet (tomas.aluja |
| Altres: | (-) |
La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions. La Mineria de Dades constitueix la fase central del procés d'extracció de coneixement de les bases de dades KDD (Knowledge Discovery in Databases). En aquest sentit la Mineria de Dades és un punt d'encontre de diferents disciplines: l'estadística, l'aprenentatge automàtic ('machine learning'), les tècniques de bases de dades i els sistemes per a la presa de decisions que, juntes, permeten afrontar problemes actuals de les organitzacions pel que fa al tractament de la informació.
L'assignatura es divideix en tres parts conceptuals, centrades en els temes de l'associació, la classificació i la predicció, els quals configuren la gran majoria de problemes que tracta la Mineria de Dades. Com objectiu paral.lel està la utilització d'un entorn de programació lliure, així com conèixer entorns professionals, per la resolució dels problemes propis de la Mineria de Dades.
Hores estimades de:
| T | P | L | Alt | L Ext. | Est | A Ext. |
| Teoria | Problemes | Laboratori | Altres activitats | Laboratori extern | Estudi | Altres hores fora d'horari fixat |
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
1. Concepte de prova de hipòtesis.
2. Descripció d'una variable continua. 3. Descripció d'una variable categòrica.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 | |||
|
1. Anàlisi de Components Principals.
2. Anàlisi de Correspondències Múltiples. 3. Projecció de informació suplementària.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
1. "Market basket analysis".
2. Algoritmes de generació de regles. 3. Exemple de regles d'associació.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 2,0 | 4,0 | 0 | 12,0 | |||
|
1. Mètodes de partició directa: Algoritme de "k-means".
2. Algoritme k-means accelerat. 3. Mètodes ascendents. 4. Mètodes mixtes. 5. Algorisme EM. 6. Exemple de classificació.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 4,0 | 0 | 2,0 | 0 | 1,0 | 4,0 | 0 | 11,0 | |||
|
1. Regressió lineal.
2. Models aditius. 3. Avaluació de la qualitat dels resultats. 4. Regressió sobre components incorrelacionades. |
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 2,0 | 0 | 2,0 | 0 | 1,0 | 2,0 | 0 | 7,0 | |||
|
1. Formulació dels MLG.
2. Regressió logística. 3. Exemple de regressió logística
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
1. Discriminació lineal i quadràtica.
2. Naive Bayes. 3. Exemple de discriminació paramètrica.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 1,0 | 3,0 | 0 | 9,0 | |||
|
1. Discriminació local KNN.
2. Exemple de discriminació local.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 2,0 | 0 | 2,0 | 3,0 | 0 | 10,0 | |||
|
1. CART.
2. Altres arbres de decisió. 3. Exemple d'arbre de decisió.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 5,0 | 0 | 4,0 | 0 | 3,0 | 5,0 | 0 | 17,0 | |||
|
1. Formulació de les xarxes neuronals.
2. Perceptró mono i multicapa. 3. Exemple de xarxa neuronal. 4. mapes de Kohonen
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 3,0 | 0 | 0 | 0 | 0 | 3,0 | 0 | 6,0 | |||
|
1. Màquines de vectors suport.
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 1,0 | 0 | 0 | 0 | 0 | 1,0 | 0 | 2,0 | |||
|
1. Bagging i boosting.
2. Web mining i text mining. |
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 2,0 | 0 | 0 | 0 | 0 | 2,0 | |||
|
1. R
2. Weka
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 4,0 | 0 | 0 | 0 | 0 | 4,0 | |||
|
1. Spad
2. Clementine 3. Enterprise Miner
|
||||||||||
|
T | P | L | Alt | L Ext. | Est | A Ext. | Total | ||
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 0 | 0 | 10,0 | 0 | 0 | 10,0 | |||
|
||||||||||
| Total per tipus | T | P | L | Alt | L Ext. | Est | A Ext. | Total |
| 39,0 | 0 | 28,0 | 0 | 24,0 | 38,0 | 0 | 129,0 | |
| Hores addicionals dedicades a l'avaluació | 10,0 | |||||||
| Total hores de treball per l'estudiant | 139,0 | |||||||
L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classe de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà el sistema R.
R es un sistema obert de programació, de distribució lliure, per bé que també es podrà utilitzar el software disponible a la FIB: WEKA, Minitab, Saad, Excel, Matlab, ... Atesa la utilitat finalista de l'assignatura, també es farà èmfasi en la utilització de sistemes professionals de mineria de dades, tals com SPAD, Clementine i Enterprise Miner.
Pel que fa al desenvolupament de les classes teòriques, es farà seguint els documents pdf dipositats al Racó de l'assignatura.
L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en les tres pràctiques realitzades durant el curs i d'una petita prova escrita. La primera pràctica es basa en la resolució d'un problema de preprocés, visualització multivariant i "clustering" en una base de dades.
La segona pràctica comporta la generació de regles d'associació pel descobriment de coneixement interessant en una base de dades de transaccions comercials o similar.
La tercera pràctica és lliure sobre un problema de predicció, escollit per l'alumne entre diferents alternatives. Aquesta última pràctica incorpora els elements de les anteriors i té com a finalitat la resolució d'un problema real de predicció mitjançant diferents models i la seva comparació crítica. Aquesta pràctica haurà de ser presentada i defensada públicament i l'estudiant haurà de respondre les eventuals preguntes teòriques sobre els models i mètodes usats a la seva solució. Les pràctiques es realitzaràn mitjançant el software R.
La prova escrita es realitzarà el darrer dia de classe i avaluarà de manera senzilla el grau d'enteniment i assimilació dels conceptes bàsics de l'assignatura.
Les pràctiques es ponderaran amb un 15%, 15% i 50% respectivament i la prova el 20% romanent. Cada pràctica comportarà la redacció del corresponent informe escrit i podrà ser efectuada conjuntament, fins un màxim de dos alumnes per grup.
http://www.cran.es.r-project.org
http://www.kdnuggets.com/
http://www.cs.waikako.ac.nzL'assignatura es autocontinguda, però es bo que l'estudiant hagi adquirit una sèrie de conceptes, en particular els següents
- Concepte de mitjana, matriu de covariancies i correlacions.
- Concepte de prova de hipòtesis.
- Descomposició en valors singulars d'una matriu
- Programació d'algorismes.
- Regressió lineal múltiple
Les assignatures que haurien de ser prerequisit són Estadística, Programació i Matemàtiques.