Mineria de Dades No Estructurades

Esteu aquí

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits, però té capacitats prèvies
Departament
CS
The goal of this course is to provide the fundamentals of Natural Language Processing (NLP) to the student. Concretely, the course is an introduction to the most relevant drawbacks involved in NLP, the most relevant techniques and resources used to tackle with them, and the theories they are based on. In addition, brief descriptions of the most relevant NLP applications are included.
The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks

Professors

Responsable

  • Lluis Padro Cirera ( )

Hores setmanals

Teoria
1.5
Problemes
0.5
Laboratori
1
Aprenentatge dirigit
0
Aprenentatge autònom
0

Competències

Competències Transversals

ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.

Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.

Emprenedoria i innovació

  • CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.

Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
  • CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.

Competències Tècniques Generals

Genèriques

  • CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents

Competències Tècniques

Específiques

  • CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
  • CE7 - Identificar les limitacions imposades per la qualitat de dades en un problema de ciència de dades i aplicar tècniques per a disminuir el seu impacte
  • CE11 - Analitzar i extreure coneixement d'informació no estructurada mitjançant tècniques de processament de llenguatge natural, mineria de textos i imatges
  • CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
  • CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.

Objectius

  1. Know and understand basic NLP tasks and their application to text analysis.
    Competències relacionades: CT4, CT5, CG2, CE6, CE7, CE11, CB6, CB7, CB10,
  2. Know, understant, and apply text mining techniques, including entity recognition, sentiment analysis, and document retrieval.
    Competències relacionades: CT4, CT5, CT1, CE11, CE12, CB6, CB8, CB9,
  3. Know, understand, and apply basic principles of deep learning in unstructured data tasks, such as natural language processing, or computer vision.
    Competències relacionades: CT4, CT5, CG2, CE6, CE7, CE11, CE13, CB6, CB7, CB8, CB9, CB10,

Continguts

  1. Natural language processing and its application to text analysis
    Introduction: What is NLP and its applications
  2. natural language processing stages
    Text segmentation: sentence splitting, tokenization; morpholigcal analysis, PoS tagging, syntactic parsing
  3. text classification, text similarity.
    Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval.
    Text classification: Sentiment analysis
  4. Information extraction: Entity recognition, relation extraction
  5. Deep learning techniques for the analysis of non-structured data
    Word embeddings, neural language processing
  6. Main deep learning architectures for non-structured data
    Recurrent NN, Convolutional NN, Transformers

Activitats

Activitat Acte avaluatiu


Practica de laboratori


Objectius: 3
Setmana: 16
Tipus: entrega
Teoria
0h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
40h

Examen final


Objectius: 1 2
Setmana: 16
Tipus: examen final
Teoria
3h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
40h

NLP i les seves aplicacions

Introduction. What is NLP, tasks, components, and applications.
Objectius: 1
Continguts:
Teoria
2h
Problemes
0h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

etapes del processament del llenguatge natural

Text segmentation: sentence splitting/tokenization; morphological analysis; PoS tagging; syntactic parsing.
Objectius: 1
Continguts:
Teoria
6h
Problemes
2h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Classificatció de textos, similaritat de textos.

Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval. Text classification: Sentiment analysis
Objectius: 2
Continguts:
Teoria
2h
Problemes
0.5h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Extracció d'informació: Reconeixement d'entitats. Extracció de relacions.


Objectius: 1 2
Continguts:
Teoria
2h
Problemes
0.5h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Tècniques de deep learning per a l'anàlisi de dades no estructurades.

Word embeddings, neural language processing
Objectius: 3
Continguts:
Teoria
6h
Problemes
1h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

Principals arquitectures de deep learning per a dades no estructurades

Recurrent NN, Convolutional NN, Transformers
Objectius: 3
Continguts:
Teoria
6h
Problemes
1h
Laboratori
0h
Aprenentatge dirigit
0h
Aprenentatge autònom
0h

pràctica de laboratori en reconeixement d'entitats


Objectius: 1 2
Continguts:
Teoria
0h
Problemes
0h
Laboratori
5h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

pràctica de laboratori en extracció de relacions


Objectius: 1 2
Continguts:
Teoria
0h
Problemes
0h
Laboratori
5h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Teoria
0h
Problemes
0h
Laboratori
5h
Aprenentatge dirigit
0h
Aprenentatge autònom
6h

Metodologia docent

Classe expositiva participativa de continguts teorics i practics
Classe practica de resolució, amb la participación dels estudiants, de casos pràctics i/o exercicis relacionats amb els continguts de la materia
Practiques de laboratori - Treballen grup
Tutoríes.

Mètode d'avaluació

practica de laboratori 50% + examen final 50%

Bibliografia

Bàsica:

Capacitats prèvies

Nivell alt de programació en python.
Coneixements d'estadística i matemàtiques a nivell de grau universitari en enginyeria o similar.
Conceptes bàsics d'aprenentatge automàtic.