Vés al contingut

Mineria de Dades No Estructurades

Crèdits
6
Tipus
Obligatòria
Requisits
Aquesta assignatura no té requisits , però té capacitats prèvies
Departament
CS
Web
https://www.cs.upc.edu/~turmo/mud/plan0a6/MUD.html
The goal of this course is to provide the fundamentals of Natural Language Processing (NLP) to the student. Concretely, the course is an introduction to the most relevant drawbacks involved in NLP, the most relevant techniques and resources used to tackle with them, and the theories they are based on. In addition, brief descriptions of the most relevant NLP applications are included.
The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks

Professorat

Responsable

Altres

Hores setmanals

Teoria
1.5
Problemes
0.5
Laboratori
2
Aprenentatge dirigit
0
Aprenentatge autònom
7.11

Competències

Ús solvent dels recursos d'informació

  • CT4 - Gestionar l'adquisició, l'estructuració, l'anàlisi i la visualització de dades i informació de l'àmbit d'especialitat, i valorar de forma crítica els resultats d'aquesta gestió.
  • Tercera llengua

  • CT5 - Conèixer una tercera llengua, preferentment l'anglès, amb un nivell adequat oral i escrit i en consonància amb les necessitats que tindran els titulats i titulades.
  • Emprenedoria i innovació

  • CT1 - Conèixer i comprendre l'organització d'una empresa i les ciències que regeixen la seva activitat; tenir capacitat per entendre les normes laborals i les relacions entre la planificació, les estratègies industrials i comercials, la qualitat i el benefici. Conèixer i entendre els mecanismes en què es basa la recerca científica, així com els mecanismes i instruments de transferència de resultats entre els diferents agents socioeconòmics implicats en els processos d'I+D+i.
  • Bàsiques

  • CB6 - Que els estudiants sàpiguen aplicar els coneixements adquirits y la seva capacitat de resolució de problemes en entorns nous o poc coneguts dins de contexts més amplis (o multidisciplinaris) relacionats amb la seva àrea d'estudi.
  • CB7 - Que els estudiants siguin capaços d'integrar coneixements i enfrontar-se a la complexitat de formular judicis a partir d'una informació que, essent incomplerta o limitada, inclogui reflexions sobre les responsabilitats socials i ètiques vinculades a l'aplicació dels seus coneixements i judicis.
  • CB8 - Que els estudiants sàpiguen comunicar les seves conclusions i els coneixements i raons darreres que les sustenten- a públics especialitzats i no especialitzats d'una manera clara i sense ambigüitats.
  • CB9 - Que els estudiants posseeixin les habilitats d'aprenentatge que els permetin continuar estudiant d'una manera que haurà de ser en gran mesura autodirigida o autònoma..
  • CB10 - Posseir i comprendre coneixements que aportin una base o oportunitat de ser originals en el desenvolupament i/o aplicació d'idees, sovint en un context de recerca.
  • Genèriques

  • CG2 - Identificar i aplicar mètodes d'anàlisi, extracció de coneixement i visualització de dades recollides en formats molt diferents
  • Específiques

  • CE6 - Dissenyar el procés de Ciència de Dades i aplicar metodologies científiques per a obtenir conclusions sobre poblacions i prendre decisions en conseqüència, a partir de dades estructurades o no estructurades i potencialment emmagatzemades en formats heterogenis.
  • CE7 - Identificar les limitacions imposades per la qualitat de dades en un problema de ciència de dades i aplicar tècniques per a disminuir el seu impacte
  • CE11 - Analitzar i extreure coneixement d'informació no estructurada mitjançant tècniques de processament de llenguatge natural, mineria de textos i imatges
  • CE12 - Aplicar la ciència de dades en projectes multidisciplinaris per resoldre problemes en dominis nous o poc coneguts per la ciència de dades i que siguin econòmicament viables, socialment acceptables, i d'acord amb la legalitat vigent
  • CE13 - Identificar les principals amenaces en l'àmbit de l'ètica i la privacitat de dades en un projecte de ciència de dades (tant en l'aspecte de gestió com d'anàlisi de dades) i desenvolupar i implantar mesures adequades per esmorteïr aquestes amenaces.
  • Objectius

    1. Know and understand basic NLP tasks and their application to text analysis.
      Competències relacionades: CT4, CT1, CG2, CE6, CE7, CE11, CB6, CB7, CB10,
    2. Know, understand, and apply text mining techniques, including entity recognition, sentiment analysis, and document retrieval.
      Competències relacionades: CT4, CT5, CE11, CE12, CB6, CB7, CB8, CB9,
    3. Know, understand, and apply basic principles of deep learning in unstructured data tasks, such as natural language processing, or computer vision.
      Competències relacionades: CT4, CT5, CG2, CE6, CE7, CE11, CE13, CB6, CB7, CB8, CB9, CB10,

    Continguts

    1. Natural language processing and its application to text analysis
      Introduction: What is NLP and its applications
    2. natural language processing stages
      Text segmentation: sentence splitting, tokenization; morpholigcal analysis, PoS tagging, syntactic parsing
    3. text classification, text similarity.
      Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval.
      Text classification: Sentiment analysis
    4. Information extraction: Entity recognition, relation extraction
    5. Deep learning techniques for the analysis of non-structured data
      Word embeddings, neural language processing
    6. Main deep learning architectures for non-structured data
      Recurrent NN, Convolutional NN, Transformers

    Activitats

    Activitat Acte avaluatiu


    Practica de laboratori


    Objectius: 3
    Setmana: 16 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Examen final


    Objectius: 1 2
    Setmana: 16 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    NLP i les seves aplicacions

    Introduction. What is NLP, tasks, components, and applications.
    Objectius: 1
    Continguts:
    Teoria
    2h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    etapes del processament del llenguatge natural

    Text segmentation: sentence splitting/tokenization; morphological analysis; PoS tagging; syntactic parsing.
    Objectius: 1
    Continguts:
    Teoria
    7.3h
    Problemes
    2.5h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Classificatció de textos, similaritat de textos.

    Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval. Text classification: Sentiment analysis
    Objectius: 2
    Continguts:
    Teoria
    1.5h
    Problemes
    0.5h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Extracció d'informació: Reconeixement d'entitats. Extracció de relacions.


    Objectius: 1 2
    Continguts:
    Teoria
    1.5h
    Problemes
    0.5h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Tècniques de deep learning per a l'anàlisi de dades no estructurades.

    Word embeddings, neural language processing
    Objectius: 3
    Continguts:
    Teoria
    4.5h
    Problemes
    2h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Principals arquitectures de deep learning per a dades no estructurades

    Recurrent NN, Convolutional NN, Transformers
    Objectius: 3
    Continguts:
    Teoria
    3.5h
    Problemes
    1.5h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    pràctica de laboratori en reconeixement d'entitats


    Objectius: 1 2
    Continguts:
    Teoria
    0h
    Problemes
    0h
    Laboratori
    6h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    pràctica de laboratori en extracció de relacions


    Objectius: 1 2
    Continguts:
    Teoria
    0h
    Problemes
    0h
    Laboratori
    6h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Teoria
    0h
    Problemes
    0h
    Laboratori
    6h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    examen parcial


    Objectius: 3
    Setmana: 8 (Fora d'horari lectiu)
    Teoria
    0h
    Problemes
    0h
    Laboratori
    0h
    Aprenentatge dirigit
    0h
    Aprenentatge autònom
    0h

    Metodologia docent

    Classe expositiva participativa de continguts teorics i practics
    Classe practica de resolució, amb la participación dels estudiants, de casos pràctics i/o exercicis relacionats amb els continguts de la materia
    Practiques de laboratori - Treballen grup
    Tutoríes.

    Mètode d'avaluació

    pràctiques de laboratori 40% + examen parcial 30% + examen final 30%

    Bibliografia

    Bàsic

    Capacitats prèvies

    Nivell alt de programació en python.
    Coneixements d'estadística i matemàtiques a nivell de grau universitari en enginyeria o similar.
    Conceptes bàsics d'aprenentatge automàtic.