Pasar al contenido principal

Minería de Datos No Estructurados

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos , pero tiene capacidades previas
Departamento
CS
The goal of this course is to provide the fundamentals of Natural Language Processing (NLP) to the student. Concretely, the course is an introduction to the most relevant drawbacks involved in NLP, the most relevant techniques and resources used to tackle with them, and the theories they are based on. In addition, brief descriptions of the most relevant NLP applications are included.
The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks

Profesorado

Responsable

  • Carlos Escolano Peinado (carlos.escolano@upc.edu)
  • Jordi Turmo Borrás (turmo@cs.upc.edu)

Otros

  • Salvador Medina Herrera (salvador.medina.herrera@upc.edu)

Horas semanales

Teoría
1.5
Problemas
0.5
Laboratorio
2
Aprendizaje dirigido
0
Aprendizaje autónomo
7.11

Competencias

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.
  • Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.
  • Espíritu emprendedor e innovador

  • CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.
  • Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
  • CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.
  • Genéricas

  • CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.
  • Específicas

  • CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
  • CE7 - Identificar las limitaciones impuestas por la calidad de datos en un problema de ciencia de datos y aplicar técnicas para disminuir su impacto
  • CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes
  • CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
  • CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.
  • Objetivos

    1. Conocer y comprender las tareas básicas de procesamiento del lenguaje natural y su aplicación en tareas de análisis de texto.
      Competencias relacionadas: CB10, CB6, CB7, CT1, CT4, CE11, CE6, CE7, CG2,
    2. Conocer, comprender y aplicar métodos de minería de textos, incluyendo reconocimiento de entidades, análisis de sentimiento y recuperación de documentos.
      Competencias relacionadas: CB6, CB7, CB8, CB9, CT4, CT5, CE11, CE12,
    3. Conocer, comprender y aplicar los principios básicos del aprendizaje profundo en tareas sobre datos no estucturados, tales como el procesamiento del lenguaje o la visión por computador..
      Competencias relacionadas: CB6, CB7, CB8, CB9, CT4, CT5, CE11, CB10, CE13, CE6, CE7, CG2,

    Contenidos

    1. Procesamiento de lenguaje natural y su aplicación en análisis de textos.
      Introduction: What is NLP and its applications
    2. Descripción de las etapas del procesamiento de lenguaje natural.
      Text segmentation: sentence splitting, tokenization; morpholigcal analysis, PoS tagging, syntactic parsing
    3. clasificación del texto y similitud de textos.
      Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval.
      Text classification: Sentiment analysis
    4. Extraccion de informacion: Reconocimiento de entidades, extraccion de relaciones
    5. Técnicas de aprendizaje profundo para análisis de datos no estructurados.
      Word embeddings, neural language processing
    6. Principales arquitecturas de aprendizaje profundo para datos no estructurados
      Recurrent NN, Convolutional NN, Transformers

    Actividades

    Actividad Acto evaluativo


    Practica de laboratorio


    Objetivos: 3
    Semana: 16 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Examen final


    Objetivos: 1 2
    Semana: 16 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    NLP y sus aplicaciones

    Introduction. What is NLP, tasks, components, and applications.
    Objetivos: 1
    Contenidos:
    Teoría
    2h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    etapas del procesamiento del lenguaje natural

    Text segmentation: sentence splitting/tokenization; morphological analysis; PoS tagging; syntactic parsing.
    Objetivos: 1
    Contenidos:
    Teoría
    7.3h
    Problemas
    2.5h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    clasificación de textos. Similitud de textos.

    Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval. Text classification: Sentiment analysis
    Objetivos: 2
    Contenidos:
    Teoría
    1.5h
    Problemas
    0.5h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Extracción de información: Reconocimiento de entidades. Extracción de relaciones.


    Objetivos: 1 2
    Contenidos:
    Teoría
    1.5h
    Problemas
    0.5h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Tecnicas de deep learning para el analisis de datos no estructurados.

    Word embeddings, neural language processing
    Objetivos: 3
    Contenidos:
    Teoría
    4.5h
    Problemas
    2h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Principales arquitecturas de deep learning pera datos no estructurados

    Recurrent NN, Convolutional NN, Transformers
    Objetivos: 3
    Contenidos:
    Teoría
    3.5h
    Problemas
    1.5h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Teoría
    0h
    Problemas
    0h
    Laboratorio
    6h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Teoría
    0h
    Problemas
    0h
    Laboratorio
    6h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Teoría
    0h
    Problemas
    0h
    Laboratorio
    6h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    examen parcial


    Objetivos: 3
    Semana: 8 (Fuera de horario lectivo)
    Teoría
    0h
    Problemas
    0h
    Laboratorio
    0h
    Aprendizaje dirigido
    0h
    Aprendizaje autónomo
    0h

    Metodología docente

    Clase expositiva participativa de contenidos teóricos y prácticos.
    Clase práctica de resolución, con la participación de los estudiantes, de casos prácticos y/o ejercicios relacionados con los contenidos de la materia.
    Prácticas de laboratorio - Trabajo en grupo
    Tutorías.

    Método de evaluación

    prácticas de laboratorio 40% + examen parcial 30% + examen final 30%

    Bibliografía

    Básico

    Capacidades previas

    Nivel alto de programación en python.
    Conocimientos de estadística y matemàticas a nivel de grado universitari en ingenieria o similar.
    Conceptos basicos de aprendizaje automatico