Minería de Datos No Estructurados

Usted está aquí

Créditos
6
Tipos
Obligatoria
Requisitos
Esta asignatura no tiene requisitos, pero tiene capacidades previas
Departamento
CS
The goal of this course is to provide the fundamentals of Natural Language Processing (NLP) to the student. Concretely, the course is an introduction to the most relevant drawbacks involved in NLP, the most relevant techniques and resources used to tackle with them, and the theories they are based on. In addition, brief descriptions of the most relevant NLP applications are included.
The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks

Profesores

Responsable

  • Lluis Padro Cirera ( )

Horas semanales

Teoría
1.5
Problemas
0.5
Laboratorio
1
Aprendizaje dirigido
0
Aprendizaje autónomo
0

Competencias

Competencias Transversales

Uso solvente de los recursos de información

  • CT4 - Gestionar la adquisicion, la estructuracion, el analisis y la visualizacion de datos e informacion en el ambito de la especialidad y valorar de forma critica los resultados de esta gestion.

Lengua extranjera

  • CT5 - Conocer una tercera lengua, preferentemente el inglés, con un nivel adecuado oral y escrito y en consonancia con las necesidades que tendrán los titulados y tituladas.

Espíritu emprendedor e innovador

  • CT1 - Conocer y entender la organización de una empresa y las ciencias que rigen su actividad; tener capacidad para entender las normas laborales y las relaciones entre la planificación, las estrategias industriales y comerciales, la calidad y el beneficio. Conocer y entender los mecanismos en que se basa la investigación científica, así como los mecanismos e instrumentos de transferencia de resultados entre los diferentes agentes socioeconómicos implicados en los procesos de I+D+i.

Básicas

  • CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • CB7 - Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios.
  • CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
  • CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
  • CB10 - Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación.

Competencias Técnicas Genéricas

Genéricas

  • CG2 - Identificar y aplicar métodos de análisis, extracción de conocimiento y visualización de datos recogidos en formatos muy diversos.

Competencias Técnicas

Específicas

  • CE6 - Diseñar el proceso de Ciencia de Datos y aplicar metodologías científicas para obtener conclusiones sobre poblaciones y tomar decisiones en consecuencia, a partir de datos estructurados o no estructurados y potencialmente almacenados en formatos heterogéneos.
  • CE7 - Identificar las limitaciones impuestas por la calidad de datos en un problema de ciencia de datos y aplicar técnicas para disminuir su impacto
  • CE11 - Analizar y extraer conocimiento de información no estructurada mediante técnicas de procesamiento de lenguaje natural, minería de textos e imágenes
  • CE12 - Aplicar la ciencia de datos en proyectos multidisciplinares para resolver problemas en dominios nuevos o poco conocidos y que sean económicamente viables, socialmente aceptables, y de acuerdo con la legalidad vigente
  • CE13 - Identificar las principales amenazas en el ámbito de la ética y la privacidad de datos en un proyecto de ciencia de datos (tanto en el aspecto de gestión como de análisis de datos) y desarrollar e implantar medidas adecuadas para mitigar dichas amenazas.

Objetivos

  1. Conocer y comprender las tareas básicas de procesamiento del lenguaje natural y su aplicación en tareas de análisis de texto.
    Competencias relacionadas: CT4, CT5, CG2, CE6, CE7, CE11, CB6, CB7, CB10,
  2. Conocer, comprender y aplicar métodos de minería de textos, incluyendo reconocimiento de entidades, análisis de sentimiento y recuperación de documentos.
    Competencias relacionadas: CT4, CT5, CT1, CE11, CE12, CB6, CB8, CB9,
  3. Conocer, comprender y aplicar los principios básicos del aprendizaje profundo en tareas sobre datos no estucturados, tales como el procesamiento del lenguaje o la visión por computador..
    Competencias relacionadas: CT4, CT5, CG2, CE6, CE7, CE11, CE13, CB6, CB7, CB8, CB9, CB10,

Contenidos

  1. Procesamiento de lenguaje natural y su aplicación en análisis de textos.
    Introduction: What is NLP and its applications
  2. Descripción de las etapas del procesamiento de lenguaje natural.
    Text segmentation: sentence splitting, tokenization; morpholigcal analysis, PoS tagging, syntactic parsing
  3. clasificación del texto y similitud de textos.
    Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval.
    Text classification: Sentiment analysis
  4. Extraccion de informacion: Reconocimiento de entidades, extraccion de relaciones
  5. Técnicas de aprendizaje profundo para análisis de datos no estructurados.
    Word embeddings, neural language processing
  6. Principales arquitecturas de aprendizaje profundo para datos no estructurados
    Recurrent NN, Convolutional NN, Transformers

Actividades

Actividad Acto evaluativo


Practica de laboratorio


Objetivos: 3
Semana: 16
Tipo: entrega
Teoría
0h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
40h

Examen final


Objetivos: 1 2
Semana: 16
Tipo: examen final
Teoría
3h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
40h

NLP y sus aplicaciones

Introduction. What is NLP, tasks, components, and applications.
Objetivos: 1
Contenidos:
Teoría
2h
Problemas
0h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

etapas del procesamiento del lenguaje natural

Text segmentation: sentence splitting/tokenization; morphological analysis; PoS tagging; syntactic parsing.
Objetivos: 1
Contenidos:
Teoría
6h
Problemas
2h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

clasificación de textos. Similitud de textos.

Similarity measures for text. String edit based distances. Vector and set distance measures, distributional semantics. Document retrieval. Text classification: Sentiment analysis
Objetivos: 2
Contenidos:
Teoría
2h
Problemas
0.5h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Extracción de información: Reconocimiento de entidades. Extracción de relaciones.


Objetivos: 1 2
Contenidos:
Teoría
2h
Problemas
0.5h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Tecnicas de deep learning para el analisis de datos no estructurados.

Word embeddings, neural language processing
Objetivos: 3
Contenidos:
Teoría
6h
Problemas
1h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Principales arquitecturas de deep learning pera datos no estructurados

Recurrent NN, Convolutional NN, Transformers
Objetivos: 3
Contenidos:
Teoría
6h
Problemas
1h
Laboratorio
0h
Aprendizaje dirigido
0h
Aprendizaje autónomo
0h

Teoría
0h
Problemas
0h
Laboratorio
5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Teoría
0h
Problemas
0h
Laboratorio
5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Teoría
0h
Problemas
0h
Laboratorio
5h
Aprendizaje dirigido
0h
Aprendizaje autónomo
6h

Metodología docente

Clase expositiva participativa de contenidos teóricos y prácticos.
Clase práctica de resolución, con la participación de los estudiantes, de casos prácticos y/o ejercicios relacionados con los contenidos de la materia.
Prácticas de laboratorio - Trabajo en grupo
Tutorías.

Método de evaluación

practica de laboratorio 50% + examen final 50%

Bibliografía

Básica:

Capacidades previas

Nivel alto de programación en python.
Conocimientos de estadística y matemàticas a nivel de grado universitari en ingenieria o similar.
Conceptos basicos de aprendizaje automatico