This course offers an in-depth coverage of main basic tasks for Natural Language Processing. We will present fundamental models and tools to approach a variety of Natural Language Processing tasks, ranging from named entity recognition to syntactic processing and document classification. The flow of the course is along two main axis: (1) computational formalisms to describe natural language processes, and (2) statistical and machine learning methods to acquire linguistic models from large data collections and solve specific linguistic tasks
Profesorado
Responsable
Lluis Padro Cirera (
)
Otros
Bardia Rafieian (
)
Salvador Medina Herrera (
)
Horas semanales
Teoría
2
Problemas
0
Laboratorio
1
Aprendizaje dirigido
0
Aprendizaje autónomo
5.3
Competencias
Competencias Técnicas Genéricas
Genéricas
CG3 - Capacidad para la modelización, cálculo, simulación, desarrollo e implantación en centros tecnológicos y de ingeniería de empresa, particularmente en tareas de investigación, desarrollo e innovación en todos los ámbitos relacionados con la Inteligencia Artificial.
Competencias Técnicas de cada especialidad
Académicas
CEA3 - Capacidad de comprender los principios básicos de funcionamiento de las técnicas principales de Aprendizaje Automático, y saber utilizarlas en el entorno de un sistema o servicio inteligente.
CEA5 - Capacidad de comprender los principios básicos de funcionamiento de las técnicas de Procesamiento del Lenguaje Natural, y saber utilizarlas en el entorno de un sistema o servicio inteligente.
Competencias Transversales
Trabajo en equipo
CT3 - Ser capaz de trabajar como miembro de un equipo interdisciplinar ya sea como un miembro mas, o realizando tareas de direccion con la finalidad de contribuir a desarrollar proyectos con pragmatismo y sentido de la responsabilidad, asumiendo compromisos teniendo en cuenta los recursos disponibles.
Razonamiento
CT6 - Capacidad de evaluar y analizar de manera razonada y critica sobre situaciones, proyectos, propuestas, informes y estudios de caracter cientifico-tecnico. Capacidad de argumentar las razones que explican o justifican tales situaciones, propuestas, etc.
Analisis y sintesis
CT7 - Capacidad de analisis y resolucion de problemas tecnicos complejos.
Básicas
CB6 - Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
CB8 - Que los estudiantes sepan comunicar sus conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades.
CB9 - Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo.
Objetivos
Learn to apply statistical methods for NLP in a practical application
Competencias relacionadas:
CEA3,
CEA5,
CT3,
CB6,
CB8,
Understand statistical and machine learning techniques applied to NLP
Competencias relacionadas:
CEA3,
CG3,
CT6,
CT7,
CB6,
Develop the ability to solve technical problems related to statistical and algorithmic problems in NLP
Competencias relacionadas:
CEA3,
CEA5,
CG3,
CT7,
CB6,
CB8,
CB9,
Understand fundamental methods of Natural Language Processing from a computational perspective
Competencias relacionadas:
CEA5,
CT7,
CB6,
Contenidos
Statistical Models for NLP
Introduction to statistical modelling for language. Maximum Likelhood models and smooting. Maximum entropy estimation. Log-Linear models
Distances and Similarities
Distances (and similarities) between linguistic units. Textual, Semantic, and Distributional distances. Semantic spaces (WN, Wikipedia, Freebase, Dbpedia).
Sequence Predicion
Prediction in word sequences: PoS tagging, NERC. Local classifiers, HMM, global predictors, Log-linear models.
Syntactic Parsing
Parsing constituent trees: PCFG, CKY vs Inside/outside
Parsing dependency trees: CRFs for parsing. Earley algorithm
Document-level modelling
Document representation: from BoW to NLU.
Document similarities.
Document classification.
Deep Leaning approaches - Introduction
Introduction to ANN for NLP
Lexical semantics. Word Embeddings
Deep Learning approaches - Word Sequences
PoS tagging, NERC
These lectures will present sequence models, an important set of tools that is used for sequential tasks. We will present this in the framework of structured prediction (later in the course we will see that the same framework is used for parsing and translation). We will focus on machine learning aspects, as well as algorithmic aspects. We will give special emphasis to Conditional Random Fields.
Also Deep Learning models will be presented Objetivos:42 Contenidos:
We will present statistical models for syntactic structure, and in general tree structures. The focus will be on probabilistic context-free grammars and dependency grammars, two standard formalisms. We will see relevant algorithms, as well as methods to learn grammars from data based on the structured prediction framework.
Sentence similarity, sentence classification. LSTM. BERT. Sentence embeddings Objetivos:42 Contenidos:
The course will be structured around four different linguistic analysis levels: word level, phrase level, sentence level, and document level. Typical NLP tasks and solutions corresponding to each level will be presented.
The first half of the course is devoted to "classical" statistical and ML approaches. The second half of the course revisits the same levels under a deep learning perspective
Theoretical background and practical exercises will be developed in class.
Finally, students will develop a practical project in teams of two students. The goal of the project is to put into practice the methods learned in class, and learn how the experimental methodology that is used in the NLP field. Students have to identify existing components (i.e. data and tools) that can be used to build a system, and perform experiments in order to perform empirical analysis of some statistical NLP method.