Information Bottleneck : nexos entre el aprendizaje estadístico y la teoría de información

Autor

Vera, Matías A.

Título

Colaborador

Rey Vega, Leonardo

Piantanida, Pablo

Descripción

Grado obtenido: Doctor de la Universidad de Buenos Aires

Disciplina: Ingeniería

Fil: Vera, Matías. Universidad de Buenos Aires. Facultad de Ingeniería

Lugar de trabajo: Departamento de Electrónica, Facultad de Ingeniería. UBA,

Editor

Universidad de Buenos Aires. Facultad de Ingeniería

Fecha

2020-03-13

Extensión

xix, 185 p.

Resumen

La inteligencia artificial avanza a pasos agigantados. Sin embargo esta tendencia podría llegar a estancarse si no se logra un avance significativo en algunas cuestiones, dos de las cuales serán estudiadas en esta tesis. Por un lado, el aprendizaje estadístico busca desarrollar algoritmos que no solo clasifiquen correctamente un conjunto de datos conocidos, sino que también este comportamiento se generalice a nuevas muestras. La capacidad de generalización de los algoritmos muchas veces es abordada con meras perturbaciones en la etapa de aprendizaje. Un inteligente uso de dichos métodos de perturbación podría traducirse en una mejora considerable de los algoritmos. Por otro lado, la teoría de información busca crear representaciones lo mas comprimidas posible, sin que esto afecte su posterior utilización. La cantidad de datos a almacenar crece exponencialmente día a día y métodos eficientes de compresión de la información se vuelven esenciales en el avance de estos tipos de tecnologías. En esta tesis se aborda el problema del cuello de botella de la información (information bottleneck) poniendo el foco sobre los nexos entre aprendizaje estadístico y teoría de información. La búsqueda de representaciones precisas y generalizables del aprendizaje estadístico, como la extracción de información concentrada en pocos datos de la teoría de información parecen ser dos caras de la misma moneda: el cuello de botella entre generar representaciones relevantes con bajo nivel de complejidad.
Las principales contribuciones de esta tesis pueden separarse en cuatro temáticas, las cuales serán abordadas en los capítulos 5, 6, 7 y 8. La primera se basa en el desarrollo de un algoritmo capaz de aplicarse tanto al problema de aprendizaje multitarea como al de extracción de información con información lateral de teoría de información. Diferentes análisis teóricos y prácticos sobre el mismo se desarrollan en profundidad. La segunda está basada en un vínculo teórico que relaciona el efecto bottleneck con el problema de generalización del aprendizaje estadístico por medio de una cota de confianza sobre la desviación del riesgo empírico. Este resultado es complementado con un estudio experimental, mostrando que el mismo puede ser de suma relevancia cuando la distribución de los datos de entrenamiento y testeo es sutilmente diferente. La tercera se basa en el estudio del desacople existente al entrenar con la entropía cruzada como función costo para minimizar la probabilidad de error. Este desacople también parece estar vinculado con métricas de teoría de información. Por último la cuarta es el estudio del problema del information bottleneck en esquemas distribuidos relevantes en la práctica, pero desde una perspectiva teórica. Un análisis profundo demuestra como la cooperación entre los diferentes nodos donde se almacena la información puede ser ventajosa.

Artificial intelligence advances by leaps and bounds. However, this trend could become stagnant if significant progress is not achieved in certain issues, two of which will be studied in this thesis. On the one hand, statistical learning seeks to develop algorithms that not only correctly classify a set of known data, but also that this behavior is generalized to new samples. The ability to generalize algorithms is often addressed with mere disturbances in the learning stage. An intelligent use of such disturbance methods could result in a considerable improvement of the algorithms. On the other hand, information theory seeks to create representations as compressed as possible, without affecting its subsequent use. The amount of data to be stored grows exponentially day by day and efficient methods of information compression become essential in the advancement of these kind of technologies. This thesis addresses the problem of information bottleneck, focusing on the links between statistical learning and information theory. The search for accurate and generalizable representations of statistical learning, such as the extraction of information concentrated on few data from information theory, seem to be two sides of the same coin: the bottleneck between generating relevant representations with a low complexity level
The main contributions of this thesis can be separated into four categories, which will be studied in chapters 5, 6, 7 and 8. The first is based on the development of an algorithm capable of applying both the problem of multitasking learning and to finding the fundamental limits of a information theory communication scheme with side information. Different theoretical and practical analyzes on it are developed in depth. The second is based on a theoretical link that relates the bottleneck effect with the generalization problem of statistical learning through a level of confidence about the deviation of empirical risk. This result is complemented by an experimental study, showing that it can be extremely relevant when the distribution of training and testing data is subtly different. The third is based on the study of the decoupling when cross entropy is the training cost function to minimize the error probability. This decoupling also seems to be linked to information theory metrics. Finally, the fourth is the study of the information bottleneck problem in distributed schemes that are relevant in practice, but in a theoretical way. An in-depth analysis demonstrates how cooperation between different nodes where information is stored can be advantageous