Desempacando la “caja negra” para construir mejores modelos de IA
Las imágenes para descargar en el sitio web de la oficina de MIT News están disponibles para entidades no comerciales, prensa y público en general bajo una licencia Creative Commons Attribution Non-Commercial No Derivatives. No puede modificar las imágenes proporcionadas, excepto recortarlas al tamaño. Se debe utilizar una línea de crédito al reproducir imágenes; Si no se proporciona uno a continuación, acredite las imágenes a "MIT".
Imagen anterior Imagen siguiente
Cuando los modelos de aprendizaje profundo se implementan en el mundo real, tal vez para detectar fraude financiero a partir de actividades con tarjetas de crédito o identificar cáncer en imágenes médicas, a menudo son capaces de superar a los humanos.
Pero, ¿qué aprenden exactamente estos modelos de aprendizaje profundo? ¿Un modelo entrenado para detectar cáncer de piel en imágenes clínicas, por ejemplo, realmente aprende los colores y texturas del tejido canceroso, o está señalando otras características o patrones?
Estos poderosos modelos de aprendizaje automático generalmente se basan en redes neuronales artificiales que pueden tener millones de nodos que procesan datos para hacer predicciones. Debido a su complejidad, los investigadores suelen llamar a estos modelos “cajas negras”, porque ni siquiera los científicos que los construyen entienden todo lo que sucede bajo el capó.
Stefanie Jegelka no está satisfecha con esa explicación de la “caja negra”. Jegelka, profesor asociado recientemente titular en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, está profundizando en el aprendizaje profundo para comprender qué pueden aprender estos modelos y cómo se comportan, y cómo incorporar cierta información previa en estos modelos.
“Al final del día, lo que aprenderá un modelo de aprendizaje profundo depende de muchos factores. Pero desarrollar una comprensión que sea relevante en la práctica nos ayudará a diseñar mejores modelos y también nos ayudará a comprender lo que sucede dentro de ellos para saber cuándo podemos implementar un modelo y cuándo no. Esto es de vital importancia”, afirma Jegelka, que también es miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Instituto de Datos, Sistemas y Sociedad (IDSS).
Jegelka está particularmente interesado en optimizar los modelos de aprendizaje automático cuando los datos de entrada están en forma de gráficos. Los datos gráficos plantean desafíos específicos: por ejemplo, la información de los datos consta tanto de información sobre nodos y bordes individuales, como de la estructura: qué está conectado con qué. Además, los gráficos tienen simetrías matemáticas que el modelo de aprendizaje automático debe respetar para que, por ejemplo, el mismo gráfico conduzca siempre a la misma predicción. Generalmente no es fácil incorporar tales simetrías en un modelo de aprendizaje automático.
Tomemos como ejemplo las moléculas. Las moléculas se pueden representar como gráficos, con vértices que corresponden a átomos y aristas que corresponden a enlaces químicos entre ellos. Es posible que las compañías farmacéuticas quieran utilizar el aprendizaje profundo para predecir rápidamente las propiedades de muchas moléculas, reduciendo el número que deben probar físicamente en el laboratorio.
Jegelka estudia métodos para construir modelos matemáticos de aprendizaje automático que puedan tomar efectivamente datos gráficos como entrada y generar algo más, en este caso una predicción de las propiedades químicas de una molécula. Esto es particularmente desafiante ya que las propiedades de una molécula están determinadas no sólo por los átomos que contiene, sino también por las conexiones entre ellos.
Otros ejemplos de aprendizaje automático en gráficos incluyen el enrutamiento del tráfico, el diseño de chips y los sistemas de recomendación.
El diseño de estos modelos se vuelve aún más difícil por el hecho de que los datos utilizados para entrenarlos a menudo son diferentes de los datos que los modelos ven en la práctica. Quizás el modelo fue entrenado utilizando pequeños gráficos moleculares o redes de tráfico, pero los gráficos que ve una vez implementados son más grandes o más complejos.
En este caso, ¿qué pueden esperar los investigadores que aprenda este modelo? ¿Seguirá funcionando en la práctica si los datos del mundo real son diferentes?
"Su modelo no podrá aprender todo debido a algunos problemas de dureza en informática, pero lo que puede aprender y lo que no depende de cómo configure el modelo", dice Jegelka.
Ella aborda esta cuestión combinando su pasión por los algoritmos y las matemáticas discretas con su entusiasmo por el aprendizaje automático.
De las mariposas a la bioinformática
Jegelka creció en un pequeño pueblo de Alemania y se interesó por la ciencia cuando era estudiante de secundaria; un maestro solidario la animó a participar en un concurso científico internacional. Ella y sus compañeros de equipo de EE. UU. y Hong Kong ganaron un premio por un sitio web que crearon sobre mariposas, en tres idiomas.
“Para nuestro proyecto, tomamos imágenes de alas con un microscopio electrónico de barrido en una universidad local de ciencias aplicadas. También tuve la oportunidad de utilizar una cámara de alta velocidad en Mercedes Benz (esta cámara generalmente filmaba motores de combustión) que usé para capturar un video en cámara lenta del movimiento de las alas de una mariposa. Esa fue la primera vez que realmente tuve contacto con la ciencia y la exploración”, recuerda.
Intrigado tanto por la biología como por las matemáticas, Jegelka decidió estudiar bioinformática en la Universidad de Tübingen y la Universidad de Texas en Austin. Tuvo algunas oportunidades de realizar investigaciones como estudiante universitaria, incluida una pasantía en neurociencia computacional en la Universidad de Georgetown, pero no estaba segura de qué carrera seguir.
Cuando regresó para su último año de universidad, Jegelka se mudó con dos compañeros de habitación que trabajaban como asistentes de investigación en el Instituto Max Planck de Tubinga.
“Estaban trabajando en aprendizaje automático y eso me pareció genial. Tenía que escribir mi tesis de licenciatura, así que pregunté en el instituto si tenían algún proyecto para mí. Empecé a trabajar en aprendizaje automático en el Instituto Max Planck y me encantó. Aprendí mucho allí y fue un gran lugar para investigar”, dice.
Permaneció en el Instituto Max Planck para completar una tesis de maestría y luego se embarcó en un doctorado en aprendizaje automático en el Instituto Max Planck y el Instituto Federal Suizo de Tecnología.
Durante su doctorado, exploró cómo los conceptos de las matemáticas discretas pueden ayudar a mejorar las técnicas de aprendizaje automático.
Modelos de enseñanza para aprender.
Cuanto más aprendía Jegelka sobre el aprendizaje automático, más la intrigaba por los desafíos de comprender cómo se comportan los modelos y cómo dirigir este comportamiento.
“Se puede hacer mucho con el aprendizaje automático, pero sólo si se cuenta con el modelo y los datos correctos. No es sólo una caja negra que se lanza a los datos y funciona. En realidad, hay que pensar en ello, en sus propiedades y en lo que se quiere que el modelo aprenda y haga”, afirma.
Después de completar un posdoctorado en la Universidad de California en Berkeley, Jegelka se enganchó a la investigación y decidió seguir una carrera en el mundo académico. Se unió al cuerpo docente del MIT en 2015 como profesora asistente.
“Lo que realmente me encantó del MIT, desde el principio, fue que la gente realmente se preocupa profundamente por la investigación y la creatividad. Eso es lo que más aprecio del MIT. La gente aquí valora mucho la originalidad y la profundidad en la investigación”, afirma.
Ese enfoque en la creatividad le ha permitido a Jegelka explorar una amplia gama de temas.
En colaboración con otros profesores del MIT, estudia aplicaciones del aprendizaje automático en biología, imágenes, visión por computadora y ciencia de materiales.
Pero lo que realmente impulsa a Jegelka es sondear los fundamentos del aprendizaje automático y, más recientemente, la cuestión de la robustez. A menudo, un modelo funciona bien con datos de entrenamiento, pero su rendimiento se deteriora cuando se implementa con datos ligeramente diferentes. Incorporar conocimientos previos a un modelo puede hacerlo más confiable, pero comprender qué información necesita el modelo para tener éxito y cómo incorporarla no es tan simple, afirma.
También está explorando métodos para mejorar el rendimiento de los modelos de aprendizaje automático para la clasificación de imágenes.
Los modelos de clasificación de imágenes están en todas partes, desde los sistemas de reconocimiento facial de los teléfonos móviles hasta las herramientas que identifican cuentas falsas en las redes sociales. Estos modelos necesitan cantidades masivas de datos para su entrenamiento, pero dado que a los humanos les resulta costoso etiquetar manualmente millones de imágenes, los investigadores suelen utilizar conjuntos de datos sin etiquetar para entrenar previamente los modelos.
Luego, estos modelos reutilizan las representaciones que han aprendido cuando se ajustan posteriormente para una tarea específica.
Idealmente, los investigadores quieren que el modelo aprenda todo lo que pueda durante el entrenamiento previo, para que pueda aplicar ese conocimiento a su tarea posterior. Pero en la práctica, estos modelos a menudo aprenden sólo unas pocas correlaciones simples (como que una imagen tiene luz solar y otra sombra) y utilizan estos "atajos" para clasificar imágenes.
“Demostramos que esto es un problema en el 'aprendizaje contrastante', que es una técnica estándar para el preentrenamiento, tanto teórica como empíricamente. Pero también mostramos que puede influir en los tipos de información que el modelo aprenderá a representar modificando los tipos de datos que le muestra. Este es un paso hacia la comprensión de lo que los modelos realmente harán en la práctica”, afirma.
Los investigadores aún no comprenden todo lo que sucede dentro de un modelo de aprendizaje profundo, ni los detalles sobre cómo pueden influir en lo que aprende un modelo y cómo se comporta, pero Jegelka espera seguir explorando estos temas.
“A menudo, en el aprendizaje automático, vemos que algo sucede en la práctica y tratamos de entenderlo teóricamente. Este es un gran desafío. Quiere desarrollar una comprensión que coincida con lo que ve en la práctica, para poder hacerlo mejor. Todavía estamos empezando a comprender esto”, afirma.
Fuera del laboratorio, Jegelka es fanática de la música, el arte, los viajes y el ciclismo. Pero hoy en día le gusta pasar la mayor parte de su tiempo libre con su hija en edad preescolar.
Artículo anterior Artículo siguiente
De las mariposas a la bioinformáticaModelos de enseñanza para aprender.