Los científicos del MIT construyen un sistema que puede generar modelos de IA para la investigación biológica
Imagen anterior Imagen siguiente
¿Es posible construir modelos de aprendizaje automático sin experiencia en aprendizaje automático?
Jim Collins, profesor Termeer de Ingeniería y Ciencias Médicas en el Departamento de Ingeniería Biológica del MIT y líder de la facultad de ciencias biológicas de la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel), junto con varios colegas decidieron abordar este problema cuando nos enfrentamos a un enigma similar. El 21 de junio se publicó en Cell Systems un artículo de acceso abierto sobre la solución propuesta, llamado BioAutoMated.
Reclutar investigadores de aprendizaje automático puede ser un proceso que consume mucho tiempo y es financieramente costoso para los laboratorios de ciencia e ingeniería. Incluso con un experto en aprendizaje automático, seleccionar el modelo apropiado, formatear el conjunto de datos para el modelo y luego ajustarlo puede cambiar drásticamente el rendimiento del modelo y requiere mucho trabajo.
"En su proyecto de aprendizaje automático, ¿cuánto tiempo normalmente dedicará a la preparación y transformación de datos?" pregunta un curso de Google de 2022 sobre los fundamentos del aprendizaje automático (ML). Las dos opciones que se ofrecen son "Menos de la mitad del tiempo del proyecto" o "Más de la mitad del tiempo del proyecto". Si adivinaste esto último, estarías en lo cierto; Google afirma que se necesita más del 80 por ciento del tiempo del proyecto para formatear los datos, y eso ni siquiera tiene en cuenta el tiempo necesario para enmarcar el problema en términos de aprendizaje automático.
"Se necesitarían muchas semanas de esfuerzo para descubrir el modelo apropiado para nuestro conjunto de datos, y este es un paso realmente prohibitivo para muchas personas que quieren utilizar el aprendizaje automático o la biología", dice Jacqueline Valeri, estudiante de doctorado de quinto año. de ingeniería biológica en el laboratorio de Collins, quien es el primer coautor del artículo.
BioAutoMated es un sistema automatizado de aprendizaje automático que puede seleccionar y construir un modelo apropiado para un conjunto de datos determinado e incluso encargarse de la laboriosa tarea del preprocesamiento de datos, reduciendo un proceso de meses a solo unas pocas horas. Los sistemas automatizados de aprendizaje automático (AutoML) todavía se encuentran en una etapa relativamente incipiente de desarrollo, y su uso actual se centra principalmente en el reconocimiento de imágenes y texto, pero en gran medida no se utilizan en subcampos de la biología, señala el primer coautor y postdoctorado de Jameel Clinic, Luis Soenksen PhD. '20.
"El lenguaje fundamental de la biología se basa en secuencias", explica Soenksen, que obtuvo su doctorado en el Departamento de Ingeniería Mecánica del MIT. “Las secuencias biológicas como el ADN, el ARN, las proteínas y los glicanos tienen la sorprendente propiedad informativa de estar intrínsecamente estandarizadas, como un alfabeto. Muchas herramientas de AutoML se desarrollan para texto, por lo que tenía sentido extenderlas a secuencias [biológicas]”.
Además, la mayoría de las herramientas de AutoML solo pueden explorar y crear tipos reducidos de modelos. "Pero realmente no se puede saber desde el inicio de un proyecto qué modelo será mejor para su conjunto de datos", afirma Valeri. "Al incorporar múltiples herramientas bajo una sola herramienta, realmente permitimos un espacio de búsqueda mucho más grande que el que cualquier herramienta de AutoML individual podría lograr por sí sola".
El repertorio de modelos de ML supervisados de BioAutoMATED incluye tres tipos: modelos de clasificación binaria (que dividen los datos en dos clases), modelos de clasificación multiclase (que dividen los datos en varias clases) y modelos de regresión (que ajustan valores numéricos continuos o miden la fuerza de las relaciones clave entre variables). BioAutoMated incluso puede ayudar a determinar cuántos datos se requieren para entrenar adecuadamente el modelo elegido.
"Nuestra herramienta explora modelos que se adaptan mejor a conjuntos de datos biológicos más pequeños y dispersos, así como a redes neuronales más complejas", afirma Valeri. Esto es una ventaja para los grupos de investigación con nuevos datos que pueden o no ser adecuados para un problema de aprendizaje automático. .
"Realizar experimentos novedosos y exitosos en la intersección de la biología y el aprendizaje automático puede costar mucho dinero", explica Soenksen. "Actualmente, los laboratorios centrados en la biología necesitan invertir en una importante infraestructura digital y recursos humanos capacitados en AI-ML antes de poder siquiera ver si sus ideas están preparadas para dar resultado. Queremos reducir estas barreras para los expertos en biología”. Con BioAutoMated, los investigadores tienen la libertad de realizar experimentos iniciales para evaluar si vale la pena contratar a un experto en aprendizaje automático para construir un modelo diferente para realizar más experimentos.
El código fuente abierto está disponible públicamente y, según enfatizan los investigadores, es fácil de ejecutar. "Lo que nos encantaría ver es que la gente tomara nuestro código, lo mejorara y colaborara con comunidades más grandes para convertirlo en una herramienta para todos", afirma Soenksen. "Queremos preparar a la comunidad de investigación biológica y generar conciencia relacionada con las técnicas de AutoML, como una vía realmente útil que podría fusionar una práctica biológica rigurosa con una práctica acelerada de AI-ML mejor de lo que se logra hoy".
Collins, el autor principal del artículo, también está afiliado al Instituto de Ingeniería y Ciencias Médicas del MIT, el Programa Harvard-MIT en Ciencias y Tecnología de la Salud, el Instituto Broad del MIT y Harvard, y el Instituto Wyss. Otros contribuyentes del MIT al artículo incluyen a Katherine M. Collins '21; Nicolaas M. Angenent-Mari PhD '21; Felix Wong, ex postdoctorado en el Departamento de Ingeniería Biológica del IMES y del Broad Institute; y Timothy K. Lu, profesor de ingeniería biológica y de ingeniería eléctrica e informática.
Este trabajo fue apoyado, en parte, por una subvención de la Agencia de Reducción de Amenazas de Defensa, el programa SD2 de la Agencia de Proyectos de Investigación Avanzada de Defensa, el Grupo Paul G. Allen Frontiers, el Instituto Wyss de Ingeniería de Inspiración Biológica de la Universidad de Harvard; una beca MIT-Takeda, una beca de la Fundación Siebel, una beca CONACyT, una beca del Centro MIT-TATA, una beca de investigación de pregrado Johnson & Johnson, una beca Barry Goldwater, una beca Marshall, Cambridge Trust y el Instituto Nacional de Alergias e Infecciones Enfermedades de los Institutos Nacionales de Salud. Este trabajo es parte del Proyecto Antibióticos-AI, que cuenta con el apoyo de Audacious Project, Flu Lab, LLC, Sea Grape Foundation, Rosamund Zander y Hansjorg Wyss para la Wyss Foundation, y un donante anónimo.
Artículo anterior Artículo siguiente