Aplicando Machine Learning a ... ..Yeast?



Los humanos tienen una larga historia con la levadura, vinculada al comienzo de la domesticación de las plantas: la levadura de panadería (o cervecera), Saccharomyces cerevisiae, se ha utilizado para hacer que los granos sean más digeribles en forma de pan (o cerveza) durante milenios. Hoy en día, la levadura aún tiene un gran impacto, y los biólogos la adoptan como organismo modelo para la investigación biológica, genética en particular, porque es fácil de cultivar en el laboratorio y es eucariota (es decir, a diferencia de las bacterias, tiene un núcleo celular, como lo hacen nuestras células). Incluso se ha ganado su propio eslogan en la comunidad biológica: "el increíble poder de la genética de la levadura". Estudiar los fundamentos de la genética es mucho más fácil en la levadura, pero aún es aplicable a los humanos ya que ~ 1000 genes de levadura tienen una secuencia homóloga a los humanos. Comprender cómo los genes funcionan juntos como sistema es fundamental para comprender a todos los seres vivos, lo que genera interés en este microorganismo.

En colaboración con Calico Life Sciences , presentamos " Redes causales de aprendizaje utilizando factores de transcripción inducibles y series temporales de todo el transcriptoma ", publicado en Molecular Systems Biology . Con base en experimentos exhaustivos, construimos un modelo de genoma completo para la regulación de la expresión génica en S. cerevisiae y verificamos algunos de los resultados experimentalmente, permitiendo futuras investigaciones en sistemas biológicos menos conocidos. El gen Expression Atlas de Induction Dynamics está disponible en Calico en un formato fácil de manipular en python , con código de código abierto para hacerlo en Google Research GitHub . Los datos están alojados en un formato estándar en el Gene Expression Omnibus .

Usando levadura para proporcionar información sobre el envejecimiento
La levadura se reproduce a través de un proceso llamado brotación, en el que un pequeño brote crece desde la superficie de los padres para producir una descendencia que es casi genéticamente idéntica. Curiosamente, a pesar de que la levadura son organismos unicelulares, envejecen y mueren, generalmente después de 30 eventos de gemación. De hecho, las "cicatrices" de la gemación son claramente visibles bajo un potente microscopio, ¡lo que permite saber la edad de la célula simplemente mirando! El problema es que los investigadores aún no saben qué causa el envejecimiento.
Cicatrices de brotes en células de levadura viejas (barra de 5 μm para escala) - Crédito de la foto: Ian Foe, (Calico)
Los científicos de Calico Life Sciences han sido pioneros en una técnica para realizar perturbaciones dirigidas a la expresión génica en la levadura (es decir, permitiéndoles "activar" selectivamente la actividad de un gen) con el objetivo de comprender cómo funciona el envejecimiento a nivel molecular. La esperanza es que comprender el envejecimiento en la levadura se aplicará al envejecimiento en organismos más complejos, como los humanos. Este trabajo es un paso temprano en la construcción de un marco predictivo para comprender el comportamiento de las células a lo largo del tiempo.

El experimento de expresión génica
Los genes codificados en el ADN solo funcionan después de ser transcritos al ARN . Es el ARN que los ribosomas "traducen" o "leen" para producir proteínas . El nivel de producción de proteínas se rige por la cantidad de ARN que se transcribe del ADN. La mayor parte del trabajo en una célula la realizan las proteínas, por lo que son clave para comprender el comportamiento celular. Sin embargo, aunque realmente nos gustaría medir los niveles de producción de proteínas, las técnicas para identificar proteínas a esta escala son prohibitivamente caras. En cambio, en este experimento usamos ARN como proxy, ya que medir los niveles de ARN es más fácil.

El experimento de expresión génica está diseñado para perturbar genes individuales y medir, con el tiempo, cómo responden todos los demás genes del genoma. La capacidad de perturbar y rastrear dinámicas rápidamente nos permite aprender las relaciones causales y los comportamientos no lineales que faltan en la mayoría de los experimentos. Estos datos dinámicos también se pueden usar para entrenar modelos predictivos. Esto es posible gracias a cepas de levadura con un solo gen que responde a un interruptor externo, en este caso la hormona β-estradiol. Para perturbar un gen, se introduce la hormona, lo que hace que el gen conmutado se sobreexprese por un factor de 50 en 10 minutos. El cultivo de levadura se muestrea en varios puntos en el tiempo para medir los niveles de expresión génica en microarrays . Estos experimentos se realizaron en paralelo, con una cepa de levadura por cultivo, ejecutándose simultáneamente.

La mayoría de los experimentos de perturbación se realizaron en una clase particular de genes que codifican factores de transcripción (TF). Estos genes son los principales reguladores de la expresión génica, codifican proteínas que realmente se unen a las cadenas de ADN, permitiendo o bloqueando la transcripción de genes particulares.

Cuando el gen " a " está activado, puede regular al alza el gen " b " y regular al gen " c ", y luego conducir a la regulación al alza del gen " d ". Dado que la levadura tiene más de 6000 genes, rastrear el impacto aguas abajo de la perturbación de un solo gen puede complicarse muy rápidamente. Al combinar experimentos en diferentes genes, uno espera desambiguar los mecanismos exactos de regulación.
Esquema del experimento de perturbación del genoma: cepa de levadura con gen conmutable "a". Activar un solo gen ( A ) puede dar lugar a diferentes niveles de expresión génica con el tiempo ( B ). El seguimiento de estos cambios en comparación con los inducidos por la activación de otros genes ( C y D ) puede proporcionar información sobre los mecanismos de regulación ( E ).
El modelo de expresión génica
Para este experimento, nos asociamos con Calico debido a la escala de los datos y la oportunidad de aprovechar la experiencia de aprendizaje automático y los recursos informáticos de Google. Hubo más de 200 experimentos de perturbación en diferentes cepas de levadura, cada uno activando un solo gen. En cada experimento, los niveles de expresión de todos los 6000 genes se midieron ocho veces durante 90 minutos, produciendo un total de casi 20 millones de mediciones individuales (panel F, arriba). Claramente se requería cierta automatización para analizar los datos.

Nuestro enfoque fue modelar todo el proceso como un sistema de ecuaciones diferenciales: la tasa de cambio de la expresión de un gen era proporcional a una suma ponderada de los niveles de expresión de todos los genes. Primero estimamos las derivadas de tiempo de los datos simplemente restando los niveles de expresión entre puntos de tiempo adyacentes. Luego pronosticamos las derivadas de tiempo utilizando solo los niveles de expresión sin procesar. Al ajustar una regresión lineal, estamos, en efecto, ajustando los coeficientes de un sistema de ecuaciones diferenciales que describen la regulación génica. Nuestra esperanza es que el modelo de ecuación diferencial sea una representación de baja dimensión de los datos que podría interpretarse más fácilmente. Para manejar el sobreajuste, regularizamos el modelo utilizando la norma L1 , que prefiere establecer parámetros no informativos exactamente en cero.

Debido a que cada uno de los 200 experimentos fue único, presentamos cada uno por turnos, reajustando el modelo y permitiendo la selección de los mejores hiperparámetros para optimizar la pérdida fuera de la muestra. Al final, el trabajo requirió una cantidad significativa de cómputo, que ascendió a más de 50 millones de rutas de regularización completas.

Resultados del modelo
Nuestro modelo hizo predicciones sobre qué genes codificarían los reguladores intermedios de la expresión génica. Este es un intento de modelar la red de regulación génica completa del organismo. Para verificar estas predicciones, nuestros colaboradores en Calico recolectaron más datos de diez nuevas cepas de levadura. Tres de cada diez de las predicciones mantenidas en estos experimentos. Nuestro modelo descubrió que uno de los genes que el modelo predijo que era activo codificaba un factor de transcripción no verificado, mientras que otro identificado previamente como regulador pero nunca seguido, era un regulador muy activo. Nuestro modelo fue capaz de identificarlos sin un conocimiento biológico previo , lo que demuestra que estas técnicas de ML pueden escalar a otros dominios u organismos que están mucho menos estudiados.

Más discusión sobre el impacto de este trabajo dentro del amplio contexto del campo de la genómica está disponible en un comentario independiente.

Agradecimientos
Queremos agradecer a Marc Coram, Minjie Fan y Marc Berndl por sus contribuciones fundamentales a este trabajo, al equipo de Google Accelerated Science por su apoyo continuo y a todo el equipo de Calico por la oportunidad de colaborar en este experimento.