
Imagen de IA generada por ChatGPT
2026-02-19
Un nuevo modelo de IA podría reducir los costes de desarrollo de fármacos proteicos
Las levaduras industriales son un motor de producción de proteínas, utilizadas para fabricar vacunas, productos biofarmacéuticos y otros compuestos útiles. En un nuevo estudio, ingenieros químicos del MIT han aprovechado la inteligencia artificial para optimizar el desarrollo de nuevos procesos de fabricación de proteínas, lo que podría reducir los costes generales de desarrollo y fabricación de estos fármacos.
Utilizando un modelo de lenguaje extenso (LLM), el equipo del MIT analizó el código genético de la levadura industrial Komagataella phaffii, concretamente los codones que utiliza. Existen múltiples codones, o secuencias de ADN de tres letras, que pueden utilizarse para codificar un aminoácido específico, y los patrones de uso de codones varían según el organismo.
El nuevo modelo del MIT aprendió estos patrones para K. phaffii y los utilizó para predecir qué codones serían más eficaces para la producción de una proteína determinada. Esto permitió a los investigadores aumentar la eficiencia de la producción de seis proteínas diferentes en la levadura, incluyendo la hormona del crecimiento humana y un anticuerpo monoclonal utilizado para tratar el cáncer.
“Contar con herramientas predictivas que funcionen bien de forma constante es fundamental para acortar el tiempo transcurrido desde que se tiene una idea hasta que se pone en producción. Eliminar la incertidumbre, en última instancia, ahorra tiempo y dinero”, afirma J. Christopher Love, profesor de Ingeniería Química Raymond A. y Helen E. St. Laurent en el MIT, miembro del Instituto Koch para la Investigación Integral del Cáncer y codirector de la facultad de la Iniciativa del MIT para la Nueva Fabricación (MIT INM).
Love es la autora principal del nuevo estudio, que se publica esta semana en las Actas de la Academia Nacional de Ciencias. La exinvestigadora posdoctoral del MIT, Harini Narayanan, es la autora principal del artículo.
Optimización de codones
Levaduras como K. phaffii y Saccharomyces cerevisiae (levadura de panadería) son los caballos de batalla de la industria biofarmacéutica y producen miles de millones de dólares en medicamentos proteicos y vacunas cada año.
Para diseñar levadura para la producción industrial de proteínas, los investigadores toman un gen de otro organismo, como el gen de la insulina, y lo modifican para que el microbio lo produzca en grandes cantidades. Esto requiere crear una secuencia de ADN óptima para las células de levadura, integrarla en su genoma, crear condiciones de crecimiento favorables y, finalmente, purificar el producto final.
En el caso de los nuevos medicamentos biológicos (medicamentos grandes y complejos producidos por organismos vivos), este proceso de desarrollo podría representar entre el 15 y el 20 por ciento del costo total de comercialización del medicamento.
“Hoy en día, todos esos pasos se realizan mediante tareas experimentales muy laboriosas”, afirma Love. “Hemos estado analizando cómo podemos aplicar algunos de los conceptos emergentes en el aprendizaje automático para que los diferentes aspectos del proceso sean más fiables y fáciles de predecir”.
En este estudio, los investigadores querían optimizar la secuencia de codones de ADN que componen el gen de una proteína de interés. Existen 20 aminoácidos naturales, pero 64 posibles secuencias de codones, por lo que la mayoría de estos aminoácidos pueden ser codificados por más de un codón. Cada codón corresponde a una molécula única de ARN de transferencia (ARNt), que transporta el aminoácido correcto al ribosoma, donde los aminoácidos se unen para formar proteínas.
Distintos organismos utilizan cada uno de estos codones a distintas velocidades, y los diseñadores de proteínas modificadas suelen optimizar la producción de sus proteínas eligiendo los codones que se presentan con mayor frecuencia en el organismo huésped. Sin embargo, esto no siempre produce los mejores resultados. Si se utiliza siempre el mismo codón para codificar la arginina, por ejemplo, la célula podría tener un déficit de las moléculas de ARNt correspondientes a ese codón.
Para adoptar un enfoque más matizado, el equipo del MIT implementó un tipo de modelo de lenguaje extenso conocido como codificador-decodificador. En lugar de analizar texto, los investigadores lo utilizaron para analizar secuencias de ADN y comprender las relaciones entre los codones utilizados en genes específicos.
Sus datos de entrenamiento, que provenían de un conjunto de datos disponible públicamente del Centro Nacional de Información Biotecnológica, consistían en las secuencias de aminoácidos y las secuencias de ADN correspondientes para las aproximadamente 5.000 proteínas producidas naturalmente por K. phaffii.
“El modelo aprende la sintaxis o el lenguaje de cómo se usan estos codones”, dice Love. “Tiene en cuenta cómo se colocan los codones uno junto al otro, así como las relaciones a larga distancia entre ellos”.
Una vez entrenado el modelo, los investigadores le pidieron que optimizara las secuencias de codones de seis proteínas diferentes, incluida la hormona del crecimiento humano, la albúmina sérica humana y el trastuzumab, un anticuerpo monoclonal utilizado para tratar el cáncer.
También generaron secuencias optimizadas de estas proteínas utilizando cuatro herramientas de optimización de codones disponibles comercialmente. Los investigadores insertaron cada una de estas secuencias en células de K. phaffii y midieron la cantidad de proteína diana generada por cada secuencia. Para cinco de las seis proteínas, las secuencias del nuevo modelo del MIT fueron las que mejor funcionaron, y para la sexta, la segunda mejor.
“Nos aseguramos de abarcar diversas filosofías de optimización de codones y las comparamos con nuestro enfoque”, afirma Narayanan. “Hemos comparado experimentalmente estos enfoques y hemos demostrado que el nuestro supera a los demás”.
Aprendiendo el lenguaje de las proteínas
K. phaffii, anteriormente conocida como Pichia pastoris, se utiliza para producir docenas de productos comerciales, como insulina, vacunas contra la hepatitis B y un anticuerpo monoclonal para tratar las migrañas crónicas. También se utiliza en la producción de nutrientes añadidos a los alimentos, como la hemoglobina.
Los investigadores del laboratorio de Love han comenzado a utilizar el nuevo modelo para optimizar las proteínas de interés para K. phaffii y han puesto el código a disposición de otros investigadores que deseen utilizarlo para K. phaffii u otros organismos.
Los investigadores también probaron este enfoque en conjuntos de datos de diferentes organismos, incluyendo humanos y vacas. Cada modelo resultante generó predicciones diferentes, lo que sugiere la necesidad de modelos específicos para cada especie para optimizar los codones de las proteínas diana.
Al analizar el funcionamiento interno del modelo, los investigadores descubrieron que este parecía aprender algunos de los principios biológicos del genoma, incluyendo aspectos que no le habían enseñado. Por ejemplo, aprendió a no incluir elementos de repetición negativa (secuencias de ADN que pueden inhibir la expresión de genes cercanos). El modelo también aprendió a categorizar los aminoácidos según características como la hidrofobicidad y la hidrofilicidad.
“No solo se trataba de aprender este idioma, sino también de contextualizarlo a través de aspectos de características biofísicas y bioquímicas, lo que nos da confianza adicional de que se trata de aprender algo realmente significativo y no simplemente una optimización de la tarea que le dimos”, dice Love.
La investigación fue financiada por el Fondo de Innovación en Investigación de la Facultad Daniel IC Wang del MIT, el Consorcio de Investigación AltHost del MIT, la Beca Internacional de Oncología Mazumdar-Shaw y el Instituto Koch.
Autor

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...