Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2024-05-22Todo sobre Gemma 2, la IA de código abierto de Google José María López José María López

Blogthinkbig |El evento anual de Google de este mes de mayo, Google I/O, estuvo repleto de anuncios y novedades relacionadas con la inteligencia artificial. Gemini es el modelo de IA de Google que tiene que abanderar la estrategia de este gigante de Internet respecto a esta tecnología, codiciada por todos. Y si no teníamos suficiente con Gemini, el modelo de IA disponible en cuatro versiones, y Gemini, el chatbot, surge la “familia Gemma”. Liderada por Gemma 2.

Brevemente, Gemma es la versión de Gemini de código abierto. Su propósito es ayudar a desarrolladores y otros perfiles profesionales a trabajar directamente con este modelo de inteligencia artificial. En proyectos o entornos que necesitan personalizar al máximo las características de la IA. Así, mientras que Gemini se adapta a las necesidades de prácticamente todos los perfiles, Gemma está pensada para un reducto muy específico que necesita lidiar con inteligencia artificial para experimentar con ella o desarrollar nuevos usos o utilidades.

Pues bien. En el Google I/O de 2024, Google anunció el lanzamiento de Gemma 2, “nuestra próxima generación de modelos abiertos para la innovación responsable de la IA”. Entre los cambios más destacados, una nueva arquitectura para darle más rendimiento de manera más eficiente. Y varias versiones o tamaños que se adapten el trabajo que deban desempeñar. Tal y como ocurre con las cuatro versiones actuales de Gemini.

¿Por qué Gemma si ya existe Gemini?

Le preguntamos a Gemini por qué Google ofrece su IA en dos variantes. Por un lado, tenemos Gemini, el modelo de inteligencia artificial “diseñado para ofrecer el mejor rendimiento general en una amplia gama de tareas, incluyendo la generación de texto, la traducción de idiomas, la escritura de diferentes tipos de contenido creativo y la respuesta a preguntas de forma informativa”. Entonces, ¿qué sentido tiene Gemma?

Gemma, y por tanto Gemma 2, “está enfocado en el desarrollo responsable de la IA y la accesibilidad. Es más compacto y eficiente que Gemini, lo que lo hace ideal para su ejecución en ordenadores locales con menos potencia de cálculo. También es más modificable, lo que permite a los investigadores y desarrolladores adaptarlo a sus necesidades específicas”. 

Podríamos hacer un símil con Gemini y una caja cerrada. Podemos interactuar con ella a través del chatbot, de las aplicaciones que lo integran, a través de los prompts de Google AI Studio o, en el caso de desarrolladores, a través de su API. Pero sigue siendo una caja cerrada. Gemma, en cambio, se puede abrir. Su código es abierto, de manera que puede modificarse a placer del investigador o desarrollador que necesite poner a prueba esta IA. Para el usuario medio, no significa nada, pero para los profesionales de este campo, ofrece infinidad de ventajas.

Y a nivel comercial, Google puede así competir con OpenAI o Anthropic con Gemini, su IA de código cerrado. Y al mismo tiempo, competir con Mistral, Hugging Face o Meta con Gemma, su IA de código abierto. Dos estrategias distintas de enfocar el desarrollo de inteligencia artificial y que tiene adeptos y detractores a ambos bandos.

Las novedades de Gemma 2

Google anunció la existencia de Gemma a primeros de este año. Pocos meses después, anuncia Gemma 2, una segunda versión con semejanzas y cambios para esta IA de código abierto. Por un lado, mantiene los dos modelos, por tamaño: Gemma 2B y Gemma 7B. Ambos modelos preentrenados y con la capacidad de recibir instrucciones e interaccionar mediante lenguaje humano. Según las pruebas realizadas por Google, su rendimiento de IA preentrenada es similar a Llama 3, la IA de Meta (antes Facebook). Y superior a Grok-1, la IA de Elon Musk. 

El primer modelo está pensado para dispositivos móviles y portátiles. Y el segundo, para ordenadores y servidores. Y ambos ofrecen un buen rendimiento intentando consumir la menor cantidad de energía posible. Con todo, Google ofrece su infraestructura en la nube, Google Cloud, para trabajar con Gemma 2 en la nube con herramientas como Axolotl. O en la propia plataforma Kaggle, creada por Google para facilitar el trabajo a desarrolladores de inteligencia artificial y modelos de lenguaje. Por lo demás, Gemma 2 emplea el framework Keras 3.0, por lo que ofrece compatibilidad para otros frameworks como JAX, TensorFlow o PyTorch.

La familia Gemma 

Como ocurre con Gemini, para optimizar el consumo de recursos y energía, hay que compartimentar los modelos de IA, de manera que para cada tipo de usuario o tarea hay un modelo de IA específico. En el caso de Gemma, la “familia Gemma” consta del modelo de IA base más tres modelos especializados. CodeGemma está pensado para trabajar con código. PaliGemma, es un modelo de lenguaje de visión o lenguaje y visión. Una reciente novedad que se equipara a modelos ya existentes como PaLl-3 de Meta. Su propósito es analizar y entender imágenes y videos. Y cualquier tarea relacionada con este tipo de contenido. 

Y, en tercer lugar, RecurrentGemma, un modelo de IA creado mediante arquitectura recurrente. Es decir, este modelo de lenguaje grande emplea redes neuronales recurrentes para procesar secuencias de texto. Es un enfoque alternativo y muy efectivo en tareas como traducción automática, generación de texto o respuesta a preguntas.

Cómo empezar a usar Gemma 2

Gemma 2 es de código abierto y gratuita. Al ser un modelo de IA enfocado al desarrollo y la investigación, Google facilita su acceso a todo el mundo. Es más. Hay distintas maneras de ponerte a probar esta IA. En su página web oficial nos ofrece tres posibilidades: a través de Kaggle, su plataforma de desarrollo de IA, a través de Vertex AI, su herramienta en la nube para realizar pruebas, desarrollar y entrenar modelos de inteligencia artificial a través de Google Cloud, y, finalmente, Hugging Face, otra popular comunidad de desarrollo de IA. 

A esto hay que sumar que PaliGemma, el modelo de IA de tipo VLM (Vision-Language Model), está disponible en estas tres plataformas pero también en GitHub, en la plataforma de IA de NVIDIA y, finalmente, hay una sencilla app para interaccionar con esta IA desde Hugging Face Space. En este último recurso puedes poner a prueba las capacidades de PaliGemma para analizar y entender imágenes.

José María López

Autor


Blogthinkbig
Autor
Blogthinkbig

El blog de innovación de Telefónica


2024-06-14
Agent Hospital, el primer hospital impulsado por inteligencia artificial del mundo

China ha dado un paso significativo hacia el futuro con la inauguración del primer hospital impulsado por inteligencia artificial. El Agent Hospital, una clínica virtual, emplea doctores y enfermeras generados por IA, y está diseñada para tratar pacientes en un entorno simulado, ofreciendo una experiencia médica revolucionaria que promete transformar la atención sanitaria.

2024-06-13
El COVID prolongado finalmente obtiene una definición universal

La nueva descripción incluye más de 200 síntomas y no pone límites sobre cuándo comienzan.

2024-06-13
“Yo” vs. “el autor” en la escritura académica

El uso del “yo” o la primera persona en la escritura académica es una oportunidad para seguir difundiendo la ciencia. El impacto que puede tener en el público académico podría sorprender a los investigadores.

2024-06-12
La nueva era de los vuelos espaciales tripulados está plagada de cuestiones médicas y éticas

Incluso los viajes cortos al espacio tienen efectos duraderos en el ser humano promedio, insinúan las misiones privadas.

2024-06-12
¿La inteligencia artificial tiene los días contados?

Renombrados expertos en IA piden a los gobiernos de todo el mundo y a las grandes empresas tecnológicas que actúen ya frente a los riesgos de la IA.

2024-06-12
Dispositivos cerebrales: la conexión entre los humanos y las máquinas

En enero de 2024, el empresario Elon Musk anunció desde la plataforma X que la empresa de neurotecnología “Neuralink” logró implantar un dispositivo (Telepathy) entrenado por Inteligencia Artificial (IA) en un cerebro humano. El paciente seleccionado para la intervención médica fue Noland Arbaugh, un joven de 30 años que en 2016 quedó tetrapléjico a causa de un accidente mientras practicaba buceo. Aunque el dispositivo no restablecerá el movimiento de Noland, por medio de la adaptación del "software" de Neuralink al cerebro del paciente, este a través de su pensamiento pudo ingresar a internet e incluso jugar videojuegos.