Como ya hemos visto, la inteligencia artificial (IA) está impactando de forma contundente en distintos escenarios. Esta vez hablaremos de Whisper, una de las mejores herramientas para convertir archivos de audio en texto que se sirve de esta innovación tecnológica.
Sin duda, la inteligencia artificial no deja de impactar y sorprender. Si bien surgió hace años, su impacto ha tomado muchísima fuerza en los últimos tiempos. Y es que para nadie es un secreto que la tecnología ha provocado disrupciones en diversos escenarios. Por ejemplo, sus usos y aplicaciones se pueden encontrar en:
Y estas son solo algunas áreas en las que se ve la fuerza que tiene en nuestros días la IA. Otro ejemplo importante es el de Sophia, la primera robot humanoide capaz de conversar e interactuar con otras personas.
El ejemplo del que hablaremos a continuación no es tan sofisticado. Sin embargo, implica una aportación muy útil para la vida cotidiana.
Son varias las creaciones de inteligencia artificial que componen el portafolio de OpenAI. Una enfocada en la transcripción no podía faltar.
¿Te ha pasado que tienes horas de grabación de una clase o de una entrevista y las quieres convertir a texto? Pensar en escribir, pausar, escribir, pausar una y otra vez es algo que genera estrés y agotamiento, ¿no es verdad? Pues bien, los mismos creadores de ChatGPT y DALL-E 2 lo tienen clarísimo. Por eso, le abrieron paso a Whisper. Su nombre en español significa susurro y ha llegado para terminar con la parte engorrosa de la transcripción.
Al usar otras herramientas que tienen el mismo objetivo, estas no tienen en cuenta la emoción de la persona grabada. Además, omiten elementos clave, como los signos de puntuación. Por lo tanto, siempre hay que parar y revisar dos y hasta tres veces lo transcrito.
En cambio, con este sistema de IAno hay lugar para ello. Esta potente herramienta puede comprender y transcribir voces hasta en 90 idiomas.
Imagen de Unsplash.
Según sus creadores, Whisper es un sistema de reconocimiento automático de voz (ASR). Ha sido entrenado con 680.000 horas de datos supervisados multilingües y multitarea que se han recopilado de la web.
Se caracteriza por ser un modelo de código abierto y código de inferencia. Lo anterior sirve como base para crear aplicaciones útiles y para futuras investigaciones sobre procesamiento de voz sólido.
Este sistema tiene una arquitectura con un enfoque simple de extremo a extremo. Su implementación se hace a partir de un transformador codificador-decodificador. Una vez que el audio de entrada llega, se divide en fragmentos de 30 segundos; luego, se convierte en un espectrograma log-Mel para pasarse a un codificador.
Después, un decodificador es entrenado para predecir el subtítulo de texto. Este último se entremezcla con tokens especiales que dirigen al modelo único para realizar las siguientes tareas:
Dentro de las ventajas que tiene este sistema, encontramos que:
Así que, si las transcripciones implican una actividad tediosa que puede llegar a abrumarte, no lo pienses más y anímate a usar Whisper. Aprovecha estas creaciones de IA para optimizar el tiempo y da más espacio a tu creatividad.
El blog de innovación de Telefónica
La Inteligencia Artificial ha llegado para quedarse y el ámbito de la sanidad ha encontrado una aliada en esta tecnología. En las urgencias hospitalarias, donde la IA ha llegado para agilizar sus rutinas, automatizar procesos y anticipar flujos de pacientes.
Seleccionar el método adecuado ofrece a los usuarios una imagen más precisa de cómo se comporta su modelo, por lo que están mejor equipados para interpretar correctamente sus predicciones.
Esta herramienta ayuda a entender cómo un único genoma puede crear dos diseños corporales completamente distintos en un único animal.
Un nuevo sistema robótico de modulación de la temperatura revela comportamientos colectivos de las abejas melíferas desconocidas hasta ahora, lo que abre la puerta a nuevas posibilidades para ayudarlas a sobrevivir en un clima cambiante.
Científicos de los institutos de Biología Evolutiva e Investigación Biomédica de Barcelona han identificado el gen responsable del estadio juvenil en insectos, además de otros dos que intervienen en su madurez. Estos genes también están presentes en los mamíferos y podrían tener un papel clave en procesos cancerosos.
El proyecto LAMPAS finalizó en 2022 con la creación de un sistema de alta velocidad por polígonos, el primero de su clase, que produce superficies texturizadas por láser con un alto rendimiento. Repasamos los avances tecnológicos que han permitido a la industria europea fabricar una amplia gama de superficies funcionales.