Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2023-03-27Whisper: optimiza el tiempo a la hora de hacer una transcripción

Blog think big |Como ya hemos visto, la inteligencia artificial (IA) está impactando de forma contundente en distintos escenarios. Esta vez hablaremos de Whisper, una de las mejores herramientas para convertir archivos de audio en texto que se sirve de esta innovación tecnológica.

Como ya hemos visto, la inteligencia artificial (IA) está impactando de forma contundente en distintos escenarios. Esta vez hablaremos de Whisper, una de las mejores herramientas para convertir archivos de audio en texto que se sirve de esta innovación tecnológica.

Los distintos usos que tiene la IA

Sin duda, la inteligencia artificial no deja de impactar y sorprender. Si bien surgió hace años, su impacto ha tomado muchísima fuerza en los últimos tiempos. Y es que para nadie es un secreto que la tecnología ha provocado disrupciones en diversos escenarios. Por ejemplo, sus usos y aplicaciones se pueden encontrar en:

  • Compras por internet.
  • Publicidad.
  • Búsquedas en la web.
  • Asistentes virtuales que responden, preguntan o dan recomendaciones.
  • Subtítulos automáticos o traducciones a otros idiomas basadas en texto y voz.
  • Ciudades e infraestructuras inteligentes.
  • Algunos sistemas de seguridad de los vehículos.
  • La lucha contra ciberataques y amenazas en línea.
  • Transporte y fábricas.
  • La construcción de un sistema alimentario sostenible.
  • Detección de enfermedades, análisis de datos y exámenes complejos.

Y estas son solo algunas áreas en las que se ve la fuerza que tiene en nuestros días la IA. Otro ejemplo importante es el de Sophia, la primera robot humanoide capaz de conversar e interactuar con otras personas.

El ejemplo del que hablaremos a continuación no es tan sofisticado. Sin embargo, implica una aportación muy útil para la vida cotidiana.

Whisper, una potente herramienta de transcripción

Son varias las creaciones de inteligencia artificial que componen el portafolio de OpenAI. Una enfocada en la transcripción no podía faltar.

¿Te ha pasado que tienes horas de grabación de una clase o de una entrevista y las quieres convertir a texto? Pensar en escribir, pausar, escribir, pausar una y otra vez es algo que genera estrés y agotamiento, ¿no es verdad? Pues bien, los mismos creadores de ChatGPT y DALL-E 2 lo tienen clarísimo. Por eso, le abrieron paso a Whisper. Su nombre en español significa susurro y ha llegado para terminar con la parte engorrosa de la transcripción.

Al usar otras herramientas que tienen el mismo objetivo, estas no tienen en cuenta la emoción de la persona grabada. Además, omiten elementos clave, como los signos de puntuación. Por lo tanto, siempre hay que parar y revisar dos y hasta tres veces lo transcrito.

En cambio, con este sistema de IAno hay lugar para ello. Esta potente herramienta puede comprender y transcribir voces hasta en 90 idiomas.


Imagen de Unsplash.


¿Qué es y cómo funciona?

Según sus creadores, Whisper es un sistema de reconocimiento automático de voz (ASR). Ha sido entrenado con 680.000 horas de datos supervisados ​​multilingües y multitarea que se han recopilado de la web.

Se caracteriza por ser un modelo de código abierto y código de inferencia. Lo anterior sirve como base para crear aplicaciones útiles y para futuras investigaciones sobre procesamiento de voz sólido.

Este sistema tiene una arquitectura con un enfoque simple de extremo a extremo. Su implementación se hace a partir de un transformador codificador-decodificador. Una vez que el audio de entrada llega, se divide en fragmentos de 30 segundos; luego, se convierte en un espectrograma log-Mel para pasarse a un codificador.

Después, un decodificador es entrenado para predecir el subtítulo de texto. Este último se entremezcla con tokens especiales que dirigen al modelo único para realizar las siguientes tareas:

  • Identificación de idioma.
  • Marcas de tiempo a nivel de frase.
  • Transcripción de voz multilingüe.
  • Traducción de voz al inglés.

Ventajas de Whisper

Dentro de las ventajas que tiene este sistema, encontramos que:

  1. Conduce a una mayor solidez a los acentos, el ruido de fondo y el lenguaje técnico.
  2. Es verdad que Whisper no supera a los modelos que se especializan en el rendimiento de LibriSpeech. Este último es un punto de referencia competitivo en el reconocimiento de voz. En cambio, se analizó que el rendimiento de disparo cero de Whisper es mucho más sólido. Además, comete 50 % menos de errores que esos modelos.
  3. Su enfoque ha sido efectivo para aprender la traducción de voz a texto. Igualmente, supera al SOTA supervisado en CoVoST2 para la traducción al inglés de tiro cero.
  4. Entiende voces veloces y complejas.
  5. Es particularmente útil para los periodistas y quienes se dedican a labores editoriales. Su uso ahorra gran cantidad de tiempo y ayuda a transmitir la intención esperada, sobre todo si se trata de entrevistas.

Así que, si las transcripciones implican una actividad tediosa que puede llegar a abrumarte, no lo pienses más y anímate a usar Whisper. Aprovecha estas creaciones de IA para optimizar el tiempo y da más espacio a tu creatividad.

Blogthinkbig
Autor
Blogthinkbig

El blog de innovación de Telefónica


2024-04-19
La Inteligencia Artificial (IA) entendiendo el lenguaje humano

Desde 1950, con el artículo de Alan Turing Maquinaria informática e inteligencia y la publicación de la novela Yo, robot de Isaac Asimov, la Inteligencia Artificial viene evolucionando año tras año de forma más rápida.

2024-04-17
La NASA refina las prioridades nacionales de desarrollo de tecnología espacial

Mientras la NASA se centra en explorar la Luna, Marte y el sistema solar en beneficio de la humanidad, la Dirección de Misiones de Tecnología Espacial (STMD) de la agencia está cambiando la forma en que prioriza el desarrollo tecnológico. Como parte de este esfuerzo de refinamiento, la NASA está pidiendo a la comunidad aeroespacial estadounidense comentarios sobre casi 190 necesidades (o deficiencias) de tecnología espacial nacional que ha identificado para futuros esfuerzos científicos y de exploración espacial.

2024-04-17
La ciencia de los grandes descubrimientos científicos es cada vez más elitista e interdisciplinaria

Un trabajo del Instituto de Análisis Económico (IAE-CSIC) analiza la edad, género, formación y procedencia de los autores de más de 700 grandes hallazgos científicos desde 1600 hasta la actualidad

2024-04-17
8 principios para la publicación científica según el International Science Council

El International Science Council (ISC), organización no gubernamental creada en 2018, promueve la ciencia como bien público global, respaldando la universalidad del conocimiento científico. A través de una política científica, busca mejorar la publicación académica en la era digital, basándose en 8 principios para la publicación científica, que incluyen acceso abierto, revisión rigurosa y garantía de acceso para futuras generaciones.

2024-04-16
Cristales antibacterianos de cobre y níquel aportarían a la prevención de futuras pandemias

Después de exponerlos a un proceso químico se encontró que el cobre y el níquel inhibieron con éxito el crecimiento de "Bacillus cereus" y "Staphylococcus aureus", bacterias con cepas resistentes a los antibióticos y relacionadas con enfermedades de transmisión alimentaria (toxiinfecciones). El hallazgo permitiría pensar en nuevos tratamientos farmacológicos o en la elaboración de empaques especiales que protejan productos como carnes y verduras.

2024-04-15
El CERN no decepciona. ATLAS nos recuerda a golpe de exitazo por qué es importante invertir en física de partículas

El bosón W es, junto al Z, una de las partículas responsables de la mediación que tiene lugar en la interacción nuclear débil, que es una de las cuatro fuerzas fundamentales de la naturaleza junto a la interacción electromagnética, la gravedad y la interacción nuclear fuerte. Los físicos suelen colocar a este mismo nivel el campo de Higgs, que es otra interacción fundamental que explica cómo las partículas adquieren su masa, pero para facilitar su comprensión los textos suelen recoger como fuerzas fundamentales las cuatro que acabo de mencionar.