Imagine los acordes en auge de un órgano de tubos haciendo eco a través del santuario cavernoso de una enorme catedral de piedra.
El sonido que escuchará un visitante de la catedral se ve afectado por muchos factores, incluida la ubicación del órgano, dónde está parado el oyente, si hay columnas, bancos u otros obstáculos entre ellos, de qué están hechas las paredes, la ubicación de ventanas o puertas, etc. Escuchar un sonido puede ayudar a alguien a visualizar su entorno.
Los investigadores del MIT y del MIT-IBM Watson AI Lab también están explorando el uso de la información acústica espacial para ayudar a las máquinas a visualizar mejor sus entornos. Desarrollaron un modelo de aprendizaje automático que puede capturar cómo se propagará cualquier sonido en una habitación a través del espacio, lo que permite que el modelo simule lo que un oyente escucharía en diferentes lugares.
Al modelar con precisión la acústica de una escena, el sistema puede aprender la geometría 3D subyacente de una habitación a partir de grabaciones de sonido. Los investigadores pueden usar la información acústica que captura su sistema para crear representaciones visuales precisas de una habitación, de manera similar a como los humanos usan el sonido cuando estiman las propiedades de su entorno físico.
Además de sus aplicaciones potenciales en realidad virtual y aumentada, esta técnica podría ayudar a los agentes de inteligencia artificial a desarrollar una mejor comprensión del mundo que los rodea. Por ejemplo, al modelar las propiedades acústicas del sonido en su entorno, un robot de exploración submarina podría sentir cosas que están más lejos de lo que podría con la vista, dice Yilun Du, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación ( EECS) y coautor de un artículo que describe el modelo.
“Hasta ahora, la mayoría de los investigadores solo se han centrado en modelar la visión. Pero como humanos, tenemos una percepción multimodal. No solo es importante la visión, el sonido también lo es. Creo que este trabajo abre una interesante dirección de investigación sobre cómo utilizar mejor el sonido para modelar el mundo”, dice Du.
Junto a Du en el artículo están el autor principal Andrew Luo, estudiante de posgrado en la Universidad Carnegie Mellon (CMU); Michael J. Tarr, Profesor Kavčić-Moura de Ciencias Cognitivas y Cerebrales en CMU; y los autores principales Joshua B. Tenenbaum, profesor del Departamento de Ciencias Cognitivas y del Cerebro del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Antonio Torralba, Catedrático de Ingeniería Eléctrica e Informática de Delta Electronics y miembro del CSAIL; y Chuang Gan, miembro principal del personal de investigación del MIT-IBM Watson AI Lab. La investigación será presentada en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Sonido y visión
En la investigación de la visión por computadora, se ha utilizado un tipo de modelo de aprendizaje automático llamado modelo de representación neuronal implícita para generar reconstrucciones suaves y continuas de escenas 3D a partir de imágenes. Estos modelos utilizan redes neuronales, que contienen capas de nodos interconectados, o neuronas, que procesan datos para completar una tarea.
Los investigadores del MIT emplearon el mismo tipo de modelo para capturar cómo el sonido viaja continuamente a través de una escena.
Pero descubrieron que los modelos de visión se benefician de una propiedad conocida como consistencia fotométrica que no se aplica al sonido. Si uno mira el mismo objeto desde dos lugares diferentes, el objeto se ve más o menos igual. Pero con el sonido, cambie las ubicaciones y el sonido que uno escucha puede ser completamente diferente debido a los obstáculos, la distancia, etc. Esto hace que predecir el audio sea muy difícil.
Los investigadores superaron este problema incorporando dos propiedades de la acústica en su modelo: la naturaleza recíproca del sonido y la influencia de las características geométricas locales.
El sonido es recíproco, lo que significa que si la fuente de un sonido y el oyente intercambian posiciones, lo que la persona oye no cambia. Además, lo que uno escucha en un área en particular está fuertemente influenciado por las características locales, como un obstáculo entre el oyente y la fuente del sonido.
Para incorporar estos dos factores en su modelo, llamado campo acústico neuronal (NAF), aumentan la red neuronal con una cuadrícula que captura objetos y características arquitectónicas en la escena, como puertas o paredes. El modelo muestrea aleatoriamente puntos en esa cuadrícula para aprender las características en ubicaciones específicas.
“Si te imaginas parado cerca de una puerta, lo que más afecta lo que escuchas es la presencia de esa puerta, no necesariamente las características geométricas lejos de ti al otro lado de la habitación. Encontramos que esta información permite una mejor generalización que una simple red completamente conectada”, dice Luo.
De predecir sonidos a visualizar escenas
Los investigadores pueden alimentar a la NAF con información visual sobre una escena y algunos espectrogramas que muestran cómo sonaría una pieza de audio cuando el emisor y el oyente están ubicados en ubicaciones de destino alrededor de la habitación. Luego, el modelo predice cómo sonaría ese audio si el oyente se mueve a cualquier punto de la escena.
El NAF emite una respuesta de impulso, que captura cómo debe cambiar un sonido a medida que se propaga a través de la escena. Luego, los investigadores aplican esta respuesta de impulso a diferentes sonidos para escuchar cómo deberían cambiar esos sonidos cuando una persona camina por una habitación.
Por ejemplo, si una canción se está reproduciendo desde un altavoz en el centro de una habitación, su modelo mostraría cómo ese sonido se hace más fuerte a medida que una persona se acerca al altavoz y luego se amortigua cuando camina hacia un pasillo adyacente.
Cuando los investigadores compararon su técnica con otros métodos que modelan información acústica, generaron modelos de sonido más precisos en todos los casos. Y debido a que aprendió información geométrica local, su modelo pudo generalizarse a nuevas ubicaciones en una escena mucho mejor que otros métodos.
Además, descubrieron que aplicar la información acústica que aprende su modelo a un modelo de visión por computadora puede conducir a una mejor reconstrucción visual de la escena.
“Cuando solo tiene un conjunto escaso de vistas, el uso de estas características acústicas le permite capturar límites con mayor nitidez, por ejemplo. Y tal vez esto se deba a que para representar con precisión la acústica de una escena, debe capturar la geometría 3D subyacente de esa escena”, dice Du.
Los investigadores planean continuar mejorando el modelo para que pueda generalizarse a nuevas escenas. También quieren aplicar esta técnica a respuestas de impulso más complejas y escenas más grandes, como edificios completos o incluso un pueblo o ciudad.
“Esta nueva técnica podría abrir nuevas oportunidades para crear una experiencia inmersiva multimodal en la aplicación del metaverso”, agrega Gan.
“Mi grupo ha trabajado mucho en el uso de métodos de aprendizaje automático para acelerar la simulación acústica o modelar la acústica de escenas del mundo real. Este artículo de Chuang Gan y sus coautores es claramente un gran paso adelante en esta dirección”, dice Dinesh Manocha, profesor Paul Chrisman Iribe de Ciencias de la Computación e Ingeniería Eléctrica e Informática en la Universidad de Maryland, que no participó en este estudio. trabajar. “En particular, este documento presenta una buena representación implícita que puede capturar cómo el sonido puede propagarse en escenas del mundo real al modelarlo usando un sistema lineal invariable en el tiempo. Este trabajo puede tener muchas aplicaciones en AR/VR, así como la comprensión de la escena del mundo real”.
Este trabajo cuenta con el apoyo, en parte, del MIT-IBM Watson AI Lab y el Tianqiao and Chrissy Chen Institute.
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...
Desarrollada en SMART, la terapia estimula el sistema inmunitario del huésped para eliminar infecciones bacterianas de manera más eficaz y acelerar la cicatrización de heridas infectadas.
ManoPla es un dispositivo mecatrónico para la comunicación gestual, concebido por investigadores de la Universidad Politécnica de Madrid, en el que todos sus componentes están integrados y tienen funcionalidad. Los resultados del trabajo fueron publicados en la revista International Journal of Social Robotics.
Como ya hemos visto, la inteligencia artificial (IA) está impactando de forma contundente en distintos escenarios. Esta vez hablaremos de Whisper, una de las mejores herramientas para convertir archivos de audio en texto que se sirve de esta innovación tecnológica.
Los dispositivos de realidad extendida (XR) cada vez son un elemento más común en los hogares. Los analistas estiman que entre 2022 y 2023 se pueden llegar a vender más de 40 millones de dispositivos XR en todo el mundo, una cifra que mencionó Dani Hernández en su ponencia del MWC23 y que demuestra el gran potencial de este mercado.
La inteligencia artificial (IA) hoy en día brinda confort a las personas y sostenibilidad a las ciudades. Forma parte de casas y ciudades inteligentes, coches, ciberseguridad, entre otros. En esta ocasión queremos mostrarte la utilidad de la IA para encontrar trabajo.
La última edición del Mobile World Congress – 4YFN ha servido para que el principal exchange de criptoactivos en España explique su caso de éxito. Asimismo, ha participado en múltiples mesas redondas y charlas de la mano de Wayra, Caixabank y otras startups y fondos de capital riesgo de referencia del sector. Principalmente se habló sobre cómo Web3 puede ayudar a corporaciones, emprendedores e instituciones a crear valor para sus negocios.