2026-03-24
La IA generativa mejora un sistema de visión inalámbrico que ve a través de obstáculos
Con esta nueva técnica, un robot podría detectar con mayor precisión objetos ocultos o entender una escena interior utilizando señales Wi-Fi reflejadas.
Investigadores del MIT utilizaron modelos de IA generativa especialmente entrenados para crear un sistema que puede completar la forma de objetos 3D ocultos, como los que se muestran en la imagen.
Ahora, los investigadores están aprovechando modelos de inteligencia artificial generativa para superar un cuello de botella que limitaba la precisión de los enfoques anteriores. El resultado es un nuevo método que produce reconstrucciones de forma más precisas, lo que podría mejorar la capacidad de un robot para agarrar y manipular objetos bloqueados de la vista de manera confiable.
Esta nueva técnica construye una reconstrucción parcial de un objeto oculto a partir de señales inalámbricas reflejadas y completa las partes faltantes de su forma usando un modelo de IA generativa especialmente entrenado.
Los investigadores también presentaron un sistema ampliado que utiliza IA generativa para reconstruir con precisión una habitación completa, incluido todo el mobiliario. El sistema utiliza señales inalámbricas enviadas desde un radar estacionario, que se reflejan en humanos que se mueven en el espacio.
Esto supera un desafío clave de muchos métodos existentes, que requieren un sensor inalámbrico montado en un robot móvil para escanear el entorno. Y a diferencia de algunas técnicas basadas en cámaras populares, su método preserva la privacidad de las personas en el entorno.
Estas innovaciones podrían permitir a los robots de almacén verificar los artículos embalados antes del envío, eliminando el desperdicio generado por devoluciones de productos. También podrían permitir que robots inteligentes para el hogar entiendan la ubicación de una persona en una habitación, mejorando la seguridad y eficiencia de la interacción humano-robot.
“Lo que hemos logrado ahora es desarrollar modelos de IA generativa que nos ayudan a comprender las reflexiones inalámbricas. Esto abre muchas aplicaciones nuevas interesantes, pero técnicamente también representa un salto cualitativo en capacidades, desde poder llenar huecos que antes no podíamos ver hasta poder interpretar las reflexiones y reconstruir escenas completas”, dice Fadel Adib, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, director del grupo Signal Kinetics en el MIT Media Lab y autor principal de dos artículos sobre estas técnicas. “Estamos usando IA para desbloquear finalmente la visión inalámbrica.”
Adib está acompañado en el primer artículo por la autora principal y asistente de investigación Laura Dodds; así como los asistentes de investigación Maisy Lam, Waleed Akbar y Yibo Cheng; y en el segundo artículo por el autor principal y ex postdoctorado Kaichen Zhou; Dodds; y el asistente de investigación Sayed Saad Afzal. Ambos artículos se presentarán en la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones.
Superando la especularidad
El grupo de Adib ha demostrado previamente el uso de señales de ondas milimétricas (mmWave) para crear reconstrucciones precisas de objetos 3D ocultos, como una cartera perdida enterrada bajo una pila.
Estas ondas, que son el mismo tipo de señales que se usan en Wi-Fi, pueden atravesar obstáculos comunes como tablaroca, plástico y cartón, y reflejarse en objetos ocultos.
Pero las ondas mmWave generalmente se reflejan de forma especular, lo que significa que una onda se refleja en una sola dirección después de chocar contra una superficie. Por lo tanto, grandes porciones de la superficie reflejarán señales alejándolas del sensor mmWave, haciendo que esas áreas sean efectivamente invisibles.
“Cuando queremos reconstruir un objeto, solo podemos ver la superficie superior y no podemos ver ninguna de las partes inferiores o laterales,” explica Dodds.
Los investigadores usaron previamente principios de la física para interpretar señales reflejadas, pero esto limita la precisión de la forma 3D reconstruida.
En los nuevos artículos, superaron esa limitación usando un modelo generativo de IA para completar partes que faltan en una reconstrucción parcial.
“Pero entonces el desafío se convierte en: ¿Cómo entrenar estos modelos para llenar esos vacíos?” dice Adib.
Normalmente, los investigadores usan conjuntos de datos extremadamente grandes para entrenar un modelo generativo de IA, que es una de las razones por las que modelos como Claude y Llama muestran un rendimiento tan impresionante. Pero no existen conjuntos de datos de mmWave lo suficientemente grandes para el entrenamiento.
En cambio, los investigadores adaptaron las imágenes de grandes conjuntos de datos de visión por computadora para imitar las propiedades de las reflexiones mmWave.
“Estuvimos simulando la propiedad de especularidad y el ruido que obtenemos de estas reflexiones para poder aplicar conjuntos de datos existentes a nuestro dominio. Nos hubiera tomado años recopilar suficiente información nueva para hacer esto,” dice Lam.
Los investigadores incorporan la física de las reflexiones mmWave directamente en estos datos adaptados, creando un conjunto sintético que usan para enseñar a un modelo generativo de IA a realizar reconstrucciones de formas plausibles.
El sistema completo, llamado Wave-Former, propone un conjunto de posibles superficies de un objeto basándose en reflexiones mmWave, las envía al modelo generativo de IA para completar la forma, y luego refina las superficies hasta lograr una reconstrucción completa.
Wave-Former pudo generar reconstrucciones fieles de aproximadamente 70 objetos cotidianos, como latas, cajas, utensilios y frutas, aumentando la precisión casi un 20 por ciento sobre los métodos de referencia actuales. Los objetos estaban ocultos detrás o debajo de cartón, madera, tablaroca, plástico y tela.
Viendo “fantasmas”
El equipo usó este mismo enfoque para construir un sistema ampliado que reconstruye completamente escenas interiores enteras aprovechando las reflexiones mmWave de humanos que se mueven en una habitación.
El movimiento humano genera reflexiones multipath. Algunas ondas mmWave se reflejan en el humano, luego vuelven a reflejarse en una pared u objeto, y después llegan al sensor, explica Dodds.
Estas reflexiones secundarias crean las llamadas “señales fantasma,” que son copias reflejadas de la señal original que cambian de ubicación conforme el humano se mueve. Estas señales fantasma usualmente son descartadas como ruido, pero también contienen información sobre la disposición de la habitación.
“Al analizar cómo cambian estas reflexiones con el tiempo, podemos empezar a obtener una comprensión aproximada del entorno que nos rodea. Pero intentar interpretar directamente estas señales estará limitado en precisión y resolución,” dice Dodds.
Usaron un método de entrenamiento similar para enseñar a un modelo generativo de IA a interpretar esas reconstrucciones aproximadas de la escena y entender el comportamiento de las reflexiones multipath mmWave. Este modelo rellena los vacíos, refinando la reconstrucción inicial hasta completar la escena.
Probaron su sistema de reconstrucción de escenas, llamado RISE, usando más de 100 trayectorias humanas capturadas por un solo radar mmWave. En promedio, RISE generó reconstrucciones aproximadamente el doble de precisas que las técnicas existentes.
En el futuro, los investigadores quieren mejorar la granularidad y el detalle en sus reconstrucciones. También desean crear grandes modelos base para señales inalámbricas, como los modelos base GPT, Claude y Gemini para lenguaje y visión, lo que podría abrir nuevas aplicaciones.
Este trabajo cuenta con el apoyo, en parte, de la National Science Foundation (NSF), el MIT Media Lab y Amazon.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

