Nuevo SenseNova U1 de SenseTime: generación rápida sobre píxeles y compatibilidad con chips chinos

SenseTime libera SenseNova U1 como código abierto: una estrategia para acelerar iteraciones, colaborar globalmente y reducir dependencia de VAEs y hardware extranjero

Javier Ortega · 29/04/2026 · 4 min

SenseTime, conocida por sus avances en visión por computador, ha publicado un nuevo modelo abierto llamado SenseNova U1 que combina generación y razonamiento visual sin pasar por etapas convencionales de compresión. La compañía presenta una propuesta técnica que opera de manera nativa sobre píxeles, evitando el uso de variational autoencoders (VAE) y de codificadores visuales tradicionales. Esta decisión técnica busca reducir la latencia y las pérdidas de detalle que suelen introducir los pasos intermedios en las tuberías de difusión, ofreciendo así imágenes de mayor fidelidad y procesos de edición visual más directos.

Además de su arquitectura, SenseTime ha liberado versiones de prueba de distinto tamaño —incluyendo una vista previa de 2B y una base de 8B según la documentación pública— y puso el modelo a disposición en plataformas como Hugging Face y GitHub. El lanzamiento público obedece a una estrategia para acelerar la retroalimentación de la comunidad y recuperar terreno frente a rivales nacionales e internacionales. La compañía comunica que esta apertura facilita pruebas más rápidas y colaboración con investigadores fuera de las barreras geopolíticas.

Arquitectura y rendimiento

El núcleo técnico conocido como NEO-Unify redefine la forma en que un modelo multimodal integra lenguaje y visión, haciendo que ambas señales fluyan por la misma ruta de procesamiento en lugar de depender de adaptadores o latentes separados. Según los informes técnicos compartidos por SenseTime, la variante preliminar de 2B alcanza un PSNR de 31.56 en reconstrucción de imagen, y firma 3.32 en la métrica de ImgEdit para edición condicional. Estos valores colocan a SenseNova U1 cerca de otras soluciones que usan VAE, pero con el beneficio de eliminar artefactos que suelen aparecer en descodificaciones latentes.

Cómo evita las limitaciones del VAE

El equipo argumenta que el VAE fue una solución pragmática para reducir coste computacional, pero que introduce pérdidas de detalle que los desarrolladores han intentado compensar durante años mediante ajustes finos. Al trabajar directamente sobre píxeles, NEO-Unify minimiza esas pérdidas y simplifica la cadena de inferencia: menos componentes implican menos puntos de fallo y menos ingeniería dedicada a mitigar artefactos. Esta simplificación puede traducirse en pipelines más sencillos para integradores y menos edge cases a la hora de producir imágenes en productos reales.

Ecosistema y compatibilidad de hardware

Una de las señas de identidad del lanzamiento es la afirmación de compatibilidad con procesadores desarrollados en China. SenseTime informó que varios diseñadores de chips nacionales optimizaron controladores y runtimes para que SenseNova U1 funcione sobre sus plataformas, y nombres como Cambricon y Biren Technology aparecen entre los anunciantes de soporte. Esta flexibilidad importa en un contexto donde restricciones de exportación han limitado el acceso a ciertos aceleradores occidentales, por lo que poder ejecutar modelos avanzados en chips chinos reduce la exposición a esas barreras.

Implicaciones para despliegue

Para empresas y desarrolladores, la posibilidad de ejecutar una arquitectura multimodal competitiva en hardware local supone menores costes de integración y mayor independencia de proveedores externos. SenseTime afirma que su modelo es lo bastante compacto como para correr en PCs y teléfonos, abriendo casos de uso que van desde herramientas de edición en el dispositivo hasta agentes visuales en robótica. La compatibilidad con múltiples proveedores también facilita pruebas de rendimiento y fomenta un ecosistema más resiliente frente a bloqueos tecnológicos.

Impacto, adopción y perspectivas

Publicar SenseNova U1 como código abierto cumple varias funciones: acelerar iteraciones gracias al feedback de la comunidad, mantener colaboraciones científicas y ofrecer una alternativa para clientes que buscan modelos abiertos con soporte local. SenseTime, que se hizo famosa por aplicaciones de reconocimiento facial y visión industrial, intenta recuperar impulso frente a nuevos competidores y a modelos cerrados de grandes jugadores occidentales. Además, la compañía explora aplicaciones en robótica humanoide y en modelos especializados para comprensión geoespacial, áreas donde la capacidad de entender imágenes de forma nativa puede reducir errores y mejorar la reactividad de sistemas autónomos.

Autore

Javier Ortega

Javier Ortega, bilbaíno de 58 años con estilo casual, rememora haber seguido la larga huelga industrial en la ría de Nervión y entrevistar a trabajadores en astilleros. Sostiene un periodismo que visibiliza a quienes quedan fuera del poder; guarda archivos fotográficos de la transformación industrial de Euskadi.

Nuevo SenseNova U1 de SenseTime: generación rápida sobre píxeles y compatibilidad con chips chinos

Arquitectura y rendimiento

Cómo evita las limitaciones del VAE

Ecosistema y compatibilidad de hardware

Implicaciones para despliegue

Impacto, adopción y perspectivas

Javier Ortega

Continua a leggere

El 35% de las pymes españolas invertirá en inteligencia artificial en 2026

Guía para crear prompts claros y responsables en inteligencia artificial

Estrategias para integrar IA en la educación manteniendo el pensamiento crítico