in

Nuevo SenseNova U1 de SenseTime: generación rápida sobre píxeles y compatibilidad con chips chinos

SenseTime libera SenseNova U1 como código abierto: una estrategia para acelerar iteraciones, colaborar globalmente y reducir dependencia de VAEs y hardware extranjero

Nuevo SenseNova U1 de SenseTime: generación rápida sobre píxeles y compatibilidad con chips chinos

SenseTime, conocida por sus avances en visión por computador, ha publicado un nuevo modelo abierto llamado SenseNova U1 que combina generación y razonamiento visual sin pasar por etapas convencionales de compresión. La compañía presenta una propuesta técnica que opera de manera nativa sobre píxeles, evitando el uso de variational autoencoders (VAE) y de codificadores visuales tradicionales. Esta decisión técnica busca reducir la latencia y las pérdidas de detalle que suelen introducir los pasos intermedios en las tuberías de difusión, ofreciendo así imágenes de mayor fidelidad y procesos de edición visual más directos.

Además de su arquitectura, SenseTime ha liberado versiones de prueba de distinto tamaño —incluyendo una vista previa de 2B y una base de 8B según la documentación pública— y puso el modelo a disposición en plataformas como Hugging Face y GitHub. El lanzamiento público obedece a una estrategia para acelerar la retroalimentación de la comunidad y recuperar terreno frente a rivales nacionales e internacionales. La compañía comunica que esta apertura facilita pruebas más rápidas y colaboración con investigadores fuera de las barreras geopolíticas.

Arquitectura y rendimiento

El núcleo técnico conocido como NEO-Unify redefine la forma en que un modelo multimodal integra lenguaje y visión, haciendo que ambas señales fluyan por la misma ruta de procesamiento en lugar de depender de adaptadores o latentes separados. Según los informes técnicos compartidos por SenseTime, la variante preliminar de 2B alcanza un PSNR de 31.56 en reconstrucción de imagen, y firma 3.32 en la métrica de ImgEdit para edición condicional.

Estos valores colocan a SenseNova U1 cerca de otras soluciones que usan VAE, pero con el beneficio de eliminar artefactos que suelen aparecer en descodificaciones latentes.

Cómo evita las limitaciones del VAE

El equipo argumenta que el VAE fue una solución pragmática para reducir coste computacional, pero que introduce pérdidas de detalle que los desarrolladores han intentado compensar durante años mediante ajustes finos. Al trabajar directamente sobre píxeles, NEO-Unify minimiza esas pérdidas y simplifica la cadena de inferencia: menos componentes implican menos puntos de fallo y menos ingeniería dedicada a mitigar artefactos.

Esta simplificación puede traducirse en pipelines más sencillos para integradores y menos edge cases a la hora de producir imágenes en productos reales.

Ecosistema y compatibilidad de hardware

Una de las señas de identidad del lanzamiento es la afirmación de compatibilidad con procesadores desarrollados en China. SenseTime informó que varios diseñadores de chips nacionales optimizaron controladores y runtimes para que SenseNova U1 funcione sobre sus plataformas, y nombres como Cambricon y Biren Technology aparecen entre los anunciantes de soporte. Esta flexibilidad importa en un contexto donde restricciones de exportación han limitado el acceso a ciertos aceleradores occidentales, por lo que poder ejecutar modelos avanzados en chips chinos reduce la exposición a esas barreras.

Implicaciones para despliegue

Para empresas y desarrolladores, la posibilidad de ejecutar una arquitectura multimodal competitiva en hardware local supone menores costes de integración y mayor independencia de proveedores externos. SenseTime afirma que su modelo es lo bastante compacto como para correr en PCs y teléfonos, abriendo casos de uso que van desde herramientas de edición en el dispositivo hasta agentes visuales en robótica. La compatibilidad con múltiples proveedores también facilita pruebas de rendimiento y fomenta un ecosistema más resiliente frente a bloqueos tecnológicos.

Impacto, adopción y perspectivas

Publicar SenseNova U1 como código abierto cumple varias funciones: acelerar iteraciones gracias al feedback de la comunidad, mantener colaboraciones científicas y ofrecer una alternativa para clientes que buscan modelos abiertos con soporte local. SenseTime, que se hizo famosa por aplicaciones de reconocimiento facial y visión industrial, intenta recuperar impulso frente a nuevos competidores y a modelos cerrados de grandes jugadores occidentales. Además, la compañía explora aplicaciones en robótica humanoide y en modelos especializados para comprensión geoespacial, áreas donde la capacidad de entender imágenes de forma nativa puede reducir errores y mejorar la reactividad de sistemas autónomos.

¿Qué piensas?

Escrito por Pablo Mendoza

Periodista de viajes, 40+ paises. Turismo sostenible y destinos ibericos.

Energía de las olas para centros de datos: el proyecto Ocean-3 en alta mar

Energía de las olas para centros de datos: el proyecto Ocean-3 en alta mar