Evaluación de GPT-5.4 Thinking: cuándo confiar en sus respuestas y cuándo supervisarlo

OpenAI presentó una variante denominada GPT-5.4 Thinking que prioriza capacidades cognitivas y respuestas más densas. Disponible para la herramienta Codex, la API y planes de pago de ChatGPT, este modelo no es una simple revisión incremental: su objetivo declarado es afrontar preguntas complejas y tareas que requieren mayor razonamiento. En mis pruebas, el balance fue favorable, pero con reservas importantes en cuanto a fidelidad al encargo y calidad en salidas no textuales.

Prueba de imagen: un portaviones volador y la brecha entre análisis y visual

Para comenzar, pedí una imagen que representara un portaviones volador sustentado por cuatro turbopropulsores orientados hacia arriba y una escuadrilla de cazas a bordo. La primera salida mostró un defecto recurrente en otras AIs: las hélices aparecían orientadas hacia atrás y se percibían haces de empuje visuales en direcciones incorrectas. Esta inconsistencia revela limitaciones en la interpretación espacial cuando el modelo produce gráficos.

Luego planteé un encargo más profundo: diseñar un helicarrier y justificar su estructura, el sustento aerostático, limitaciones y ventajas tácticas. La respuesta textual fue extensa y técnicamente sólida: el modelo explicó por qué cuatro turbopropulsores descendentes son una solución débil por cuestiones de relación peso-potencia y estabilidad, y abordó operaciones de cubierta y restricciones prácticas. No obstante, al solicitar después una nueva imagen basada en ese análisis, el archivo visual fue casi idéntico al primero; incluso las versiones etiquetadas mostraron rótulos incorrectos o sin sentido.

Conclusión: excelente análisis, pobre traducción a imágenes.

Lecciones técnicas

El ejercicio dejó claro que razonamiento y visualización no siempre evolucionan al mismo ritmo. Un profesional puede aprovechar las descripciones para diseñar, pero no confiar en las imágenes automáticas para documentación de ingeniería sin revisión.

Itinerario en Boston y planificación práctica

En una segunda batería de pruebas pedí un itinerario de una semana en Boston centrado en tecnología e historia.

El modelo propuso sitios clásicos y museos científicos, y fue capaz de generar dos versiones: una orientada al viajero con presupuesto alto y otra para quienes viajan con restricciones económicas. Aprecié la inclusión de notas para contingencias meteorológicas —importante en marzo— y la estimación de costes por día y categoría.

La pega volvió a ser el formato: inicialmente entregó listas largas y numeradas de manera poco legible hasta que solicité una presentación más clara. Tras reformular la petición, la organización por zonas de la ciudad mejoró, lo que demuestra que el modelo responde bien cuando se le guía para estructurar la salida.

Utilidad para viajeros

Para planificar viajes, GPT-5.4 Thinking aporta información práctica y viable, pero el usuario debe aplicar criterio para ajustar formato y priorizar opciones según logística real y disponibilidad.

Análisis social y respuestas fuera de foco

Cuando evalué un tema abstracto —el impacto de las redes sociales en la comunicación— el modelo brilló. Tras pedir un análisis balanceado y una postura defendida, entregó un ensayo exhaustivo que, en mi lectura, concluyó que en conjunto las redes han empeorado la comunicación social. El desarrollo exploró beneficios y perjuicios y ofreció recomendaciones políticas y sociales complejas, demostrando la capacidad del modelo para sintetizar argumentos multidimensionales.

Sin embargo, otro experimento reveló una tendencia problemática: al solicitar que se explicara GPT-5.4 mediante constructivismo educativo (actividades prácticas para aprender haciendo), el modelo respondió con una tesis que defendía su compatibilidad con el constructivismo en abstracto, más que proponer ejercicios prácticos. Es decir, ofreció contenido de calidad, pero no lo que había sido pedido.

Consecuencias para usuarios profesionales

Estos comportamientos implican que GPT-5.4 Thinking puede ayudar en tareas profesionales complejas, pero requiere supervisión constante: corrige el enfoque, verifica que la respuesta atiende exactamente al encargo y no aceptes literalmente resultados gráficos o formatos sin revisión.

Conclusión y recomendaciones

Mi evaluación final es que GPT-5.4 Thinking se asemeja a un estudiante de posgrado brillante: ofrece análisis profundos y valiosos, pero necesita dirección y control humano. Las fortalezas textuales son evidentes; las limitaciones en imágenes y la propensión a responder fuera del encargo son asuntos que OpenAI debería priorizar.

Recomiendo usar este modelo para interrogantes complejos y apoyo analítico, siempre bajo una supervisión activa que corrija desviaciones y valide salidas no textuales. En entornos profesionales, su potencial es alto, pero no sustituye la revisión experta para garantizar precisión y alineación con la tarea solicitada.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Evaluación de GPT-5.4 Thinking: cuándo confiar en sus respuestas y cuándo supervisarlo

GPT-5.4 Thinking aporta razonamiento ampliado y respuestas detalladas, aunque necesita gestión humana para evitar desviaciones y problemas en imágenes y formato

Prueba de imagen: un portaviones volador y la brecha entre análisis y visual

Lecciones técnicas

Itinerario en Boston y planificación práctica

Utilidad para viajeros

Análisis social y respuestas fuera de foco

Consecuencias para usuarios profesionales

Conclusión y recomendaciones

¿Qué piensas?

Escrito por Staff

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible

Algoritmos, robots y privacidad: qué está en juego en el mundo digital

Cuando los agentes de IA invierten: el futuro del capital de riesgo

Stargate reduce su plan en Abilene y pivota hacia nuevos chips

Polémica Ring y privacidad: cómo las funciones de IA pusieron a la empresa en el centro del debate

Método rápido y barato para producir actuadores de robótica blanda

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible

Algoritmos, robots y privacidad: qué está en juego en el mundo digital

Stargate reduce su plan en Abilene y pivota hacia nuevos chips

Polémica Ring y privacidad: cómo las funciones de IA pusieron a la empresa en el centro del debate

Método rápido y barato para producir actuadores de robótica blanda

Almacenamiento molecular: disco duro de ADN reescribible

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible