in

Evaluación de GPT-5.4 Thinking: cuándo confiar en sus respuestas y cuándo supervisarlo

GPT-5.4 Thinking aporta razonamiento ampliado y respuestas detalladas, aunque necesita gestión humana para evitar desviaciones y problemas en imágenes y formato

evaluacion de gpt 54 thinking cuando confiar en sus respuestas y cuando supervisarlo 1773067919

OpenAI presentó una variante denominada GPT-5.4 Thinking que prioriza capacidades cognitivas y respuestas más densas. Disponible para la herramienta Codex, la API y planes de pago de ChatGPT, este modelo no es una simple revisión incremental: su objetivo declarado es afrontar preguntas complejas y tareas que requieren mayor razonamiento. En mis pruebas, el balance fue favorable, pero con reservas importantes en cuanto a fidelidad al encargo y calidad en salidas no textuales.

Prueba de imagen: un portaviones volador y la brecha entre análisis y visual

Para comenzar, pedí una imagen que representara un portaviones volador sustentado por cuatro turbopropulsores orientados hacia arriba y una escuadrilla de cazas a bordo. La primera salida mostró un defecto recurrente en otras AIs: las hélices aparecían orientadas hacia atrás y se percibían haces de empuje visuales en direcciones incorrectas. Esta inconsistencia revela limitaciones en la interpretación espacial cuando el modelo produce gráficos.

Luego planteé un encargo más profundo: diseñar un helicarrier y justificar su estructura, el sustento aerostático, limitaciones y ventajas tácticas. La respuesta textual fue extensa y técnicamente sólida: el modelo explicó por qué cuatro turbopropulsores descendentes son una solución débil por cuestiones de relación peso-potencia y estabilidad, y abordó operaciones de cubierta y restricciones prácticas. No obstante, al solicitar después una nueva imagen basada en ese análisis, el archivo visual fue casi idéntico al primero; incluso las versiones etiquetadas mostraron rótulos incorrectos o sin sentido.

Conclusión: excelente análisis, pobre traducción a imágenes.

Lecciones técnicas

El ejercicio dejó claro que razonamiento y visualización no siempre evolucionan al mismo ritmo. Un profesional puede aprovechar las descripciones para diseñar, pero no confiar en las imágenes automáticas para documentación de ingeniería sin revisión.

Itinerario en Boston y planificación práctica

En una segunda batería de pruebas pedí un itinerario de una semana en Boston centrado en tecnología e historia.

El modelo propuso sitios clásicos y museos científicos, y fue capaz de generar dos versiones: una orientada al viajero con presupuesto alto y otra para quienes viajan con restricciones económicas. Aprecié la inclusión de notas para contingencias meteorológicas —importante en marzo— y la estimación de costes por día y categoría.

La pega volvió a ser el formato: inicialmente entregó listas largas y numeradas de manera poco legible hasta que solicité una presentación más clara. Tras reformular la petición, la organización por zonas de la ciudad mejoró, lo que demuestra que el modelo responde bien cuando se le guía para estructurar la salida.

Utilidad para viajeros

Para planificar viajes, GPT-5.4 Thinking aporta información práctica y viable, pero el usuario debe aplicar criterio para ajustar formato y priorizar opciones según logística real y disponibilidad.

Análisis social y respuestas fuera de foco

Cuando evalué un tema abstracto —el impacto de las redes sociales en la comunicación— el modelo brilló. Tras pedir un análisis balanceado y una postura defendida, entregó un ensayo exhaustivo que, en mi lectura, concluyó que en conjunto las redes han empeorado la comunicación social. El desarrollo exploró beneficios y perjuicios y ofreció recomendaciones políticas y sociales complejas, demostrando la capacidad del modelo para sintetizar argumentos multidimensionales.

Sin embargo, otro experimento reveló una tendencia problemática: al solicitar que se explicara GPT-5.4 mediante constructivismo educativo (actividades prácticas para aprender haciendo), el modelo respondió con una tesis que defendía su compatibilidad con el constructivismo en abstracto, más que proponer ejercicios prácticos. Es decir, ofreció contenido de calidad, pero no lo que había sido pedido.

Consecuencias para usuarios profesionales

Estos comportamientos implican que GPT-5.4 Thinking puede ayudar en tareas profesionales complejas, pero requiere supervisión constante: corrige el enfoque, verifica que la respuesta atiende exactamente al encargo y no aceptes literalmente resultados gráficos o formatos sin revisión.

Conclusión y recomendaciones

Mi evaluación final es que GPT-5.4 Thinking se asemeja a un estudiante de posgrado brillante: ofrece análisis profundos y valiosos, pero necesita dirección y control humano. Las fortalezas textuales son evidentes; las limitaciones en imágenes y la propensión a responder fuera del encargo son asuntos que OpenAI debería priorizar.

Recomiendo usar este modelo para interrogantes complejos y apoyo analítico, siempre bajo una supervisión activa que corrija desviaciones y valide salidas no textuales. En entornos profesionales, su potencial es alto, pero no sustituye la revisión experta para garantizar precisión y alineación con la tarea solicitada.

¿Qué piensas?

Escrito por Staff

chevrolet bolt 2027 regreso limitado con carga rapida bateria lfp y precio accesible 1773064319

Chevrolet Bolt 2027: regreso limitado con carga rápida, batería LFP y precio accesible