La semana pasada, OpenAI sorprendió al mundo tecnológico con el lanzamiento de su nuevo modelo de inteligencia artificial, GPT-5. Este modelo ha sido presentado como un verdadero colaborador de codificación, prometiendo generar código de alta calidad y realizar tareas automatizadas de software. Pero, ¿qué opinan realmente los desarrolladores? Las opiniones son variadas y algunos consideran que el rendimiento de GPT-5 tiene más luces que sombras, especialmente si lo comparamos con competidores como Claude Code de Anthropic.
Desempeño general de GPT-5
Desde su lanzamiento, ingenieros de software han compartido sus experiencias con GPT-5. Aunque muchos destacan que el modelo es competente en el razonamiento técnico y la planificación de tareas de codificación, otros modelos más recientes, como los de Anthropic, parecen superar a GPT-5 en la generación de código efectivo. Un aspecto positivo que se ha mencionado es su asequibilidad. Según Sayash Kapoor, investigador y estudiante de doctorado en Princeton, “GPT-5 es superado en rendimiento por otros modelos de IA en nuestras pruebas, pero es realmente barato”. ¿Es el costo un factor determinante para elegir un modelo de IA?
Kapoor ha estado realizando pruebas de referencia desde que se lanzó GPT-5, utilizando un estándar que mide cuán bien un modelo de lenguaje puede escribir código que reproduzca los resultados de 45 trabajos científicos. El costo de ejecutar esta prueba con GPT-5 es de $30, mientras que con el modelo Opus de Anthropic cuesta $400. A pesar de su bajo costo, Kapoor ha observado que GPT-5 es menos preciso que algunos de sus competidores, lo que genera dudas sobre su efectividad general. ¿Vale la pena un modelo más barato si no cumple con las expectativas?
Comparaciones con otros modelos de IA
Los datos de Kapoor indican que, mientras Claude de Anthropic obtuvo un 51% de precisión, la versión media de GPT-5 solo alcanzó el 27%. Esto ha llevado a críticas sobre la metodología de evaluación utilizada por OpenAI. Lindsay McCallum, portavoz de OpenAI, defendió el modelo, afirmando que fue entrenado en tareas de codificación del mundo real en colaboración con probadores tempranos. Sin embargo, las críticas persisten, y algunos desarrolladores han señalado que las afirmaciones de rendimiento de OpenAI pueden ser engañosas.
Jenny Wang, ingeniera que ha utilizado GPT-5, comentó que el modelo parece ser más efectivo al completar tareas de codificación complejas en una sola intención, en comparación con modelos anteriores. Sin embargo, también notó errores significativos, como la generación incorrecta de URLs. Otro desarrollador anónimo destacó que GPT-5 es especialmente bueno para resolver problemas técnicos profundos, lo que sugiere que, a pesar de las críticas, el modelo tiene aplicaciones valiosas en ciertos contextos. ¿Podría ser que su efectividad dependa del tipo de tarea que se le asigne?
Reacciones de la comunidad de desarrolladores
A pesar de las críticas, algunos usuarios han tenido experiencias positivas con GPT-5. Partners de OpenAI como Cursor y Notion han elogiado sus habilidades de codificación y razonamiento. Sin embargo, a solo unos días de su lanzamiento, surgieron quejas sobre que las capacidades de codificación de GPT-5 no cumplen con las expectativas de un modelo que debería ser de vanguardia. Kieran Klassen, un desarrollador, afirmó que GPT-5 parece un producto que podría haber sido lanzado el año pasado, sugiriendo que su rendimiento está desfasado.
Las críticas se intensificaron en plataformas sociales, donde varios desarrolladores compartieron sus decepciones. Amir Salihefendić, fundador de Doist, lo describió como «bastante decepcionante», y otros mencionaron que, aunque es un excelente modelo de chat, no se compara en términos de capacidades de codificación con modelos como Claude Code + Opus. La comunidad de desarrolladores sigue evaluando sus experiencias y expectativas en torno a este nuevo lanzamiento, mientras que OpenAI trabaja en ajustar su modelo y mejorar su rendimiento. ¿Qué futuro le espera a GPT-5 en un mercado tan competitivo?