Nuevos Modelos GPT-4.1 de OpenAI: Comparativa y Análisis

Introducción a los Nuevos Modelos de OpenAI

OpenAI ha presentado tres nuevos modelos en su serie GPT: GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano. Estos modelos están diseñados para mejorar la eficiencia en tareas de programación y competir con modelos populares como Cloud Sonet 3.7 y Gemini 2.5 Pro.

Características de los Nuevos Modelos

GPT-4.1: Modelo principal con mejoras significativas en comparación con versiones anteriores. Para una visión más detallada de las capacidades de este modelo, puedes consultar Exploring GPT-4.5: A Comprehensive Review of Its Strengths and Weaknesses.
GPT-4.1 Mini: Versión más pequeña que ofrece un balance entre velocidad e inteligencia.
GPT-4.1 Nano: Modelo más rápido y económico, ideal para tareas que no requieren alta inteligencia.
Ventana de Contexto: Todos los modelos cuentan con una ventana de contexto de 1 millón de tokens, permitiendo procesar grandes cantidades de información.

Comparativa de Rendimiento

Benchmarks: El modelo GPT-4.1 muestra un aumento del 22% en capacidades en comparación con GPT-4.0, aunque aún no supera a Cloud Sonet 3.7. Para entender mejor cómo se comparan estos modelos, revisa la Comparativa de Capacidades de Visión AI: Jetson Nano Super vs Raspberry Pi 5.
Pruebas de Programación: En pruebas de programación, GPT-4.1 ha demostrado ser más efectivo que su predecesor, pero aún enfrenta competencia de modelos como Gemini 2.5 Pro. Si estás interesado en cómo estos modelos pueden ser utilizados en la creación de agentes de IA, te recomendamos leer Unlocking the GPT Store: A Beginner's Guide to Creating AI Agents and Making Money.

Disponibilidad y Futuro

Acceso: GPT-4.1 no estará disponible en ChatGPT, solo a través de la API, lo que indica un enfoque en el sector de programación. Para más información sobre el futuro de los modelos de lenguaje, consulta Introducción a los Modelos de Lenguaje Grande: ¿Qué son y cómo funcionan?.
Descontinuación de GPT-4.5: OpenAI ha decidido retirar el modelo GPT-4.5 debido a su bajo uso y alto costo.

Conclusiones

La actualización a GPT-4.1 es un paso positivo para OpenAI, mejorando su competitividad en el sector de programación. Sin embargo, la competencia con modelos como Cloud Sonet y Gemini 2.5 Pro sigue siendo fuerte. Se anticipan más lanzamientos de modelos en el futuro cercano, lo que promete seguir evolucionando el campo de la inteligencia artificial.

Nuevos modelos por parte de Open AI. Continúa la saga de los modelos GPTS. Tras tener GPT4O el año pasado y tras

GPT 4.5 en febrero de este año, continúa la saga por fin con el modelo GPT4.1. Y es que sí, Open AI pues sigue

liándola con la nomenclatura de modelos, trayendo más y más modelos a su catálogo y hoy nos presenta no uno sino tres

nuevos modelos. Modelos que en esta ocasión presentan para intentar competir por el sector de la programación y

modelos que intentarán plantar cara a cara aquellos modelos que son favoritos por parte de la comunidad para programar

como sería Clotsonet 3.7 o el nuevo y potentísimo Gemini 2.5 Pro. Y hoy pues vamos a estar analizando estos nuevos

modelos, vamos a ver qué lo caracterizan y vamos a estar comparándolos en pruebas reales de programación con Gemini y con

Cloud Sonet. Así que vamos a ello y para empezar pues vamos a hablar un poquito de los nuevos modelos. Se trataría del

GPT 4.1, el modelo 4.1 mini y el modelo 4.1 nano. Tres tamaños diferentes de modelos que, como sabemos, lo que hacen

es canjear pues inteligencia por velocidad, sabiendo que los modelos más grandes pues son los más inteligentes,

pero también son los más lentos. Entonces, dependiendo del tipo de tarea que quieras resolver, pues te interesará

más optar por un modelo como GPT 4.1 o un modelo como 4.1 Nano. Y de hecho, esto es algo que podemos ver en esta

gráfica de aquí, donde Open AI nos presenta un poco la comparación en términos de inteligencia y en términos

de latencia de lo que sería el modelo GPT4 Mini con su modelo 4.1 mini y también con el 4.1. Y aunque esta

gráfica podríamos criticarla por no tener ningún índice ni ningún tipo de escala para tener una referencia, pues

bueno, lo que nos están contando aquí es que sus nuevos modelos son mejores que la versión anterior. En términos de

latencia, pues vemos que vamos a tener casi casi la misma velocidad, pero sin embargo, el salto en capacidades, que

quizás es más drástico en el caso del modelo Mini, pues es sustancial. Y también vemos que el 4.1 pues estaría

por encima del modelo 4. Y luego, claro, pues también tendríamos el modelo nano, que sería más rápido, más barato, pero

menos inteligente. No es sustancialmente más rápido, tampoco tenemos escalas aquí para tener la referencia, pero no parece

que sea sustancialmente más rápido que el Mini, pero sí vemos una caída en términos de capacidades, pero también lo

vamos a ver en términos de precio. Con lo cual, pues el nano, como ya sabéis, los modelos pequeños son modelos ideales

para si tienes alguna tarea donde no haga falta una gran inteligencia, pero sí procesar muchísima información, pues

tienes un montón de registros que quieras clasificar o hacer un análisis de sentimiento que sea sencillo, este

tipo de modelos que tiene un precio muy barato, pues sería lo ideal. Aparte de la mejora de capacidades, pues una cosa

muy interesante que tienen estos nuevos modelos sería la ventana de contexto de 1 millón de tokens, que va a permitir

pues poder cargar mucha información de entrada para que el modelo la pueda procesar en el propio contexto. Esto es

muy importante para el caso de uso donde Open AI quiere colocar estos modelos que sería el sector de la programación y

tiene mucho sentido porque a repositorios, bases de código que tengan mucha información, pues tener una mayor

ventana de contexto marca la diferencia. Y si no me equivoco, creo que esto coloca los modelos de Open AI en segunda

posición en términos de ventana de contexto, por delante de Cloudset, que si no recuerdo mal tiene 200,000 tokens,

y por detrás, obviamente, de Gemini, eh, de los modelos de Google, que tienen 2 millones de ventana de contexto, que es

una locura, y que además, como veremos luego a continuación en las pruebas, pues hacen una utilización muy buena de

esta ventana de contexto. Pero si el titular es que tenemos nuevos modelos que funcionan muy bien. Pues como

siempre los benchmarks que ellos nos muestran siempre muestran los mejores resultados. Pues vemos resultados que

son bastante buenos. Este benchmark que hemos comentado en varias ocasiones, el SW Bench Verified, que mide las

capacidades agénticas de los modelos, pues vemos que el modelo GPT 4.1 pues da un salto drástico comparado con el

modelo 4o, 22 puntos porcentuales, lo cual es un salto bastante importante. Y fijaos que incluso por delante del

modelo GPT4. 5 del que vamos a comentar ahora alguna cosilla, porque esto es, madre mía, esto es una locura. Y ojo,

bastante espectacular el salto que logra Open aquí, pero este 55% no supera a Cloud Sonet, que en este caso tenía un

62,3% en este mismo benchmark y estamos hablando de resultados en la configuración no razonador, es decir,

estamos comparando manzanas con manzanas y en este caso Sonet 3.7, pues en este benchmark que nos muestran aquí estaría

por encima. Algo similar a lo que ocurre también en este otro benchmark de aquí, el IDERS Polyglot Benchmark, que mide la

capacidad de programación en varios lenguajes. Y vemos de nuevo que el modelo

GPT4.1 pues consigue unos resultados muy buenos, sobre todo si lo comparamos con 4o. Consigue elevarse varios puntos

porcentuales, eso está muy bien. También si lo comparamos con los modelos razonadores, pues casi casi a la par. Y

vemos que de nuevo el modelo pues estaría por encima incluso del 4.5. De hecho, fijaos que en este caso incluso

el modelo 4.1 mini, pues tendría unos resultados superiores a lo que sería el modelo 4 que todos utilizamos a través

de Chat GPT o que también hemos utilizado a través de la API. Y ahora que hemos comentado esto de Chat GPT y

de la API, pues vamos a comentar que este modelo 4.1, por muy espectacular que sea, por muy bueno que veamos los

resultados, no vamos a tenerlo disponible a través de Chat GPT. Chat GPT va a continuar utilizando el modelo

GPT4 y este modelo, el 4.1, solamente se va a poder consumir a través de la API. Y esto pues tiene cierto sentido porque

al final Open AI con este modelo quiere competir en un sector donde estaba perdiendo completamente la batalla y es

en el uso de sus modelos, de su tecnología a través de la API. Para programar mucha gente utiliza Cursor,

Winsurf y todos estos IDS donde tú puedes seleccionar qué modelo quieres en cada caso para poder trabajar y ahí toda

la comunidad pues siempre ha tenido como favorito a Cloudset 3.5. Luego con la actualización 3.7, pues por inercia

hemos seguido utilizando ese modelo, un modelo muy bueno. Y ese hábito de utilizar siempre los modelos de

Antropic, pues estaba empezando a cambiar ahora con la salida de Gemini Pro 2.5, que es un modelo potentísimo,

que está funcionando muy bien y que mucha gente lo está encontrando como un modelo, pues también favorito a la hora

de programar. Ahí ningún modelo de Open AI, por exitoso que sea su producto Chat GPT, pues estaba siendo seleccionado y

es por eso que ahora quieren intentar entrar con este modelo 4.1 para ver si consiguen hacer un poquito más de ruido

y bueno, veremos con el tiempo si realmente la comunidad encuentra valor en este modelo. Pero ojo, amigos, que no

es el único cambio que vamos a ver en la API y es que van a descatalogar, van a quitar un modelo que ya consideran que

ha tenido pues su tiempo de gloria y es GPT 4.5. se lo van a cargar directamente porque consideran que, bueno, que es un

modelo muy pesado, muy costoso. Siempre le han puesto la etiqueta de que era un experimento y se lo van a cargar porque

consideran que ya la comunidad pues no lo está utilizando y tienen que eh recuperar esa GPU para otros despliegues

y otros experimentos. Y yo viendo esto, pues creo que podemos considerar ya que GPD 4.5, al menos como producto, como

modelo producto que han ofrecido, pues ha sido un fracaso, ¿no? Como salida, creo que están clavando el último clavo

en el Ataú. Es seguramente un modelo que internamente les va a servir para seguir destilando conocimiento, para entrenar

otros modelos, para generar modelos razonadores que seguramente veamos esta semana muy potentes, pero como modelo

standalone, modelo no razonador que se ofrecía a través de la API, pues evidentemente por lo que nos están

demostrando no tiene ya más recorrido y por eso pues ahora se intentan redimir con la salida de este modelo GPT4.1

un que hace real este bonito meme donde la IA siempre se equivocaba en esto de 9,11 es mayor que 9,99. Pues ahora

podemos decir efectivamente que GPT 4.1 es mejor, es mayor que GPT4.5. Líos apartes con la

nomenclatura, pues, ¿qué más decir de este modelo? que es un modelo que está entrenado pues para hacer mejores

labores de programación incluso a nivel estético que el modelo GPT4O, pues donde antes teníamos interfaces tan feas como

las que nos muestran aquí, pues ahora la cosa se vuelve un poquito más interesante, pues con colores, con más

dinamismo, con más sentido de la estética y bueno, pues algo que se agradece porque siempre eh el término de

hacer interface bonitas no gusta. Luego también pues a nivel de Bals pues tenéis un montón de comparaciones

superinteresantes y también pues lo que hemos comentado, la ventana de contexto de 1 millón de tokens donde todos estos

cuadraditos azules nos da una información muy importante y es que el modelo no solamente tiene una ventana de

contexto de 1 millón, sino que sabe utilizarla, que sabe encontrar toda la información que está contenida en esta

ventana de contexto sin importar en la posición en la que se encuentre o en la profundidad del documento en la que lo

estemos colocando. De hecho, vamos a hacer una prueba de esto para que veamos las capacidades del modelo. Y para este

primer experimento vamos a trabajar con la Biblia. He buscado un texto en internet que fuera lo suficientemente

largo, la Biblia, y en este caso incluso he tenido que acortarlo porque eh superaba el millón de tokens de ventana

de contexto. Entonces, he llegado a un punto, pues me he cargado el resto de información y la otra modificación que

he hecho ha sido modificar un versículo para colocar una pieza de información que sería un anacronismo, que sería este

de aquí, sería mi ordenador y mis GPU se están derritiendo, ¿vale? colocado, fijaos, en una parte eh aleatoria de un

documento que es larguísimo, con lo cual, pues vamos a probar a ver si el modelo es capaz de encontrar esta pieza

de información. Vale, lo tenemos cargado, un texto larguísimo con toda esta información y le voy a pedir que me

busque en el documento algún tipo de anacronismo que se haya insertado posteriormente modificando la obra

original. Voy a seleccionar además para que no me cueste tanto el modelo mini, porque al final también tiene estas

capacidades de ventana de contexto de 1 millón de tokens. Y vamos a ver si el modelo es capaz de encontrar justamente

ese versículo modificado. Le damos a enviar y vemos ahora que el modelo está trabajando. Me pregunto yo cuánto va a

tardar en hacer este trabajo donde tiene que procesar tanta tanta información. Y fijaos que acaba de generar eh ha

tardado pues 15 segundos máximo pues esta respuesta y bien ha detectado que es la Biblia perfectamente y ha

encontrado que en mitad del texto pues ha insertado la frase, "Mi ordenador y GPU se están derritiendo." Efectivamente

ha encontrado el anacronismo, el versículo modificado. Y esto es muy interesante porque fijaos que no es

simplemente hacer un control F y buscar en toda la información alguna palabra que yo le haya pedido, sino que le hemos

hablado de un anacronismo que podría haber sido pues una GPU o una tostadora. Y el modelo ha visto toda la información

del documento en 15 segundos y ha sido capaz de darnos esta respuesta. Y como os decía antes, esto es muy

espectacular, pero no es exclusivo de Open AI, sino que los reyes de la ventana de contexto siempre ha sido

Google. Y fijaos que en este caso, pues con el mismo documento, aquí podemos ver que son 800,000 tokens de información. Y

con el mismo prompt, pues si le damos a Yemini 2.5 Pro, le damos a enter. Vemos también que en cuestión de segundos,

pues el modelo ha sido capaz de encontrar la misma frase que hemos modificado. De hecho, esto es tan

espectacular que a veces me hace incluso desconfiar de las capacidades de estos modelos, de si simplemente están

haciendo un escaneado secuencial muy rápido buscando información. Así que le vamos a hacer la prueba un poquito más

complicada todavía y lo vamos a hacer ahora con una nueva versión modificada donde en este caso no he escondido

solamente una pequeña modificación, sino que he metido tres modificaciones diferentes que van a estar cada una

interconectada con la siguiente a través de pues unos códigos numéricos que el modelo tiene que encontrar y continuar.

Pues en una parte del documento yo he metido esta frase, pues has encontrado el código que le daré inicialmente y le

daré una pista que es que la palabra secreta es pan en español y que ahora tiene que ir a buscar pues la siguiente

parte que sería este código de aquí. Este código ahora se encontraría en otra parte del documento. Pues si lo buscamos

vemos que lo encontramos en la parte casi casi inicial del texto. Has encontrado esto. Pues la segunda parte

del secreto sería lo que alguien en español gritaría pues en un partido de fútbol. Y para encontrar la tercera

pieza de información, ahora tiene que volver a saltar a este código. Y este código lo encontramos en otra parte

diferente, donde pues en este caso sería en inglés lo opuesto a la palabra out. Combina todas las piezas y tendrás la

palabra secreta. Esto obliga al modelo a no solo procesar linealmente la información, sino encontrar diferentes

piezas de información desordenadas y que además están interconectadas a través de códigos que tiene que ir procesando

secuencialmente. Una prueba muy loca que no sé cómo funcionará, pero que vamos a probar ahora con

GPT4.1. Le pego el texto modificado y le escribo, "He escondido una contraseña secreta dentro de los versículos de la

Biblia. Si encuentras las tres pistas que he escondido, podrás saber cuál es la palabra que estoy buscando. Cada

pista te guiará con un código numérico hacia la siguiente pieza de información que debes encontrar. Comienza buscando

4815. Suerte. Vamos a ver cuánto tarda. Y fijaos que tenemos la respuesta bastante rápida. Ha tardado unos de

nuevo 10, 15 segundos. Ha encontrado la primera pieza de información. Sabe que Bre en español es pan. La siguiente

pieza la ha encontrado también. eh siguiendo el código sabe que la siguiente es go y que la última palabra

es lo contrario de out es in, combina todo y efectivamente la respuesta, chicos y chicas es pangolín. Y esto es

impresionante que funcione. Madre mía, la IA procesando información ahí. Y de nuevo Gemyight 2.5 Pro experimental.

Seguramente no se va a quedar atrás porque las ventanas de contexto funcionan. Esto es algo que me sorprende

bastante porque hace un año pues si teníamos ventanas de contexto de 1 millón, de 2 millones, experimentalmente

incluso de 10, pero no funcionaban, no eran capaz de ver toda esa información o de hacer eh razonamientos multisalto

extrayendo información de diferentes partes. Y ahora vemos que esto sí funciona y además funciona a tiempos

bastante bastante razonables. Y aquí lo vemos que 20 segundos después, pues Google nos está decodificando

efectivamente Pangolin y nos devuelve la palabra clave, la contraseña secreta que tengo en todas mis cuentas Pangolí. No,

esto último broma, chicos. Evidentemente es 1 2 3 cu y ahora vamos a probar con algunos prompts de programación. Vamos a

empezar con este prompt de aquí que ya hemos probado en otras ocasiones, donde le vamos a pedir a la IA que nos genere

un visualizador de una red neuronal convolucional entrenada sobre el datasetist. va a tener que hacer las

diferentes activaciones, los diferentes mapas de características y esto nos va a permitir comparar pues que también sigue

el modelo, las instrucciones que le estamos dando y también la calidad de las interfaces que programan. Así que

vamos a probarlo. Y la primera comparación que quiero hacer es con el modelo GPT4 o en este caso vamos a

el modelo anterior y le vamos a pegar el prompt. Le damos a generar y vamos a ver qué nos generaba GPT4 pues hace unas

semanas vemos que genera el código. Además le hemos pedido que sea un código autocontenido en un mismo archivo. Vamos

a descargarlo. Lo abrimos y lo que tenemos es algo como esto. ¿Vale? Se supone que aquí yo debería de poder

dibujar. Pues, por ejemplo, dibujo un tres. Vamos a darle a entrenar y no parece que esté funcionando. Aquí

deberíamos de ver pues los mapas de activación de la red neuronal. No parece que en este caso GPT4 nos haya hecho

bien la tarea. Vamos a probar ahora con el nuevo modelo. Con GPT4.1 le ponemos el mismo prompt, le damos a enter y

rápidamente se pone a generar. Vale, y ahora sí lo tenemos. Un código mucho más completo que el que nos ha dado GPT4

antes. De hecho, yo creo que antes GPT4 ha dejado algunas partes incompletas. Lo copiamos y el resultado en este caso

sería algo tal que así. Wow. Okay, vale. Se ve bastante más completo. Creo que puedo dibujar aquí el pincel bastante

gordo. Y vamos a ver si podemos entrenar al modelo. Vamos a darle iniciar entrenamiento. Wow. Okay. Okay. Pues

fijaos que esta es de las eh visualizaciones deist más avanzadas que hemos podido implementar en todas las

comparaciones que hemos hecho con otros modelos. Fijaos que tenemos aquí los diferentes filtros que el modelo va

aprendiendo. Y aquí abajo tenemos las activaciones por capas perfectamente visualizadas. Además, en el navegador

está yendo todo lentísimo, se está intentando entrenar el modelo, con lo cual incluso podríamos ver aquí en algún

momento que eh la activación para el número tres se empezaría a activar más y es bastante impresionante. Vamos a

cambiar, vamos a borrar a ver si fijaos como las activaciones cambian en tiempo real. Esto está muy chulo. La predicción

también va cambiando. Vamos a dibujar, por ejemplo, un cuatro, ¿vale? En este caso no lo

conseguí detectar, pero porque vemos aquí que todavía pues no ha conseguido cargar el modelo eh reducido y

posiblemente no lo vaya a cargar porque ya ha pasado un rato y si no lo ha cargado todavía, pero bastante bastante

eh potente en este caso este visualizador de los mejores que hemos visto nunca, así que muy buen feedback

por parte de GPT4.1. Por comparar, vamos a ver qué genera en este caso Clot Sonet 3.7 con el mismo prompt y el

visualizador generado por Cloud Sonet. ¡Wow! Este hasta casi me gusta un poco más.

Tiene colores rojos y azules que siempre para visualización me gustan más. Vale. Wow. Vemos que le pone un zoom incluso

al canvas. Lo que no estoy viendo es una respuesta del lienzo a lo que tenemos por aquí. Vamos a darle entrenar a ver

si esto activa un poco los filtros y las activaciones. Pero bastante bastante potente la interfaz que nos ha

programado en este caso Cloudsonet 3.7. Vemos que efectivamente hay una barra de progreso, así que el entrenamiento puede

estar ocurriendo. Voy a esperar un poquito y tras un rato esperando, no parece que esto esté avanzando, no

parece que progr, lo voy a pausar y es una pena porque es quizás de los visualizadores más atractivos y

completos con la información que me gustaría ver aquí, pero no parece que bueno, pues que haya conseguido

implementarlo 100% funcional. Se podría hacer un poco de conversación con Cloud para terminar de pulir estos errores y

la verdad que tendríamos un resultado bastante completo y que podríamos decir que al menos para esta demo pues estaría

por encima de lo que GPT 4.1 nos ha ofrecido. Vamos a probar ahora con Yemini Pro 2.5. Mismo prompt, le damos a

ejecutar y dejamos que el modelo empiece a trabajar. Aquí, eso sí, hay que comentar que la comparación no es 100%

justa porque Clot Set 3.7 y GPT 4.1 son modelos no razonadores y en este caso Yemini 2.5 Pro ya sabéis que es un

modelo que cuenta con esta capacidad de razonamiento. Aún así, hay mucha gente que lo está utilizando para programar.

Entonces, para las comparaciones que estamos haciendo hoy, pues vamos a probarlo. Y tenemos el resultado.

Tampoco se ha excedido razonando, ha sido bastante equivalente al resto de modelos. Vamos a copiar el código y el

resultado del modelo de Google se ve tal que así. De nuevo, una interfaz bastante completa con un montón de información.

Vamos a dibujar aquí un numerito y a ver qué pasa. Esta sería nuestra entrada. Y aquí es donde debería de visualizarse

pues las activaciones, los filtros de cada capa. No estamos viendo nada, pero vamos a clicar aquí en iniciar

entrenamiento. Y parecería que tenemos algunos errores que hacen que el modelo pues no pueda cargar los pesos. Una

lástima porque de nuevo también este apuntaba bastantes maneras, pero no. Parece que en este caso el modelo Gemini

Pro pues no ha conseguido resolver one shot el prompt que le hemos planteado. Vamos a probar por tanto con un último

experimento que ya hemos probado en otras ocasiones y es el juego del snake embebido en un hexágono rotando donde

las recompensas botan, donde la se entrena. Un prompt muy complicado que todavía no he visto a ninguna a resolver

one shot y que vamos a probar ahora con el modelo GPT 4.1. De hecho, por comparar de nuevo, vamos a empezar con

GPT4O. Le pegamos el prompt, que es este pedazo de párrafo donde le explico exactamente lo que quiero. Todo viene

bien descrito por aquí. Le damos a enter. Y esto es lo que nos ha generado, que bueno, a ver, el juego del Snake

está, pero no hay ni hexágono, las recompensas no votan. El control es un poco raro porque no puedo, o sea, puedo

como derecha izquierda, pero no sé, es un poco extraño y las recompensas están en estático, o sea, que GPT4 aquí en

esta tarea pues lo ha resuelto bastante bastante mal. Por el contrario, el modelo GPT4.1 un para el mismo prompt

nos genera el siguiente código. El juego generado por 4.1 pues tiene mucha mejor pinta, aunque vemos que, bueno, a priori

parece que va a haber fallos, pero al menos la interfaz mucho mejor que lo que nos estaba proponiendo 4.0. Vamos a ver

si ajustando velocidad. Este es un problema que me pasa mucho cuando implementamos con la IA este prompt y es

que las recompensas iteran muy rápido, como que hay algún tipo de problema con la generación por fotogramas de las

recompensas, con lo cual la simulación pues falla. Y si activamos aquí el modo aprendizaje automático, pues tampoco

vemos más allá de que la gráfica abajo sí se está actualizando, no podemos jugar con el juego, lo cual, bueno, está

mejor que lo que nos ofrece GPT4O, pero no es un resultado brillante. Aún así, mucho más prometedor y seguramente en

conversación de forma iterativa dentro de un ID de programación como Winsurf, como Cursor, pues seguramente podríamos

llevar a buen puerto este resultado. Cloudsonet nos genera esto que parece que va a ser un juego funcional, pero de

alguna forma tampoco podemos jugar. Siempre llegamos a un estado de game over inicial. Parece que la serpiente no

se puede mover correctamente y por tanto pues tampoco podemos dar el resultado por bueno. Vamos a ver si ah, mira, aquí

lo podemos ver. A mayor velocidad parece que de repente la serpiente sí funciona y tenemos un resultado, pues, oye, mejor

que lo que hemos visto hasta ahora. Vemos que la serpiente rebota con el hexágono y que las recompensas están ahí

votando con ciertas físicas, aunque acaban saliéndose del hexágono. No sería un resultado ideal, pero bueno, mejor

que lo que nos ha implementado GPT4.1. Y si activamos el modo IA, pues vemos que tampoco parece funcionar. No

está mal, no está mal. Sonet, buen intento. Y el potentísimo modelo razonador de Google, Gemini 2.5 Pro con

este mismo prompt le damos a ejecutar y a ver qué nos genera. Y el resultado que Google nos ofrece es este de aquí. Tiene

muy buena pinta, ojito, porque podría ser de los primeros que nos ofrezcan una solución funcional. Y vemos, te has

chocado contigo mismo. Bien, eh, vamos a intentar jugar el juego. Damos a enter. Es difícil de controlar. Y vemos

que la serpiente se mueve, rebota perfectamente, recupera recompensas. Las recompensas efectivamente votan en este

hexágono que va girando y el único error con el que me estoy encontrando es que no puedo controlar a la serpiente. Si

intento tocar algún control siempre me sale el error de que me he chocado conmigo mismo, pero aún así es de los

resultados más funcionales. De hecho, si activamos a la IA, a pues seguramente veamos otro bug. En este caso, pues sí,

hay un error también aquí en la parte de la implementación de la IA. Pero bueno, podemos decir que de todos los

resultados que hemos probado, Gemini 2.5 Pro es el que mejor nos ha acercado a un resultado funcional de aquello que le

estábamos pidiendo. Con esto, las conclusiones que podemos sacar de estos pequeños experimentos y de haber estado

yo haciendo pues sesiones de lo que llaman ahora vive coding durante varias horas probando los diferentes modelos,

es que GPT 4.1 quizás no sea el mejor modelo para programar. Ahí todavía Clotsonet 3.7 en algunos casos pues es

un muy buen modelo que podría competir al nivel de 4.1, pero además es que Yemini 2.5 Pro mezclando este

razonamiento está demostrando ser un modelo muy potente, muy capaz y que además viene en este caso pues al igual

que 4.1 con una ventana de contexto que como hemos visto hoy es muy funcional. A pesar de esto, estos modelos compiten

casi casi en la misma liga y muchos de vosotros encontraréis en GPT 4.1, pues cosas que no veréis en otros modelos y

viceversa. En ese sentido, la actualización de Open AI pues tiene un montón de sentido porque GPT4O era un

modelo que se estaba quedando muy atrás en esta competición de los modelos que consumimos a través de API para

programar. GPT4.1 es una muy buena actualización de los modelos no razonadores de la familia de Open AI

después del fallido GPT 4.5 y eso lo tenemos que celebrar, pero la cosa no se va a quedar aquí, chicos. Si creéis que

ya tenemos un caos con todos los modelos, tenemos que estar atentos porque esta semana hay más modelos por

parte de Open AI. Vamos a ver la salida del famoso modelo o tres modelos razonadores y más importante aún, vamos

a ver el avance en capacidades de lo que la inteligencia artificial puede demostrar. posiblemente con una preview

de lo que será O4, al menos O4 Mini. Ya lo veremos, chicos, chicas, todas estas novedades de actualidad aquí en Dots

SVA. Y para aprender más sobre inteligencia artificial, sobre los fundamentos, sobre los aspectos

importantes de la tecnología, tras esto tenéis vídeo nuevo en Dot CSV hablando de modelos de generación de vídeo. Un

vídeo fascinante con un montón de explicaciones super chulas, animaciones s explicativas y que tenéis por aquí

para que podáis ojear. Chicos, chicas, muchas gracias y nos vemos con más inteligencia artificial en el próximo

vídeo.

Heads up!

This summary and transcript were automatically generated using AI with the Free YouTube Transcript Summary Tool by LunaNotes.

Generate a summary for free

Related Summaries

Nuevos Modelos de OpenAI: O3 y O4 Mini - Análisis y Comparativa

En este video se analizan los nuevos modelos de OpenAI, O3 y O4 Mini, destacando sus capacidades de razonamiento y mejoras en programación. Se comparan con versiones anteriores y se discuten sus aplicaciones y rendimiento en benchmarks.

Exploring GPT-4.5: A Comprehensive Review of Its Strengths and Weaknesses

In this video, we dive deep into the capabilities of GPT-4.5, highlighting its impressive creative writing skills while addressing its shortcomings in coding. We also discuss its pricing strategy and how it compares to other models like Claude and Gemini 2.0.