Introducción a los Nuevos Modelos Abiertos de OpenAI
OpenAI ha lanzado dos modelos de inteligencia artificial de código abierto que superan a la mayoría de modelos existentes y pueden ejecutarse directamente en laptops, servidores propios e incluso teléfonos móviles. Esto representa un cambio de paradigma al permitir el uso de IA avanzada sin depender de servidores externos, lo que es crucial para manejar datos sensibles como secretos de estado o información médica.
Características Técnicas Principales
- Modelos de razonamiento: Estos modelos primero generan una cadena de pensamiento antes de responder, técnica popularizada desde 2024. Para más información sobre cómo funcionan estos modelos, consulta nuestra <a href="/summary/introduccion-a-los-modelos-de-lenguaje-grande-que-son-y-como-funcionan-es">Introducción a los Modelos de Lenguaje Grande: ¿Qué son y cómo funcionan?</a>.
- Tres niveles de pensamiento: low, medium y high, que determinan la cantidad de tokens usados para razonar.
- Ventana de contexto amplia: Hasta 133,000 tokens, superando a modelos previos como GPT-3.5 y Microsoft Copilot. Para una comparativa más detallada, revisa nuestra <a href="/summary/nuevos-modelos-gpt-4-1-de-openai-comparativa-y-analisis">Nuevos Modelos GPT-4.1 de OpenAI: Comparativa y Análisis</a>.
- Compatibilidad: Pueden integrarse con búsquedas en internet, ejecución de código Python y funciones personalizadas, aunque requieren configuración externa.
Innovaciones Técnicas
- Cuantización: Reduce la precisión de los pesos neuronales para disminuir uso de memoria y cómputo. Para entender mejor este proceso, puedes leer sobre <a href="/summary/nuevos-modelos-de-openai-o3-y-o4-mini-analisis-y-comparativa">Nuevos Modelos de OpenAI: O3 y O4 Mini - Análisis y Comparativa</a>.
- Model of Experts (MoE): Activa solo partes específicas de la red neuronal para optimizar eficiencia.
Rendimiento y Comparativa
- El modelo pequeño (20B parámetros) puede correr en 16 GB de RAM, ideal para laptops y teléfonos modernos.
- El modelo grande (120B parámetros) requiere 80 GB de RAM, adecuado para equipos de alta gama.
- Ambos modelos superan en pruebas matemáticas y de razonamiento a GPT-4 gratuito y otros modelos populares.
- El modelo grande alcanzó un 19% en el exigente examen Humanity SL, mejorando significativamente respecto a modelos anteriores.
Velocidad y Usabilidad
- En un MacBook Pro M4 Max con 64 GB RAM, el modelo grande corre a 48 tokens por segundo, una velocidad alta para modelos de esta inteligencia.
- El modelo pequeño corre eficientemente en laptops más antiguas y teléfonos, con costos operativos mínimos (solo electricidad).
Impacto y Oportunidades
- Permite crear asistentes personales inteligentes que operan exclusivamente en dispositivos locales, mejorando privacidad y personalización. Para más sobre el impacto de la IA en diferentes sectores, consulta <a href="/summary/la-inteligencia-artificial-y-su-impacto-en-las-fintech">La Inteligencia Artificial y su Impacto en las Fintech</a>.
- Facilita el desarrollo de nuevas aplicaciones y productos que antes no eran posibles por limitaciones de acceso y privacidad.
- Se espera que startups y empresas adopten estos modelos para tener mayor control y seguridad en sus agentes automatizados.
Consideraciones y Limitaciones
- Los modelos abiertos aún presentan más alucinaciones que modelos comerciales de frontera, especialmente el modelo pequeño.
- La gestión de contextos muy largos puede degradar la calidad de las respuestas.
- Requiere hardware con suficiente memoria RAM y capacidad de cómputo para un rendimiento óptimo.
Conclusión
El lanzamiento de estos modelos abiertos de OpenAI marca un momento histórico en la inteligencia artificial, democratizando el acceso a IA avanzada y segura que puede ejecutarse localmente. Esta innovación abre un mundo de posibilidades para desarrolladores y usuarios que buscan mayor control, privacidad y personalización en sus aplicaciones de IA. Aprender y experimentar con estos modelos es una oportunidad única para estar a la vanguardia tecnológica.
No nos estamos tomando en serio que Open lanzó hoy dos modelos abiertos que son mejores que la gran mayoría de modelos
de inteligencia artificial allí afuera y cualquier persona les puede correr en su laptop, en su teléfono. Esperen. El
problema más grande que tiene la inteligencia artificial moderna es que es una caja negra que corre en
servidores de otros. Cuando uno necesita usar la inteligencia artificial para hacer cosas serias, como por ejemplo
planeación de secretos de estado o de secretos corporativos para hacer uso de datos privados muy delicados como los
datos de salud de todo un hospital, entre muchos otros ejemplos, pues uno está mandando los servidores de Open AI,
de Antropic, de Google o servidores en China de Deepsic. Esta es la primera vez que podemos correr modelos de muy muy
alta inteligencia en nuestro laptop, en nuestros propios servers, e incluso en nuestros teléfonos. Esto abre primero
que todo una inmensa gama de nuevos productos y de nuevas ideas que antes no eran posibles, como por ejemplo memoria
perfecta nuestros teléfonos o realmente reemplazar cosas como Siri o el asistente de Google por un sistema
extremadamente inteligente que esté conectado exclusivamente a nuestras vidas y que no haya ni siquiera
necesidad de cifrarlo porque solo corren nuestros dispositivos. Esto es un cambio de paradigma muy duro y no veo a los
desarrolladores del mundo hispano desesperantemente creando aplicaciones. Y si sí, cuéntenme los comentarios que
están haciendo. Pero hablemos un poco los detalles técnicos. Ambos modelos son modelos de
razonamiento. Lo que esto significa es que primero piensan, escriben lo que están pensando antes de responder. Esta
fue una técnica que el pionero fue Open AI O1 en diciembre del 2024. Luego, Deepsek R1 vino a revolucionar mostrando
eso que llaman Chain of Tod o cadena de pensamiento en enero del 2025. Y desde entonces la mayoría de modelos han sido
modelos de razonamiento que primero escriben lo que están pensando antes de generar una respuesta. Estos modelos de
código abierto vienen con tres modelos de pensamiento, low, medium y high, que es más o menos básicamente la cantidad
de texto, la cantidad de tokens que usan para razonar. Uno diría que entre más tokens genera mejor respuesta y eso
tiende a ser verdad, pero estos modelos en ocasiones son vulnerables a algo que se llama context brought o como que se
pudre el contexto. Es la mejor traducción que tengo. Context rad, pudrimiento de contexto. Esto es un
fenómeno en el que entre más largo es la cantidad de texto que en un trap, más se van olvidando de las instrucciones
originales. ¿No les ha pasado? Ambos modelos son compatibles con buscar en internet, con ejecutar código en Python
o con implementarle funciones de desarrollo personalizadas. No lo hacen por defecto porque son
modelos, no son aplicaciones, entonces no tienen una forma interna de correr Python o ir a buscar en la web. Cuando
uno los configura en su propia computadora o en el servidor usando OLAM o cosas parecidas, pues uno tiene que
implementarlo. El curso de fundamentos de ll Jenner publicó en Platzi les explica muchos de estos conceptos en
caso de que no los entiendan. Entonces, vas a pensar que la mayoría de startups que crean lo que llaman agentes, que son
estos procesos automatizados dentro de compañías para ciertas cosas que es una compañía, van a dejar de usar modelos
web y van a empezar a tener o servers propios o versiones hechas con estos modelos de código abierto simplemente
porque es más fácil y porque se tiene mucho más control. Es un mundo fascinante el que se nos viene. Los
modelos de código abierto Openi logran un puntaje de casi el 100% en la mayoría de pruebas de exámenes matemáticos. Y
para mí lo más impresionante es que es mucho mejor que 4, que es el modelo gratuito cuando ustedes no pagan por CH
GPT y pues la mayoría de ustedes ha usado CH GPT y no pagan. Y pues ahora tenemos un modelo gratuito, abierto, que
podemos correr en nuestros computadores, que tiene mejores resultados en casi todos los tests. El modelo más alto
logró un 19% en el examen más difícil que hay de evaluación de conocimiento e inteligencia artificial, que es
humanity/ last exam. Para que se hagan una idea, el año pasado en diciembre del 2024, el primer modelo de razonamiento
disponible para el público que fue Open AI O1, logró un 8% en Humanity SL Exam. No es el mejor. El mejor en este examen
en teoría supuestamente es Grock, que logró un 25%, pero es impresionante. Un modelo como el OSS 20B, que cabe en
16 GB en RAM implica que podría correr en la gran mayoría de teléfonos modernos de alta gama actuales. Esto mata todo lo
que pensábamos con City. De hecho, incluso hace muchos de los avances de Google con Gemini, no tan de última
tecnología. Los modelos tienen una ventana de contexto de 133,000 tokens. Esta es la cantidad de texto que se les
puede agregar tanto en pregunta como en respuesta para que generen antes de que se les olvide lo que estamos diciendo.
Es bastante grande, no se compara con la ventana de contexto de un millón de tokens que tiene Gemini 2.5 Pro de
Google o si se compara con la ventana de contexto de Open AI O3, que es el modelo más avanzado ahora mismo, que tiene más
o menos 200,000 tokens de ventana de contexto. 133000 tokens es incluso un poquito mejor que la ventana de contexto
por defecto de Microsoft Copilot, que es 128,000 y mucho mejor que cuando lanzó CH GPT. El GPT 3.5 original tenía como
4000 tokens y eventualmente lo subieron a 16,000 tokens. Es super decente. Los modelos son varias técnicas que fueron
en cierto modo popularizadas por Deepsek. Una se llama cuantización, que es básicamente reducir la cantidad de
decimales que tienen los pesos de las neuronas. De esa manera caben en menos memoria y usan menos poder de cómputo.
Esa es la forma en la que puede correr el modelo pequeño, el de 20,000 millones de parámetros en 16 GB en RAM y el
modelo grande el de 120,000 millones de parámetros en 80 GB de RAM. La otra técnica que usan se llama MoE o Model of
Experts, que lo que hace es encender solamente una parte de las neuronas en vez de todas las neuronas del modelo
cuando responden un prompten una técnica especial estadística donde para ciertos promps encienden ciertas áreas. los
llaman expertos, pero no es como que un pedazo de la red sea experta en medicina y otro pedazo de la red sea experta en
código. Es más forma en la que lo mencionan para describir que ciertas neuronas son las que se prenden y otras
no. Y el último problema es la evaluación de alucinaciones. Como ustedes han visto, si han estado en la
industria, el problema de las alucinaciones se ha ido reduciendo a un nivel increíblemente pequeño. Si ustedes
hoy en día usan modelos de frontera como Gemini 2.5 Pro o Open AI o3, es muy poco probable que encuentren alucinaciones.
En mi opinión, de los mejores es Cloth Opus 4. Cuando uno tiene clotus 4 a máximo nivel, las alucinaciones casi que
no existen. Con los modelos open source nuevos de Open AI sí pareciera que hay bastantes más alucinaciones, en
particular con el pequeñito, con el 20B. Entonces toca ser muy consciente para que lo estamos usando. Artificial
Analysis liberó un análisis de lo buenos que son los modelos de pesos abiertos de Open AI y encontraron que están bien,
pero tienen un par de problemas. El principal problema es que con ventanas de contexto muy grandes, más de 100,000
tokens empiezan a perderse un poquito. En las semanas que vienen estoy seguro que vamos a escuchar muchos comentarios
realmente desquiciados, como gente que dice, "Ay, pero no me sirve tanto. Yo me quedo con Cloud Co, yo me quedo con
Jamia, yo me quedo con No se trata de eso. Nadie te está pidiendo que te quedes con uno o con el otro. Eso no
tiene sentido. Lo que tiene sentido es estar probando cosas. Es objetivamente verdad que este
es un momento histórico, el lanzamiento de un nuevo modelo. Si tú quieres seguir usando Cloud Code, pues está bien. Hay
gente que sigue programando con computadores de IBM, a pesar de que IBM dejó de fabricar computadores hace casi
una década. Sin embargo, si tú eres la una persona que ama construir tecnología, que ojos
es diferente ser un consumidor de tecnología, pues este es un momento muy hermoso, este es un momento muy mágico y
muy único en nuestra industria que yo creo que vale la pena pues no perderse de vista. que es un es un privilegio que
nosotros estemos, por lo menos yo percibo un privilegio estar en este momento de la historia donde esto es
posible, donde es posible correr una inteligencia artificial que habla como un humano dentro de un chip moderno de
computador que cualquier persona puede comprar en una tienda. Qué locura, qué cosa tan mágica. Y de pronto no es mejor
que Cloud Code o de pronto sí, de pronto no es mejor que Gemini 2.5 Pro, o sea, hay diferentes benchmarks y de pronto
vamos a ver que muchos de estos benchmarks en los próximos días no logran como los mismos resultados.
Ahorita estaba leyendo que hay personas que empezaron a correr varios test de escritura creativa y en escritura
creativa este modelo pareciera no ser tan tan efectivo como como lo es otros modelos. Pero de nuevo no importa, no
importa. Es que es que de verdad que no importa porque es un modelo abierto y es el primer paso. Es es más lo que
significa. Si tú empiezas a aprender ya mismo a usar esto, tú realmente estás más allá. Esto es lo que para muchas
personas, sobre todo las personas en la industria de la programación, AI, es cuál es la mejor máquina para copiar y
pegar, cuál es la máquina con la que me va mejor para yo poder copiar el código que me saca y luego pegarlo en otro
lado. Eso es lo que muchas personas terminan pensando. Makes no sense. No tiene sentido, ¿no? O sea, claro, puedes
hacer eso, pero pues para qué vas a arruinar tu carrera. Más bien averigua el estado del arte y este es el estado
del arte y mantente actualizado en él y lo que vas a terminar creando son cosas honestamente mágicas. Esta es la
oportunidad de vivir en un mundo de magia. Es es una herramienta nueva y única que permite por primera vez en la
historia correr inteligencia artificial de super alto nivel. Simplemente simplemente simplemente con un
computador. Hay un rumor que no he podido confirmar y es que parece que estos nuevos modelos
son los modelos con la velocidad más alta de tokens por segundo, lo cual sí sería muy interesante porque es la
velocidad más alta con la mayor cantidad de inteligencia. Uno puede tener un modelo que saque muchos tokens por
segundo, que tenga una velocidad muy alta de respuesta, pero si la inteligencia es menor, pues no es tan
chévere, no son tan útiles. Pero estos modelos que tienen un nivel de inteligencia muy alto, si tienen tanta
velocidad, pues cambian el juego, porque la velocidad importa muchísimo para los usuarios. Hay gente que prefiere usar
modelos con una con una inteligencia inferior y disminuida solamente porque les responden más rápido. Hay personas
que pagando chat GPT no cambian a los modelos de razonamiento a pesar de saber que existen porque hacen thinking,
porque se demoran en responder. Es parte de la naturaleza humana. Entonces que estos modelos que razonan, además
respondan rápido. Ya revisé en Mi MacBook Pro M4 Max que tiene 64 GB en RAM, apenas cabe el modelo grandote
120B. se come 60 GB en RAM, que le deja uno 4 GB de para el sistema operativo, ejecutar, etcétera, es bastante, pero
funciona. Y corre a 48 tokens por segundo, que está superb, 48 tokens. Acuérdese que un token es una palabra,
sílaba o letra que genera un modelo de inteligencia artificial. No exactamente, pero es parecido. Esto lo explicamos a
fondo en el curso de fundamentos de ingeniería de software. En la clase donde hablamos de redes neuronales y de
lls explicamos todo eso. Pero piensen en esto. Un MacBook Pro M4 Max con 64 GB en RAM corre a 48 tokens por segundo un
modelo de frontera. El modelo 20B que es el chiquito, el que corre solamente en 16 GB en RAM. Ese modelo corre en un
MacBook mucho más viejo. Un amigo lo está corriendo en un MacBook Pro M3 y corre a muy alta velocidad,
básicamente gratuito, corre lo que cuesta la electricidad con la que funciona el teléfono, el laptop. Y es un
modelo que cuando uno mira los benchmarks está justo justo detrasito de Gemini 2.5 Pro. Esto es en esencia un
modelo de frontera cuyo costo de operación es el costo de la electricidad y simplemente agregarle más GPUs y
agregarle más cosas es es lo que lo haría más veloz, genera más tokens por segundo. Es yo yo creí que esto iba a
pasar en un año, no que esto iba a pasar. Ya estoy buscando cuánto costó el entrenamiento, cuánto Open AI pagó por
entrenar estos modelos y aparentemente el modelo chiquito costó entre medio millón a 2 millones dó y el modelo
grande costó más o menos 20 millones dó. Piensen en eso. Open AI se bajó de por lo menos 20 a 22 millones dólar para
darnos estos estos modelos. Ojo, cuando uno dice que son open weights o de pesos abiertos, eso no significa que sea un
modelo de código abierto. Es más como que el ejecutable, la las neuronas, que son como la versión compilada de todo el
entrenamiento y de todas las técnicas es entregado para que no lo pueda correr de manera local. Es es más o menos eso.
Sigue siendo bastante impresionante que este que pues que un software, una pieza de software con una inteligencia
artificial muchísimo más inteligente que las que abrieron la revolución de la inteligencia artificial generativa hace
un par de años, esté de repente disponible para cualquier persona corriendo en cualquier laptop mientras
tenga suficiente memoria RAM. También tengan en mente que el problema es ese, el el lío, los dos líos más grandes de
la inteligencia artificial moderna es cuánta memoria RAM hay para poder correr el modelo. Eso depende pues del chip. ¿Y
cuánta cuánto poder de cómputo eh hay para correr el modelo? Los MacBooks son particularmente buenos porque Apple
tiene una arquitectura que permite compartir la memoria RAM entre el video, que es el procesador paralelo, que es el
que se usa para las multiplicaciones de tensores o matrices o vectores, que es lo que usa la inteligencia artificial,
eh, y en la memoria que normalmente usaría la CPU. Si estos son términos muy complejos, recuerden, hay un curso de
fundamentos ingrid software que explica todo esto a cabalidad. Ustedes pueden tomar ese curso en un día y al otro día
tienen las bases que necesitan para vivir en esta industria tan hermosa. Pero eso no es el cuento. El cuento es
es interesantísimo. Piensen piensen cómo llegamos acá. En el enero del 2023 sale chat GPT. E en ese mismo año Facebook
anuncia que tiene el modelo Lama y un ingeniero rebelde dentro de Facebook filtra el
modelo y eso fuerza a Mark Soccerberg a abrir Lama. y porque abren lama, hay una gran cantidad de investigación que
termina haciendo que los chinos logren generar con técnicas de cuantización y model of experts, entre otras técnicas
superinesantes de entrenamiento fine tuning y reenforcement learning, un modelo tan avanzado como el deepsic R1.
Y luego de eso eh otras empresas empiezan a sacar sus propios modelos y a liberarlos de manera abierta, Mistral,
siendo una de ellas de exingenieros de Facebook Meta. Pero la el último modelo que era el modelo más avanzado era o por
lo más popular en los modelos abiertos era Quen Qwen que es un modelo de lo de la empresa detrás de Alibabá, pero quedó
atrás ahora con GPT OSS los modelos, el grande de 120B y el pequeño de 20B, 20,000 20,000 millones de parámetros y
120,000 millones de parámetros. Es es muy increíble. En muy poco tiempo pasamos de cajas negras a modelos
disponibles para cualquier persona y para cualquier investigador. un mundo fascinante.
[Música]
Heads up!
This summary and transcript were automatically generated using AI with the Free YouTube Transcript Summary Tool by LunaNotes.
Generate a summary for freeRelated Summaries

Nuevos Modelos de OpenAI: O3 y O4 Mini - Análisis y Comparativa
En este video se analizan los nuevos modelos de OpenAI, O3 y O4 Mini, destacando sus capacidades de razonamiento y mejoras en programación. Se comparan con versiones anteriores y se discuten sus aplicaciones y rendimiento en benchmarks.

GPT5: El Mejor Modelo de IA de OpenAI y sus Innovaciones Clave
Descubre por qué GPT5 es considerado el modelo de inteligencia artificial más avanzado de OpenAI, superando a competidores en programación, razonamiento y manejo de contexto. Con una ventana de contexto de 400,000 tokens y mejoras en la reducción de alucinaciones, GPT5 revoluciona el uso profesional de IA.

Nuevos Modelos GPT-4.1 de OpenAI: Comparativa y Análisis
OpenAI ha lanzado tres nuevos modelos de la serie GPT, incluyendo el GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano, diseñados para mejorar la programación y competir con otros modelos populares. En este video, se analizan sus características, rendimiento y se comparan con modelos como Cloud Sonet 3.7 y Gemini 2.5 Pro.

Introducción a los Modelos de Lenguaje Grande: ¿Qué son y cómo funcionan?
Descubre cómo funcionan los modelos de lenguaje como ChatGPT y su impacto en la inteligencia artificial.

Comparativa de Capacidades de Visión AI: Jetson Nano Super vs Raspberry Pi 5
Descubre las capacidades de visión AI de Jetson Nano Super y Raspberry Pi 5 en este tutorial comparativo y práctico.
Most Viewed Summaries

A Comprehensive Guide to Using Stable Diffusion Forge UI
Explore the Stable Diffusion Forge UI, customizable settings, models, and more to enhance your image generation experience.

Mastering Inpainting with Stable Diffusion: Fix Mistakes and Enhance Your Images
Learn to fix mistakes and enhance images with Stable Diffusion's inpainting features effectively.

How to Use ChatGPT to Summarize YouTube Videos Efficiently
Learn how to summarize YouTube videos with ChatGPT in just a few simple steps.

Pag-unawa sa Denotasyon at Konotasyon sa Filipino 4
Alamin ang kahulugan ng denotasyon at konotasyon sa Filipino 4 kasama ang mga halimbawa at pagsasanay.

Ultimate Guide to Installing Forge UI and Flowing with Flux Models
Learn how to install Forge UI and explore various Flux models efficiently in this detailed guide.