OpenAI planea lanzar un modelo de pesos abiertos - Boletín

En la madrugada del 1 de abril, hora de Pekín, el director ejecutivo de OpenAI, Sam Altman, anunció en la plataforma de redes sociales X que OpenAI lanzará en los próximos meses un "poderoso modelo de pesos abiertos (open-weight) con capacidades de razonamiento". Este será el primer anuncio de un nuevo modelo abierto de OpenAI desde el lanzamiento de GPT-2 en 2019, tras seis años.

Revisando la historia de OpenAI, aunque lleva el nombre de "abierto", desde GPT-3 la compañía comenzó a cerrarse gradualmente. Especialmente tras el lanzamiento de ChatGPT, los modelos de OpenAI solo podían accederse a través de su propia plataforma o socios como Microsoft Azure mediante interfaces API, sin posibilidad de que los usuarios los desplegaran o desarrollaran secundariamente. Sin embargo, con el rápido ascenso de modelos abiertos como DeepSeek, OpenAI sintió presión. En febrero de este año, Altman admitió públicamente que DeepSeek había debilitado la posición de OpenAI en el campo de la IA y señaló que la compañía necesitaba idear una nueva estrategia de código abierto.

El modelo de pesos abiertos que OpenAI planea lanzar no será completamente de código abierto. Una encuesta iniciada por Altman en X mostró que los usuarios prefieren un modelo pequeño pero que aún requiera GPU para ejecutarse, como el nivel de o3-mini. Sin embargo, Altman reveló que el nuevo modelo será similar a o3-mini pero diferente, reteniendo algunos "ingredientes secretos" como los datos de entrenamiento, detalles de preentrenamiento o componentes clave de la arquitectura.

Para empresas y gobiernos, los modelos abiertos pueden desplegarse localmente, ofreciendo mayores ventajas en escenarios específicos. Pueden ejecutarse en servidores propios sin necesidad de conexión a internet o computación en la nube, protegiendo la privacidad, eliminando la dependencia de la plataforma de OpenAI y evitando los retrasos, riesgos de seguridad y costos asociados con los servicios en la nube. Además, los modelos abiertos ofrecen mayor control y auditabilidad, permitiendo a los desarrolladores comprender mejor su funcionamiento y ajustar estrategias con facilidad.

Sin embargo, para los usuarios individuales, el costo del hardware necesario para ejecutar modelos abiertos de manera fluida sigue siendo alto. Los modelos en la nube aún tienen ventajas claras en términos de potencia computacional y facilidad de uso, especialmente para tareas complejas. No obstante, con el lanzamiento de supercomputadoras personales de IA por parte de empresas como Nvidia, las empresas y desarrolladores podrían ejecutar modelos abiertos a un costo relativamente bajo, lo que podría abrir nuevas oportunidades para su desarrollo.