GPT4 Omni – Mucho más que un simple asistente de voz

Ayer tuvimos el anuncio de Open AI y fue impresionante, supongo que todos podemos estar de acuerdo aquí. Estuve jugando con mi nuevo asistente de voz la mayor parte de esta noche (menciones de la película HER muy precisas en este escenario).

Pero tan revolucionaria, increíble y cambiante como es la capacidad de voz, todo el modelo GPT4o va mucho más allá que eso.

Debo confesar que lo de la voz me sorprendió de verdad, así que incluso me tomé un tiempo para realmente detenerme y leer el anuncio técnico de este modelo y cuando finalmente lo hice ahora mismo, mi mente quedó de nuevo impresionada.

Estaba pensando que GPT4o era simplemente una versión mejor optimizada de GPT-4 Turbo, esta vez con un razonamiento mejorado, menos latencia y entrenada para conversaciones de voz. Y que básicamente simplemente combinaron toda la tecnología que ya tenían con Whisper y TTS junto con llamadas con el nuevo modelo optimizado e integraron todo en ChatGPT de una manera muy efectiva.

Pero después de leer el informe técnico del modelo, vi esto:

Con GPT-4o, entrenamos un solo modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rasgando la superficie de explorar qué puede hacer el modelo y sus limitaciones.

¡Un solo modelo nuevo con multimodalidad de texto, audio y visión de extremo a extremo!

Un solo modelo que puede tener una entrada de texto/audio/imagen y generar una salida de texto/audio/imagen.

Nunca pensé que este futuro estaría en mayo de 2024 y tendríamos un modelo que puede procesar y generar todas las principales modalidades mientras aún tiene un buen tiempo de respuesta.

Ahora, esto va más allá de lo revolucionario, Open AI limpia el tablero nuevamente, nadie tiene algo parecido a esto y las posibilidades de un modelo así son tan grandes que nuestras mentes tienen dificultades para procesarlo.

Tenemos que revisar todos nuestros conceptos e ideas anteriores porque las limitaciones que hacían que no fuera una realidad antes podrían no existir hoy y también preparar nuestras mentes para nuevas ideas renovadas de soluciones que ni siquiera imaginábamos posibles antes.

PD1: No lanzaron acceso a todas las modalidades en su API aún, ahora mismo tenemos texto e imagen. Por lo tanto, podemos pensar en soluciones con las otras pero tenemos que esperar su lanzamiento que aún no tiene fecha definida hasta ahora.

PD2: Por los ejemplos, el modelo también genera imágenes 3D.

PD3: Es válido mencionar que el modelo hoy cuesta la mitad del precio de GPT-4 Turbo, por lo que es mucho más que Turbo alguna vez fue y es más eficiente costando menos.

Aquí hay algunos benchmarks que muestran un rendimiento similar con los modelos principales más recientes:

Puedes ver más sobre este modelo aquí, incluidos ejemplos de uso:

Hello GPT-4o | OpenAI