Skip to main content
  1. Casa
  2. Computación

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Digital Trends Español

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

Recommended Videos

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los s interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Se anuncia el nuevo modelo de generación de imágenes de Midjourney para enfrentarse a GPT-4o de OpenAI
MidJourney

A pesar de que MidJourney se propuso ser uno de los modelos de generación de imágenes más prometedores en los primeros días de la IA, parece haberse quedado atrás de herramientas más accesibles, fáciles de usar y gratuitas como Gemini, ChatGPT y Bing. A sus problemas se suma la última actualización del modelo GPT-4o de OpenAI, que permite una generación de imágenes excepcionalmente buena con la capacidad de recrear fotos reales y producir texto inmaculado. Entonces, para mantenerse relevante, o tal vez atrapar el tren del hype que está siendo desviado por la ola de arte de IA inspirado en Studio Ghibli que inunda Internet, MidJourney está lanzando un modelo actualizado con varias mejoras.

El CEO David Holz anunció los detalles del nuevo modelo V7 en el servidor oficial de Discord de MidJourney y a través de una publicación de blog. Dijeron que el nuevo modelo es "más inteligente con las indicaciones de texto" y produce imágenes con una calidad "notablemente superior" y "texturas hermosas".

Leer más
OpenAI planea hacer que Deep Research sea gratuito en ChatGPT
OpenAI

OpenAI tiene planes de poner pronto su función Deep Research a disposición de los s de ChatGPT de nivel gratuito.

La función ha estado disponible desde principios de febrero para los suscriptores de Plus, Pro, Enterprise y Edu; sin embargo, la compañía de IA planea expandir la disponibilidad más allá de sus s pagos. Deep Research va más allá de los resultados de las consultas estándar de los modelos de IA más tradicionales de la marca. El agente de IA tiene la capacidad de realizar tareas de investigación extendidas cuando se le ordena sin la ayuda de un humano. La función puede proporcionar un informe detallado sobre el tema de su elección que puede tardar entre cinco y 30 minutos en compilarse.

Leer más
OpenAI detiene la generación gratuita de imágenes GPT-4o tras la tendencia viral de Studio Ghibli
Studio Ghibli ChatGPT

Después de solo un día, OpenAI ha puesto fin a la versión gratuita de su generador de imágenes en la aplicación, impulsado por el modelo de razonamiento GPT-4o. La actualización tiene como objetivo mejorar el realismo de las imágenes y el texto en el contexto generado por la IA; sin embargo, los s ya han creado una tendencia descontrolada que ha hecho que la empresa de IA se replantee su estrategia de lanzamiento.
Poco después de que la actualización estuviera disponible en ChatGPT, los s comenzaron a compartir imágenes que habían creado en las plataformas de redes sociales al estilo de Studio Ghibli, el popular estudio de animación japonés. Las creaciones iban desde fotos familiares personales basadas en Studio Ghibli hasta escenas icónicas de los Juegos Olímpicos de París 2024, escenas de películas como "El Padrino" y "Star Wars", y memes de Internet como un novio distraído y una chica desastre.

IA abierta

Leer más