OpenAI ha marcado hoy un hito en la evolución de la inteligencia artificial al presentar su nueva familia de modelos GPT-Realtime. Esta tecnología permite que las máquinas dejen de ser meros receptores de comandos para convertirse en agentes activos capaces de procesar audio, traducir y transcribir de forma simultánea a la conversación humana.
A diferencia de los sistemas tradicionales de «pregunta y respuesta», los modelos GPT-Realtime están diseñados para que los desarrolladores creen «aplicaciones de voz» que operan en un flujo continuo. La clave reside en la comprensión profunda del contexto, lo que permite a la IA adaptarse a interrupciones, cambios de tono o correcciones sobre la marcha.
“Los modelos que estamos lanzando transforman el audio en tiempo real, pasando de un simple sistema de llamada y respuesta a interfaces de voz que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, afirmó OpenAI en su comunicado oficial.
La familia GPT-Realtime se compone de tres herramientas especializadas para cubrir todas las necesidades de la interacción por voz:
GPT-Realtime-2: El motor de razonamiento avanzado. Ofrece capacidades al nivel de GPT-5 para gestionar solicitudes complejas, como el análisis de datos, el uso de herramientas externas y la gestión de interrupciones, todo sin perder el hilo de la charla natural.
GPT-Realtime-Translate: Una solución multilingüe que rompe las barreras del idioma en vivo. Soporta más de 70 idiomas de entrada y 13 de salida, manteniendo el ritmo del orador original. Está enfocado en transformar la atención al cliente, la educación y los eventos globales.
GPT-Realtime-Whisper: El nuevo estándar en conversión de voz a texto. Con una latencia extremadamente baja, este sistema transcribe el discurso en el mismo instante en que se producen las palabras, facilitando registros precisos y accesibles.
Para OpenAI, este lanzamiento representa un paso decisivo hacia la creación de agentes que comprendan el entorno humano en todo momento. Al integrar la escucha, el razonamiento y la acción en un solo flujo, los desarrolladores podrán ofrecer experiencias de usuario mucho más fluidas y naturales, donde la tecnología se siente como un colaborador real y no como una herramienta estática.
Con información de agencias



