OpenAI lanza tres nuevos modelos de voz que trabajan en tiempo real mientras el usuario habla

OpenAI ha marcado hoy un hito en la evolución de la inteligencia artificial al presentar su nueva familia de modelos GPT-Realtime. Esta tecnología permite que las máquinas dejen de ser meros receptores de comandos para convertirse en agentes activos capaces de procesar audio, traducir y transcribir de forma simultánea a la conversación humana.

​A diferencia de los sistemas tradicionales de «pregunta y respuesta», los modelos GPT-Realtime están diseñados para que los desarrolladores creen «aplicaciones de voz» que operan en un flujo continuo. La clave reside en la comprensión profunda del contexto, lo que permite a la IA adaptarse a interrupciones, cambios de tono o correcciones sobre la marcha.

​“Los modelos que estamos lanzando transforman el audio en tiempo real, pasando de un simple sistema de llamada y respuesta a interfaces de voz que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, afirmó OpenAI en su comunicado oficial.

​La familia GPT-Realtime se compone de tres herramientas especializadas para cubrir todas las necesidades de la interacción por voz:
​GPT-Realtime-2: El motor de razonamiento avanzado. Ofrece capacidades al nivel de GPT-5 para gestionar solicitudes complejas, como el análisis de datos, el uso de herramientas externas y la gestión de interrupciones, todo sin perder el hilo de la charla natural.
​GPT-Realtime-Translate: Una solución multilingüe que rompe las barreras del idioma en vivo. Soporta más de 70 idiomas de entrada y 13 de salida, manteniendo el ritmo del orador original. Está enfocado en transformar la atención al cliente, la educación y los eventos globales.
​GPT-Realtime-Whisper: El nuevo estándar en conversión de voz a texto. Con una latencia extremadamente baja, este sistema transcribe el discurso en el mismo instante en que se producen las palabras, facilitando registros precisos y accesibles.

​Para OpenAI, este lanzamiento representa un paso decisivo hacia la creación de agentes que comprendan el entorno humano en todo momento. Al integrar la escucha, el razonamiento y la acción en un solo flujo, los desarrolladores podrán ofrecer experiencias de usuario mucho más fluidas y naturales, donde la tecnología se siente como un colaborador real y no como una herramienta estática.

Con información de agencias

- PUBLICIDAD-spot_img
spot_img