Hoy lanzamos una beta pública de la API en Tiempo Real, que permite a todos los desarrolladores de pago crear experiencias multimodales de baja latencia en sus aplicaciones. Esta API admite conversaciones naturales de voz a voz utilizando seis voces preestablecidas que ya están disponibles en la API.
También estamos introduciendo entrada y salida de audio en la API de Completaciones de Chat para apoyar casos de uso que no requieren los beneficios de baja latencia de la API en Tiempo Real. Con esta actualización, los desarrolladores pueden enviar cualquier entrada de texto o audio a GPT-4o y recibir respuestas en texto, audio o ambos.
Desde aplicaciones de idiomas y software educativo hasta experiencias de atención al cliente, los desarrolladores ya han estado aprovechando las experiencias de voz para conectar con sus usuarios. Ahora, con la API en Tiempo Real y pronto con audio en la API de Completaciones de Chat, los desarrolladores ya no tienen que ensamblar múltiples modelos para impulsar estas experiencias. En su lugar, pueden crear experiencias conversacionales naturales con una sola llamada a la API.
¿Cómo funciona?
Anteriormente, para crear una experiencia similar a la de un asistente de voz, los desarrolladores debían transcribir audio con un modelo de reconocimiento de voz automática como Whisper, transferir el texto a un modelo de texto para inferencia o razonamiento y luego reproducir la salida del modelo utilizando un modelo de texto a voz. Este enfoque a menudo resultaba en la pérdida de emoción, énfasis y acentos, además de un retraso notable. Con la API de Completaciones de Chat, los desarrolladores pueden manejar todo el proceso con una sola llamada a la API, aunque sigue siendo más lento que una conversación humana. La API en Tiempo Real mejora esto al transmitir entradas y salidas de audio directamente, permitiendo experiencias conversacionales más naturales. También puede manejar interrupciones automáticamente, de forma similar al Modo de Voz Avanzado en ChatGPT.
Bajo el capó, la API en Tiempo Real permite crear una conexión WebSocket persistente para intercambiar mensajes con GPT-4o. La API admite llamadas de función, lo que permite a los asistentes de voz responder a las solicitudes del usuario activando acciones o incorporando nuevo contexto. Por ejemplo, un asistente de voz podría realizar un pedido en nombre del usuario o recuperar información de cliente relevante para personalizar sus respuestas.
Impulsando agentes de atención al cliente y asistentes de aprendizaje de idiomas
Como parte de nuestra estrategia de despliegue iterativa, hemos estado probando la API en Tiempo Real con algunos socios para recopilar comentarios mientras desarrollamos. Algunos de los casos de uso temprano más prometedores incluyen:
- Healthify: una aplicación de nutrición y entrenamiento físico que utiliza la API en Tiempo Real para habilitar conversaciones naturales con su coach de IA Ria, mientras involucra a dietistas humanos cuando es necesario para un apoyo personalizado.
- Speak: una aplicación de aprendizaje de idiomas que utiliza la API en Tiempo Real para potenciar su función de juegos de rol, alentando a los usuarios a practicar conversaciones en un nuevo idioma.
Disponibilidad y precios
La API en Tiempo Real comenzará a desplegarse hoy en beta pública para todos los desarrolladores de pago. Las capacidades de audio en la API en Tiempo Real están impulsadas por el nuevo modelo GPT-4o gpt-4o-realtime-preview
.
El audio en la API de Completaciones de Chat se lanzará en las próximas semanas como un nuevo modelo gpt-4o-audio-preview
. Con gpt-4o-audio-preview
, los desarrolladores pueden ingresar texto o audio a GPT-4o y recibir respuestas en texto, audio o ambas.
La API en Tiempo Real utiliza tokens de texto y audio. Los tokens de entrada de texto tienen un precio de $5 por cada millón y $20 por cada millón de tokens de salida. La entrada de audio se cobra a $100 por millón de tokens y la salida a $200 por millón de tokens. Esto se traduce en aproximadamente $0.06 por minuto de entrada de audio y $0.24 por minuto de salida de audio. El audio en la API de Completaciones de Chat tendrá el mismo precio.
Seguridad y privacidad
La API en Tiempo Real utiliza múltiples capas de protección para mitigar el riesgo de abuso de la API, incluido el monitoreo automatizado y la revisión humana de las entradas y salidas del modelo marcadas. La API en Tiempo Real está construida sobre la misma versión de GPT-4o que potencia el Modo de Voz Avanzado en ChatGPT, que evaluamos cuidadosamente utilizando tanto evaluaciones automatizadas como humanas, incluyendo evaluaciones según nuestro Marco de Preparación, detallado en el Tarjeta de Sistema GPT-4o. La API en Tiempo Real también aprovecha la misma infraestructura de seguridad de audio que construimos para el Modo de Voz Avanzado, que nuestras pruebas han demostrado que ha ayudado a reducir el potencial de daño.
Es contra nuestras políticas de uso reutilizar o distribuir la salida de nuestros servicios para spam, engañar o perjudicar a otros, y monitoreamos activamente el potencial abuso. Nuestras políticas también requieren que los desarrolladores dejen claro a sus usuarios que están interactuando con IA, a menos que sea obvio por el contexto.
Cómo empezar
Los desarrolladores pueden comenzar a construir con la API en Tiempo Real en los próximos días en el Playground, o utilizando nuestra documentación y el cliente de referencia.
También hemos trabajado con LiveKit y Agora para crear bibliotecas de componentes de audio como cancelación de eco, reconexión y aislamiento de sonido, y Twilio para integrar la API en Tiempo Real con las APIs de Voz de Twilio, que permiten a los desarrolladores construir, desplegar y conectar agentes virtuales de IA con clientes a través de llamadas de voz.
¿Qué sigue?
A medida que avanzamos hacia la disponibilidad general, estamos recolectando activamente comentarios para mejorar la API en Tiempo Real. Algunas de las capacidades que planeamos introducir incluyen:
- Más modalidades: La API en Tiempo Real comenzará admitiendo voz, y planeamos agregar modalidades adicionales como visión y video con el tiempo.
- Límites de tasa aumentados: Hoy la API tiene un límite de tasa de aproximadamente 100 sesiones simultáneas para desarrolladores de nivel 5, con límites más bajos para los niveles 1-4. Aumentaremos estos límites con el tiempo para soportar implementaciones más grandes.
- Soporte oficial del SDK: Integraremos el soporte de la API en Tiempo Real en los SDKs de OpenAI para Python y Node.js.
- Almacenamiento en caché de mensajes: Agregaremos soporte para almacenamiento en caché de mensajes, para que las conversaciones anteriores se puedan reprocesar con un descuento.
- Soporte ampliado para modelos: La API en Tiempo Real también admitirá el mini modelo GPT-4o en versiones futuras de ese modelo.
Estamos entusiasmados por ver cómo los desarrolladores aprovechan estas nuevas capacidades para crear nuevas experiencias de audio atractivas para sus usuarios en una variedad de casos de uso, desde edificación educativa hasta traducción, atención al cliente, accesibilidad y más.