Asistente de Voz
Reproduce conversaciones con voces generadas por IA o graba nuevas conversaciones en tiempo real usando tu micrófono. El Asistente de Voz convierte texto en audio y audio en texto directamente desde tu dashboard.
¿Qué es el Asistente de Voz?
El Asistente de Voz es el módulo de AstrApp que te permite interactuar con tus conversaciones usando audio. Accede desde Dashboard → Asistente de Voz. Ofrece dos modos principales — reproducción TTS y grabación STT — acompañados de un orbe 3D animado que refleja visualmente quién está hablando en cada momento.
Requisito: Necesitas tener un proyecto seleccionado con al menos una conversación para usar el modo Reproducir.
Dos Modos de Operación
El Asistente de Voz opera en dos modos independientes. Puedes cambiar entre ellos desde los controles del panel principal.
Modo Reproducir
TTS — Text-to-SpeechSelecciona una conversación existente en tu proyecto y escúchala con voces generadas por IA. Ideal para revisar la calidad de las respuestas de tu bot o hacer demos frente a clientes y stakeholders.
- Voces realistas generadas con ElevenLabs
- Controles de reproducción: play, pausa, velocidad
- Timeline visual por mensaje
- Orbe 3D que refleja visualmente quién habla
Modo Grabar
STT — Speech-to-TextGraba una conversación en tiempo real usando tu micrófono. La transcripción se genera automáticamente mediante AssemblyAI y se guarda como nueva conversación en tu proyecto.
- Transcripción en tiempo real con AssemblyAI
- VAD automático: detecta cuando hablas y cuando paras
- Puedes alternar entre rol asistente y usuario
- La conversación se guarda al terminar la sesión
Modo Reproducir — Detalle
Convierte cualquier conversación de texto en audio usando voces generadas con ElevenLabs. El sistema asigna voces distintas al asistente y al usuario para que la reproducción sea natural y fácil de seguir.
Selecciona una conversación
Elige cualquier conversación existente en tu proyecto desde el selector del panel.
Generación de audio TTS
El sistema genera automáticamente el audio de cada mensaje usando ElevenLabs. La voz "Mariana" se asigna al asistente/bot y una voz diferente al usuario.
Controles de reproducción
Usa play/pausa, avanza o retrocede mensaje a mensaje, y ajusta la velocidad: 0.5x, 1x, 1.5x o 2x.
Orbe y timeline visual
El timeline muestra cada mensaje como un segmento. El orbe 3D cambia de color según quién habla: morado para el asistente, azul para el usuario.
Controles Disponibles
Play / Pausa
Inicia o pausa la reproducción
Avanzar / Retroceder
Navega mensaje a mensaje por la conversación
Velocidad
0.5x, 1x, 1.5x o 2x según tu preferencia
Timeline Visual
Cada mensaje es un segmento en la barra de progreso
Voces asignadas: "Mariana" es la voz del asistente/bot. La voz del usuario es diferente para facilitar la distinción auditiva durante la escucha.
Modo Grabar — Detalle
Graba conversaciones en tiempo real usando tu micrófono. La transcripción automática usa AssemblyAI con detección de actividad de voz (VAD) para que no tengas que presionar ningún botón entre mensajes.
Habla
Presiona grabar e inicia la conversación. El VAD detecta automáticamente cuándo empiezas y cuándo paras de hablar.
Transcripción automática
AssemblyAI transcribe tu voz en tiempo real. El texto aparece en pantalla mientras hablas.
Revisa y confirma
Verifica el texto transcrito y confírmalo. Puedes editarlo antes de agregarlo como mensaje.
Guarda la conversación
Al finalizar la sesión, la conversación completa se guarda automáticamente en tu proyecto y queda disponible para editar, reproducir o usar en entrenamiento.
VAD — Voice Activity Detection
El sistema detecta automáticamente cuándo empiezas y dejas de hablar. No necesitas presionar ningún botón entre turnos de conversación; el VAD gestiona los silencios y corta el fragmento de audio en el momento adecuado.
Alternancia de roles
Durante la grabación puedes cambiar entre el rol de asistente y el rol de usuario. Esto es útil cuando quieres simular ambos lados de una conversación tú solo para crear ejemplos de entrenamiento.
Orbe 3D Animado
El orbe es una visualización 3D interactiva construida con Three.js / React Three Fiber que acompaña toda la experiencia de voz. Pulsa y cambia de forma según la actividad de audio en curso.
Morado / Purple
El asistente está hablando
Azul / Blue
El usuario está hablando
Gris
En reposo, sin actividad de audio
Animación reactiva
El orbe pulsa al ritmo del volumen de audio. Cuando hay silencio permanece estático. Durante la reproducción o la grabación activa, la geometría se deforma suavemente para reflejar la intensidad del sonido.
Responsive y adaptable
El orbe ajusta su tamaño automáticamente al ancho disponible en pantalla, tanto en escritorio como en móvil. No requiere interacción del usuario; opera de forma completamente automática.
Requisitos
Asegurate de cumplir estos requisitos antes de usar el Asistente de Voz.
- Proyecto seleccionado en el dashboard.
- Al menos una conversación en el proyecto (necesaria para el modo Reproducir).
- Micrófono funcional conectado al equipo (necesario para el modo Grabar).
- Navegador compatible con Web Audio API: Chrome, Firefox o Edge.
- Conexión a internet estable, ya que el TTS y el STT se procesan en tiempo real en la nube.
Tips para sacarle el máximo partido
- Para demos con clientes: usa el modo Reproducir para mostrar cómo responde tu bot sin necesidad de desplegarlo.
- Para crear datasets de forma natural: el modo Grabar es la forma más rápida de construir conversaciones de entrenamiento realistas.
- Audio robótico: si la voz generada suena poco natural, prueba reducir la velocidad de reproducción a 0.75x o 1x.
- Ambiente silencioso: graba en un lugar sin ruido de fondo para mejorar la precisión de la transcripción.
- Edición posterior: las conversaciones grabadas se pueden editar mensaje a mensaje en la sección Conversaciones.