Guía de Uso

Asistente de Voz

Reproduce conversaciones con voces generadas por IA o graba nuevas conversaciones en tiempo real usando tu micrófono. El Asistente de Voz convierte texto en audio y audio en texto directamente desde tu dashboard.

¿Qué es el Asistente de Voz?

El Asistente de Voz es el módulo de AstrApp que te permite interactuar con tus conversaciones usando audio. Accede desde Dashboard → Asistente de Voz. Ofrece dos modos principales — reproducción TTS y grabación STT — acompañados de un orbe 3D animado que refleja visualmente quién está hablando en cada momento.

Texto

Audio (TTS)

Voz

Conversación guardada (STT)

Requisito: Necesitas tener un proyecto seleccionado con al menos una conversación para usar el modo Reproducir.

Dos Modos de Operación

El Asistente de Voz opera en dos modos independientes. Puedes cambiar entre ellos desde los controles del panel principal.

Modo Reproducir

TTS — Text-to-Speech

Selecciona una conversación existente en tu proyecto y escúchala con voces generadas por IA. Ideal para revisar la calidad de las respuestas de tu bot o hacer demos frente a clientes y stakeholders.

Voces realistas generadas con ElevenLabs
Controles de reproducción: play, pausa, velocidad
Timeline visual por mensaje
Orbe 3D que refleja visualmente quién habla

Modo Grabar

STT — Speech-to-Text

Graba una conversación en tiempo real usando tu micrófono. La transcripción se genera automáticamente mediante AssemblyAI y se guarda como nueva conversación en tu proyecto.

Transcripción en tiempo real con AssemblyAI
VAD automático: detecta cuando hablas y cuando paras
Puedes alternar entre rol asistente y usuario
La conversación se guarda al terminar la sesión

Modo Reproducir — Detalle

Convierte cualquier conversación de texto en audio usando voces generadas con ElevenLabs. El sistema asigna voces distintas al asistente y al usuario para que la reproducción sea natural y fácil de seguir.

Selecciona una conversación

Elige cualquier conversación existente en tu proyecto desde el selector del panel.

Generación de audio TTS

El sistema genera automáticamente el audio de cada mensaje usando ElevenLabs. La voz "Mariana" se asigna al asistente/bot y una voz diferente al usuario.

Controles de reproducción

Usa play/pausa, avanza o retrocede mensaje a mensaje, y ajusta la velocidad: 0.5x, 1x, 1.5x o 2x.

Orbe y timeline visual

El timeline muestra cada mensaje como un segmento. El orbe 3D cambia de color según quién habla: morado para el asistente, azul para el usuario.

Controles Disponibles

Play / Pausa

Inicia o pausa la reproducción

Avanzar / Retroceder

Navega mensaje a mensaje por la conversación

Velocidad

0.5x, 1x, 1.5x o 2x según tu preferencia

Timeline Visual

Cada mensaje es un segmento en la barra de progreso

Voces asignadas: "Mariana" es la voz del asistente/bot. La voz del usuario es diferente para facilitar la distinción auditiva durante la escucha.

Modo Grabar — Detalle

Graba conversaciones en tiempo real usando tu micrófono. La transcripción automática usa AssemblyAI con detección de actividad de voz (VAD) para que no tengas que presionar ningún botón entre mensajes.

Habla

Presiona grabar e inicia la conversación. El VAD detecta automáticamente cuándo empiezas y cuándo paras de hablar.

Transcripción automática

AssemblyAI transcribe tu voz en tiempo real. El texto aparece en pantalla mientras hablas.

Revisa y confirma

Verifica el texto transcrito y confírmalo. Puedes editarlo antes de agregarlo como mensaje.

Guarda la conversación

Al finalizar la sesión, la conversación completa se guarda automáticamente en tu proyecto y queda disponible para editar, reproducir o usar en entrenamiento.

VAD — Voice Activity Detection

El sistema detecta automáticamente cuándo empiezas y dejas de hablar. No necesitas presionar ningún botón entre turnos de conversación; el VAD gestiona los silencios y corta el fragmento de audio en el momento adecuado.

Alternancia de roles

Durante la grabación puedes cambiar entre el rol de asistente y el rol de usuario. Esto es útil cuando quieres simular ambos lados de una conversación tú solo para crear ejemplos de entrenamiento.

Orbe 3D Animado

El orbe es una visualización 3D interactiva construida con Three.js / React Three Fiber que acompaña toda la experiencia de voz. Pulsa y cambia de forma según la actividad de audio en curso.

Morado / Purple

El asistente está hablando

Azul / Blue

El usuario está hablando

Gris

En reposo, sin actividad de audio

Animación reactiva

El orbe pulsa al ritmo del volumen de audio. Cuando hay silencio permanece estático. Durante la reproducción o la grabación activa, la geometría se deforma suavemente para reflejar la intensidad del sonido.

Responsive y adaptable

El orbe ajusta su tamaño automáticamente al ancho disponible en pantalla, tanto en escritorio como en móvil. No requiere interacción del usuario; opera de forma completamente automática.

Requisitos

Asegurate de cumplir estos requisitos antes de usar el Asistente de Voz.

Proyecto seleccionado en el dashboard.
Al menos una conversación en el proyecto (necesaria para el modo Reproducir).
Micrófono funcional conectado al equipo (necesario para el modo Grabar).
Navegador compatible con Web Audio API: Chrome, Firefox o Edge.
Conexión a internet estable, ya que el TTS y el STT se procesan en tiempo real en la nube.

Tips para sacarle el máximo partido

Para demos con clientes: usa el modo Reproducir para mostrar cómo responde tu bot sin necesidad de desplegarlo.
Para crear datasets de forma natural: el modo Grabar es la forma más rápida de construir conversaciones de entrenamiento realistas.
Audio robótico: si la voz generada suena poco natural, prueba reducir la velocidad de reproducción a 0.75x o 1x.
Ambiente silencioso: graba en un lugar sin ruido de fondo para mejorar la precisión de la transcripción.
Edición posterior: las conversaciones grabadas se pueden editar mensaje a mensaje en la sección Conversaciones.

Marketplace GPU Guía de Fine-tuning