
Descripcion del Proyecto
Sistema de agente de voz inteligente diseñado para operaciones industriales, con capacidades avanzadas de analisis de datos y generacion de presentaciones profesionales. Soporta dos modos de interaccion: texto via REST API (Gemini 3 Pro) y voz via LiveKit WebRTC (Gemini 2.5 Flash Native Audio). Incluye modo reunion con transcripcion automatica, knowledge base empresarial, busqueda en internet, manipulacion de Excel, generacion de presentaciones PowerPoint con infografias IA, y memoria persistente cross-mode. Desarrollado como solucion a medida para el sector industrial.
Puntos Destacados
- Arquitectura dual-mode: voz en tiempo real (WebRTC) + texto (REST API)
- 5 modelos Gemini AI integrados: voz, texto, analisis, planificacion, imagenes
- 12 herramientas del agente: Excel, PowerPoint, busqueda web, PDF, capturas de pantalla
- Modo reunion con transcripcion automatica y notas IA
- Knowledge base empresarial con operaciones CRUD
- Memoria persistente compartida entre modos voz y texto
- Sistema de personalidades configurables (formal/hibrido/informal)
- Mantenimiento automatico programado a las 03:00 AM
Stack Tecnologico
Python 3.13LiveKit WebRTCGemini AIFlaskJavaScriptHTML5/CSS3
Detalles
- Categoria
- Proyecto Propio
- Estado
- Desplegado
- Fecha
- Enero 2026