La inteligencia artificial generativa devuelve protagonismo a la voz en la atención al cliente
La atención al cliente atraviesa un cambio profundo. Tras años de menús telefónicos rígidos, esperas extensas y respuestas automáticas poco útiles, muchas empresas empujaron a sus usuarios hacia canales escritos. WhatsApp, chats web y correos parecían destinados a ocupar el centro de la relación con el consumidor. Sin embargo, la inteligencia artificial generativa reabrió una vía que nunca perdió vigencia: la voz.
La novedad no pasa por volver al call center tradicional, sino por transformar la conversación telefónica en una instancia más rápida, flexible y resolutiva. Los nuevos asistentes de voz interpretan pedidos en lenguaje natural, reconocen contextos, adaptan respuestas y pueden resolver gestiones sin pasar por un operador humano.
Gustavo Capart, cofundador y director general ejecutivo de la empresa Inceptia, especializada en IA, resumió así el cambio: "La voz nunca dejó de ser el canal más natural de comunicación. Lo que pasó es que durante años fue diseñada para optimizar costos y no experiencia. Hoy, con IA generativa, eso cambió por completo".
La voz vuelve al centro de la experiencia
La comunicación oral conserva ventajas que los canales escritos no siempre pueden ofrecer. Permite expresar urgencia, matices y necesidades complejas en pocos segundos. También reduce barreras para adultos mayores o personas con baja familiaridad digital. En ese punto, Capart sostuvo: "La voz es el modo más eficiente para comunicarnos que tenemos hoy los humanos".
El rechazo al teléfono no nació del canal en sí, sino de malas experiencias. Durante años, las compañías priorizaron la reducción de costos por encima de la calidad del servicio. El resultado fue conocido: menús interminables, derivaciones inútiles y clientes sin respuesta.
La diferencia aparece cuando la llamada se resuelve sin esperas y con comprensión real del pedido. En casos urgentes, como bloquear una tarjeta, autorizar una prestación médica o reclamar por un servicio básico, el usuario busca una respuesta inmediata.
En el marco del CX Day Argentina, realizado en Buenos Aires, Capart lo explicó así en una conferencia de prensa en la que participó iProfesional: "Primero hay que cuestionar la premisa. Muchas veces la preferencia por el chat fue una reacción a experiencias telefónicas frustrantes, con IVR eternos y tiempos de espera. Cuando aparece un voicebot moderno que atiende rápido, entiende lenguaje natural y resuelve, esa preferencia cambia".
Ese cambio de conducta ya se observa en distintos mercados de la región. Usuarios que antes evitaban llamar a un centro de atención aceptan hablar con un bot si la respuesta llega rápido y la gestión termina en el primer contacto.
Un caso citado por Inceptia corresponde a una distribuidora de gas en Chile. La empresa habilitó canales web y WhatsApp para la venta de cilindros a domicilio, pero el teléfono mantuvo un alto volumen de actividad. Para ordenar la demanda, incorporó un bot de voz. Según la compañía, muchos clientes prefirieron hablar con el sistema antes que esperar diez o quince minutos a un representante humano.
Modelos de lenguaje, modismos y despliegues más rápidos
Inceptia trabaja en la modernización de centros de contacto en América latina. Sus asistentes de voz se utilizan en bancos, fintech, telecomunicaciones, retail y cobranzas, sectores donde el volumen de consultas y la exigencia de respuesta son altos.
La diferencia respecto de los sistemas anteriores es significativa. Antes, los equipos técnicos debían diseñar flujos rígidos, entrenar intenciones y corregir errores de manera permanente. Los modelos de lenguaje reducen ese tiempo y permiten conversaciones menos frágiles.
Capart lo planteó así: "La diferencia es enorme. Antes había que entrenar intents, corregir errores y repetir procesos constantemente. Hoy los LLM reducen drásticamente los tiempos de implementación y aportan robustez conversacional. El bot ya no se rompe cuando el usuario sale del guion y además aparece algo nuevo: naturalidad. Puede modular tono, hacer pausas y detectar frustración".
Uno de los desafíos está en las diferencias culturales y semánticas entre países. No alcanza con comprender palabras: el sistema debe interpretar modismos, acentos, expresiones locales y variaciones de sentido. Sobre ese rendimiento, Capart afirmó: "Hoy estamos cerca del 95% de comprensión en condiciones normales. El problema ya no es el ruido de fondo sino las diferencias culturales y semánticas entre países".
La velocidad de aprendizaje también marca una diferencia. Ante el lanzamiento de un producto, un asistente puede procesar documentos técnicos, bases de datos y sitios web en poco tiempo. Con esa información, responde consultas frecuentes y formula alternativas ante objeciones comerciales. Para un equipo humano, ese proceso suele demandar jornadas de capacitación.
Negociación autónoma y nuevas métricas de calidad
La automatización ya no se limita a responder preguntas simples. En cobranzas y servicios financieros, los voicebots pueden ofrecer planes de pago, validar opciones disponibles y cerrar acuerdos dentro de reglas definidas por la empresa. Para Capart, ese avance concentra hoy el mayor impacto comercial: "Las dos avanzan, pero la negociación autónoma es la que más impacto tiene hoy en el negocio".
Ese nivel de autonomía exige controles estrictos. La conversación puede apoyarse en inteligencia artificial, pero las condiciones de una oferta, los topes y las reglas de validación deben quedar bajo sistemas determinísticos. Capart advirtió: "El desafío es controlar las alucinaciones". De ese modo, la empresa busca evitar respuestas fuera de política y preservar operaciones auditables.
La medición de la calidad también cambia. Durante años, muchos centros de atención tomaron la duración promedio de la llamada como indicador principal. Ese criterio podía reducir costos, pero no necesariamente resolvía el problema del cliente.
Capart cuestionó esa lógica: "El problema histórico fue medir mal. Si el KPI es bajar minutos por llamada, se degrada la experiencia. Pero cuando se mide resolución efectiva, llamadas perdidas, recontactos o churn, la ecuación cambia". La prioridad pasa a ser la resolución efectiva, la reducción de contactos repetidos y la baja de clientes perdidos.
De todos modos, la tecnología no reemplaza toda interacción humana. Hay conversaciones donde el vínculo personal resulta central. Capart identificó esos límites: "Cuando la conversación es el producto y no el medio. Ventas consultivas B2B, contención psicológica, fraude complejo o asesoramiento legal todavía requieren intervención humana". También persisten casos donde conviene derivar a canales escritos, por ejemplo, la captura de datos alfanuméricos extensos.
Ética, clonación de voz y resguardo de identidad
El avance de la voz sintética abre debates éticos y legales. La posibilidad de recrear timbres, acentos e inflexiones de una persona plantea riesgos de suplantación, fraude y uso indebido de datos biométricos. También tensiona el vínculo con usuarios que podrían creer que conversan con una persona real.
En ese terreno, Capart advirtió que la clonación de voces exige límites firmes: "Hay todo un borde ético en esto. Los que hacen las cosas en serio no te dejan clonar de cualquier manera".
La autorización expresa aparece como condición básica. El directivo de Inceptia agregó: "Tenés que tener un contrato, tenés que tener firma de la persona que te autoriza a que uses su voz". Ese requisito permite ordenar el uso comercial de voces sintéticas y proteger derechos individuales.
La demanda de acentos regionales explica parte del interés por esta tecnología. Una empresa que atiende en distintos países necesita voces cercanas a cada mercado. Capart lo ilustró con un ejemplo: "No es lo mismo de Monterrey que de ciudad de México, son dos tonos distintos, o de Córdoba o Buenos Aires. Para eso el clonado es fantástico". La diferencia estará en el marco de autorización y en la trazabilidad del uso de esas voces.
Infraestructura, seguridad y futuro del contacto con el cliente
La fluidez de una conversación automatizada depende de una arquitectura compleja. La demanda global de capacidad de cómputo y procesadores especializados presiona a los proveedores de inteligencia artificial. Para evitar demoras en la respuesta, las compañías distribuyen cargas entre distintos modelos y proveedores. Si una plataforma se satura, el tráfico puede pasar a otra alternativa disponible.
La seguridad informática es otro punto decisivo. Bancos, fintech y empresas de servicios manejan datos sensibles y necesitan garantías antes de integrar herramientas externas. Certificaciones como ISO 27001, auditorías periódicas y controles de acceso ayudan a reducir riesgos y sostener la confidencialidad de la información.
Inceptia acumula siete años de trabajo en herramientas de inteligencia artificial y opera con una cartera de 150 clientes en 12 países. Ese recorrido refleja una adopción regional que crece a medida que las empresas buscan resolver más consultas sin ampliar en la misma proporción sus estructuras de atención.
La próxima etapa apunta a la autogestión. En lugar de contratar herramientas cerradas, algunas compañías quieren que sus propios equipos técnicos creen, ajusten y administren asistentes de voz. Los proveedores pasan a ocupar un rol de acompañamiento especializado, mientras las áreas internas ganan control sobre flujos, bases de conocimiento y reglas operativas.
El regreso de la voz no implica nostalgia por el viejo call center. La diferencia está en la capacidad de resolver mejor, con menor fricción y sin obligar al usuario a adaptarse a menús inflexibles. La inteligencia artificial generativa convierte al teléfono en un canal con nuevas posibilidades para bancos, operadoras, servicios públicos y compañías de consumo masivo.
El desafío para las empresas será combinar automatización, controles, seguridad y criterio humano. Si esa ecuación funciona, la voz puede recuperar un lugar central en la atención al cliente latinoamericana. No como una vuelta al pasado, sino como una herramienta renovada por modelos capaces de escuchar, interpretar y resolver.