Cómo evaluar el desempeño cuando parte del trabajo lo hace la inteligencia artificial

En muchas organizaciones la inteligencia artificial (IA) ya dejó de ser una promesa y pasó a formar parte del trabajo cotidiano. Se usa para escribir, diseñar, analizar datos, programar o investigar. Pero hay una pregunta que no aparece con la frecuencia necesaria en las conversaciones de liderazgo: ¿cómo evaluamos el desempeño de una persona cuando parte de su trabajo lo hace la IA?

Durante décadas construimos sistemas de evaluación de desempeño sobre un supuesto que nunca cuestionamos: que el output de una persona refleja su contribución individual. Si producís, te llevás el crédito. Si no producís, hay un problema.

Ese supuesto empieza a resquebrajarse.

El problema de la atribución

Cuando una persona usa IA para hacer en dos horas lo que antes le llevaba dos días, ¿qué estamos evaluando exactamente? ¿El resultado final? ¿El esfuerzo? ¿La habilidad de usar la herramienta? ¿El criterio con el que revisó lo que la IA produjo?

Estas preguntas no son teóricas, sino que van a afectar decisiones concretas: cómo compensamos, a quién promovemos y qué tipo de trabajo reconocemos dentro de las organizaciones.

Hay investigaciones recientes que empiezan a mostrar un fenómeno interesante. Un estudio presentado en 2025 en la conferencia CHI (Conference on Human Factors in Computing Systems) encontró algo contraintuitivo: las personas que trabajan con IA logran obtener resultados objetivamente mejores que quienes no la utilizan, pero tienden a subestimar su propio desempeño. En otras palabras, producen más valor, pero se sienten menos responsables del resultado.

La explicación parece estar en cómo interpretamos el esfuerzo. Durante años internalizamos la idea de que el valor del trabajo está relacionado a cuánto costó hacerlo. Si algo salió bien pero "fue fácil porque usé IA", la percepción es que el mérito no es completamente propio. Ese mismo sesgo puede operar del lado de quienes evalúan. Cuando sabemos que un trabajo fue asistido por IA, muchas veces tendemos a darle menos mérito, incluso cuando el resultado es igual o mejor.

A medida que el uso de IA se vuelve más generalizado, este problema de atribución puede convertirse en un serio desafío dentro de las organizaciones.

Lo que los sistemas de evaluación actuales no están viendo

La mayoría de los sistemas de performance management fueron diseñados para medir output individual en contextos relativamente estables: trabajo producido, cumplimiento de objetivos, calidad del entregable. Pero hay dimensiones que esos sistemas siempre midieron mal y que ahora se vuelven críticas.

La primera es el criterio para usar las herramientas de IA. ¿Quién toma las decisiones sobre cómo y cuándo usarlas? Un diseñador senior que sabe exactamente qué prompt construir, qué modelo elegir o en qué momento del proceso incorporar la herramienta está ejerciendo un criterio que no aparece en ningún entregable. Ese criterio es invisible para los sistemas de evaluación tradicionales.

La segunda es la capacidad de juicio. ¿Quién detecta cuando el output de la IA está mal, es incompleto o tiene sesgos? En disciplinas creativas, la IA puede generar una imagen visualmente impecable que reproduce un estereotipo cultural. En finanzas, puede producir una proyección que ignore variables macroeconómicas locales. En HR, puede analizar datos de desempeño y amplificar sesgos históricos de la organización sin que nadie lo note. Detectarlo requiere un expertise que la IA no tiene y es preciso que los líderes puedan observarlo y tomar una decisión.

La tercera es la responsabilidad sobre el resultado final. Aunque parte del proceso esté asistido por una herramienta, alguien tiene que hacerse cargo de la decisión y del impacto del trabajo.

Dónde empieza a estar el valor humano

En equipos que trabajan intensivamente con IA, el valor humano empieza a desplazarse. Ya no está solamente en producir, porque la producción se puede acelerar o amplificar conherramientas de IA. Empieza a concentrarse en tres capacidades:

La definición del problema: entender qué pregunta hacer y cómo encuadrarlo.
El juicio: saber cuándo el output es bueno y cuándo no.
La responsabilidad: hacerse cargo del resultado final.

Si esto es así, los sistemas de evaluación deberían empezar a medir estas dimensiones, y los líderes deberían empezar a desarrollar la capacidad de observarlas, algo que no siempre aparece en un dashboard de productividad.

Un desafío para los sistemas de gestión

Javier Cures Sastre, Executive Director de Talent en R/GA

En HR solemos decir que lo que no se mide no se gestiona. Pero hay un problema más complejo, que es que lo que se mide mal, se gestiona peor.

Si seguimos midiendo la contribución individual con las mismas métricas de siempre, en equipos donde la IA ya es parte del trabajo, no solo vamos a estar midiendo mal, sino que vamos a estar midiendo otra cosa. Y muchas decisiones sobre talento, como las promociones, el reconocimiento y el desarrollo, pueden terminar basándose en esa confusión.

Actualizar cómo entendemos el desempeño probablemente sea uno de los próximos grandes desafíos de los equipos de HR en la era de la IA.

*Javier Cures Sastre es Executive Director de Talent en R/GA

Temas relacionados