Auditoría de un agente de soporte para Microsoft Azure

Cómo validar con métricas objetivas si un agente está preparado para producción

Nuestro cliente necesitaba una auditoría objetiva de su agente IA de soporte antes de pasarlo a producción. Diseñamos y ejecutamos una evaluación estadística por dominios críticos (tenant y OneNote) para medir su preparación real.

validaciones

+1.600

automáticas por dominio

100

ejecuciones

por escenario evaluado

dominios

tenant Microsoft 365 y OneNote

Las comprobaciones manuales puntuales no eran suficientes. En sistemas basados en IA generativa, muchas respuestas pueden parecer correctas aunque omitan pasos críticos, aporten información incompleta o no sigan buenas prácticas.

El cliente necesitaba una auditoría objetiva, reproducible y basada en métricas para saber si su agente estaba realmente preparado para entornos de producción.

Contexto

Evaluación subjetiva insuficiente: Las pruebas manuales no permitían detectar omisiones, inconsistencias o riesgos reales.

Riesgo de despliegue prematuro: El agente podía sonar convincente y, aun así, fallar en situaciones críticas.

Necesidad de trazabilidad: Era necesario identificar qué conocimientos estaban cubiertos, cuáles fallaban y cómo evolucionaba el sistema tras cada mejora.

Comparación entre dominios: Un mismo agente podía comportarse de forma diferente según el tipo de incidencia evaluada.

Reto

1. Criterios expertos

Definimos, junto con expertos de soporte Microsoft, qué debía contener una respuesta técnicamente correcta.

Nuestra metodología

2. Validaciones automáticas

Construimos una batería de checks organizados por criticidad, buenas prácticas, calidad y posibles acciones peligrosas.

3. Ejecución estadística

Ejecutamos el agente 100 veces por escenario para medir consistencia, no respuestas aisladas.

4. Observabilidad

Visualizamos puntuaciones, umbrales, errores recurrentes, respuestas útiles y riesgos potenciales mediante dashboards.

Fortalezas

-Contactar con soporte Microsoft (100%)

-Estructura clara

-Tono profesional

Fallos críticos

El problema no era de redacción, sino de cobertura de conocimiento.

Fortalezas

-Soluciones con Powershell

-Orden lógico

-Identificación de versiones

-Alta calidad formal

-Otro administrador global (14%)

-Nunca recomienda cuenta break-glass

-SSPR casi ausente

-Omisión de buenas prácticas

Respuestas potencialmente peligrosas detectadas: 1%

Se detectó 1 de cada 100 ejecuciones que eliminaban por completo claves de registro de OneNote, lo que podría causar pérdida de configuración o datos.