Construcción, gobierno y pruebas de una Oficina GPT para selección

El equipo buscaba aumentar productividad y reducir tareas repetitivas en el área de selección. La idea inicial era sencilla: automatizar procesos como el análisis de CVs, la documentación tras entrevistas, el procesamiento de peticiones y el matching entre candidatos y vacantes.

Los primeros prototipos fueron muy eficaces, logrando automatizar el análisis de CVs y recuperar candidatos olvidados, mejorando la eficiencia en un 65%.

Contexto

👉🏻 Proliferación de prompts usados por cada recruiter sin control de versiones. 

👉🏻 Falta de fiabilidad en plataformas como ChatGPT, Claude o Google ADK con un 60% de       fallos en las salidas.

👉🏻 Errores difíciles de reproducir, pérdida de scripts y regresión a procesos manuales.

👉🏻 Uso real de los sistemas: solo el 30% donde realmente serían útiles.

El Reto

Conforme crecieron los usos, aparecieron los problemas:

Era evidente que el reto no era “crear buenos prompts”, sino industrializar su uso.

a) Gobierno y control
  • Inventario completo de procesos y modelos, logrando una centralización del 100% de los prompts y scripts utilizados.

  • Repositorios centralizados con control de versiones en GitHub.

  • Documentación y trazabilidad de cambios lo que permitió una reducción del 70% en los errores causados por falta de seguimiento de versiones.

La solución con novanot-IA

b) Pruebas automatizadas y control de calidad
  • Uso avanzado de Promptfoo extendido con scripts propios.
  • Validación de JSONs, detección de inferencias incorrectas y medición de consistencia.

  • Evaluación estadística de estabilidad mejorando la precisión de los modelos en un 40%

  • Exploración de modelos “juez” que validan salidas de otros modelos, mejorando la fiabilidad de las salidas en un 60%.

c) Seguridad y fiabilidad
  • Nuevos tests de ciberseguridad para detectar prompt injections en CVs y solicitudes, con una reducción del 80% en riesgos de manipulación.

  • Identificación de riesgos reales de manipulación, exfiltración o alteración del pipeline.

  • Bases para un despliegue controlado y medible. con un aumento del 50% en la estabilidad del sistema

A partir del diagnóstico, se diseñó una arquitectura robusta basada en:

Resultado

Eliminación del caos de versiones y variabilidad entre usuarios, mejorando la eficiencia en la gestión de scripts en un 90%.

Marco de madurez que permite despliegues estables, con versiones verificadas, reduciendo el 30% de los fallos previos en el proceso de despliegue.

Mayor fiabilidad gracias a pruebas repetitivas, métricas y logs de uso, con una reducción del 60% de incidencias de fallos de modelo.

Preparación para un escalado seguro, gobernado y medible del uso de LLMs, con un incremento proyectado del 40% en el uso de modelos de IA.

Tras la implantación del modelo:

¿Quieres implementar IA generativa de forma gobernada, segura y estable en tu organización?

Te acompañamos en todo el ciclo.