En quête d’une observabilité complète pour une plateforme stable
Déployée sur un cloud GCP en Europe et aux Etats-Unis, la plateforme de Dust répond ainsi aux diverses réglementations actuelles. Elle fait appel à des technologies assez standard de Google, telles que des clusters Kubernetes, Manage SQL, Manage Redis, Google Cloud Storage. Pour mettre les bonnes données à disposition des agents basés sur l’IA, Dust s’appuie sur la recherche sémantique, technologie qui comprend le contexte et l’intention derrière une requête utilisateur.
Pour assurer une infrastructure stable à ses milliers d’équipes à travers le monde qui l’utilisent, soit 10 000 utilisateurs actifs par mois, Dust mise dès sa genèse sur une observabilité complète de sa plateforme.
« Au sein de notre ancienne entreprise Stripe, nous avons vécu les bénéfices du passage de Splunk à Datadog au travers d'un énorme effort d'observabilité dans le but d'avoir une plateforme la plus stable possible. Lors de la création de Dust, Datadog nous est alors apparue comme un choix naturel. Nous avons notamment été impressionnés par la performance de ses capacités avancées d'accès, de gestion et d'analyse des logs. »
L’observabilité avancée de Datadog nécessaire aux modèles d’IA générative
Les fonctionnalités de Datadog se démarquent de celles moins intuitives proposées par les fournisseurs de cloud. Au-delà du monitoring et de l’optimisation, elles permettent d’ingérer et de faire des recherches rapides sur de gros volumes de logs, capacités sur lesquelles s’appuie fortement Dust dans son processus de développement.
Dust utilise l’outil Datadog Infrastructure Monitoring qui fournit des métriques, visualisations et alertes permettant à son équipe R&D de maintenir, d’optimiser et de sécuriser son environnement cloud. Une interface conviviale et des informations approfondies sur la sécurité assurent une bonne communication au sein de l’équipe et une résolution de problèmes plus efficace.
« En cas de problème, la fonction On-Call coordonne instantanément l'équipe avec un contexte pertinent pour une résolution plus rapide, un meilleur contrôle des incidents et une meilleure collaboration. Les informations et les données critiques sont facilement accessibles au sein d'une plateforme unique, supprimant ainsi le besoin de changer d'environnement. »
L’utilisation des modèles de langage d’IA crée des interactions serveurs assez longues car les modèles génèrent des tokens, unités de texte utilisées pour encoder l’information en vue d’un traitement efficace par le modèle d’IA générative. Ce processus crée un besoin d’observabilité avancée. En effet, les appels serveurs et retours sont ici souvent streamés avec une connexion qui reste ouverte longtemps. Cela crée de nombreux enjeux de consommation de ressources où Datadog intervient pour permettre un monitoring constant des instances. De plus, la nature des interactions avec les modèles de langages fait que le niveau d’erreur est généralement plus haut que dans un SaaS classique.
Datadog s’impose de la détection d’anomalies au bon pilotage de l’infrastructure
L’autre spécificité de Dust est de passer beaucoup de temps à aller chercher le contexte propre à l’entreprise et d’indexer toute la donnée disponible sur des plateformes telles que Slack, Notion ou Github. Cela engendre un important traitement quasi-temps réel d’informations en provenance de ses clients. Le monitoring de Datadog intervient également sur toute cette ingestion très complexe et sujette aux erreurs lorsque par exemple des identifiants ont été révoqués ou que l’API d’un service ne répond pas correctement.
« Le niveau d'erreur zéro n'existe pas pour nous, si bien qu'un monitoring précis est essentiel pour comprendre si le niveau d'erreur est nominal ou si la situation est problématique. »
La plupart des services de Dust sont générés par Datadog, dont les alertes préviennent de la nécessité de scale-up sur certaines instances, ce qui garantit un bon pilotage de l’infrastructure. Si Dust n’héberge pas les modèles d’IA qu’elle utilise, elle en observe avec Datadog sa consommation dans une démarche de détection d’anomalie au travers du nombre de token, unité de base sur laquelle est comptabilisée le coût de l’IA.
En situation d’investigation d’un problème sur une requête, Dust utilise l’outil APM de Datadog qui offre un traçage d’exécution complet et une corrélation avec les données des événements ou des logs de l’infrastructure.
En plus de son intégration parfaite avec GCP, Datadog a parfaitement soutenu la politique cloud inter région de Dust, en offrant une grande simplicité d’attribution par région de tous les tableaux de bord et moniteurs. Cela aboutit aujourd’hui à un monitoring global très efficace et entièrement transparent. L’écosystème de librairies et d’outils qui permet de déployer ou d’interfacer Datadog est extrêmement mature, ce qui s’avère un atout majeur pour Dust dans la rapidité et l’enrichissement du développement de sa plateforme. Les prochains produits Datadog prochainement à l’étude chez Dust concernent la sécurité.
« Datadog est le partenaire de choix unique pour simplifier la vision et le contrôle d'une infrastructure globale sans devoir passer d'un outil à l'autre. »