Dans une récente conversation avec Johanna Cabildo, co-fondatrice et PDG de D-GG, nous avons déterré pourquoi l’avenir de l’IA pourrait s’arrêter moins sur les algorithmes et plus sur qui est derrière les données.
Bien qu’une grande partie de l’industrie se concentre sur la coordination des modèles ou les réseaux d’agents basés sur la blockchain, D-GG parie sur quelque chose de plus fondamental: construire des données de formation marquées par la communauté pour rendre l’IA plus nette, plus rapide et mieux.
Dans notre chat, Cabildo a partagé comment les données meilleures conduisent à de meilleurs modèles, pourquoi la décentralisation est importante pour les capitaux propres et comment D-GG aide les entreprises à acquérir un véritable avantage dans la course d’IA.
Votre équipe souligne que l’IA plus intelligente commence par de meilleures données, pas des modèles plus grands. Comment D-GG s’est-il concentré sur les données de formation de haute qualité comme mission principale?
Vous savez, tout le monde poursuit le prochain modèle de percée, mais il leur manque la forêt pour les arbres. Nous avons réalisé très tôt que l’algorithme le plus sophistiqué au monde est aussi bon que ce que vous le nourrissez. Pensez-y, préférez-vous avoir un brillant chef travaillant avec des ingrédients gâtés ou un bon chef avec les meilleurs composants les plus frais?
Le véritable tournant est survenu pendant mon travail sur le projet saoudien AI DROPGROUP AI. Nous avons regardé les modèles de Droppgroup surpasser les géants comme OpenAI, non pas parce que nous avions plus de calcul, mais parce que nos pipelines de données étaient tout simplement meilleurs: plus précis, plus structurés et construits à un objectif. Il est devenu douloureusement clair que même les meilleurs joueurs étaient sous pression pour couper les coins, gratter Internet, chasser l’échelle et sacrifier la qualité pour la vitesse. Leurs modèles étaient rapides, mais leurs résultats étaient souvent biaisés, incohérents et coûteux à gérer.
C’est à ce moment-là que cela m’a frappé, nous n’avons pas besoin de GPU plus gros, nous avons besoin de meilleures données. Meilleure collection. Meilleure structure. Meilleure livraison au développeur de l’IA. C’est l’origine de D-GG. Pas seulement une autre entreprise d’IA, mais l’infrastructure de données qui rend toute l’IA plus intelligente, plus rapide et plus fiable.
De nombreuses entreprises d’IA promettent une précision, mais peu de performances spécifiques aux rôles. Pouvez-vous expliquer ce que la formation «spécifique au rôle» signifie dans la pratique et pourquoi cela compte dans l’IA d’entreprise?
La formation spécifique au rôle est comme la différence entre un médecin généraliste et un chirurgien cardiaque. Les deux sont des médecins, mais vous voulez le spécialiste lorsque votre vie en dépend.
Prenez notre travail avec des véhicules autonomes – la reconnaissance générique des objets pourrait identifier un panneau d’arrêt 85% du temps. Mais nos tuteurs de données ne l’étiquetent pas seulement «Arrêtez le signe». Ils annotent les variations régionales, les conditions météorologiques, les schémas de vandalisme, les angles de visibilité. Lorsque ces données forment un modèle d’IA, il ne voit pas seulement des panneaux d’arrêt, il les comprend en contexte. C’est la différence entre la précision de 85% et la précision de 99%, ce qui, dans la conduite autonome, sauve littéralement des vies.
Pour les entreprises, cela signifie que leur IA ne fonctionne pas seulement dans des conditions idéales, elle se produit dans le monde réel complexe et complexe où nous vivons réellement.
Dans un espace obsédé par les agents autonomes et la coordination, D-GG a creusé un créneau unique. Pourquoi vous êtes-vous délibérément éloigné du battage médiatique de la couche d’agent?
Parce que les agents ne sont aussi intelligents que leur fondation. C’est comme si tout le monde construisait des gratte-ciel sur des sables mouvants et se demandant pourquoi ils continuent de tomber.
La couche d’agent est excitante – je comprends. Mais quelle est la valeur d’un agent autonome qui prend des décisions basées sur des données biaisées, incomplètes ou défectueuses? Toute la promesse de l’économie agentique est l’autonomie non attachée et l’efficacité intelligente. Vous ne pouvez pas y parvenir si les données sous-jacentes sont polluées par de mauvaises méthodes ou une éthique compromise. Nous avons d’abord décidé de résoudre le problème fondamental. Une fois que vous avez une IA qui comprend vraiment le monde avec précision, vous pouvez le libérer pour agir de manière autonome.
Nous ne sommes pas anti-agents. Nous sommes pro-intelligence. Et la véritable intelligence commence par comprendre correctement la réalité, qui commence par des données qui reflètent avec précision la réalité.
Les ensembles de données de D-GG sont conçus pour rendre l’IA plus intelligent et plus efficace. Pouvez-vous partager des exemples de clients utilisant ces données pour améliorer les résultats spécifiques à la tâche?
Je ne peux pas nommer des clients spécifiques en raison des NDAS, mais je peux partager les modèles d’impact que nous voyons. Une plate-forme humaine numérique a vu leur précision de synchronisation labiale passer de 72% à 99,2% après une formation sur notre ensemble de données de mouvement facial capturé en continu. C’est la différence entre un gadget Uncanny Valley et un assistant virtuel crédible basé sur un vrai humain.
Nous avons eu une entreprise émotionnelle AI à réduire leurs erreurs d’interprétation interculturelles de 73% en utilisant nos données d’expression émotionnelle à diversité globalement. Dans les applications de service client, les émotions erronées ne créent pas seulement des interactions maladroites – il détruit inutilement les conflits et peut augmenter les conflits.
Un studio de jeu travaillant sur les PNJ de nouvelle génération a augmenté ses scores de réalisme comportemental de 95% après la mise en œuvre de notre pipeline d’apprentissage continu pour les micro-expressions humaines et les réponses contextuelles. Sans ce genre de données en direct et nuancées, leurs personnages se sentaient robotiques et les joueurs ne pouvaient pas maintenir l’immersion.
Le modèle est cohérent: les entreprises viennent nous voir lorsqu’elles sont coincées dans la phase gadget comme disons avec des humains numériques qui fonctionnent dans des démos mais échouent dans des scénarios du monde réel. Nos ensembles de données émotionnels et comportementaux vérifiés par l’homme et en continu les aident à percer vers un déploiement commercial réel – la différence entre une nouveauté et un outil dont les gens ont réellement besoin.
Une grande partie de l’attention du public est toujours axée sur l’architecture des modèles. Selon vous, qu’est-ce qui est négligé en ce qui concerne la substance réelle de l’IA: les données?
Toute la conversation sur l’éthique de l’IA, le biais et la sécurité est vraiment une conversation sur la qualité des données, mais personne ne veut l’admettre.
Vous pouvez construire l’architecture de modèle la plus élégante et sophistiquée au monde, mais si vous la formez sur des données biaisées, vous obtenez une IA biaisée. Si vous le formez sur des données incomplètes, vous obtenez une IA fragile. Si vous le formez sur des données synthétiques ou recyclées, vous obtenez une IA de plus en plus déconnectée de la réalité.
Ce qui est négligé, c’est que les données ne sont pas seulement du carburant pour l’IA – c’est l’ADN. Il détermine non seulement ce que l’IA peut faire, mais qui il sert, comment il se comporte et s’il rend le monde meilleur ou amplifie simplement les problèmes existants à grande échelle.
En 2025, de nombreuses organisations tentent de régler l’IA pour des tâches très spécifiques. Comment votre équipe constitue-t-elle des ensembles de données qui ne sont pas seulement propres, mais riches en contexte et adaptables aux rôles nuancés?
Nous avons construit ce que nous appelons une approche «humaine en boucle», mais pas la façon dont la plupart des gens y pensent. Nos tuteurs de données ne sont pas seulement étiquetés des données – ce sont des traducteurs culturels, des fournisseurs de contexte, des identificateurs de cas de bord.
Lorsque nous construisons un ensemble de données pour la modération du contenu, par exemple, nous ne faisons pas que signaler le «contenu inapproprié». Nos contributeurs identifient les nuances culturelles, la pertinence dépendante du contexte, l’évolution de l’argot, les sensibilités régionales. L’IA n’apprend pas seulement les règles – elle apprend l’art subtil du jugement humain.
Notre système de score d’assurance qualité (QA) garantit que les contributeurs avec une expertise profonde du domaine dans des domaines spécifiques sont ceux qui façonnent des ensembles de données pour ces domaines. Un professionnel de la santé étiquette les données médicales, un expert juridique gère le contenu juridique, les conférenciers natifs relèvent des défis multilingues.
Quelle infrastructure ou outillage est nécessaire pour prendre en charge l’étiquetage des données à haute intégrité que D-GG objecte, et comment maintenez-vous cette qualité à grande échelle?
Nous avons construit toute notre infrastructure sur la blockchain pour une raison: les sentiers d’audit immuables. Chaque annotation, chaque score de qualité, chaque action de contributeur est enregistrée en permanence. Vous pouvez retracer n’importe quel morceau de données étiquetées à qui les a créées, quand et avec quelles mesures de qualité.
Notre système de découverte de vérité dynamique utilise l’IA pour signaler les anomalies en temps réel, mais les humains font les appels finaux. Nous avons gamifié le processus – les contributeurs gagnent des scores de réputation, débloquent de meilleures missions, rejoignent les escouades d’élite. La qualité n’est pas seulement nécessaire, elle est récompensée et célébrée.
L’informatique clé est que l’échelle sans qualité n’est que la médiocrité à l’échelle. Nous préférons avoir 10 000 contributeurs hautement qualifiés et motivés que 100 000 personnes en cliquant simplement sur des tâches comme les robots.
Vous avez déjà parlé de rendre le développement de l’IA plus équitable. Comment votre approche de données aide-t-elle à éloigner le pouvoir des acteurs centralisés et vers un écosystème plus diversifié?
Les données sont le pouvoir, et pendant trop longtemps, ce pouvoir a été concentré entre les mains de quelques géants de la technologie qui peuvent se permettre de gratter l’ensemble de l’Internet. Nous démocratisons la création de données.
Nos tuteurs de données conservent des enjeux de propriété dans les ensembles de données qu’ils aident à créer. Lorsqu’une entreprise est de licence un ensemble de données, les contributeurs obtiennent des redevances en cours dans l’USDT. Pour la première fois, les personnes dont l’intelligence et les efforts forment des systèmes d’IA bénéficient en fait du succès de cette IA.
Plus important encore, nous créons des données qui représentent diverses perspectives, cultures et contextes – et pas seulement ce qui est facilement grattement réduit à partir de sites Web en anglais. Cela signifie que l’IA formé sur nos données fonctionne réellement pour tout le monde, pas seulement la vision du monde de la Silicon Valley.
Quelle est votre opinion sur la poussée réglementaire actuelle autour de la transparence et de la sécurité de l’IA? Comment de meilleures données de formation peuvent-elles aider les entreprises à rester conformes et éthiques?
Les régulateurs posent les bonnes questions, mais la plupart des entreprises d’IA ne peuvent pas y répondre car elles ne savent pas ce qui est dans leurs données de formation. Ils l’ont gratté de sources inconnues, l’ont traitée à travers des boîtes noires et espéraient le meilleur.
Notre approche d’Onchain signifie que chaque élément de formation a une provenance. Les entreprises peuvent prouver que leur IA n’a pas été formée sur du matériel protégé par le droit d’auteur, des ensembles de données biaisés ou des sources douteuses. Ils peuvent démontrer la conformité non pas des promesses, mais avec une preuve immuable.
De meilleures données de formation ne sont pas seulement de meilleures performances – il s’agit de construire une IA en laquelle vous pouvez réellement faire confiance et réglementer. Je vois un monde où les régulateurs exigent que tous les modèles d’IA soient de GPT à Grok.
Enfin, avec tant de bruit dans l’espace d’IA, quelle est une idée fausse sur les «données de formation» que vous aimeriez éliminer une fois pour toutes?
Que plus de données équivaut toujours à une meilleure IA. Ce n’est pas le cas.
La qualité bat la quantité à chaque fois. Un millier d’exemples parfaitement étiquetés et contextuellement riches surclasseront un million mal étiqueté. Nous avons vu des entreprises dépenser des millions pour des ensembles de données massifs qui aggravent leur IA car les données étaient bruyantes, biaisées ou tout simplement mal. Comme ils disent en informatique, les ordures, les ordures.
Mais voici le véritable facteur de différenciation que tout le monde manque: les variances de données. Pensez-y logiquement pendant une seconde – si nous formons tous des modèles d’IA sur les mêmes ensembles de données homogénéisés, qu’obtenez-vous? Les mêmes sorties prévisibles. Cela ne fait pas avancer la course humaine ni faire avancer la course de l’IA.
Les variances des données – les cas de bord, les nuances culturelles, le désordre réel – c’est ce qui sépare les meilleurs modèles de classe de produits médiocres. C’est la différence entre l’IA qui fonctionne dans des environnements contrôlés et de l’IA qui prospère dans le chaos de l’expérience humaine réelle.
L’avenir appartient à l’IA formé sur des ensembles de données plus petits, plus intelligents et vérifiés par l’homme avec des variances riches – pas plus grosses, plus stupides et grattées qui aplatissent la complexité humaine en une similitude algorithmique. Ce n’est pas seulement notre modèle d’entreprise, c’est notre mission, rendre l’IA vraiment intelligente, pas seulement impressionnante.
Chez D-GG, nous construisons un écosystème d’organisations partenaires qui partagent cette vision – les parties prenantes qui vivent par ‘AI pour le bien de l’humanité. Parce que les données vérifiées par l’homme, riches en contexte et spécialement conçues avec des variances du monde réel ne sont pas seulement meilleures – c’est le seul chemin vers l’IA auxquels nous pouvons faire confiance avec les décisions qui comptent.
En savoir plus Entretiens ici.