
Le monde de l’intelligence artificielle (IA) a été pris d’assaut il y a quelques jours avec la sortie de Deepseek-R1, un modèle de raisonnement open source qui correspond aux performances des modèles de fondation top tout en prétendant avoir été construit en utilisant un budget de formation remarquablement faible et Nouvelles techniques post-formation. La libération de Deepseek-R1 a non seulement contesté la sagesse conventionnelle entourant les lois à l’échelle des modèles de fondation – qui favorisent traditionnellement les budgets de formation massifs – mais l’ont fait dans le domaine de recherche le plus actif dans le domaine: le raisonnement.
La nature ouverte (par opposition à la source ouverte) de la version a rendu le modèle facilement accessible à la communauté de l’IA, ce qui a conduit à une vague de clones en quelques heures. De plus, Deepseek-R1 a laissé sa marque sur la course en cours de l’IA entre la Chine et les États-Unis, renforçant ce qui a été de plus en plus évident: les modèles chinois sont de qualité exceptionnellement élevée et entièrement capables de conduire l’innovation avec des idées originales.
Contrairement à la plupart des avancées de l’IA générative, qui semblent élargir l’écart entre Web2 et Web3 dans le domaine des modèles de fondation, la sortie de Deepseek-R1 propose de réelles implications et présente des opportunités intrigantes pour Web3-AI. Pour les évaluer, nous devons d’abord examiner de plus près les principales innovations et différenciateurs de Deepseek-R1.
À l’intérieur deepseek-r1
Deepseek-R1 est le résultat de l’introduction d’innovations incrémentielles dans un cadre de pré-formation bien établi pour les modèles de fondation. En termes généraux, Deepseek-R1 suit la même méthodologie de formation que la plupart des modèles de fondation de haut niveau. Cette approche se compose de trois étapes clés:
- Pré-formation: Le modèle est initialement prétraité pour prédire le mot suivant en utilisant des quantités massives de données non marquées.
- Réglage fin supervisé (SFT): Cette étape optimise le modèle dans deux domaines critiques: les instructions suivantes et la réponse aux questions.
- Alignement avec les préférences humaines: Une dernière phase de réglage fin est réalisée pour aligner les réponses du modèle sur les préférences humaines.
La plupart des principaux modèles de fondation – y compris ceux développés par OpenAI, Google et Anthropic – adhèrent à ce même processus général. À un niveau élevé, la procédure de formation de Deepseek-R1 ne semble pas significativement différente. Mais mais plutôt que de préteindre un modèle de base à partir de zéro, R1 a exploité le modèle de base de son prédécesseur, Deepseek-V3-base, qui possède un impressionnant 617 milliards de paramètres.
Essentiellement, Deepseek-R1 est le résultat de l’application de SFT à Deepseek-V3-base avec un ensemble de données de raisonnement à grande échelle. La véritable innovation réside dans la construction de ces ensembles de données de raisonnement, qui sont notoirement difficiles à construire.
Première étape: Deepseek-R1-Zero
L’un des aspects les plus importants de Deepseek-R1 est que le processus n’a pas produit un seul modèle mais deux. L’innovation la plus importante de Deepseek-R1 a peut-être été la création d’un modèle intermédiaire appelé R1-Zero, qui est spécialisé dans les tâches de raisonnement. Ce modèle a été formé presque entièrement en utilisant l’apprentissage du renforcement, avec une dépendance minimale à l’égard des données étiquetées.
L’apprentissage par renforcement est une technique dans laquelle un modèle est récompensé pour générer des réponses correctes, ce qui lui permet de généraliser les connaissances au fil du temps.
R1-Zero est assez impressionnant, car il a pu correspondre à GPT-O1 dans les tâches de raisonnement. Cependant, le modèle a lutté avec des tâches plus générales telles que les questions de question et la lisibilité. Cela dit, le but de R1-Zero n’était jamais de créer un modèle généraliste mais plutôt de démontrer qu’il est possible d’obtenir des capacités de raisonnement de pointe en utilisant seul l’apprentissage du renforcement – même si le modèle ne fonctionne pas dans d’autres domaines .
Deuxième étape: Deepseek-R1
Deepseek-R1 a été conçu pour être un modèle à usage général qui excelle le raisonnement, ce qui signifie qu’il devait surpasser R1-Zero. Pour y parvenir, Deepseek a recommencé avec son modèle V3, mais cette fois, il l’a affiné sur un petit ensemble de données de raisonnement.
Comme mentionné précédemment, les ensembles de données de raisonnement sont difficiles à produire. C’est là que R1-Zero a joué un rôle crucial. Le modèle intermédiaire a été utilisé pour générer un ensemble de données de raisonnement synthétique, qui a ensuite été utilisé pour affiner Deepseek V3. Ce processus a abouti à un autre modèle de raisonnement intermédiaire, qui a ensuite été mis en phase d’apprentissage en renforcement approfondie à l’aide d’un ensemble de données de 600 000 échantillons, également généré par R1-Zero. Le résultat final de ce processus a été Deepseek-R1.
Bien que j’aie omis plusieurs détails techniques du processus de prélèvement R1, voici les deux principaux plats à retenir:
- R1-Zero a démontré qu’il est possible de développer des capacités de raisonnement sophistiquées en utilisant l’apprentissage de renforcement de base. Bien que R1-Zero ne soit pas un modèle généraliste fort, il a réussi à générer les données de raisonnement nécessaires à R1.
- R1 a élargi le pipeline de pré-formation traditionnel utilisé par la plupart des modèles de fondation en incorporant R1-Zero dans le processus. De plus, il a exploité une quantité importante de données de raisonnement synthétique générées par R1-Zero.
En conséquence, Deepseek-R1 a émergé comme un modèle qui correspondait aux capacités de raisonnement de GPT-O1 tout en étant construite en utilisant un processus de pré-élaction plus simple et probablement beaucoup moins cher.
Tout le monde convient que R1 marque une étape importante dans l’histoire de l’IA générative, celle qui est susceptible de remodeler la façon dont les modèles de fondation sont développés. En ce qui concerne Web3, il sera intéressant d’explorer comment R1 influence le paysage évolutif de Web3-AI.
Deepseek-R1 et Web3-AI
Jusqu’à présent, Web3 a eu du mal à établir des cas d’utilisation convaincants qui ajoutent clairement de la valeur à la création et à l’utilisation des modèles de fondation. Dans une certaine mesure, le flux de travail traditionnel pour les modèles de fondation de prélèvement semble être l’antithèse des architectures Web3. Cependant, en dépit de ses premiers stades, la sortie de Deepseek-R1 a mis en évidence plusieurs opportunités qui pourraient naturellement s’aligner sur les architectures Web3-AI.
1) Remaucations de renforcement réseaux de réglage fin
R1-Zero a démontré qu’il est possible de développer des modèles de raisonnement utilisant un apprentissage en renforcement pur. D’un point de vue informatique, l’apprentissage du renforcement est très parallélisable, ce qui le rend bien adapté aux réseaux décentralisés. Imaginez un réseau Web3 où les nœuds sont compensés pour le réglage fin d’un modèle sur les tâches d’apprentissage du renforcement, chacune appliquant différentes stratégies. Cette approche est bien plus réalisable que les autres paradigmes de pré-formation qui nécessitent des topologies de GPU complexes et des infrastructures centralisées.
2) Génération de l’ensemble de données de raisonnement synthétique
Une autre contribution clé de Deepseek-R1 a été de présenter l’importance des ensembles de données de raisonnement générés par synthèse pour les tâches cognitives. Ce processus est également bien adapté pour un réseau décentralisé, où les nœuds exécutent des travaux de génération de données et sont compensés à mesure que ces ensembles de données sont utilisés pour les modèles de fondation de pré-formation ou de réglage fin. Étant donné que ces données sont générées synthétiquement, l’ensemble du réseau peut être entièrement automatisé sans intervention humaine, ce qui en fait un ajustement idéal pour les architectures Web3.
3) inférence décentralisée pour les petits modèles de raisonnement distillé
Deepseek-R1 est un modèle massif avec 671 milliards de paramètres. Cependant, presque immédiatement après sa libération, une vague de modèles de raisonnement distillé a émergé, allant de 1,5 à 70 milliards de paramètres. Ces modèles plus petits sont beaucoup plus pratiques pour l’inférence dans les réseaux décentralisés. Par exemple, un modèle R1 distillé 1,5b – 2b pourrait être intégré dans un protocole Defi ou déployé dans les nœuds d’un réseau Depin. Plus simplement, nous verrons probablement la montée des critères de terminaison d’inférence du raisonnement rentable alimenté par des réseaux de calcul décentralisés. Le raisonnement est un domaine où l’écart de performance entre les petits et les grands modèles se rétrécit, créant une opportunité unique pour Web3 de tirer parti efficacement ces modèles distillés dans des paramètres d’inférence décentralisés.
4) Raisier la provenance des données
L’une des caractéristiques déterminantes des modèles de raisonnement est leur capacité à générer des traces de raisonnement pour une tâche donnée. Deepseek-R1 rend ces traces disponibles dans le cadre de sa sortie d’inférence, renforçant l’importance de la provenance et de la traçabilité pour les tâches de raisonnement. Internet fonctionne principalement sur les sorties, avec peu de visibilité dans les étapes intermédiaires qui conduisent à ces résultats. Web3 présente une opportunité de suivre et de vérifier chaque étape de raisonnement, créant potentiellement un « nouvel internaute du raisonnement » où la transparence et la vérifiabilité deviennent la norme.
Web3-ai a une chance dans l’ère du raisonnement post-R1
La libération de Deepseek-R1 a marqué un tournant dans l’évolution de l’IA générative. En combinant des innovations intelligentes avec des paradigmes de pré-formation établis, il a contesté les flux de travail traditionnels de l’IA et a ouvert une nouvelle ère dans l’IA axée sur le raisonnement. Contrairement à de nombreux modèles de fondation précédents, Deepseek-R1 présente des éléments qui rapprochent l’IA génératrice de Web3.
Aspects clés de R1 – ensembles de données de raisonnement synthétique, formation plus parallélisable et le besoin croissant de traçabilité – s’alignent naturellement avec les principes Web3. Alors que Web3-AI a eu du mal à gagner une traction significative, cette nouvelle ère de raisonnement post-R1 pourrait présenter la meilleure opportunité à ce jour pour que Web3 joue un rôle plus important dans l’avenir de l’IA.
Share this content:
