Pourquoi ton job n’est pas en danger (pour l’instant)

26 déc.

Regardez la version vidéo!

Je veux revenir sur un commentaire que j’ai reçu sous un short où je disais que les LLMs apprennent en copiant des patterns, et que les humains apprennent aussi en copiant d’autres personnes, mais que ce n’est pas la même chose. Le commentaire disait en gros: comment est-ce que ce n’est pas la même chose ?

C’est une question légitime, parce que si tu le dis sans beaucoup plus de détails, comme je l’ai fait, ce qui n’est pas vraiment idéal, on a vraiment l’impression que les LLMs et les humains font la même chose. Les humains imitent. Les modèles imitent. Point.

Mais si cette comparaison crée autant de confusion, c’est parce qu’elle mélange deux niveaux de description complètement différents. De loin, on sait que les humains et les LLMs apprennent tous les deux des motifs, des patterns. Mais quand on zoome, le processus d’apprentissage, les signaux, les contraintes et le lien au monde sont totalement différents. Et on comprend pourquoi on est très loin de la conscience ou de ce qu’on appelle l’AGI. Si tu ne sépares pas ces couches, tu finis avec des phrases qui “sonnent vrai” mais qui n’expliquent pas vraiment ce qui se passe, et tu peux te mettre à croire que l’AGI va prendre ton job dans quelques mois.

Spoiler: pour la grande majorité d’entre nous: non.
Tu es safe. Au moins pour 2026.

Donc je veux dérouler ça correctement, du début à la fin, avec un seul exemple tout le long, mais je dois découper l’explication en trois parties que je définirai au bon moment. D’abord, comment les LLMs apprennent réellement pendant le pré-entraînement. Ensuite, ce que le fine-tuning et l’apprentissage par renforcement changent, et ce qu’ils ne changent pas. Et enfin, comment les humains apprennent le langage et les histoires, et à quel moment la ressemblance s’arrête vraiment.

Commençons par le pré-entraînement, parce que c’est là que vient la majorité de la confusion, et c’est la partie la plus importante de l’entraînement d’un modèle de langage puissant.

Pendant le pré-entraînement, un grand modèle de langage est entraîné avec un seul objectif principal: étant donné une séquence de tokens, prédire le token suivant. C’est tout. Tu caches un token, le modèle le devine, tu ajustes les paramètres, et tu répètes ça sur des quantités énormes de texte. Il n’y a aucune notion de sens, d’intention ou de communication dans l’objectif en lui-même. Le modèle n’essaie pas de raconter une histoire. Il n’essaie pas d’être utile. Il n’essaie pas de comprendre quoi que ce soit. Il minimise une erreur de prédiction.

Et je veux insister: je parle vraiment de tokens ici, pas de mots. Les modèles ne connaissent pas les mots; ils connaissent des nombres. On représente chaque “morceau” de langage par un index, qu’on appelle un token. C’est évidemment une manière simplifiée de le voir, en réalité on optimise ces tokens selon la fréquence d’apparition des mots en anglais et tout ça, mais au final ça revient toujours à la même idée: le langage, à partir d’une liste de nombres, apprend à prédire le prochain nombre.

Donc si le modèle voit “The kid looked under the bed and”, ce qui ressemble en fait à ça [14305, 10585, 7111, 1234, 279, 4950, 323, 863], il assigne des probabilités à ce qui vient ensuite. “Found” [6788] est probable. “Nothing” [24714] est possible. “Volcano” [37461] est presque impossible. Avec le temps, en voyant des milliards et des trillions de ces contextes, il apprend des régularités extrêmement riches sur le langage. La syntaxe, le style, la structure narrative, et même beaucoup de connaissances sur le monde, parce que ces connaissances sont encodées dans le texte, ou plutôt dans ces tokens.

L’échelle fait énormément de travail ici. Les modèles modernes sont entraînés sur des trillions de tokens. Un humain, même extrêmement lecteur, verra des ordres de grandeur beaucoup plus faibles d’input linguistique sur toute une vie. On parle de millions, peut-être de centaines de millions de mots, pas de trillions ou plus. Cette différence d’échelle n’est pas un détail. C’est pour ça qu’un objectif aussi simple peut mener à un comportement aussi complexe, même pour une machine non consciente. C’est aussi la principale différence entre les modèles avant et après ChatGPT.

À ce stade, les gens répliquent souvent: oui mais les humains aussi prédisent le mot suivant quand ils lisent ou écoutent. Et c’est vrai. Il y a de fortes preuves en sciences cognitives que les humains forment des attentes sur les mots à venir et que les mots prévisibles sont traités plus vite. Et moi je fais ça énormément, ce qui énerve plusieurs de mes proches. Donc oui, la prédiction existe dans les deux systèmes.

C’est la première vraie ressemblance. Les humains et les LLMs utilisent tous les deux la prédiction. Les deux s’améliorent avec l’exposition. Les deux bénéficient des patterns.

Mais voici la différence clé sur laquelle tout le reste se construit.

Pour le modèle, la prédiction est l’objectif final. Pour les humains, la prédiction n’est qu’un effet secondaire d’une vraie compréhension.

Quand tu écoutes une histoire, tu n’essaies pas de deviner le mot suivant pour le plaisir. Pire encore, les lecteurs rapides sautent carrément des mots. Un LLM ne pourrait jamais faire ça. En réalité, tu construis un modèle mental de ce qui se passe. Tu suis les personnages, les intentions, les émotions, les causes et les conséquences. Tu crées un nouveau monde dans ta tête où les choses bougent et évoluent. Les prédictions sortent de ce processus parce que le langage est structuré dans ce modèle mental. Pour le LLM, il n’y a pas de couche séparée où la compréhension vit indépendamment de la tâche de prédiction. Si quelque chose comme le “sens” existe dans le modèle, il existe uniquement parce que ça aide à prédire des tokens.

C’est pour ça que des experts comme Yann LeCun ont été aussi vocaux sur les limites des modèles purement basés sur du texte. Son argument n’est pas qu’ils sont inutiles. C’est qu’il leur manque des ingrédients clés de la manière dont les humains et les animaux apprennent: l’ancrage dans le monde physique, la perception multimodale, l’interaction, et la capacité à construire des modèles explicites du monde via l’action et le feedback. De ce point de vue, prédire le prochain token à partir de texte est puissant, mais ce n’est pas le même problème d’apprentissage que celui que les humains résolvent.

D’autres chercheurs, comme Ilya Sutskever, ont une vision plus optimiste. L’argument, c’est que le langage encode lui-même une énorme quantité de structure sur le monde, et que pour prédire le langage correctement à grande échelle, un modèle pourrait être forcé d’internaliser des représentations de plus en plus abstraites qui fonctionnent comme des “world models” dans ce qu’on appelle son espace latent. C’est encore un débat ouvert et on ne le saura qu’avec le temps, mais je dois dire que les LLMs actuels semblent très loin de développer une vraie compréhension, même si le scaling a clairement donné des compétences nouvelles incroyables qu’on n’attendait pas forcément avant de pousser ces entraînements à cette échelle.

Mais peu importe où tu te situes dans ce débat, le mécanisme aujourd’hui est clair. Le pré-entraînement, c’est compresser des patterns dans du texte. Pas interagir avec un monde. Pas former des objectifs. Pas tester des hypothèses. Juste absorber des régularités statistiques.

Maintenant ancrons ça dans un exemple simple et concret pour que ça ne reste pas abstrait.

On peut prendre une histoire super simple: un enfant perd son chien, le cherche toute la journée, et retrouve le chien le soir.

Un modèle pré-entraîné peut générer une version très convaincante de cette histoire. Il sait que ce genre d’histoire a souvent une mise en place, de la tension, puis une résolution. Il sait quels types de mots apparaissent souvent dans les moments émotionnels. Il sait comment les paragraphes s’enchaînent généralement.

Mais il ne choisit pas ces mots parce qu’il veut transmettre de la tristesse ou du soulagement. Il les choisit parce que, étant donné le début, ces mots ont une forte probabilité dans la distribution qu’il a apprise. La structure narrative émerge de décisions locales token par token, à une échelle massive.

Voyons avec un exemple encore plus concret, au lieu de rester dans le monde abstrait du langage.

Quand un humain apprend à peindre ou à jouer du piano, l’imitation est évidemment impliquée, mais ce n’est pas une imitation microscopique. Tu ne copies pas chaque coup de pinceau exactement. Tu extrais des techniques. Tu formes des concepts comme la perspective, l’équilibre, le contraste et l’émotion. Tu copies le résultat final. Et tu peux ensuite appliquer ces concepts à des scènes que tu n’as jamais vues avant.

Un LLM, pendant le pré-entraînement, est beaucoup plus proche de copier des coups de pinceau exacts que d’extraire une intention. Il apprend comment de petits mouvements locaux ont tendance à suivre d’autres petits mouvements locaux. Token après token. Pixel après pixel dans les modèles d’images. La structure globale vient de l’accumulation de ces règles locales, en sachant quel “coup de pinceau” faire ensuite sur la toile à partir de tous ceux déjà faits, pas d’une compréhension explicite de la composition ou du sens.

Ça ne rend pas le modèle stupide. Ça le rend simplement différent.

Passons maintenant à la deuxième phase, parce que c’est là que beaucoup de gens attribuent sans le vouloir des qualités humaines qui ne viennent pas réellement du pré-entraînement.

Après le pré-entraînement, tu n’as pas encore un assistant utile. Tu as un modèle qui est bon pour continuer du texte. Le fine-tuning et l’apprentissage par renforcement, c’est ce qui transforme cette capacité brute en quelque chose qui suit des instructions, répond à des questions et se comporte d’une manière socialement acceptable. C’est essentiellement la différence entre ce puissant autocompléteur et ce que tu utilises dans ChatGPT.

Dans ce processus, des humains sont payés pour montrer au modèle des exemples de comportements désirés. Ils classent des sorties. Ils récompensent la clarté, l’utilité et la sécurité. Le modèle est optimisé pour produire davantage de ce que les humains préfèrent.

Ça change beaucoup le comportement. C’est pour ça que le modèle sonne poli. C’est pour ça qu’il explique ses réponses. C’est pour ça qu’il évite certains sujets.

Mais il est important de comprendre ce que cette phase ne fait pas. Elle ne donne pas au modèle un nouvel ancrage dans le monde. Elle ne lui donne pas d’expérience vécue. Elle ne lui apprend pas ce que ça fait de perdre un chien ou de raconter une histoire touchante à ce sujet. Elle façonne le comportement en sortie par-dessus des représentations apprises pendant le pré-entraînement. C’est la partie qui ressemble le plus à l’apprentissage humain en surface, parce que nous aussi on apprend via du feedback. Sauf qu’elle demande en général beaucoup plus d’exemples que nous, et surtout, le signal de feedback est très différent. Le modèle n’est pas récompensé pour comment il raisonne ou pourquoi il a pris une décision, mais seulement pour savoir si la sortie finale correspond à ce que des humains ont étiqueté comme “bien” ou “mal”.

Si tu essaies d’apprendre un mouvement d’escalade, toi aussi tu apprends par essai-erreur. Tu tombes, tu ajustes ta prise, tu changes ton transfert de poids, tu ressens la tension dans ton corps, tu construis une intuition de l’équilibre et du momentum. Ce feedback est continu, incarné, et profondément lié au processus lui-même. On ne te dit pas juste “succès” ou “échec” à la fin puis tu ajustes. Tu sens ce qui ne va pas pendant que ça se passe, et ton modèle interne se met à jour moment après moment.

À l’inverse, l’apprentissage par renforcement dans les LLMs est surtout basé sur le résultat final et externe. Le modèle ne vit pas la tentative. Il ne ressent ni l’instabilité ni l’effort. Il ne sait pas quelles étapes internes ont compté. Il reçoit seulement un signal indiquant si la séquence finale de tokens était préférée ou non. Donc même si les deux systèmes utilisent du renforcement, les humains apprennent en interagissant avec le monde et en mettant à jour des modèles internes riches via l’expérience, alors que les LLMs sont poussés statistiquement vers des sorties que les humains aiment, sans accès au processus sous-jacent qui a mené à ces sorties.

C’est pour ça que cette phase peut rendre les modèles plus “humains” dans leur comportement sans rendre leur apprentissage réellement humain.

Maintenant, c’est aussi le bon moment pour parler du raisonnement, parce que c’est là que les gens disent souvent: “Ok, mais le modèle pense. On le voit raisonner étape par étape.”

Ce qui se passe est en fait plus subtil.

Quand un LLM semble raisonner, il fait toujours la même chose: générer le token suivant à partir des précédents. La différence, c’est qu’il a vu énormément d’exemples de texte “de type raisonnement”. Des explications, des étapes de maths, des arguments, des preuves. Il a appris que pour certains types de questions, produire du texte intermédiaire qui ressemble à du raisonnement mène souvent à de meilleures réponses finales.

Donc quand tu vois le modèle “penser”, ce que tu vois n’est pas un processus interne de planification qui décide quelles étapes suivre comme nous quand on pense. Tu vois du langage qui ressemble à du raisonnement parce que ce genre de langage a une probabilité élevée dans ce contexte.

C’est pour ça que le raisonnement peut sembler impressionnant et fragile en même temps. Le modèle ne sait pas quelles étapes sont nécessaires. Il ne sait pas lesquelles sont suffisantes. Il génère des séquences qui ressemblent à du raisonnement, et parfois ces séquences s’alignent avec une logique correcte, et parfois non. Et le scaling nous permet d’essayer beaucoup de routes en parallèle, de converger vers la meilleure, et d’avoir l’air intelligent.

Chez les humains, c’est l’inverse. Tu raisonnes d’abord, souvent en silence, parfois visuellement ou de manière abstraite, comme en créant un modèle du monde où tu te vois dedans, comme te voir mentalement faire une voie précise, puis tu utilises le langage pour exprimer le résultat de ce raisonnement, ou dans le cas de l’escalade, tu prends les prises et tu démarres. Le langage est surtout en aval de la pensée. Pour les LLMs, le langage est la pensée. Il n’y a pas de couche séparée où le raisonnement arrive puis se traduit en mots. Ça, c’est juste OpenAI qui décide quels tokens garder comme “raisonnement” et lesquels te montrer.

Ça ne veut pas dire que les modèles ne peuvent pas résoudre de vrais problèmes. Évidemment qu’ils le peuvent. Ça veut dire que le mécanisme est différent, et que cette différence explique à la fois les forces et les modes d’échec.

Revenons maintenant aux humains, parce que c’est là que se trouve la différence la plus profonde.

Les humains imitent. Ça, c’est vrai. On emprunte des phrases. On copie des styles. On apprend via l’exposition.

Mais l’apprentissage humain est ancré dès le départ. Les mots sont liés à la perception, à l’action et à l’interaction sociale. Tu n’apprends pas ce que “chien” veut dire juste en le lisant. Tu l’apprends en voyant des chiens, en les entendant, en interagissant avec eux, en étant corrigé, et en intégrant ce mot dans un modèle plus large du monde.

Les humains apprennent aussi avec de l’agence. Tu veux des choses. Tu essaies d’atteindre des objectifs. Tu échoues. Tu ajustes. Tu poses des questions. L’apprentissage est poussé par la curiosité, la survie et le lien social, pas par une minimisation passive d’une fonction de perte sur un dataset statique.

Je n’ai pas encore vu un LLM avec la curiosité de me poser une question, sauf si c’était programmé pour le faire ou si je l’avais prompté pour le faire.

Les humains sont aussi incroyablement data-efficient. Un enfant peut apprendre un nouveau mot à partir de quelques exemples. Un modèle peut avoir besoin de milliers ou de millions d’occurrences. Le scaling compense, mais le processus à la base reste différent.

Et les humains apprennent en continu. Ton modèle du monde se met à jour tous les jours. La plupart des LLMs sont entraînés, gelés, puis légèrement “steerés”. Ils n’accumulent pas une nouvelle compréhension de manière aussi ouverte.

Donc quand quelqu’un dit: “les LLMs apprennent comme les humains parce que les deux copient des patterns”, la réponse précise que tu devrais leur donner, c’est celle-ci:

“Va voir cet article de Louis-François et tu vas comprendre!”
Ok sérieusement, la vraie réponse devrait être quelque chose comme:

Oui, les deux s’appuient sur des patterns. Oui, les deux impliquent de la prédiction. Oui, l’imitation existe dans les deux. Mais les humains apprennent des patterns pour construire du sens, agir dans le monde et poursuivre des objectifs. Les LLMs apprennent des patterns pour prédire du texte, à travers des trillions d’essais, puis sont ensuite façonnés pour se comporter d’une manière utile aux humains à travers des millions d’essais. C’est pour ça que les sorties peuvent se ressembler alors que les processus d’apprentissage sont fondamentalement différents.

J’espère que la différence est un peu plus claire maintenant. Et si tu veux, je peux aller encore plus loin sur la question du raisonnement dans un autre article, parce que ça ouvre toute une discussion sur le chain-of-thought, le raisonnement caché, l’utilisation d’outils, et pourquoi certains problèmes cassent encore les modèles aussi facilement. Dis-moi si tu veux voir ça ensuite dans les commentaires!

D’ici là, merci d’avoir lu, et je te dis à la prochaine!

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw

Pourquoi ton job n’est pas en danger (pour l’instant)

Regardez la version vidéo!

J’ai publié 42 shorts sur les termes de l’IA en 42 jours

Les nouveaux modèles d’IA savent-ils enfin raisonner ?