Qu'est-ce que ChatGPT ?

Regardez la vidéo!

ChatGPT a conquis Twitter et à peu près tout Internet, grâce à sa puissance et au potentiel de mème (images drôles) qu'il offre. Nous savons tous à quel point pouvoir générer des mèmes est le meilleur moyen de conquérir Internet, et cela a donc fonctionné.

Source: u/MediaMoguls.

Puisque vous avez certainement déjà vu de nombreux exemples, vous savez peut-être déjà que ChatGPT est une IA récemment rendue publique par OpenAI, vous permettant de discuter avec elle. Ce qui est également appelé chatbot, et signifie que vous pouvez interagir avec lui de manière conversationnelle, imitant une discussion humaine en tête-à-tête.

Ce que vous ne savez peut-être pas est ce que c'est et comment cela fonctionne.

ChatGPT est un modèle basé sur l'apprentissage par renforcement et la série de modèles GPT d'OpenAI. Je vais vous renvoyer à une vidéo sur l'apprentissage par renforcement que nous avons récemment publiée avec mon ami Elias pour en savoir plus sur ce sous-domaine de l'IA, mais rapidement, l'apprentissage par renforcement est un moyen d'entraîner des algorithmes par essais et erreurs visant des récompenses, tout comme les humains apprendraient avec des retours positifs.

Plus précisément, ChatGPT a été construit en trois étapes:

Procédure de l’entraînement de ChatGPT. Image du billet de blogue d'OpenAI.

La première consistait à prendre un modèle déjà puissant et à l'affiner avec un apprentissage supervisé. Qu'est-ce que ça veut dire? Cela signifie qu'ils ont pris un modèle, plus précisémment, il s'agit de GPT-3.5, une version améliorée et à jour de GPT-3, qu'ils ont à nouveau formé spécifiquement sur des exemples de conversation au lieu d'être formé sur à peu près tout Internet comme GPT-3 était. Cela signifie qu'ils essaient de limiter son potentiel strictement aux conversations, ce qui le rend théoriquement meilleur pour converser par rapport à GPT-3, car un spécialiste est presque toujours meilleur qu'un généraliste dans une tâche spécifique. Si vous n'êtes toujours pas familier avec la série de modèles GPT. Je suggérerais de regarder la courte vidéo d'introduction que j'ai faite sur GPT-3 lors de sa sortie.

La deuxième étape consiste à ajouter notre magie d'apprentissage par renforcement, qui permettra au modèle de s'entraîner et de s'améliorer d’avantage.

Comme vous le savez, la pratique rend parfait !

Plus précisément, dans cette étape, nous allons utiliser le modèle pour discuter avec des humains, lui faire fournir plusieurs réponses possibles et demander à l'humain d'évaluer les réponses du meilleur au pire. Ces données seront ensuite utilisées pour former un autre modèle appelé notre modèle de récompense apprenant à répliquer nos annotateurs humains. Cela conduit à notre dernière étape, où notre nouveau modèle de récompense donnera un retour aux réponses du modèle chatGPT en tant que fonction de récompense pour l'aider à converger vers les meilleures réponses au fil du temps.

Cette dernière étape consiste à former davantage notre algorithme après l'étape initiale de ré-entraînement que nous avons expliquée.

C'est pourquoi ce sont des entreprises comme OpenAI qui publient ce genre de modèles incroyablement puissants. Ce serait irréalisable pour les universités ou les particuliers, car cela nécessite beaucoup trop de calculs et de temps pour la formation. Pourtant, ce qu'ils accomplissent est tout à fait remarquable, et je pense qu'ils valent la peine d'être faits et partagés pour faire avancer la science.

Et voilà ! Après avoir couplé un modèle de langage basé sur GPT déjà puissant (et la version la plus récente), l'avoir ajusté aux conversations et enfin utilisé l'apprentissage par renforcement pour lui faire pratiquer ses compétences de conversation, vous obtenez ChatGPT !

Source: @themikkelu

Comme vous l'avez vu auparavant, le modèle est assez prometteur, mais aussi parfois très bête et ne semble pas avoir de logique. Ce n'est encore qu'un algorithme et loin d'être intelligent ou conscient, bien que cela dépende de la façon dont nous définissons les deux.

Il a également certainement ses limites…

Limitations de ChatGPT. Image du blogue d’OpenAI.

Néanmoins, les résultats qu'il donne sont souvent étonnamment intéressants et pertinents.

ChatGPT est définitivement un pas en avant dans l'IA conversationnelle et assez prometteur, en particulier en travaillant sur le côté “ingénierie de prompt” (comment optimisé ce que l’on écrit comme entrée au modèle pour améliorer les résultats du modèle) du modèle pour tirer parti de son véritable potentiel et limiter les cas d'échec.

J'espère que vous avez apprécié cet article, et j'aimerais voir vos expériences ! Identifiez-moi sur Twitter @whats_ai si vous les partagez ou rejoignez notre communauté Discord (en anglais), où nous avons créé un chat spécialement pour cela.

Je vous verrai la semaine prochaine avec une autre recherche incroyable sur l'IA !

References

►Essayez-le: https://chat.openai.com/
►Blogue d’OpenAI: https://openai.com/blog/chatgpt/
►Qu’est-ce que GPT-3: https://youtu.be/gDDnTZchKec
►Qu’est -ce que l’apprentissage par renforcement : https://youtu.be/C5_NfQy_kZU
►Rejoignez notre communaité sur Discord (anglais): https://www.louisbouchard.ai/learn-ai-together/
►Twitter: https://twitter.com/Whats_AI
►Supportez-moi sur Patreon: https://www.patreon.com/whatsai

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Précédent
Précédent

Comment parler à une IA

Suivant
Suivant

Générez de faux visages en temps réel avec l'IA !