×
google news

« Les mystères de la création de l’IA générative »

Le domaine de l’intelligence artificielle (IA) générative, comme celui de ChatGPT, Gemini, Copilot, etc., cache un secret bien gardé. Ce secret ne réside ni dans la capacité computationnelle impressionnante, ni dans l’envergure gigantesque (des centaines de milliards de paramètres) de ces programmes, ni dans des instructions informatiques ingénieuses. Même si ces éléments sont cruciaux pour la réussite, ils sont maintenant à peu près connus de tous.

Non, ce qui reste caché par les chefs de file dans le domaine, comme OpenAI, Anthropic, Mistral et Microsoft, c’est leur méthode de création de la bibliothèque de textes utilisée pour former leurs modèles. Cette formation a pour but d’optimiser les paramètres afin de prédire le meilleur terme pour terminer une phrase. En ingérant des milliards de textes, le système identifie des corrélations statistiques qui permettent de produire de nouveaux textes supposés répondre aux questions de l’utilisateur.

La provenance des textes est connue : livres du domaine public, articles de recherche, Wikipédia, mais surtout un vaste volume de pages web. Cette dernière source est prédominante, et c’est la façon dont elle est utilisée qui fait toute la différence.

« C’est le cœur du conflit », résume Julien Launay, fondateur de la société Adaptive ML et co-auteur d’un ensemble de données d’apprentissage provenant du web, RefinedWeb, lorsqu’il travaillait pour LightOn. Il se rappelle de l’étonnement suscité par son exposé à la conférence phare du domaine, NeurIPS, à La Nouvelle-Orléans, en Louisiane, en décembre 2022. L’attention portée à la préparation de ces données avait permis à une IA de rivaliser avec des concurrents dotés de données de sources plus diverses.

80 000 heures ont été consacrées à des calculs.

Thomas Wolf, l’un des fondateurs de Hugging Face, une plateforme d’origine franco-américaine dédiée à la distribution de modèles et corpus en open source, a invité l’équipe de Julien Launay à se joindre à son entreprise lors d’une conférence. Guilherme Penedo, un membre de l’équipe, accepte l’invitation, attiré par le projet de rendre disponible un corpus encore plus important que RefinedWeb.

Wolf pensait que le projet serait accompli en dix jours, mais il leur a fallu le multiplier par quinze. Le 21 avril, FineWeb a été lancé, un gigantesque corpus de 40 téraoctets, contenant 15 000 milliards de tokens – des sortes de syllabes constituées de trois à quatre lettres. Ce corpus, librement accessible, permet de développer des modèles de meilleur qualité que n’importe quel autre corpus public.

Cependant, la création d’un corpus de cette envergure est un défi de taille : 80 000 heures de calcul avec les cartes graphiques Nvidia H100 ont été requises, ce qui est similaire à l’effort nécessaire pour entraîner un bon modèle d’IA. La première étape consiste à obtenir les données. Depuis 2007, une fondation offre l’accès à Common Crawl, une collecte régulière de milliards de pages Web. Mais pour que ces données soient utiles aux modèles de langage, il faut en extraire uniquement le texte. C’est une tâche qui a pris peut-être 80% du temps de calcul total, que nous avons commencé en novembre 2023″, explique Guilherme Penedo. Ils ont utilisé quatre-vingt-seize paquets recueillis sur une période de quinze ans dans Common Crawl, pour un total d’environ 5 354 téraoctets.

La suite de cet article est réservée aux abonnés.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*


Lire aussi

example 1165
Actualité

Burkina: junte cible opposants familles

18 septembre 2024
Dans une conversation téléphonique, une personne proche du Général Djibril Bassolé, ex-ministre des affaires étrangères du Burkina Faso, exprime son effroi face à l'enlèvement de deux enfants de Bassolé, ainsi…
example 1164
Actualité

Maltraitance handicapés français en Wallonie

18 septembre 2024
Environ 8 200 personnes, dont 1 200 enfants, sont hébergées en Wallonie, principalement des Français handicapés. Jusqu'à récemment, aucune enquête n'avait été menée à leur sujet. Les Cours des comptes…
example 1163
Actualité

Claude Pivi arrêté au Liberia

18 septembre 2024
Claude Pivi, l'ex-colonel largement recherché en Guinée, est enfin appréhendé après une fuite de dix mois. Il a été un acteur clé de la junte qui dirigeait la Guinée entre…
example 1162
Actualité

Bronchiolite : piqûre femme ou bébé ?

18 septembre 2024
"Quel traitement préventif choisir pour combattre la bronchiolite ? Cette maladie infectieuse, affectant les bronchioles, les petites ramifications terminales du système respiratoire, est extrêmement risquée pour les nouveau-nés et les…