Le domaine de l’intelligence artificielle (IA) générative, comme celui de ChatGPT, Gemini, Copilot, etc., cache un secret bien gardé. Ce secret ne réside ni dans la capacité computationnelle impressionnante, ni dans l’envergure gigantesque (des centaines de milliards de paramètres) de ces programmes, ni dans des instructions informatiques ingénieuses. Même si ces éléments sont cruciaux pour la réussite, ils sont maintenant à peu près connus de tous.
Non, ce qui reste caché par les chefs de file dans le domaine, comme OpenAI, Anthropic, Mistral et Microsoft, c’est leur méthode de création de la bibliothèque de textes utilisée pour former leurs modèles. Cette formation a pour but d’optimiser les paramètres afin de prédire le meilleur terme pour terminer une phrase. En ingérant des milliards de textes, le système identifie des corrélations statistiques qui permettent de produire de nouveaux textes supposés répondre aux questions de l’utilisateur.
La provenance des textes est connue : livres du domaine public, articles de recherche, Wikipédia, mais surtout un vaste volume de pages web. Cette dernière source est prédominante, et c’est la façon dont elle est utilisée qui fait toute la différence.
« C’est le cœur du conflit », résume Julien Launay, fondateur de la société Adaptive ML et co-auteur d’un ensemble de données d’apprentissage provenant du web, RefinedWeb, lorsqu’il travaillait pour LightOn. Il se rappelle de l’étonnement suscité par son exposé à la conférence phare du domaine, NeurIPS, à La Nouvelle-Orléans, en Louisiane, en décembre 2022. L’attention portée à la préparation de ces données avait permis à une IA de rivaliser avec des concurrents dotés de données de sources plus diverses.
80 000 heures ont été consacrées à des calculs.
Thomas Wolf, l’un des fondateurs de Hugging Face, une plateforme d’origine franco-américaine dédiée à la distribution de modèles et corpus en open source, a invité l’équipe de Julien Launay à se joindre à son entreprise lors d’une conférence. Guilherme Penedo, un membre de l’équipe, accepte l’invitation, attiré par le projet de rendre disponible un corpus encore plus important que RefinedWeb.
Wolf pensait que le projet serait accompli en dix jours, mais il leur a fallu le multiplier par quinze. Le 21 avril, FineWeb a été lancé, un gigantesque corpus de 40 téraoctets, contenant 15 000 milliards de tokens – des sortes de syllabes constituées de trois à quatre lettres. Ce corpus, librement accessible, permet de développer des modèles de meilleur qualité que n’importe quel autre corpus public.
Cependant, la création d’un corpus de cette envergure est un défi de taille : 80 000 heures de calcul avec les cartes graphiques Nvidia H100 ont été requises, ce qui est similaire à l’effort nécessaire pour entraîner un bon modèle d’IA. La première étape consiste à obtenir les données. Depuis 2007, une fondation offre l’accès à Common Crawl, une collecte régulière de milliards de pages Web. Mais pour que ces données soient utiles aux modèles de langage, il faut en extraire uniquement le texte. C’est une tâche qui a pris peut-être 80% du temps de calcul total, que nous avons commencé en novembre 2023″, explique Guilherme Penedo. Ils ont utilisé quatre-vingt-seize paquets recueillis sur une période de quinze ans dans Common Crawl, pour un total d’environ 5 354 téraoctets.
La suite de cet article est réservée aux abonnés.
Laisser un commentaire