"Les mystères de la création de l'IA générative"

« Les mystères de la création de l’IA générative »

Le domaine de l’intelligence artificielle (IA) générative, comme celui de ChatGPT, Gemini, Copilot, etc., cache un secret bien gardé. Ce secret ne réside ni dans la capacité computationnelle impressionnante, ni dans l’envergure gigantesque (des centaines de milliards de paramètres) de ces programmes, ni dans des instructions informatiques ingénieuses. Même si ces éléments sont cruciaux pour la réussite, ils sont maintenant à peu près connus de tous.

Non, ce qui reste caché par les chefs de file dans le domaine, comme OpenAI, Anthropic, Mistral et Microsoft, c’est leur méthode de création de la bibliothèque de textes utilisée pour former leurs modèles. Cette formation a pour but d’optimiser les paramètres afin de prédire le meilleur terme pour terminer une phrase. En ingérant des milliards de textes, le système identifie des corrélations statistiques qui permettent de produire de nouveaux textes supposés répondre aux questions de l’utilisateur.

La provenance des textes est connue : livres du domaine public, articles de recherche, Wikipédia, mais surtout un vaste volume de pages web. Cette dernière source est prédominante, et c’est la façon dont elle est utilisée qui fait toute la différence.

« C’est le cœur du conflit », résume Julien Launay, fondateur de la société Adaptive ML et co-auteur d’un ensemble de données d’apprentissage provenant du web, RefinedWeb, lorsqu’il travaillait pour LightOn. Il se rappelle de l’étonnement suscité par son exposé à la conférence phare du domaine, NeurIPS, à La Nouvelle-Orléans, en Louisiane, en décembre 2022. L’attention portée à la préparation de ces données avait permis à une IA de rivaliser avec des concurrents dotés de données de sources plus diverses.

80 000 heures ont été consacrées à des calculs.

Thomas Wolf, l’un des fondateurs de Hugging Face, une plateforme d’origine franco-américaine dédiée à la distribution de modèles et corpus en open source, a invité l’équipe de Julien Launay à se joindre à son entreprise lors d’une conférence. Guilherme Penedo, un membre de l’équipe, accepte l’invitation, attiré par le projet de rendre disponible un corpus encore plus important que RefinedWeb.

Wolf pensait que le projet serait accompli en dix jours, mais il leur a fallu le multiplier par quinze. Le 21 avril, FineWeb a été lancé, un gigantesque corpus de 40 téraoctets, contenant 15 000 milliards de tokens – des sortes de syllabes constituées de trois à quatre lettres. Ce corpus, librement accessible, permet de développer des modèles de meilleur qualité que n’importe quel autre corpus public.

Cependant, la création d’un corpus de cette envergure est un défi de taille : 80 000 heures de calcul avec les cartes graphiques Nvidia H100 ont été requises, ce qui est similaire à l’effort nécessaire pour entraîner un bon modèle d’IA. La première étape consiste à obtenir les données. Depuis 2007, une fondation offre l’accès à Common Crawl, une collecte régulière de milliards de pages Web. Mais pour que ces données soient utiles aux modèles de langage, il faut en extraire uniquement le texte. C’est une tâche qui a pris peut-être 80% du temps de calcul total, que nous avons commencé en novembre 2023″, explique Guilherme Penedo. Ils ont utilisé quatre-vingt-seize paquets recueillis sur une période de quinze ans dans Common Crawl, pour un total d’environ 5 354 téraoctets.

La suite de cet article est réservée aux abonnés.

Soyez le premier à commenter

Laisser un commentaire Annuler la réponse

Actualité

Rétablir la Sécurité Après un Cambriolage : Solutions Rapides et Efficaces de La Clé du 16 à Paris

12 décembre 2024

Une tentative d’effraction peut laisser les propriétaires vulnérables et anxieux. Savoir comment réagir immédiatement après un tel événement est crucial pour sécuriser votre espace et aider à l’enquête.

Actualité

Grégory Delaplace : morts débordent cadres funéraires

1 novembre 2024

Dans son ouvrage récent titré "La Voix des fantômes. Quand débordent les morts" (Seuil, 2024), l'anthropologue Grégory Delaplace s'interroge sur la nature des entités que deviennent les défunts dans l'interaction…

Actualité

Présidentielle 2024 : sondages et questions

1 novembre 2024

"Le Monde offre une couverture en direct de la compétition présidentielle américaine, où les sondages indiquent une lutte acharnée entre Donald Trump et Kamala Harris. - L'actualité la plus récente.…

Actualité

COP16 biodiversité : fin prometteuse

1 novembre 2024

Contradictant les prévisions sur une extension des pourparlers à Cali, en Colombie, samedi, Susana Muhamad, présidente de la 16e conférence de la Convention des Nations unies sur la diversité biologique…

« Les mystères de la création de l’IA générative »

Soyez le premier à commenter

Laisser un commentaire Annuler la réponse

Lire aussi