Close

December 4, 2023

Hugging Face

Los Datos son el motor del aprendizaje automático moderno y la base de todo gran modelo de lenguaje. El archivo Software Heritage nos permite recopilar grandes cantidades de código para entrenar grandes modelos de lenguaje de última generación, especialmente para código. Al mismo tiempo, sus principios garantizan que los modelos resultantes beneficien a toda la humanidad: los modelos se publican abiertamente, los datos de entrenamiento se hacen transparentes y los propietarios de los datos pueden optar por no participar en el entrenamiento.

— Leandro von Werra,
Ingeniero de aprendizaje automático en
Hugging Face y codirector de BigCode

December 4, 2023

Les données sont le moteur de l’apprentissage automatique moderne et le fondement de chaque grand modèle de langage. Software Heritage nous permet de collecter de grandes quantités de code pour former des modèles de langage de pointe, en particulier pour le code. En même temps, leurs principes garantissent que les modèles résultants profitent à l’ensemble de l’humanité : les modèles sont publiés ouvertement, les données d’entraînement sont rendues transparentes et les propriétaires des données peuvent se retirer de l’entraînement.

— Leandro von Werra,
Ingénieur en apprentissage automatique
Hugging Face et co-directeur de BigCode

December 4, 2023

Data is the powerhouse of modern machine learning and the foundation of every large language model. The Software Heritage archive allows us to collect vast amounts of code to train state-of-the-art large language models, especially for code. At the same time, their principles ensure that the resulting models benefit all of humanity: the models are released openly, the training data is made transparent, and data owners can opt out of the training.

— Leandro von Werra,
Machine Learning Engineer at
Hugging Face and co-lead of BigCode

December 4, 2023