Pleias et le GSMA Aujourd'hui ont annoncé le 28 avril 2026 la sortie de CommonLingua, un modèle d'identification linguistique (LID) open source conçue spécialement pour débloquer à grande échelle les données linguistiques africaines. Il est délivré dans le cadre des GSMA Modèles de langage IA en Afrique, par Afrique, pour l'Afrique une coalition dédiée à combler le fossé des langues africaines dans l'IA.
L'Afrique abrite plus de 2 000 langues
vivantes, dont beaucoup restent sous-représentées dans les données
d'entraînement de l'IA. En conséquence, les systèmes d'identification
linguistique fonctionnent souvent moins de manière fiable sur le contenu en
langues africaines, notamment lorsqu'il s'agit de distinguer entre un texte
étroitement lié ou un texte mixte en code. Avant de pouvoir construire un
modèle de langue swahili, yoruba ou wolof, le texte sous-jacent doit d'abord
être correctement identifié par la langue – une étape où les outils existants
échouent souvent sur le contenu africain.
Cela s'explique par le fait que les
principaux systèmes LID tels que fastText, Glotlid et OpenLID ont été
construits autour de langues européennes et asiatiques à haute ressource et ont
souvent mal étiqueté un texte en langues africaines comme anglais ou français.
Même les modèles frontières de pointe perdent environ 30 points de précision
sur les langues africaines par rapport aux grandes langues mondiales.
CommonLingua est conçu pour corriger cette
première étape du pipeline. Sur le nouveau CommonLID benchmark, CommonLingua
atteint une précision de 83 % et un score macro F1 de 0,79, surpassant les
principaux modèles LID de plus de 10 points de pourcentage dans des conditions
d'évaluation comparables, tout en utilisant environ un trois centièmes des
paramètres. Le modèle est léger avec 2 millions de paramètres et livré en point
de contrôle de 8 Mo, et est conçu pour un déploiement efficace, exécutant
environ 20 textos par seconde sur CPU et jusqu'à 3 000 textos par seconde sur
un seul GPU.
CommonLingua couvre 334 langues au total,
dont 61 langues africaines réparties dans huit familles linguistiques :
bantoues (21), nigéro-congolaises / ouest-africaines (18), afro-asiatiques et
sémitiques (7), coushites et tchadiques (4), berbères (3), nilo-sahariens (3),
pidgins, créoles et autres (5). Le modèle fonctionne directement sur des
séquences d'octets UTF-8 plutôt que de s'appuyer sur un tokeniseur spécifique à
chaque langue, permettant une gestion cohérente entre scripts tels que latin,
arabe, éthiopien, n'ko et tifinagh.
« Les langues
africaines ne sont pas un cas particulier. Ce sont les langages de travail de
centaines de millions de personnes, et ils méritent une infrastructure d'IA
conçue avec le même soin que n'importe quel autre langage. CommonLingua
est délibérément la première brique que nous posons : on ne peut pas
sélectionner ce qu'on ne peut pas identifier », a déclaré Pierre-Carl Langlais,
cofondateur et directeur technique de Pleias.
Le modèle est entraîné exclusivement sur
du contenu sous licence ouverte et du domaine public agrégé via le projet
Common Corpus, incluant Wikipédia, des publications scientifiques dans OpenAlex,
VOA Africa, WaxalNLP, Cultural Heritage et Pralekha. Tous les ensembles de
données sont publiés sous des licences permissives.
Louis Powell, directeur des initiatives en IA chez GSMA, a ajouté : « Réduire l'écart dans l'IA en langue africaine est fondamental pour l'inclusion numérique et la libération des opportunités économiques. Le progrès a longtemps été freiné par le manque d'infrastructures fondamentales, à commencer par quelque chose d'aussi essentiel que l'identification linguistique. CommonLingua comble cette lacune critique, permettant le développement à grande échelle de jeux de données plus riches et de systèmes d'IA plus représentatifs. Grâce à notre initiative, la GSMA rassemble des partenaires pour aller au-delà des efforts fragmentés vers une infrastructure partagée capable de propulser l'écosystème numérique africain. « Cette conversation se poursuivra au MWC26 Kigali, où la GSMA et ses partenaires réuniront des leaders du secteur pour accélérer les progrès de l'IA en langues africaines.
CommonLingua est un modèle d'identification
linguistique open source prenant en charge 61 langues africaines CommonLingua, la première version conjointe de
l'initiative « AI Language Models in Africa, by Africa, for Africa » de la
GSMA, est un modèle open source compact de 2 millions de paramètres couvrant
334 langues – dont 61 langues africaines – et surpassant des systèmes jusqu'à
300 fois plus grands.
Francis Aquey


Veuillez laisser un commentaire