Identification linguistique/ Pleias et GSMA lancent « CommonLingua

Pleias et le GSMA Aujourd'hui ont annoncé le 28 avril 2026 la sortie de CommonLingua, un modèle d'identification linguistique (LID) open source conçue spécialement pour débloquer à grande échelle les données linguistiques africaines. Il est délivré dans le cadre des GSMA Modèles de langage IA en Afrique, par Afrique, pour l'Afrique une coalition dédiée à combler le fossé des langues africaines dans l'IA.

L'Afrique abrite plus de 2 000 langues vivantes, dont beaucoup restent sous-représentées dans les données d'entraînement de l'IA. En conséquence, les systèmes d'identification linguistique fonctionnent souvent moins de manière fiable sur le contenu en langues africaines, notamment lorsqu'il s'agit de distinguer entre un texte étroitement lié ou un texte mixte en code. Avant de pouvoir construire un modèle de langue swahili, yoruba ou wolof, le texte sous-jacent doit d'abord être correctement identifié par la langue – une étape où les outils existants échouent souvent sur le contenu africain.

Cela s'explique par le fait que les principaux systèmes LID tels que fastText, Glotlid et OpenLID ont été construits autour de langues européennes et asiatiques à haute ressource et ont souvent mal étiqueté un texte en langues africaines comme anglais ou français. Même les modèles frontières de pointe perdent environ 30 points de précision sur les langues africaines par rapport aux grandes langues mondiales.

CommonLingua est conçu pour corriger cette première étape du pipeline. Sur le nouveau CommonLID benchmark, CommonLingua atteint une précision de 83 % et un score macro F1 de 0,79, surpassant les principaux modèles LID de plus de 10 points de pourcentage dans des conditions d'évaluation comparables, tout en utilisant environ un trois centièmes des paramètres. Le modèle est léger avec 2 millions de paramètres et livré en point de contrôle de 8 Mo, et est conçu pour un déploiement efficace, exécutant environ 20 textos par seconde sur CPU et jusqu'à 3 000 textos par seconde sur un seul GPU.

CommonLingua couvre 334 langues au total, dont 61 langues africaines réparties dans huit familles linguistiques : bantoues (21), nigéro-congolaises / ouest-africaines (18), afro-asiatiques et sémitiques (7), coushites et tchadiques (4), berbères (3), nilo-sahariens (3), pidgins, créoles et autres (5). Le modèle fonctionne directement sur des séquences d'octets UTF-8 plutôt que de s'appuyer sur un tokeniseur spécifique à chaque langue, permettant une gestion cohérente entre scripts tels que latin, arabe, éthiopien, n'ko et tifinagh.

« Les langues africaines ne sont pas un cas particulier. Ce sont les langages de travail de centaines de millions de personnes, et ils méritent une infrastructure d'IA conçue avec le même soin que n'importe quel autre langage. CommonLingua est délibérément la première brique que nous posons : on ne peut pas sélectionner ce qu'on ne peut pas identifier », a déclaré Pierre-Carl Langlais, cofondateur et directeur technique de Pleias.

Le modèle est entraîné exclusivement sur du contenu sous licence ouverte et du domaine public agrégé via le projet Common Corpus, incluant Wikipédia, des publications scientifiques dans OpenAlex, VOA Africa, WaxalNLP, Cultural Heritage et Pralekha. Tous les ensembles de données sont publiés sous des licences permissives.

Louis Powell, directeur des initiatives en IA chez GSMA, a ajouté : « Réduire l'écart dans l'IA en langue africaine est fondamental pour l'inclusion numérique et la libération des opportunités économiques. Le progrès a longtemps été freiné par le manque d'infrastructures fondamentales, à commencer par quelque chose d'aussi essentiel que l'identification linguistique. CommonLingua comble cette lacune critique, permettant le développement à grande échelle de jeux de données plus riches et de systèmes d'IA plus représentatifs. Grâce à notre initiative, la GSMA rassemble des partenaires pour aller au-delà des efforts fragmentés vers une infrastructure partagée capable de propulser l'écosystème numérique africain. « Cette conversation se poursuivra au MWC26 Kigali, où la GSMA et ses partenaires réuniront des leaders du secteur pour accélérer les progrès de l'IA en langues africaines.

CommonLingua est un modèle d'identification linguistique open source prenant en charge 61 langues africaines CommonLingua, la première version conjointe de l'initiative « AI Language Models in Africa, by Africa, for Africa » de la GSMA, est un modèle open source compact de 2 millions de paramètres couvrant 334 langues – dont 61 langues africaines – et surpassant des systèmes jusqu'à 300 fois plus grands.

Francis Aquey

Identification linguistique/ Pleias et GSMA lancent « CommonLingua » incluant 61 langues africaine !

Veuillez laisser un commentaire

Plus de Culture

Crise à l'Unjci/ La justice tranche! Le comité exécutif, le Conseil d'administration... de...

MASA OFF : AKINROOTS en concert le 16 avril à Abidjan

Zouglou/ Digbeu du Far, fatigué de la vie!

Festival "Wèl Felguessi Katana" : La 3e édition se tient à Ferkessédougou

Liens Utiles

Liens Utiles

Liens Utiles

Identification linguistique/ Pleias et GSMA lancent « CommonLingua » incluant 61 langues africaine !

Veuillez laisser un commentaire

Plus de Culture

Liens Utiles

Liens Utiles

Liens Utiles

Abonne-toi à notre Newsletter