The Token Tax: Systematic Bias in Multilingual Tokenization

Lundin, Jessica M.; Zhang, Ada; Karim, Nihal; Louzan, Hamza; Wei, Victor; Adelani, David; Carroll, Cody

Computer Science > Computation and Language

arXiv:2509.05486 (cs)

[Submitted on 5 Sep 2025]

Title:The Token Tax: Systematic Bias in Multilingual Tokenization

Authors:Jessica M. Lundin, Ada Zhang, Nihal Karim, Hamza Louzan, Victor Wei, David Adelani, Cody Carroll

View PDF HTML (experimental)

Abstract:Tokenization inefficiency imposes structural disadvantages on morphologically complex, low-resource languages, inflating compute resources and depressing accuracy. We evaluate 10 large language models (LLMs) on AfriMMLU (9,000 MCQA items; 5 subjects; 16 African languages) and show that fertility (tokens/word) reliably predicts accuracy. Higher fertility consistently predicts lower accuracy across all models and subjects. We further find that reasoning models (DeepSeek, o1) consistently outperform non-reasoning peers across high and low resource languages in the AfriMMLU dataset, narrowing accuracy gaps observed in prior generations. Finally, translating token inflation to economics, a doubling in tokens results in quadrupled training cost and time, underscoring the token tax faced by many languages. These results motivate morphologically aware tokenization, fair pricing, and multilingual benchmarks for equitable natural language processing (NLP).

Subjects:	Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2509.05486 [cs.CL]
	(or arXiv:2509.05486v1 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2509.05486

Submission history

From: Jessica Lundin PhD [view email]
[v1] Fri, 5 Sep 2025 20:20:51 UTC (3,244 KB)

Computer Science > Computation and Language

Title:The Token Tax: Systematic Bias in Multilingual Tokenization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:The Token Tax: Systematic Bias in Multilingual Tokenization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators