Olası Olmayan Bigramlar: Bayt Düzeyinde BPE Tokenizer'larındaki Güvenlik Açıkları

İçindekiler

1. Giriş

Tokenizasyon, büyük dil modellerinde (LLM'ler) insan tarafından okunabilir metin ile model tarafından işlenebilir ayrık token'lar arasında kritik bir köprü görevi görür. Son araştırmalar, bu temel bileşende, özellikle bayt düzeyinde bayt çifti kodlaması (BPE) tokenizer'larında önemli güvenlik açıkları ortaya çıkarmıştır. Bu makale, eksik token'ları—bayt düzeyinde BPE tokenizasyonundan kaynaklanan, başıboş baytlar içeren, çözülemeyen token'lar—ve bunların olası olmayan bigram'lar aracılığıyla istismara olan duyarlılığını araştırmaktadır.

Temel güvenlik açığı, eksik token'ların uygun şekilde çözülmesi için komşu token'lara aşırı bağımlılığından kaynaklanmaktadır. Dağılım dışı kombinasyonlarda alışılmadık token'larla eşleştirildiğinde, bu eksik token'lar kırılgan hale gelir ve LLM'lerde halüsinatif davranışları tetiklemeye eğilimli olur. Araştırmamız, bu güvenlik açığının, bileşen token'lar iyi eğitilmiş olsa bile devam ettiğini göstermekte ve bunu daha önce tanımlanmış aksak token sorunlarından ayırmaktadır.

%90 Azalma

Alternatif tokenizasyon ile Llama3.1'de halüsinasyon azalması

1.47M Bigram

Command-R-v01 tokenizer'ındaki maksimum eksik bigram sayısı

6 Model

Birden fazla LLM ailesinde test edildi

2. BPE Tokenizasyon Temelleri

2.1 Bayt Düzeyinde BPE Uygulaması

Bayt düzeyinde BPE, geleneksel BPE algoritmasını, Unicode karakterleri yerine doğrudan UTF-8 kodlanmış baytlar üzerinde çalışarak genişletir. Algoritma, aşağıdaki formüle göre en sık görülen bayt veya bayt dizisi çiftlerini yinelemeli olarak birleştirir:

$$\text{birleştir}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{sayım}(x,y)}{\text{sayım}(x) \cdot \text{sayım}(y)}$$

Burada $V$ mevcut kelime dağarcığını temsil eder ve $\text{sayım}(x,y)$ eğitim korpusundaki $(x,y)$ bayt çiftinin frekansını belirtir.

2.2 Eksik Token'ların Tanımı

Eksik token'lar, bağımsız olarak geçerli Unicode karakterlerine çözülemeyen bayt düzeyindeki token'lardır. Bu token'lar, yasal UTF-8 dizileri oluşturmak için belirli bitişik token'larla birleştirilmesi gereken başıboş baytlar içerir. Güvenlik açığı şu nedenlerle ortaya çıkar:

Eksik token'lar bağımsız anlamsal anlamdan yoksundur
Komşu token'lara güçlü bağlamsal bağımlılık sergilerler
Bayt desenleri çözümleme belirsizlikleri yaratır

3. Olası Olmayan Bigramlar Metodolojisi

3.1 Oluşturma Tekniği

Olası olmayan bigram'lar, dağılım dışı çiftler oluşturan iki eksik token'ın dikkatle oluşturulmuş kombinasyonlarıdır. Oluşturma şu ilkeleri izler:

Tokenizer kelime dağarcığından eksik token'lar seçin
Kombinasyonun geçerli UTF-8 bayt dizileri oluşturmasını sağlayın
Eşleşmenin istatistiksel olasılığını en üst düzeye çıkarın
Bigram'ın eğitim verilerinde görünmediğini doğrulayın

3.2 Güvenlik Açığı Analizi

Güvenlik açığı mekanizması üç birincil kanal üzerinden çalışır:

Çözümleme Belirsizliği: Eksik token'lar, model katmanları boyunca yayılan ayrıştırma belirsizlikleri yaratır. Matematiksel temsil, eksik token'lar için gömme vektörlerinin $e_i$ daha yüksek varyans sergilediğini gösterir:

$$\text{Var}(e_i | \text{eksik}) > \text{Var}(e_j | \text{tam})$$

Bağlamsal Kırılganlık: Bağımlılık yapısı, bu token'ları beklenen bağlamlardan uzaklaştırıldığında kırılgan hale getirir, bu durum bilgisayarlı görü araştırmalarındaki adversaryal örneklerde gözlemlenen kararsızlığa benzer.

4. Deneysel Sonuçlar

4.1 Halüsinasyon Oranları

Birden fazla LLM ailesi üzerinde yapılan deneylerimiz, aynı ifadelerin standart ve alternatif tokenizasyonları arasında halüsinasyon oranlarında çarpıcı farklılıklar ortaya koymaktadır:

Model	Standart Tokenizasyon	Alternatif Tokenizasyon	Azalma
Llama3.1	%45.2	%4.5	%90.0
Qwen2.5	%38.7	%6.2	%84.0
Mistral-Nemo	%52.1	%8.9	%82.9

4.2 Çapraz Model Karşılaştırması

Güvenlik açığının ölçeği, tokenizer'lar arasında önemli ölçüde değişiklik göstermektedir, kapsamlı analizimizde gösterildiği gibi:

Tokenizer	Kelime Dağarcığı Boyutu	Eksik Token'lar	Eksik Bigram'lar
Meta-Llama-3.1	128k	1.224	71k
Exaone-3.0	102k	1.222	36k
Qwen2.5	151k	1.320	39k
Command-R-v01	255k	2.956	1.47M

5. Teknik Analiz Çerçevesi

Temel İçgörü

Bayt düzeyinde BPE tokenizasyon paradigması, hesaplama açısından verimli olmasına rağmen, LLM'lerde sistematik kör noktalar yaratan temel mimari zayıflıklar ortaya çıkarır. Bu sadece bir uygulama hatası değildir—modern tokenizer'ların Unicode karmaşıklığını nasıl ele aldığına dair yapısal bir kusurdur.

Mantıksal Akış

Güvenlik açığı kademesi öngörülebilir bir model izler: Bayt düzeyinde segmentasyon → Eksik token oluşturma → Bağlamsal bağımlılık oluşumu → İstatistiksel olasılıksızlık istismarı → Halüsinasyon tetikleme. Bu zincir, tokenizasyonun sadece ön işleme olmadığını—kritik bir güvenlik katmanı olduğunu ortaya koymaktadır.

Güçlü ve Zayıf Yönler

Güçlü Yönler: Araştırma metodolojisi, çapraz model doğrulama ve nicel metriklerle titizdir. Olası olmayan bigram kavramı, tokenizer sağlamlığını test etmek için somut bir saldırı vektörü sağlar.

Zayıf Yönler: Makale, eğitim verisi bulaşması açısını yeterince vurgulamamaktadır. Birçok "olası olmayan" kombinasyon, saf artefaktlar yerine aslında nadir ancak meşru çok dilli metin desenlerini yansıtıyor olabilir.

Uygulanabilir İçgörüler

LLM geliştiricileri, tokenizer'ları sadece ön işleme yardımcıları değil, güvenlik açısından kritik bileşenler olarak ele almalıdır. Çalışma zamanı tokenizasyon sağlamlık kontrolleri uygulayın, hibrit tokenizasyon yaklaşımlarını benimseyin ve özellikle eksik token kombinasyonlarını hedef alan adversaryal testler yapın.

Özgün Analiz: Tokenizasyon Güvenliği Paradigması

Bu araştırma, LLM güvenlik manzarasında tokenizasyonu nasıl kavramsallaştırmamız gerektiğini temelden değiştirmektedir. Bulgular, bayt düzeyinde BPE tokenizer'larının, bireysel model mimarilerini aşan sistematik güvenlik açıkları yarattığını göstermekte ve erken kriptografik sistemlerde keşfedilen temel kusurları anımsatmaktadır. Öncelikle yetersiz eğitilmiş token'ları etkileyen, iyi belgelenmiş aksak token sorunlarının aksine, eksik token güvenlik açığı iyi eğitilmiş modellerde bile devam etmekte, bu da daha derin bir mimari soruna işaret etmektedir.

Aynı girdi ifadeleri için alternatif tokenizasyonlar kullanıldığında halüsinasyon oranlarında görülen %90'lık azalma özellikle çarpıcıdır. Bu büyüklükteki bir iyileştirme, mevcut bayt düzeyinde BPE uygulamalarının model işleme hattına önemli ölçüde gürültü eklediğini göstermektedir. Bilgisayarlı görüdeki adversaryal sağlamlık literatürüyle—benzer mimari güvenlik açıklarının kapsamlı bir şekilde incelendiği—karşılaştırıldığında, tokenizasyon katmanı, doğal dil işleme alanında görüntü sınıflandırıcılardaki karar sınırı kırılganlığının eşdeğeri olarak ortaya çıkmaktadır.

Bu araştırmayı özellikle ilgi çekici kılan şey, daha geniş Unicode güvenlik endişeleriyle olan bağlantısıdır. Unicode Konsorsiyumu uzun süredir karıştırılabilir karakterler ve normalleştirme güvenlik açıkları konusunda uyarılarda bulunmuştur, ancak bu çalışma bu endişeleri sinirsel mimari alanına genişletmektedir. Command-R-v01'in daha büyük kelime dağarcığının, önemli ölçüde daha fazla eksik bigram ile ilişkili olduğu bulgusu (Llama3.1'deki 71k'ya karşı 1.47M), kelime dağarcığı boyutunu ölçeklendirmenin, bu temel sorunu ele almadan aslında saldırı yüzeyini artırabileceğini düşündürmektedir.

İleriye bakıldığında, bu araştırma, kriptografi topluluğunun kanıtlanabilir güvenli ilkelleri benimsemesi gibi, "güvenlik-öncelikli tokenizasyon"a doğru bir paradigma değişimini hızlandırmalıdır. Halüsinasyonları önemli ölçüde azaltan alternatif tokenizasyon yaklaşımları, bayt düzeyinde BPE'nin verimliliğini karakter düzeyinde veya kelime parçası yaklaşımlarının sağlamlığı ile birleştiren hibrit yöntemlere işaret etmektedir. LLM'ler güvenlik açısından kritik uygulamalarda giderek daha fazla konuşlandırıldıkça, bu tokenizasyon düzeyindeki güvenlik açıklarını ele almak sadece akademik bir endişe değil, pratik bir zorunluluk haline gelmektedir.

6. Gelecek Yönelimler ve Uygulamalar

Savunma Uygulamaları

Sağlam Tokenizasyon Standartları: Verimliliği korurken eksik token'ları en aza indiren tokenizasyon yöntemlerinin geliştirilmesi
Adversaryal Test Çerçeveleri: Model geliştirme sırasında tokenizasyon güvenlik açıklarını tespit eden otomatik sistemler
Çalışma Zamanı İzleme: Üretim sistemlerinde olası olmayan bigram saldırılarının tespiti ve azaltılması

Araştırma Fırsatları

Eksik token dağılımlarının çapraz dilsel analizi
Bağlamsal kırılganlığı azaltmak için geri getirmeyle güçlendirilmiş üretim ile entegrasyon
Tokenizer güvenlik özellikleri için resmi doğrulama yöntemlerinin geliştirilmesi

Endüstri Etkisi

Bulguların aşağıdakiler üzerinde acil etkileri vardır:

LLM güvenlik değerlendirme kıyaslamaları
Yeni nesil modellerde tokenizer tasarımı
Yapay zeka sistemi güvenliği için düzenleyici çerçeveler

7. Referanslar

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Teknik Raporu #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017