불가능한 바이그램: 바이트 레벨 BPE 토크나이저의 취약점

1. 서론

토크나이제이션은 대규모 언어 모델(LLM)에서 인간이 읽을 수 있는 텍스트와 모델이 처리 가능한 이산 토큰 사이의 중요한 다리 역할을 합니다. 최근 연구는 이 기본 구성 요소, 특히 바이트 레벨 바이트 페어 인코딩(BPE) 토크나이저에서 상당한 취약점을 드러냈습니다. 본 논문은 불완전 토큰—바이트 레벨 BPE 토크나이제이션으로 인해 발생하는 유효하지 않은 바이트를 포함한 디코딩 불가능 토큰—과 불가능한 바이그램을 통한 악용 취약성에 대해 조사합니다.

핵심 취약점은 불완전 토큰이 적절한 디코딩을 위해 인접 토큰에 크게 의존한다는 점에서 비롯됩니다. 분포 외 조합에서 익숙하지 않은 토큰과 짝을 이룰 때, 이러한 불완전 토큰은 취약해지고 LLM에서 환각 행동을 유발하기 쉽습니다. 우리의 연구는 구성 토큰이 잘 훈련된 경우에도 이 취약점이 지속된다는 것을 보여주며, 이는 이전에 확인된 글리치 토큰 문제와 구별됩니다.

90% 감소

대체 토크나이제이션 적용 시 Llama3.1의 환각 감소율

147만 바이그램

Command-R-v01 토크나이저의 최대 불완전 바이그램 수

6개 모델

여러 LLM 계열에서 테스트 완료

2. BPE 토크나이제이션 기본 원리

2.1 바이트 레벨 BPE 구현

바이트 레벨 BPE는 기존 BPE 알고리즘을 유니코드 문자가 아닌 UTF-8 인코딩된 바이트에서 직접 작동하도록 확장합니다. 이 알고리즘은 다음 공식에 따라 가장 빈번한 바이트 또는 바이트 시퀀스 쌍을 반복적으로 병합합니다:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

여기서 $V$는 현재 어휘 집합을 나타내고 $\text{count}(x,y)$는 훈련 코퍼스에서 바이트 쌍 $(x,y)$의 빈도를 나타냅니다.

2.2 불완전 토큰 정의

불완전 토큰은 유효한 유니코드 문자로 독립적으로 디코딩될 수 없는 바이트 레벨 토큰입니다. 이러한 토큰은 특정 인접 토큰과 결합하여 합법적인 UTF-8 시퀀스를 형성해야 하는 유효하지 않은 바이트를 포함합니다. 취약점은 다음과 같은 이유로 발생합니다:

불완전 토큰은 독립적인 의미를 가지지 않음
이들은 인접 토큰에 대한 강한 문맥 의존성을 보임
이들의 바이트 패턴은 디코딩 모호성을 생성함

3. 불가능한 바이그램 방법론

3.1 구성 기술

불가능한 바이그램은 분포 외 쌍을 형성하는 두 개의 불완전 토큰으로 신중하게 구성된 조합입니다. 구성은 다음 원칙을 따릅니다:

토크나이저 어휘 집합에서 불완전 토큰 선택
조합이 유효한 UTF-8 바이트 시퀀스를 생성하는지 확인
쌍의 통계적 불가능성을 최대화
바이그램이 훈련 데이터에 나타나지 않는지 확인

3.2 취약점 분석

취약점 메커니즘은 세 가지 주요 경로를 통해 작동합니다:

디코딩 모호성: 불완전 토큰은 모델 레이어를 통해 전파되는 구문 분석 불확실성을 생성합니다. 수학적 표현은 불완전 토큰 $e_i$에 대한 임베딩 벡터가 더 높은 분산을 보이는 방법을 보여줍니다:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

문맥 취약성: 의존성 구조는 이러한 토큰이 예상 문맥에서 벗어날 때 취약하게 만듭니다. 이는 컴퓨터 비전 연구의 적대적 예제에서 관찰된 불안정성과 유사합니다.

4. 실험 결과

4.1 환각 발생률

여러 LLM 계열에 걸친 우리의 실험은 동일한 구문의 표준 토크나이제이션과 대체 토크나이제이션 간에 환각 발생률에서 극적인 차이를 보여줍니다:

모델	표준 토크나이제이션	대체 토크나이제이션	감소율
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 모델 간 비교

취약점 규모는 토크나이저에 따라 크게 다르며, 우리의 포괄적인 분석에서 다음과 같이 나타납니다:

토크나이저	어휘 크기	불완전 토큰	불완전 바이그램
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. 기술 분석 프레임워크

핵심 통찰

바이트 레벨 BPE 토크나이제이션 패러다임은 계산적으로 효율적이지만, LLM에 체계적인 맹점을 생성하는 근본적인 아키텍처적 약점을 도입합니다. 이는 단순한 구현 버그가 아닌 현대 토크나이저가 유니코드 복잡성을 처리하는 방식의 구조적 결함입니다.

논리적 흐름

취약점 연쇄는 예측 가능한 패턴을 따릅니다: 바이트 레벨 분할 → 불완전 토큰 생성 → 문맥 의존성 형성 → 통계적 불가능성 악용 → 환각 유발. 이 연쇄는 토크나이제이션이 단순한 전처리가 아닌 중요한 보안 계층임을 드러냅니다.

강점과 결함

강점: 연구 방법론은 모델 간 검증과 정량적 지표를 통해 엄격합니다. 불가능한 바이그램 개념은 토크나이저 견고성을 테스트하기 위한 구체적인 공격 벡터를 제공합니다.

결함: 논문은 훈련 데이터 오염 측면을 충분히 강조하지 않습니다. 많은 "불가능한" 조합은 순수한 인공물보다는 드물지만 합법적인 다국어 텍스트 패턴을 반영할 수 있습니다.

실행 가능한 통찰

LLM 개발자는 토크나이저를 단순한 전처리 유틸리티가 아닌 보안 중요 구성 요소로 취급해야 합니다. 런타임 토크나이제이션 무결성 검사를 구현하고, 하이브리드 토크나이제이션 접근법을 채택하며, 불완전 토큰 조합을 특별히 대상으로 하는 적대적 테스트를 수행해야 합니다.

원본 분석: 토크나이제이션 보안 패러다임

이 연구는 LLM 보안 환경에서 토크나이제이션을 개념화하는 방식을 근본적으로 전환시킵니다. 연구 결과는 바이트 레벨 BPE 토크나이저가 개별 모델 아키텍처를 초월하는 체계적 취약점을 생성한다는 것을 보여주며, 이는 초기 암호 시스템에서 발견된 근본적 결함을 연상시킵니다. 주로 훈련 부족 토큰에 영향을 미치는 글리치 토큰의 잘 문서화된 문제와 달리, 불완전 토큰 취약점은 잘 훈련된 모델에서도 지속되어 더 깊은 아키텍처 문제를 시사합니다.

동일한 입력 구문에 대체 토크나이제이션을 사용할 때 환각 발생률이 90% 감소한 것은 특히 심각한 문제입니다. 이러한 개선 규모는 현재 바이트 레벨 BPE 구현이 모델 처리 파이프라인에 상당한 노이즈를 도입하고 있음을 나타냅니다. 컴퓨터 비전의 적대적 견고성 문헌—비슷한 아키텍처 취약점이 광범위하게 연구된—과 비교할 때, 토크나이제이션 계층은 이미지 분류기의 결정 경계 취약성에 해당하는 NLP 동등체로 부상합니다.

이 연구를 특히 설득력 있게 만드는 것은 더 넓은 유니코드 보안 문제와의 연결입니다. 유니코드 컨소시엄은 오랫동안 혼동 가능 문자와 정규화 취약점에 대해 경고해왔지만, 이 작업은 그러한 우려를 신경망 아키텍처 영역으로 확장합니다. Command-R-v01의 더 큰 어휘 집합이 Llama3.1(71k)에 비해 극적으로 더 많은 불완전 바이그램(147만)과 상관관계가 있다는 발견은 이 근본적 문제를 해결하지 않고 어휘 크기를 확장하면 실제로 공격 표면이 증가할 수 있음을 시사합니다.

전망적으로, 이 연구는 암호화 커뮤니티의 입증 가능한 안전한 기본 요소 수용과 유사하게 "보안 우선 토크나이제이션"으로의 패러다임 전환을 촉진해야 합니다. 환각을 극적으로 줄이는 대체 토크나이제이션 접근법은 바이트 레벨 BPE의 효율성과 문자 레벨 또는 워드피스 접근법의 견고성을 결합한 하이브리드 방법을 지향합니다. LLM이 안전 중요 응용 프로그램에 점점 더 많이 배포됨에 따라, 이러한 토크나이제이션 수준 취약점을 해결하는 것은 단순한 학문적 관심사가 아닌 실질적인 필수 사항이 됩니다.

6. 향후 방향 및 응용

방어적 응용

견고한 토크나이제이션 표준: 효율성을 유지하면서 불완전 토큰을 최소화하는 토크나이제이션 방법 개발
적대적 테스트 프레임워크: 모델 개발 중 토크나이제이션 취약점을 감지하는 자동화 시스템
런타임 모니터링: 프로덕션 시스템에서 불가능한 바이그램 공격 탐지 및 완화

연구 기회

불완전 토큰 분포의 교차 언어 분석
검색 증강 생성과의 통합을 통한 문맥 취약성 완화
토크나이저 보안 속성에 대한 형식적 검증 방법 개발

산업 영향

연구 결과는 다음과 같은 분야에 즉각적인 영향을 미칩니다:

LLM 안전성 평가 벤치마크
차세대 모델의 토크나이저 설계
AI 시스템 보안을 위한 규제 프레임워크

7. 참고문헌

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017

목차