Fast WordPiece 토큰화: BERT 및 그 이상을 위한 선형 시간 알고리즘

1. 서론

토큰화는 감정 분석부터 기계 번역에 이르기까지 거의 모든 자연어 처리(NLP) 작업의 기초적인 전처리 단계입니다. BERT, GPT-3, XLNet과 같은 현대 모델들은 어휘 외 단어를 처리하면서 텍스트를 의미 있는 단위로 분할하기 위해 서브워드 토큰화, 특히 WordPiece와 같은 알고리즘에 의존합니다. 본 논문은 중요한 병목 현상인 WordPiece 토큰화 알고리즘 자체의 효율성 문제를 다룹니다.

저자들은 WordPiece에서 사용되는 표준적인 탐욕적 최장 일치 우선(MaxMatch) 전략이 차선의 시간 복잡도—$O(n^2)$ 또는 $O(nk)$ (여기서 $n$은 입력 길이, $k$는 최대 토큰 길이)—를 가진다는 점을 지적합니다. 그들은 단일 단어 토큰화에 대해 엄격한 $O(n)$ 선형 시간 복잡도를 달성하는 새로운 알고리즘 LinMaxMatch와 일반 텍스트를 위한 통합 종단 간 (E2E) WordPiece 알고리즘을 제안합니다.

2. 배경 및 관련 연구

BERT에서 사용되는 WordPiece 토큰화는 두 단계로 이루어집니다: (1) 공백과 구두점을 기준으로 텍스트를 단어로 사전 토큰화하고, (2) 각 단어에 대해 고정된 어휘집에 대해 MaxMatch 알고리즘을 적용합니다. MaxMatch는 중국어 단어 분할에서도 사용되며, 남은 문자열에서 어휘집 토큰과 일치하는 가장 긴 접두사를 반복적으로 선택합니다.

이전의 효율적인 알고리즘들은 $O(n^2)$ 또는 $O(nk)$에 제한되었습니다. $k$ 요소는 어휘집이 긴 토큰(예: "supercalifragilisticexpialidocious")을 포함할 수 있기 때문에 문제가 됩니다. 본 논문의 기여는 이 어휘집 의존적 요소를 완전히 제거한 데 있습니다.

3. LinMaxMatch 알고리즘

3.1 핵심 아이디어 및 영감

LinMaxMatch는 Aho-Corasick 문자열 매칭 알고리즘에서 영감을 받았습니다. 핵심 통찰은 어휘집을 패턴 집합으로, 입력 단어를 텍스트로 취급하는 것입니다. 어휘집 트라이에 보조 자료 구조를 사전 계산함으로써, 알고리즘은 매칭 중 백트래킹을 피할 수 있으며, 이는 순진한 MaxMatch에서 2차 복잡도의 원인입니다.

3.2 자료 구조: 트라이, 실패 링크, 실패 팝

이 알고리즘은 오프라인 전처리 단계에서 어휘집으로부터 구축된 세 가지 핵심 자료 구조를 사용합니다:

트라이: 각 노드가 문자를 나타내고 루트에서의 경로가 어휘집 토큰을 나타내는 표준 접두사 트리입니다.
실패 링크 (Aho-Corasick과 유사): 문자열 $s$를 나타내는 노드에 대해, 그 실패 링크는 $s$의 가장 긴 고유 접미사이면서 동시에 어떤 어휘집 토큰의 접두사인 노드를 가리킵니다. 이를 통해 알고리즘이 효율적으로 "페일오버"할 수 있습니다.
실패 팝: 새로운 추가 사항입니다. 노드에서 실패 링크를 따라 이동할 때, 알고리즘은 해당 노드에서 끝나는 하나 이상의 매칭된 토큰을 "팝"할 수 있습니다. 이 목록은 사전 계산되어 저장됩니다.

3.3 알고리즘 상세 설명

길이 $n$의 입력 단어에 대해, 알고리즘은 문자를 왼쪽에서 오른쪽으로 한 번의 순회로 처리합니다. 트라이에서 현재 노드를 유지합니다. 각 새로운 문자에 대해:

현재 노드에서 매칭되는 에지를 따라가려고 시도합니다.
성공하면 자식 노드로 이동합니다. 이 노드가 어휘집 토큰의 끝점이라면, 이를 잠재적 매치로 기록합니다.
매칭되는 에지가 없으면, 현재 노드의 실패 링크를 따라갑니다. 연결된 "실패 팝" 목록에 저장된 토큰들을 수집합니다. 그런 다음, 새로운 노드에서 동일한 입력 문자 매칭을 재시도합니다.

이 과정은 모든 문자가 정확히 한 번씩 처리되도록 보장하여 $O(n)$ 시간을 보장합니다.

4. 종단 간 (E2E) WordPiece 토큰화

전체 문장이나 문서를 토큰화하기 위해, 저자들은 사전 토큰화 단계(공백/구두점 기준 분할)를 LinMaxMatch와 통합하여 단일 통합 알고리즘으로 제안합니다. 이 E2E WordPiece 알고리즘 또한 전체 텍스트 길이에 대해 선형 시간으로 동작하여 별도의 단계에 따른 오버헤드를 피합니다. 이는 동일한 트라이 순회 프레임워크 내에서 경계 감지와 서브워드 매칭을 교묘히 인터리브합니다.

5. 실험 결과 및 성능

본 논문은 그들의 구현을 두 개의 널리 사용되는 라이브러리(HuggingFace Tokenizers와 TensorFlow Text)와 비교한 설득력 있는 벤치마크를 제시합니다.

성능 비교

평균 속도 향상:

HuggingFace Tokenizers보다 8.2배 빠름.
TensorFlow Text보다 5.1배 빠름.

일반 텍스트 토큰화 작업에서 테스트됨.

결과는 이론적인 $O(n)$ 이점이 특히 긴 텍스트나 모바일 추론과 같은 지연 시간에 민감한 환경에서 현실 세계의 상당한 성능 향상으로 이어짐을 보여줍니다.

6. 핵심 통찰 및 분석

핵심 통찰

본 논문의 근본적인 돌파구는 단순히 더 빠른 토크나이저가 아닙니다. 그것은 토큰화를 고전적인 오토마타 이론으로 해결 가능한 문자열 매칭 문제로 공식적으로 인식한 것입니다. WordPiece의 MaxMatch를 순진한 탐욕적 탐색에서 Aho-Corasick 변형으로 재구성함으로써, 저자들은 수십 년 된 이론 컴퓨터 과학과 응용 NLP 공학 사이의 간극을 메웁니다. 이는 CycleGAN 논문이 이미지 번역을 사이클 일관적 적대적 학습 문제로 재구성하여 새로운 패러다임을 창출한 방식을 연상시킵니다.

논리적 흐름

논증은 논리적으로 완벽합니다: 1) 병목 현상($O(n^2)$/$O(nk)$ 복잡도)을 식별합니다. 2) 검증된 최적 알고리즘(Aho-Corasick)에서 영감을 얻습니다. 3) MaxMatch의 특정 제약 조건(존재 여부뿐만 아니라 모든 매칭된 토큰을 출력해야 함)에 맞게 조정합니다. 4) 이러한 제약을 처리하기 위한 새로운 자료 구조(실패 팝)를 도입합니다. 5) 전체 파이프라인(E2E)으로 해결책을 확장합니다. 문제에서 영감, 적응, 일반화로의 흐름은 모범적인 응용 연구입니다.

강점과 약점

강점: $O(n)$ 보장은 이론적으로 우아하고 실제로 검증되었습니다. 전처리 비용은 일회성 오버헤드입니다. Google AI와 같은 기관의 온디바이스 AI 연구 트렌드에서 지지받듯, 모바일/엣지 NLP에 대한 영향은 상당할 수 있습니다.

잠재적 약점/누락: 논문은 향상된 트라이(실패 링크 및 팝)의 메모리 오버헤드에 대해 가볍게 언급하지만 심층 분석하지는 않습니다. 대규모 어휘집(예: 다국어 모델)의 경우 이는 무시할 수 없을 수 있습니다. 더욱이, 벤치마크는 인상적이지만 특정 구현에 대한 비교입니다. 다른 최적화된 MaxMatch 변형(예: 접미사 배열 사용)과의 비교는 주장을 강화할 것입니다.

실행 가능한 통찰

NLP 실무자들을 위해: 즉시 토큰화 지연 시간을 프로파일링하십시오. 특히 스트리밍이나 모바일 애플리케이션의 경우, 총 추론 시간의 1-2% 이상을 차지한다면 LinMaxMatch와 같은 알고리즘을 채택하는 것은 높은 ROI를 가진 최적화입니다. 연구자들을 위해: 이 작업은 문을 엽니다. 유사한 오토마타 기반 접근법으로 Byte-Pair Encoding (BPE)나 SentencePiece를 최적화할 수 있을까요? 백트래킹을 사전 계산된 상태 전이로 대체하는 핵심 아이디어는 NLP의 다른 탐욕적 분할 알고리즘에 널리 적용 가능합니다.

7. 기술적 세부 사항 및 수학적 공식화

LinMaxMatch의 핵심은 공식화될 수 있습니다. 다음과 같이 정의합니다:

$V$ = 어휘집, 문자열의 집합.
$T$ = $V$로부터 구축된 트라이.
트라이 노드 $u$에 대해, $L(u)$를 루트에서 $u$까지의 문자로 형성된 문자열이라고 합니다.
실패 함수 $f(u)$: $L(v)$가 $L(u)$의 가장 긴 고유 접미사이면서 동시에 $T$의 노드인 노드 $v$.
실패 팝 $P(u)$: $t$가 $L(u)$의 접미사이고, $f(u)$(또는 $u$ 자체)로 가는 경로 상에 $L(w) = t$인 노드 $w$가 존재하는 어휘집 토큰 $t \in V$의 집합입니다. 이는 모든 노드에 대해 사전 계산됩니다.

입력 문자열 $S[1..n]$의 토큰화는 현재 노드 $u$(초기값은 루트)와 인덱스 $i$를 유지하며 진행됩니다. $i \leq n$인 동안:

에지 레이블이 $S[i]$인 $u$의 자식 $v$가 존재하면, $u = v$, $i = i+1$로 설정합니다. $u$가 어휘집 토큰의 끝을 표시하면, 이를 기록합니다.
그렇지 않으면, $P(u)$의 모든 토큰을 출력합니다. $u = f(u)$로 설정합니다. $i$를 증가시키지 않습니다. $u$가 루트이고 $S[i]$와 일치하는 자식이 없으면, $i = i+1$로 설정합니다(알 수 없는 문자 처리).

이 루프의 $O(n)$ 복잡도는 명확합니다. $i$가 증가하거나 $u$가 실패 링크를 따르기 때문이며, 이는 단계당 상수로 분할 상환될 수 있습니다.

8. 분석 프레임워크: 사례 연구

시나리오: 스마트폰의 실시간 음성 비서를 위한 토큰화 최적화. 현재 파이프라인은 인기 있는 라이브러리의 표준 WordPiece 토크나이저를 사용합니다.

프레임워크 적용:

기준선 측정: 프로파일링 결과 쿼리당 토큰화가 약 15ms를 소모하며, 이는 총 파이프라인 지연 시간(125ms)의 12%에 해당합니다. 목표는 <100ms입니다.
병목 현상 분석: 쿼리는 종종 길며(음성 문장), 어휘집에 기술적 복합어가 포함되어 있어 $O(nk)$ 요소가 중요합니다.
해결책 설계: 토크나이저를 LinMaxMatch로 교체합니다. 실패 링크/팝이 있는 향상된 트라이 구축의 일회성 비용은 모델 배포 중에 허용 가능합니다.
예상 결과: 논문의 5-8배 속도 향상을 기반으로, 토큰화 시간은 약 2-3ms로 떨어져 총 지연 시간을 약 112ms로 줄일 것이며, 이는 목표를 향한 확실한 진전입니다. 상수 시간 보장은 또한 지연 시간 예측 가능성을 향상시킵니다.

이 사례 연구는 알고리즘의 이론적 특성이 현대 AI 시스템의 실질적 제약을 어떻게 직접적으로 해결하는지 보여줍니다.

9. 적용 전망 및 미래 방향

효율적이고 선형 시간의 토큰화의 함의는 BERT를 넘어 확장됩니다:

온디바이스 및 엣지 AI: GPT 유사 아키텍처와 같은 모델들이 휴대폰용으로 정제됨에 따라, 전처리에서 절약된 매 밀리초가 누적됩니다. 이 작업은 차세대 반응적이고 오프라인 가능한 NLP 애플리케이션의 기초입니다.
스트리밍 토큰화: 실시간 번역이나 라이브 자막 생성의 경우, $O(n)$ 복잡도는 예측 가능한 성능을 보장합니다. 향후 연구는 무한 스트림에 대한 증분 토큰화를 탐구할 수 있습니다.
다국어 및 대규모 어휘집: 100개 이상의 언어에 걸쳐 100만 개 이상의 토큰을 가진 어휘집으로 확장. 사전 계산된 구조의 메모리 공간을 최적화하기 위한 연구가 필요하며, 아마도 압축 트라이나 근사 방법을 사용할 수 있습니다.
모델 아키텍처와의 통합: 토큰화가 부분적으로 학습되거나 트랜스포머의 첫 번째 레이어와 병합될 수 있을까요? 문맥에 기반한 "동적 토큰화"는 여전히 열려 있는 도전 과제이지만, 이와 같은 효율적인 기본 알고리즘은 그러한 탐구의 전제 조건입니다.

10. 참고문헌

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT.
Aho, A. V., & Corasick, M. J. (1975). Efficient string matching: an aid to bibliographic search. Communications of the ACM.
Kudo, T. (2018). Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates. ACL.
Wolf, T., et al. (2020). HuggingFace's Transformers: State-of-the-art Natural Language Processing. arXiv preprint arXiv:1910.03771.
Google. (2020). TensorFlow Text. https://www.tensorflow.org/text
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV. (패러다임 전환적 재구성의 예로 인용됨).

목차