Неправдоподобные биграммы: Уязвимости в байт-уровневых BPE-токенизаторах

Содержание

1. Введение

Токенизация служит критически важным мостом между читаемым человеком текстом и обрабатываемыми моделью дискретными токенами в больших языковых моделях (БЯМ). Недавние исследования выявили значительные уязвимости в этом фундаментальном компоненте, особенно в байт-уровневых токенизаторах с байтовым парным кодированием (BPE). В данной статье исследуются неполные токены—недекодируемые токены с отдельными байтами, возникающие в результате байт-уровневой BPE-токенизации—и их подверженность эксплуатации через неправдоподобные биграммы.

Ключевая уязвимость проистекает из сильной зависимости неполных токенов от соседних токенов для правильного декодирования. При объединении с незнакомыми токенами в комбинациях, выходящих за пределы распределения, эти неполные токены становятся хрупкими и склонны провоцировать галлюцинаторное поведение в БЯМ. Наше исследование демонстрирует, что эта уязвимость сохраняется даже когда составные токены хорошо обучены, что отличает её от ранее выявленных проблем с глюк-токенами.

Снижение на 90%

Снижение галлюцинаций в Llama3.1 с альтернативной токенизацией

1.47M биграмм

Максимум неполных биграмм в токенизаторе Command-R-v01

6 моделей

Протестировано на нескольких семействах БЯМ

2. Основы BPE-токенизации

2.1 Реализация байт-уровневого BPE

Байт-уровневое BPE расширяет традиционный алгоритм BPE, работая напрямую с байтами в кодировке UTF-8, а не с символами Unicode. Алгоритм итеративно объединяет наиболее частые пары байтов или байтовых последовательностей согласно формуле:

$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$

где $V$ представляет текущий словарь, а $\text{count}(x,y)$ обозначает частоту байтовой пары $(x,y)$ в обучающем корпусе.

2.2 Определение неполных токенов

Неполные токены — это байт-уровневые токены, которые не могут быть независимо декодированы в валидные символы Unicode. Эти токены содержат отдельные байты, которые требуют комбинации с определёнными соседними токенами для формирования корректных UTF-8 последовательностей. Уязвимость возникает потому что:

Неполным токенам не хватает независимого семантического значения
Они проявляют сильную контекстуальную зависимость от соседних токенов
Их байтовые паттерны создают неоднозначности при декодировании

3. Методология неправдоподобных биграмм

3.1 Техника конструирования

Неправдоподобные биграммы — это тщательно сконструированные комбинации двух неполных токенов, образующие пары, выходящие за пределы распределения. Конструирование следует этим принципам:

Выбрать неполные токены из словаря токенизатора
Обеспечить, чтобы комбинация создавала валидные UTF-8 байтовые последовательности
Максимизировать статистическую неправдоподобность пары
Убедиться, что биграмма не встречается в обучающих данных

3.2 Анализ уязвимостей

Механизм уязвимости действует через три основных канала:

Неоднозначность декодирования: Неполные токены создают неопределённости парсинга, которые распространяются через слои модели. Математическое представление показывает, как векторы эмбеддингов для неполных токенов $e_i$ проявляют более высокую дисперсию:

$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$

Контекстуальная хрупкость: Структура зависимости делает эти токены хрупкими при удалении из ожидаемых контекстов, подобно нестабильности, наблюдаемой в состязательных примерах из исследований компьютерного зрения.

4. Экспериментальные результаты

4.1 Уровни галлюцинаций

Наши эксперименты на нескольких семействах БЯМ выявили драматические различия в уровнях галлюцинаций между стандартной и альтернативной токенизациями одних и тех же фраз:

Модель	Стандартная токенизация	Альтернативная токенизация	Снижение
Llama3.1	45.2%	4.5%	90.0%
Qwen2.5	38.7%	6.2%	84.0%
Mistral-Nemo	52.1%	8.9%	82.9%

4.2 Сравнение между моделями

Масштаб уязвимости значительно варьируется между токенизаторами, как показано в нашем комплексном анализе:

Токенизатор	Размер словаря	Неполные токены	Неполные биграммы
Meta-Llama-3.1	128k	1,224	71k
Exaone-3.0	102k	1,222	36k
Qwen2.5	151k	1,320	39k
Command-R-v01	255k	2,956	1.47M

5. Фреймворк технического анализа

Ключевая идея

Парадигма байт-уровневой BPE-токенизации, будучи вычислительно эффективной, вводит фундаментальные архитектурные слабости, создающие системные слепые зоны в БЯМ. Это не просто ошибка реализации — это структурный недостаток в том, как современные токенизаторы обрабатывают сложность Unicode.

Логическая цепочка

Каскад уязвимости следует предсказуемой схеме: Байт-уровневая сегментация → Создание неполных токенов → Формирование контекстуальной зависимости → Эксплуатация статистической неправдоподобности → Запуск галлюцинаций. Эта цепочка показывает, что токенизация — это не просто предобработка, а критически важный слой безопасности.

Сильные стороны и недостатки

Сильные стороны: Методология исследования строгая, с кросс-модельной валидацией и количественными метриками. Концепция неправдоподобных биграмм предоставляет конкретный вектор атаки для тестирования устойчивости токенизаторов.

Недостатки: В статье недостаточно подчёркивается аспект загрязнения обучающих данных. Многие «неправдоподобные» комбинации могут фактически отражать редкие, но легитимные многоязычные текстовые паттерны, а не чистые артефакты.

Практические рекомендации

Разработчики БЯМ должны рассматривать токенизаторы как критически важные для безопасности компоненты, а не просто утилиты предобработки. Реализуйте проверки корректности токенизации в реальном времени, применяйте гибридные подходы к токенизации и проводите состязательное тестирование, специально нацеленное на комбинации неполных токенов.

Оригинальный анализ: Парадигма безопасности токенизации

Это исследование фундаментально меняет то, как мы должны концептуализировать токенизацию в ландшафте безопасности БЯМ. Результаты демонстрируют, что байт-уровневые BPE-токенизаторы создают системные уязвимости, которые выходят за рамки отдельных архитектур моделей, напоминая фундаментальные недостатки, обнаруженные в ранних криптографических системах. В отличие от хорошо документированных проблем с глюк-токенами — которые в основном затрагивают недообученные токены — уязвимость неполных токенов сохраняется даже в хорошо обученных моделях, что указывает на более глубокую архитектурную проблему.

Снижение уровня галлюцинаций на 90% при использовании альтернативной токенизации для одних и тех же входных фраз особенно показательно. Такая величина улучшения указывает на то, что текущие реализации байт-уровневого BPE вносят существенный шум в конвейер обработки модели. При сравнении с литературой по состязательной устойчивости в компьютерном зрении — где подобные архитектурные уязвимости были extensively изучены — слой токенизации emerges как NLP-эквивалент хрупкости границ решений в классификаторах изображений.

Что делает это исследование особенно убедительным, так это его связь с более широкими проблемами безопасности Unicode. Консорциум Unicode давно предупреждал о уязвимостях, связанных с confusables и нормализацией, но эта работа расширяет эти опасения в область нейронных архитектур. Находка о том, что больший словарь Command-R-v01 коррелирует с dramatically большим количеством неполных биграмм (1.47M против 71k в Llama3.1), предполагает, что масштабирование размера словаря без решения этой фундаментальной проблемы может фактически увеличить поверхность атаки.

В перспективе это исследование должно catalyze сдвиг парадигмы в сторону «токенизации, ориентированной на безопасность», подобно тому, как криптографическое сообщество embraced доказуемо безопасные примитивы. Альтернативные подходы к токенизации, которые dramatically снижают галлюцинации, указывают на гибридные методы, сочетающие эффективность байт-уровневого BPE с устойчивостью подходов на уровне символов или word-piece. По мере того как БЯМ всё чаще развёртываются в критически важных для безопасности приложениях, решение этих уязвимостей на уровне токенизации становится не просто академической проблемой, а практической необходимостью.

6. Перспективы и приложения

Защитные приложения

Стандарты устойчивой токенизации: Разработка методов токенизации, которые минимизируют неполные токены, сохраняя эффективность
Фреймворки состязательного тестирования: Автоматизированные системы для обнаружения уязвимостей токенизации во время разработки модели
Мониторинг в реальном времени: Обнаружение и смягчение атак с помощью неправдоподобных биграмм в производственных системах

Возможности для исследований

Кросс-лингвистический анализ распределений неполных токенов
Интеграция с retrieval-augmented generation для смягчения контекстуальной хрупкости
Разработка методов формальной верификации для свойств безопасности токенизаторов

Влияние на индустрию

Результаты имеют немедленные последствия для:

Бенчмарков оценки безопасности БЯМ
Дизайна токенизаторов в моделях следующего поколения
Регуляторных фреймворков для безопасности систем ИИ

7. Ссылки

Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
Geiping, J., et al. (2024). Jailbreaking through token manipulation.
Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017