Содержание
1. Введение
Токенизация служит критически важным мостом между читаемым человеком текстом и обрабатываемыми моделью дискретными токенами в больших языковых моделях (БЯМ). Недавние исследования выявили значительные уязвимости в этом фундаментальном компоненте, особенно в байт-уровневых токенизаторах с байтовым парным кодированием (BPE). В данной статье исследуются неполные токены—недекодируемые токены с отдельными байтами, возникающие в результате байт-уровневой BPE-токенизации—и их подверженность эксплуатации через неправдоподобные биграммы.
Ключевая уязвимость проистекает из сильной зависимости неполных токенов от соседних токенов для правильного декодирования. При объединении с незнакомыми токенами в комбинациях, выходящих за пределы распределения, эти неполные токены становятся хрупкими и склонны провоцировать галлюцинаторное поведение в БЯМ. Наше исследование демонстрирует, что эта уязвимость сохраняется даже когда составные токены хорошо обучены, что отличает её от ранее выявленных проблем с глюк-токенами.
Снижение на 90%
Снижение галлюцинаций в Llama3.1 с альтернативной токенизацией
1.47M биграмм
Максимум неполных биграмм в токенизаторе Command-R-v01
6 моделей
Протестировано на нескольких семействах БЯМ
2. Основы BPE-токенизации
2.1 Реализация байт-уровневого BPE
Байт-уровневое BPE расширяет традиционный алгоритм BPE, работая напрямую с байтами в кодировке UTF-8, а не с символами Unicode. Алгоритм итеративно объединяет наиболее частые пары байтов или байтовых последовательностей согласно формуле:
$$\text{merge}(x,y) = \arg\max_{(x,y) \in V} \frac{\text{count}(x,y)}{\text{count}(x) \cdot \text{count}(y)}$$
где $V$ представляет текущий словарь, а $\text{count}(x,y)$ обозначает частоту байтовой пары $(x,y)$ в обучающем корпусе.
2.2 Определение неполных токенов
Неполные токены — это байт-уровневые токены, которые не могут быть независимо декодированы в валидные символы Unicode. Эти токены содержат отдельные байты, которые требуют комбинации с определёнными соседними токенами для формирования корректных UTF-8 последовательностей. Уязвимость возникает потому что:
- Неполным токенам не хватает независимого семантического значения
- Они проявляют сильную контекстуальную зависимость от соседних токенов
- Их байтовые паттерны создают неоднозначности при декодировании
3. Методология неправдоподобных биграмм
3.1 Техника конструирования
Неправдоподобные биграммы — это тщательно сконструированные комбинации двух неполных токенов, образующие пары, выходящие за пределы распределения. Конструирование следует этим принципам:
- Выбрать неполные токены из словаря токенизатора
- Обеспечить, чтобы комбинация создавала валидные UTF-8 байтовые последовательности
- Максимизировать статистическую неправдоподобность пары
- Убедиться, что биграмма не встречается в обучающих данных
3.2 Анализ уязвимостей
Механизм уязвимости действует через три основных канала:
Неоднозначность декодирования: Неполные токены создают неопределённости парсинга, которые распространяются через слои модели. Математическое представление показывает, как векторы эмбеддингов для неполных токенов $e_i$ проявляют более высокую дисперсию:
$$\text{Var}(e_i | \text{incomplete}) > \text{Var}(e_j | \text{complete})$$
Контекстуальная хрупкость: Структура зависимости делает эти токены хрупкими при удалении из ожидаемых контекстов, подобно нестабильности, наблюдаемой в состязательных примерах из исследований компьютерного зрения.
4. Экспериментальные результаты
4.1 Уровни галлюцинаций
Наши эксперименты на нескольких семействах БЯМ выявили драматические различия в уровнях галлюцинаций между стандартной и альтернативной токенизациями одних и тех же фраз:
| Модель | Стандартная токенизация | Альтернативная токенизация | Снижение |
|---|---|---|---|
| Llama3.1 | 45.2% | 4.5% | 90.0% |
| Qwen2.5 | 38.7% | 6.2% | 84.0% |
| Mistral-Nemo | 52.1% | 8.9% | 82.9% |
4.2 Сравнение между моделями
Масштаб уязвимости значительно варьируется между токенизаторами, как показано в нашем комплексном анализе:
| Токенизатор | Размер словаря | Неполные токены | Неполные биграммы |
|---|---|---|---|
| Meta-Llama-3.1 | 128k | 1,224 | 71k |
| Exaone-3.0 | 102k | 1,222 | 36k |
| Qwen2.5 | 151k | 1,320 | 39k |
| Command-R-v01 | 255k | 2,956 | 1.47M |
5. Фреймворк технического анализа
Ключевая идея
Парадигма байт-уровневой BPE-токенизации, будучи вычислительно эффективной, вводит фундаментальные архитектурные слабости, создающие системные слепые зоны в БЯМ. Это не просто ошибка реализации — это структурный недостаток в том, как современные токенизаторы обрабатывают сложность Unicode.
Логическая цепочка
Каскад уязвимости следует предсказуемой схеме: Байт-уровневая сегментация → Создание неполных токенов → Формирование контекстуальной зависимости → Эксплуатация статистической неправдоподобности → Запуск галлюцинаций. Эта цепочка показывает, что токенизация — это не просто предобработка, а критически важный слой безопасности.
Сильные стороны и недостатки
Сильные стороны: Методология исследования строгая, с кросс-модельной валидацией и количественными метриками. Концепция неправдоподобных биграмм предоставляет конкретный вектор атаки для тестирования устойчивости токенизаторов.
Недостатки: В статье недостаточно подчёркивается аспект загрязнения обучающих данных. Многие «неправдоподобные» комбинации могут фактически отражать редкие, но легитимные многоязычные текстовые паттерны, а не чистые артефакты.
Практические рекомендации
Разработчики БЯМ должны рассматривать токенизаторы как критически важные для безопасности компоненты, а не просто утилиты предобработки. Реализуйте проверки корректности токенизации в реальном времени, применяйте гибридные подходы к токенизации и проводите состязательное тестирование, специально нацеленное на комбинации неполных токенов.
Оригинальный анализ: Парадигма безопасности токенизации
Это исследование фундаментально меняет то, как мы должны концептуализировать токенизацию в ландшафте безопасности БЯМ. Результаты демонстрируют, что байт-уровневые BPE-токенизаторы создают системные уязвимости, которые выходят за рамки отдельных архитектур моделей, напоминая фундаментальные недостатки, обнаруженные в ранних криптографических системах. В отличие от хорошо документированных проблем с глюк-токенами — которые в основном затрагивают недообученные токены — уязвимость неполных токенов сохраняется даже в хорошо обученных моделях, что указывает на более глубокую архитектурную проблему.
Снижение уровня галлюцинаций на 90% при использовании альтернативной токенизации для одних и тех же входных фраз особенно показательно. Такая величина улучшения указывает на то, что текущие реализации байт-уровневого BPE вносят существенный шум в конвейер обработки модели. При сравнении с литературой по состязательной устойчивости в компьютерном зрении — где подобные архитектурные уязвимости были extensively изучены — слой токенизации emerges как NLP-эквивалент хрупкости границ решений в классификаторах изображений.
Что делает это исследование особенно убедительным, так это его связь с более широкими проблемами безопасности Unicode. Консорциум Unicode давно предупреждал о уязвимостях, связанных с confusables и нормализацией, но эта работа расширяет эти опасения в область нейронных архитектур. Находка о том, что больший словарь Command-R-v01 коррелирует с dramatically большим количеством неполных биграмм (1.47M против 71k в Llama3.1), предполагает, что масштабирование размера словаря без решения этой фундаментальной проблемы может фактически увеличить поверхность атаки.
В перспективе это исследование должно catalyze сдвиг парадигмы в сторону «токенизации, ориентированной на безопасность», подобно тому, как криптографическое сообщество embraced доказуемо безопасные примитивы. Альтернативные подходы к токенизации, которые dramatically снижают галлюцинации, указывают на гибридные методы, сочетающие эффективность байт-уровневого BPE с устойчивостью подходов на уровне символов или word-piece. По мере того как БЯМ всё чаще развёртываются в критически важных для безопасности приложениях, решение этих уязвимостей на уровне токенизации становится не просто академической проблемой, а практической необходимостью.
6. Перспективы и приложения
Защитные приложения
- Стандарты устойчивой токенизации: Разработка методов токенизации, которые минимизируют неполные токены, сохраняя эффективность
- Фреймворки состязательного тестирования: Автоматизированные системы для обнаружения уязвимостей токенизации во время разработки модели
- Мониторинг в реальном времени: Обнаружение и смягчение атак с помощью неправдоподобных биграмм в производственных системах
Возможности для исследований
- Кросс-лингвистический анализ распределений неполных токенов
- Интеграция с retrieval-augmented generation для смягчения контекстуальной хрупкости
- Разработка методов формальной верификации для свойств безопасности токенизаторов
Влияние на индустрию
Результаты имеют немедленные последствия для:
- Бенчмарков оценки безопасности БЯМ
- Дизайна токенизаторов в моделях следующего поколения
- Регуляторных фреймворков для безопасности систем ИИ
7. Ссылки
- Jang, E., Lee, K., Chung, J.-W., Park, K., & Shin, S. (2025). Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers. arXiv:2410.23684v2
- Rumbelow, J., & Watkins, M. (2023). SolidGoldMagikarp: A analysis of glitch tokens in large language models.
- Land, K., & Bartolo, A. (2024). Embedding layer heuristics for identifying glitch tokens.
- Wang, X., et al. (2024). Adversarial questions through tokenizer segmentation attacks.
- Petrov, A., et al. (2023). Tokenization fairness in multilingual models.
- Geiping, J., et al. (2024). Jailbreaking through token manipulation.
- Unicode Consortium. (2024). Unicode Security Considerations. Unicode Technical Report #36
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017