Preview

Электронные библиотеки

Расширенный поиск

Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил

https://doi.org/10.26907/1562-5419-2025-28-5-1085-1102

Аннотация


Представлен гибридный нейросимволический метод, который объединяет большую языковую модель (LLM) и конечный автомат (FST) для обеспечения морфологической корректности при генерации текста на агглютинативных языках.
Система автоматически извлекает правила из корпусных данных: для локальных примеров словоформ LLM формирует цепочки морфологического разбора, которые затем агрегируются и упорядочиваются в компактные описания правил морфотактики (LEXC) и выбора алломорфов (regex). На этапе генерации LLM и FST работают совместно: если токен не распознается автоматом, LLM извлекает из контекста пару «лемма + теги», а FST реализует корректную поверхностную форму. В качестве набора данных использован корпус художественной литературы (~1600 предложений). Для списка из 50 существительных извлечено 250 словоформ. По предложенному алгоритму LLM сгенерировала 110 контекстных regex-правил вместе с LEXC-морфотактикой, на основе чего был скомпилирован FST, распознавший 170/250 форм (~70%). В прикладном тесте машинного перевода на подкорпусе из 300 предложений интеграция данного FST в цикл LLM повысила качество с BLEU 16.14 / ChrF 45.13 до BLEU 25.71 / ChrF 50.87 без дообучения переводчика. Подход применим к иным частям речи и другим агглютинативным и малоресурсным языкам, где он может быть использован для наполнения словарных и грамматических ресурсов.

Об авторах

Марат Вильданович Исангулов
Казанский (Приволжский) федеральный университет
Россия


Александр Михайлович Елизаров
Казанский (Приволжский) федеральный университет
Россия


Айгиз Ражапович Кунафин

Россия


Айрат Рафизович Гатиатуллин
Академия наук Республики Татарстан
Россия


Николай Аркадиевич Прокопьев
Академия наук Республики Татарстан
Россия


Список литературы

1. Sproat R., Østling R. The morphological gap between translation quality and surface accuracy // Proceedings of the WMT 2020 Conference. Online, 2020. P. 1015–1024.

2. Kann K., Cotterell R., Schütze H. Neural models of inflectional morphology // Proceedings of the 15th Conference of the European Chapter of the ACL (EACL 2017). Valencia, 2017. P. 322–334.

3. Mielke S., Eisenstein J., Cotterell R. Dialect-to-dialect translation and cross-dialect morphological robustness of language models // Transactions of the ACL. 2021. Vol. 9. P. 288–302.

4. Koskenniemi K. Two-level morphology: a general computational model for word-form recognition and production. Helsinki: University of Helsinki, Department of General Linguistics, 1983. 38 p.

5. Beesley K.R., Karttunen L. Finite-State Morphology. Stanford (CA): CSLI Publications, 2003. 550 p.

6. Stahlberg F., Hasler E., Waite A. SGNMT: A flexible NMT decoding toolkit for quick prototyping of new models // Proceedings of ACL System Demonstrations. Vancouver, 2017. P. 67–72.

7. Hulden M. FST-based grammar correction for richly inflected languages // Proceedings of ACL Workshop on Finite-State Methods. Montréal, 2012. P. 32–39.

8. Tamchyna A., Bojar O. Target-side context for morphological reinflection // Proceedings of the First Conference on Machine Translation (WMT 2016). Berlin, 2016. P. 586–594.

9. Schwartz L., Liu S., Surrain S. Bootstrapping a neural morphological analyzer from an existing FST // Proceedings of the ACL Workshop on Morphological Resources 2022. Seattle, 2022. P. 12–20.


Рецензия

Для цитирования:


Исангулов М.В., Елизаров А.М., Кунафин А.Р., Гатиатуллин А.Р., Прокопьев Н.А. Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил. Электронные библиотеки. 2025;28(5):1085-1102. https://doi.org/10.26907/1562-5419-2025-28-5-1085-1102

For citation:


Isangulov M.V., Elizarov A.M., Kunafin A.R., Gatiatullin A.R., Prokopyev N.A. Neuro-Symbolic Approach to Augmented Text Generation via Automated Induction of Morphotactic Rules. Russian Digital Libraries Journal. 2025;28(5):1085-1102. (In Russ.) https://doi.org/10.26907/1562-5419-2025-28-5-1085-1102

Просмотров: 23

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)