Preview

Казанский лингвистический журнал

Расширенный поиск

Автоматическое распознавание лексических заимствований в корпусе текстов

https://doi.org/10.26907/2658-3321.2025.8.2.204-217

Аннотация

В эпоху глобализации и активного взаимодействия носителей языка с представителями разных культур пополнение словарного состава иноязычными словами становится ключевым фактором развития и обогащения языковой системы. Однако в связи с увеличением объёма текстовых данных ручной анализ и поиск лексических единиц становятся менее эффективным и времязатратным. Это делает актуальным применение методов автоматической обработки естественного языка (NLP) для извлечения заимствований. Цель – рассмотреть несколько подходов автоматического извлечения лексических единиц с 1986 по настоящее время, а также разработать алгоритм для решения данной задачи. Материал исследования представлен собранным корпусом из 22348 английских предложений, полученных с сайтов 11 ведущих университетов Австрии, Германии и России. Для проверки результатов использовались 47 новых предложений. Дополнительно были сгенерированы 1318 новых предложений, содержащих немецкие заимствования с помощью чат-ботов. Методы – в исследовании использовалась мультиязыковая модель “bert-base-multilingual-cased”. Производилась разметка корпуса с использованием двух тегов, обозначающих наличие/отсутствие немецкого заимствования в предложении. Затем осуществлялось дообучение модели на размеченном корпусе и на дополнительно сгенерированных предложениях. Результаты исследования показывают, что современные подходы позволяют достичь высокой точности, однако остаются трудности, связанные с работой моделей с различными языковыми парами и улучшением их производительности. Кроме того, описан алгоритм автоматического извлечения немецких заимствований из английских предложений с помощью дообученной на 900 текстах модели BERT. Модель показала высокие результаты и смогла успешно распознать 30 из 43 слов немецкого происхождения.

Об авторах

А. В. Дмитриев
Санкт-Петербургский политехнический университет Петра Великого
Россия

Дмитриев Александр Владиславович – Доцент

Санкт-Петербург



Е. С. Крупнова
Санкт-Петербургский политехнический университет Петра Великого
Россия

Крупнова Елена Сергеевна – Специалист по учебно-методической работе 1 категории

Санкт-Петербург



Список литературы

1. Köllner M. Automatic loanword identification using tree reconciliation. Dissertation zur Erlangung des akademischen Grades Doktor der Philosophie in der Philosophischen Fakultat der Eberhard Karls. Universitat Tubingen; 2021. 216 p.

2. Mennecier P., Nerbonne J., Heyer E., Manni F. A Central Asian Language Survey: Collecting Data, Measuring Relatedness and Detecting Loans. Language Dynamics and Change. 2016; 6: 57–98.

3. Beatrice A. Comparing Corpus-based to Web-based Lookup Techniques for Automatic English Inclusion Detection. URL: http://www.lrec-conf.org/proceedings/lrec2008/pdf/674_paper.pdf [дата обращения: 20.01.2025].

4. Álvarez-Mellado E. An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper Headlines; 2020. URL: https://arxiv.org/pdf/2004.02929.pdf [дата обращения: 25.01.2025].

5. Shengyi J., Tong C., Yingwen F., Nankai L. and Jieyi X. BERT4EVER at ADoBo 2021: Detection of Borrowings in the Spanish Language Using Pseudolabel Technology; 2021. URL: https://ceur-ws.org/Vol-2943/adobo_paper1.pdf (дата обращения: 23.01.2025)

6. Nath A., Saravani S.M., Khebour I., Mannan S., Liand Z., et al. A Generalized Method for Automated Multilingual Loanword Detection. Proceedings of the 29th International Conference on Computational Linguistics; 2022. Pp. 4996–5013.

7. Miller J.E., Tresoldi T., Zariquiey R., Beltrán Castañon C.A., et al. Using lexical language models to detect borrowings in monolingual wordlists. 2020; 15(12):1–23.

8. Кортегосо В.Н., Захаров В.П. Два метода выявления русских заимствований в якутских текстах. International Journal of Open Information Technologies. 2022;10 (11):26–34.

9. Падерина Т. С. Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле). Казанский лингвистический журнал. 2023; 6(3): 388–396.

10. Devlin J., Chang M.W., Kenton L., Toutanova K. Pre-training of Deep Bidirectional Transformers for Language. URL: http://arxiv.org/abs/1810.04805 (accessed: 27.01.2025)


Рецензия

Для цитирования:


Дмитриев А.В., Крупнова Е.С. Автоматическое распознавание лексических заимствований в корпусе текстов. Казанский лингвистический журнал. 2025;8(2):204-217. https://doi.org/10.26907/2658-3321.2025.8.2.204-217

For citation:


Dmitrijev A.V., Krupnova E.S. Automatic Detection of Lexical Loanwords in a Text Corpus. Kazan linguistic journal. 2025;8(2):204-217. (In Russ.) https://doi.org/10.26907/2658-3321.2025.8.2.204-217

Просмотров: 3


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2658-3321 (Print)