Preview

Казанский лингвистический журнал

Расширенный поиск

Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле)

https://doi.org/10.26907/2658-3321.2023.6.3.388-396

Аннотация

Статья посвящена описанию теоретических и прикладных положений первоначального этапа работы по автоматическому извлечению терминов из научных текстов. Данный этап работы является частью государственного задания научной лаборатории лингво-педагогических исследований по теме «Лингвосемиотическая гетерогенность научной картины мира: теоретическое и лингводидактическое описание». Цель исследования заключается в извлечении терминов из подготовленного корпуса научных текстов, относящихся к определенной предметной области. Для этого был использован корпус научных текстов по направлению Науки о Земле, подготовленный методом случайной выборки при помощи приложения Semantic Scholar. Извлечение терминов при помощи автоматической обработки текстов (АОТ) является перспективным направлением исследования, так как позволяет упростить процесс создания терминосистем или составления онтологии для узкоспециализированных предметных областей. В условиях быстро меняющегося потока информации данный вид работы с текстами, безусловно остается актуальным направлением и позволяет быстрее и эффективнее обрабатывать большие объемы материалов. Однако, необходимо отметить, что автоматическое извлечение терминов (АОТ) не всегда является точным и может содержать ошибки. Поэтому, важно проводить дополнительную проверку и корректировку полученных результатов. Перспективы исследования связаны с совершенствованием существующих инструментов автоматической обработки текстов (АОТ). Кроме этого, анализ извлеченных терминов позволил нам сформировать основу для дальнейших практических исследований по созданию цифрового продукта (цифровой модели определенных терминосистем) для хранения, систематизации и использования терминосистем по определённой узкоспециализированной предметной области.

Об авторе

T. С. Падерина
Иркутский научный центр Сибирского отделения Российской академии наук
Россия

Падерина Татьяна Сергеевна – Младший научный сотрудник

Иркутск



Список литературы

1. Дементьева Я.Ю., Бручес Е.П., Батура Т.В. Извлечение терминов из текстов научных статей. Программные продукты и системы/Software & Systems. 2022;35(4):689–697. DOI: 10.15827/0236-235X.140.689-697

2. Большакова Е.И., Семак В.В. Комбинирование методов для извлечения терминов из научно-технического текста. Интеллектуальные системы. Теория и приложения. 2021;25(4):239–242.

3. Grishman R. Information Extraction. In: The Handbook of Computational Linguistics and Natural Language Processing. A. Clark, C. Fox, and S. Lappin (Eds). WileyBlackwell; 2010. Pp. 515–530.

4. Бручес Е. П., Батура Т. В. Метод автоматического извлечения терминов из научных статей на основе слабо контролируемого обучения. Вестник НГУ. Серия: Информационные технологии. 2021;19(2):5–16. DOI 10.25205/1818-7900-2021-19-2-5-16

5. Рогачева В. Э. Методы извлечения терминологических единиц из корпуса сопоставимых текстов. Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2017;(2):118–122.

6. Eckart de Castilho R., Mújdricza-Maydt, É.,et al. A Web-based Tool for the Integrated Annotation of Semantic and Syntactic Structures. In Proceedings of the LT4DH workshop at COLING. 2016. Osaka, Japan.

7. Шейко А.М. Инструменты прикладной лингвистики в контроле качества перевода. Казанский лингвистический журнал. 2023;6(2):282–293. DOI 10.26907/2658-3321.2023.6.2.282-293.


Рецензия

Для цитирования:


Падерина T.С. Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле). Казанский лингвистический журнал. 2023;6(3):388-396. https://doi.org/10.26907/2658-3321.2023.6.3.388-396

For citation:


Paderina T.S. Methods for Terminology Extraction in Scientific Texts (Based on Articles of Earth Sciences). Kazan linguistic journal. 2023;6(3):388-396. (In Russ.) https://doi.org/10.26907/2658-3321.2023.6.3.388-396

Просмотров: 5


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2658-3321 (Print)