Preview

Политическая лингвистика

Расширенный поиск

АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА И ЛИНГВИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ КАК СПОСОБЫ РЕШЕНИЯ ПРОБЛЕМ АТРИБУЦИОННОЙ ЛИНГВИСТИКИ

https://doi.org/10.26170/pl20-03-22

Полный текст:

Аннотация

В настоящей работе речь пойдет об апробации интегративной методики атрибуционного анализа текста на русском языке, основанной на соединении результатов интерпретативного исследования материала и объективации этих результатов посредством математической статистики. Исследование построено по следующему алгоритму: 1) автоматическое извлечение из текста параметров, описывающих идиостиль с точки зрения прагматикона, тезауруса и лексикона автора; 2) поиск традиционных стиметрических текстовых данных; 3) присвоение веса каждому параметру; 4) построение математических моделей сравниваемых текстов; 5) сравнение математических моделей с целью выявления уровня их корреляции между собой. Поиск параметров, описывающих модель авторского идиостиля, ведется на основании подхода к тексту как к продукту деятельности конкретной языковой личности. Языковая личность автора описывается с позиции подхода Ю. Н. Караулова. Автоматическое извлечение предустановленных параметров осуществляется с помощью алгоритмов, сконструированных на ЯП Python. Для апробации алгоритма использованы тексты нежанровой художественной прозы разной тематики с заведомо известным авторством: «Наши» С. Д. Довлатова и «Обертон» В. П. Астафьева. Исследованием доказана работоспособность разработанной методики.

Об авторах

А. Ю. Хоменко
Национальный исследовательский университет «Высшая школа экономики»
Россия


Е. Р. Бенькович
Национальный исследовательский университет «Высшая школа экономики»
Россия


Д. И. Гайнутдинова
Национальный исследовательский университет «Высшая школа экономики»
Россия


Л. Р. Гасанова
Национальный исследовательский университет «Высшая школа экономики»
Россия


А. А. Костина
Национальный исследовательский университет «Высшая школа экономики»
Россия


З. О. Мазунина
Национальный исследовательский университет «Высшая школа экономики»
Россия


А. С. Николаева
Национальный исследовательский университет «Высшая школа экономики»
Россия


Е. В. Пимонова
Национальный исследовательский университет «Высшая школа экономики»
Россия


Список литературы

1. Вул, С. М. Криминалистическое исследование признаков письменной речи / С. М. Вул. - Киев, 1973. - 44 с. - Текст : непосредственный.

2. Вул, С. М. Судебно-автороведческая идентификационная экспертиза: методические основы : методическое пособие / С. М. Вул. - Xарьков : ХНИИСЭ, 2007. - 64 с. - Текст : непосредственный.

3. Галяшина, Е. И. Основы судебного речеведения / Е. И. Галяшина. - Москва, 2003. - 236 с. - Текст : непосредственный.

4. Горошко, Е. И. Судебно-автороведческая классификационная экспертиза: проблемы установления пола автора документа / Е. И. Горошко. - Текст : непосредственный // Теория и практика судебной экспертизы и криминалистики. - Харьков : Право, 2003. - Вып. 3. - С. 221-226.

5. Захаров, В. Н. Программа систем поддержки атрибуции текстов статей Ф. М. Достоевского / В. Н. Захаров ; соавт.: А. А. Леонтьев, А. А. Рогов, Ю. В. Сидоров. - Текст : непосредственный // Труд / ПетрГУ. - Петрозаводск, 2000. - Вып. 9. - С. 113-122. - (Сер. «Прикладная математик и информатика»).

6. Захаров, В. П. Статистический метод выявления коллокаций / В. П. Захаров, М. В. Хохлова. - Текст : непосредственный // Языковая инженерия: в поиске смыслов : доклады семинара «Лингвистические информационные технологии в Интернете» : XI Всероссийская объединенная конференция «Интернет и современное общество». - Санкт-Петербург : Изд-во Санкт-Петербургского университета, 2008. - С. 40-54.

7. Караулов, Ю. Н. Русский язык и языковая личность / Ю. Н. Караулов. - Москва : Наука, 1987. - 264 с. - Текст : непосредственный.

8. Комиссаров, А. Ю. Криминалистическое исследование письменной речи : учеб. пособие / А. Ю. Комиссаров. - Москва : ЭКЦ МВД России, 2000. - 126 с. - Текст : непосредственный.

9. Мартыненко, Г. Я. Стилеметрия: возникновение и становление в контексте междисциплинарного взаимодействия / Г. Я. Мартыненко. - Текст : непосредственный // Структурная и прикладная лингвистика : межвуз. сб. / под ред. А. С. Герда и И. С. Николаева. - Санкт-Петербург : Изд-во С.-Петерб. ун-та, 2015. - Вып. 11. - С. 9-28.

10. Марусенко, М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов / М. А. Марусенко. - Ленинград : Изд-во Ленингр. ун-та, 1990. - 164 с. - Текст : непосредственный.

11. Морозов, Н. А. Лингвистические спектры: средство для отличения плагиатов от истин. произведений того или др. известного авт. / Н. А. Морозов. - Петроград : Тип. Имп. Акад. наук, 1916. - 42 с. - URL: http://www.textolo gy.ru/library/book.aspx?bookId=1&textId=3 (дата обращения: 05.07.2019). - Текст : электронный.

12. Приказ от 27 декабря 2012 года N 237 «Об утверждении Перечня родов (видов) судебных экспертиз, выполняемых в федеральных бюджетных судебно-экспертных учреждениях Минюста России, и Перечня экспертных специальностей, по которым представляется право самостоятельного производства судебных экспертиз в федеральных бюджетных судебно-экспертных учреждениях Минюста России» (с изменениями на 13 сентября 2018 года) // Официальный интернет-портал правовой информации. - URL: www.pravo.gov.ru (дата обращения: 03.07.2019). - Текст : электронный.

13. Радбиль, Т. Б. Вероятностно-статистические модели в производстве автороведческой экспертизы русскоязычных текстов / Т. Б. Радбиль, М. В. Маркина. - Текст : непосредственный // Политическая лингвистика. - 2019. - № 2 (74). - С. 156-166.

14. Родионова, Е. С. Методы атрибуции художественных текстов / Е. С. Родионова. - Текст : непосредственный // Структурная и прикладная лингвистика : межвуз. сб. - Санкт-Петербург : Изд-во С.-Петерб. ун-та, 2008. - Вып. 7 / под ред. А. С. Герда. - С. 118-127.

15. Рубцова, И. И. Комплексная методика производства автороведческих экспертиз : методические рекомендации / И. И. Рубцова, Е. И. Ермолаева, А. И. Безрукова и др. - Москва : ЭКУ МВД России, 2007. - 192 с. - Текст : непосредственный.

16. Степаненко, А. А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений / А. А. Степаненко. - DOI 10.17223/15617 793/415/3. - Текст : непосредственный // Вестник Томского государственного университета. - 2017. - № 415. - С. 17-25.

17. Федеральный закон от 31 мая 2001 г. N 73-ФЗ «О государственной судебно-экспертной деятельности в Российской Федерации» // Российская газета. - 2001. - N 256 от 31 дек. - URL: https://base.garant.ru/12123142/ (дата обращения: 03.07. 2019). - Текст : электронный.

18. Campbell, L. The Sophisties and Polilicus of Plato / L. Campbell. - Oxford : Clarendon, 1867. - 170 p. - Text : unmediated.

19. Coulthard, M. Author identification, idiolect, and linguistic uniqueness / M. Coulthard. - Text : unmediated // Applied Linguistics. - 2004. - No 24 (4). - P. 431-447.

20. Juola, P. A Prototype for Authorship Attribution Studies / P. Juola, J. Sofko, P. Brennan. - Text : electronic // Literary and Linguistic Computing. - 2006. - Vol. 21. - Iss. 2. - 1 June. - P. 169-178. - URL: https://doi.org/10.1093/llc/fql0 (date of access: 05.07.2019).

21. Karlgren, J. Authorship Profiling Without Using Topical Information-Notebook for PAN at CLEF, 2018 / J. Karlgren, L. Esposito, Ch. Gratton, P. Kanerva. - URL: https://pdfs.semantic scholar.org/ee57/5920182cdc6de1337f71b07a25e830022459.pdf? _ga=2.139547835.909834531.1562339431-1809262388.15 62339431 (date of access: 05.07.2019). - Text : electronic.

22. Koppel, M. Exploiting Stylistic Idiosyncrasies for Authorship Attribution / M. Koppel, J. Schler. - Text : unmediated // Proceedings of IJCAI'03 Workshop on Computational Approaches to Style Analysis and Synthesis. - 2003. - No 69. - P. 72-80.

23. Labbe, C. Inter-Textual Distance and Authorship Attribution / C. Labbe, D. Labbe. - Text : unmediated // Corneille and Molière. Journal of Quantitative Linguistics. - Taylor & Francis (Routledge), 2001. - No 8 (3). - P. 213-231.

24. Litvinova, T. Gender identification in Russian written texts / T. Litvinova, P. Seredin, O. Litvinova, O. Zagorovskaya. - Text : electronic // XLinguae. - 2017. - Vol. 10. - Iss. 3. - P. 176-183. - URL: http://xlinguae.eu/files/XLinguae3_2017_14.pdf (date of access: 05.07.2019).

25. Lutoslawski, W. The origin and growth of Plato’s logic / W. Lutoslawski. - London, 1997. - 613 p. - Text : unmediated.

26. McMenamin, G. R. Forensic Linguistics: advances in forensic stylistics / G. R. McMenamin. - 2002. - 331 p. - Text : unmediated.

27. Mendenhall, T. The characteristic curves of composition / T. Mendenhall. - Text : unmediated // Science. - 1987. - No 9. - P. 237-249.

28. Merriam, T. An Application of Authorship Attribution by Intertextual Distance in English / T. Merriam. - Text : unmediated // Corpus. - 2003. - N 2. - P. 142-168.

29. Mosteller, F. Applied Bayesian and Classical Inference: The Case of the Federalist Papers / F. Mosteller, D. L. Wallace. - Addison-Wesley, Reading, MA, 1984. - Text : unmediated.

30. Wright, D. Using word n-grams to identify authors and idiolects: A corpus approach to a forensic linguistic problem / D. Wright. - Text : electronic // International Journal of Corpus Linguistics. - 2017. - 22 (2). - P. 212-241. - URL: https:// core.ac.uk/download/pdf/84587040.pdf (date of access: 05.07.2019).


Для цитирования:


Хоменко А.Ю., Бенькович Е.Р., Гайнутдинова Д.И., Гасанова Л.Р., Костина А.А., Мазунина З.О., Николаева А.С., Пимонова Е.В. АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА И ЛИНГВИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ КАК СПОСОБЫ РЕШЕНИЯ ПРОБЛЕМ АТРИБУЦИОННОЙ ЛИНГВИСТИКИ. Политическая лингвистика. 2020;(3):215-224. https://doi.org/10.26170/pl20-03-22

For citation:


Khomenko A.Y., Ben'kovich E.R., Gainutdinova D.I., Gasanova L.R., Kostina A.A., Mazunina Z.O., Nikolaeva A.S., Pimonova E.V. AUTOMATIC TEXT PROCESSING AND LINGUISTIC MODELING AS INSTRUMENTS FOR SOLVING PROBLEMS OF TEXT ATTRIBUTION. Political Linguistics. 2020;(3):215-224. (In Russ.) https://doi.org/10.26170/pl20-03-22

Просмотров: 15


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1999-2629 (Print)