Журнал: Социологическая наука и социальная практика

Пинчук А. Н., Карепова С. Г., Тихомиров Д. А.
Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза)

DOI: https://doi.org/10.19181/snsp.2024.12.1.3. EDN: LOUOJW

Пинчук Антонина Николаевна
РЭУ имени Г. В. Плеханова, Москва, Россия
Карепова Светлана Геннадьевна
Институт социологии ФНИСЦ РАН, Москва, Россия
Тихомиров Дмитрий Андреевич
РЭУ имени Г. В. Плеханова, Москва, Россия


 

Полный текст

Открыть текст

Ссылка при цитировании:

Пинчук А. Н., Карепова С. Г., Тихомиров Д. А. Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза) // Социологическая наука и социальная практика. 2024. Том. 12. № 1. С. 62-79.
DOI: https://doi.org/10.19181/snsp.2024.12.1.3. EDN: LOUOJW

Рубрика:

МЕТОДОЛОГИЯ И МЕТОДЫ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ

Выражение признательности

Исследование выполнено за счёт гранта Российского научного фонда № 24-28-00549 «Культурная маргинальность российских студентов: развитие человеческого потенциала новых поколений как проблема и ресурс развития патриотизма в основных положениях и мерах по реализации государственной молодёжной политики» (руководитель: кандидат социологических наук Д. А. Тихомиров).

Аннотация:

В статье рассматриваются возможности применения методов Text Mining в практике анализа открытых вопросов анкеты. В работе представлен пример исследования униграмм и биграмм, а также поиска латентных топиков с помощью тематического моделирования. Эмпирическими материалами послужили данные проведённого в 2022 году анкетного опроса, в котором приняло участие 929 студентов одного московского экономического вуза. В открытом вопросе анкеты предлагалось определить миссию университета, что дало возможность представить в плоскости субъективной интерпретации предназначение высшей школы в современных условиях. Частотный анализ униграмм, дополненный качественным исследованием высказываний респондентов, позволил составить словарь студенческого дискурса о миссии вуза. Артикулирование биграмм осуществлялось на основе нескольких статистических метрик, с опорой на которые были проранжированы словосочетания и выделен ключевой набор концептов. Выявлено, что в восприятии студентов первоочередные задачи вуза прежде всего направлены на трансляцию профессиональных знаний и навыков, в широком смысле – подготовку квалифицированных специалистов. Социальные функции университета, ориентированные на удовлетворение потребностей общества и государства, в концептуальных интерпретациях опрошенных студентов выражены слабее. На следующем этапе исследования была выдвинута задача анализа латентных топиков с помощью тематического моделирования. Особенностью тематического моделирования является то, что объединённые в один топик слова отражают идентифицированное программой распределение слов, но не в буквальном смысле понятную для человека тему. Учитывая специфику применяемого метода, авторы продемонстрировали результаты поискового анализа в практике обработки открытого вопроса. Как оказалось, ключевые слова, сосредоточенные в ядре основных тем, в основном связаны с обеспечением потребностей самих обучающихся, оставляя на периферии вербализируемых определений понимание значимости вуза как платформы для инноваций, научных разработок, предпринимательских и иных инициатив во благо общества и страны. Результаты представленного исследования могут быть полезны для переосмысления исследовательского инструментария социологов в условиях активного развития цифровых технологий, что требует апробации новых методов, понимания их реальных возможностей и ограничений в решении задач социологического исследования.

Литература:

  • 1. Классификация текстовых документов на основе Text Minig / А. А. Алексеев, А. С. Катасёв, А. Е. Кириллов, А. П. Кирпичников // Вестник технологического университета. 2016. Т. 19, № 18. C. 116–119. EDN WYBSGN.
  • 2. Hotho A., N?rnberger A., Paa? G. A Brief Survey of Text Mining // Journal for Language Technology and Computational Linguistics. 2005. Vol. 20, № 1. P. 19– 62. DOI 10.21248/jlcl.20.2005.68.
  • 3. Isaeva E., Aldarova D. Text-Mining in Terms of Methodology and Development // Proceedings of 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (ElConRus). (Moscow, 26–29 January 2021). Moscow : IEEE, 2021. P. 413–416. DOI 10.1109/ElConRus51938.2021.9396437. EDN SECGLN.
  • 4. Осочкин А. А., Фомин В. В., Флегонтов А. В. Метод частотно-морфологической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 3. С. 478–486. DOI 10.15827/0236-235X.030.3.478-486. EDN ZDUXZD.
  • 5. Macanovic A. Text mining for social science – The state and the future of computational text analysis in sociology // Social Science Research. 2022. Vol. 108. P. 1–16. DOI 10.1016/j.ssresearch.2022.102784. EDN SXELZJ.
  • 6. Evans J. A., Aceves P. Machine Translation: Mining Text for Social Theory // Annual Review of Sociology. 2016. Vol. 42. P. 21–50. DOI 10.1146/annurevsoc-081715-074206.
  • 7. Does counting emotion words on online social networks provide a window into people’s subjective experience of emotion? A case study on Facebook / E. Kross, P. Verduyn, M. Boyer [et al.] // Emotion. 2019. Vol. 19, № 1. P. 97–107. DOI 10.1037/emo0000416.
  • 8. Karlgren J., Li R., Meyersson Milgrom E. M. Text mining for processing interview data in computational social science // arXiv : [сайт]. 28 Nov 2020. URL: https://arxiv.org/abs/2011.14037 (дата обращения: 26.10.2023). DOI 10.48550/arXiv.2011.14037.
  • 9. Дудина В. И., Юдина Д. И. Извлекая мнения из сети Интернет: могут ли методы анализа текстов заменить опросы общественного мнения? // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 5 (141). С. 63–78. DOI 10.14515/monitoring.2017.5.05. EDN VTHJMT.
  • 10. Кольцова О. Ю., Маслинский К. А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: 4М. 2013. № 36. C. 113–139. EDN RCFOWJ.
  • 11. Кашина М. А., Ткач С. Социология ценностей: опыт построения таксономии путём использования технологии анализа естественного языка // Цифровая социология. 2023. Т. 6, № 1. С. 48–58. DOI 10.26425/2658-347X-2023-6-1-4858. EDN YROQXD.
  • 12. Оценка соответствия приоритетов стратегического развития регионов их отраслевой специализации на основе Text Mining / Е. В. Козоногова, Ю. В. Дубровская, М. Р. Русинова, П. В. Иванов // Вопросы государственного и муниципального управления. 2022. № 2. С. 106–133. DOI 10.17323/19995431-2022-0-2-106-133. EDN JRFOUQ.
  • 13. Kotsiantis S. B., Kanellopoulos D., Pintelas P. E. Data Preprocessing for Supervised Leaning // International Journal of Computer and Information Engineering. 2007. Vol. 1, № 12. P. 4091–4096.
  • 14. Bird S., Klein E., Loper E. Natural language processing with Python. Sebastopol : O’Reilly Media, 2009. 479 p. ISBN 978-0-596-51649-9.
  • 15. Воронцов К. В. Вероятностное тематическое моделирование. 2013. 28 с. URL: https://mathprofi.com/uploads/files/3314_f_41_veroyatnostnoe-tematicheskoe-modelirovanie.-k.v.voroncov-2013g.pdf?key=19789ad13cac2399925acb68b1e18d8e/ (дата обращения: 26.10.2023).
  • 16. Оберемко О. А. К типологии открытых вопросов // Мониторинг общественного мнения: Экономические и социальные перемены. 2018. № 4 (146). С. 97–108. DOI 10.14515/monitoring.2018.4.06. EDN UZQQIE.
  • 17. Ненько А. Е., Недосека Е. В., Галактионова А. А. Возможности семантического анализа ключевых биграмм для исследования дискурса соседского онлайн сообщества // International Journal of Open Information Technologies. 2021. Т. 9, № 12. С. 111–118. DOI 10.25559/INJOIT.2307-8162.09.202112.111-118. EDN QTJRPZ.
  • 18. Хохлова М. В. Статистический подход применительно к исследованию сочетаемости: от мер ассоциации к машинному обучению // Структурная и прикладная лингвистика: межвуз. сб. / Отв. ред. И. С. Николаев. СПб : Изд-во С.-Петерб. ун-та, 2019. Вып. 13. С. 106–122. EDN GKFUJY.
  • 19. Хохлова М. В. К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций // Компьютерная лингвистика и вычислительные онтологии. 2019. № 3. С. 9–18. DOI 10.17586/25419781-2019-3-9-18. EDN LCONAI.
  • 20. Kormacheva D., Pivovarova L., Kopotev M. Evaluation of collocation extraction methods for the Russian language // Quantitative approaches to the Russian language. New York : Routledge, 2018. P. 137–157. DOI 10.4324/9781315105048-7.
  • 21. Рассел М., Классен М. Data Mining. 3-е изд. СПб. : Питер, 2020. 464 с. ISBN 978-5-4461-1246-3.
  • 22. Кирина М. А. Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа русской художественной прозы малой формы // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2022. Т. 20, № 2. С. 93–109. DOI 10.25205/1818-7935-2022-202-93-109. EDN MWZRKH.
  • 23. Тематическое моделирование в контексте медицинских текстов / С. А. Землянский, С. В. Аксёнов, И. А. Лызин, О. Г. Берестнева // Доклады ТУСУР. 2021. Т. 24, № 4. С. 58–64. DOI 10.21293/1818-0442-2021-24-4-58-64. EDN PWQTGR.
  • 24. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Т. 4, № 4. С. 693–706. EDN PWNZXV.
  • 25. P??kk?nen J., Ylikoski P. Humanistic interpretation and machine learning // Synthese. 2021. Vol. 199, № 1. P. 1461–1497. DOI 10.1007/s11229-02002806-w. EDN CDPQZP.
  • 26. Луков В. А. Тезаурусная социология : в 4 т. М. : Изд-во Моск. гуманит. ун-та, 2018. Т. 1. 608 с. ISBN 978-5-907017-45-0.

Сведения об авторах


Пинчук Антонина Николаевна
РЭУ имени Г. В. Плеханова, Москва, Россия
кандидат социологических наук, доцент, старший научный сотрудник

Карепова Светлана Геннадьевна
Институт социологии ФНИСЦ РАН, Москва, Россия
кандидат социологических наук, ведущий научный сотрудник

Тихомиров Дмитрий Андреевич
РЭУ имени Г. В. Плеханова, Москва, Россия
кандидат социологических наук, доцент, ведущий научный сотрудник

Содержание выпуска

>> Содержание выпуска 2024. Том. 12. № 1.
>> Архив журнала