Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры tf-idf
Михайлов Д.В., Козлов А.П., Емельянов Г.М.

Новгородский государственный университет имени Ярослава Мудрого, Новгород, Россия

Аннотация:
Статья посвящена проблеме выделения единиц знаний из множеств (корпусов) тематических текстов. Данная проблема актуальна для построения систем обработки, анализа, оценивания и понимания информации, в частности, изображений. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка (ЕЯ) для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области (ПО). В настоящей статье разбиением слов исходной фразы на классы по значению меры TF-IDF относительно текстов корпуса решается задача поиска в корпусе фраз, максимально близких исходной по описываемому фрагменту фактического знания и формам его выражения в языке.

Ключевые слова :
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний.

Цитирование:
Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2015. Т. 39, № 3. – С. 429-438. – DOI: 10.18287/0134-2452-2015-39-3-429-438.

Литература:

  1. Сойфер, В.А. Анализ и распознавание наномасштабных изображений: традиционные подходы и новые постановки задач / В.А. Сойфер, А.В. Куприянов // Компьютерная оптика. – 2011. – Т. 35, № 2. – С. 136-144. – ISSN 0134-2452.
  2. Царьков, С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов / С.В. Царьков // Естественные и технические науки. – 2012. – № 6. – С. 456-464. – ISSN 1684-2626.
  3. Gurevich, I. The challenges, the problems and the tasks of the descriptive approach to image analysis / I. Gurevich, Yu. Trusova, V. Yashina // 11th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-11-2013). – 2013. – Vol. 1. – P. 30-35.
  4. Емельянов, Г.М. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов / Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов // Машинное обучение и анализ данных. – 2014. – Т. 1, № 8. – С. 1089-1106. – ISSN 2223-3792.
  5. Мельчук, И.А. Опыт теории лингвистических моделей «СмыслÛТекст»: Семантика, синтаксис / И.А. Мельчук. – М.: Школа «Языки русской культуры», 1999. – 345 с.
  6. Huang,  E. Paraphrase Detection Using Recursive Autoencoder / E.  Huang [Электронный ресурс]. – 2011. – URL: http://nlp.stanford.edu/courses/cs224n/2011/reports/ehhuang.pdf  (дата обращения 22.05.2015).
  7. Jones, K.S. A statistical interpretation of term specificity and its application in retrieval / K.S. Jones // Journal of Documentation. – 2004. – Vol. 60(5). – P. 493-502.
  8. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко. – Новосибирск: Издательство института математики, 1999. – 270 с.
  9. Воронцов, К.В. Многокритериальные и многомодальные вероятностные тематические модели коллекций текстовых документов / К.В. Воронцов, А.А. Потапенко, А.И. Фрей, М.А. Апишев, Н.В. Дойков, А.В. Шапулин, Н.А. Чиркова // 10-я Междунар. конф. ИОИ-2014: Тезисы докладов. – 2014. – С. 198.
  10. russianmorphology: Russian Morphology for lucene [Электронный ресурс]. – URL: http://code.google.com/p/rus­sianmorphology/ (дата обращения 19.04.2015).
  11. Apache PDFBox [Электронный ресурс]. –  URL: https://pdfbox.apache.org (дата обращения 19.04.2015).
  12. Турдаков, Д. Texterra: инфраструктура для анализа текстов [Электронный ресурс] / Д. Турдаков, Н. Астраханцев, Я. Недумов, А. Сысоев, И. Андрианов, В. Майоров, Д. Федоренко, А. Коршунов, С. Кузнецов. – 2014. – URL: http://www.ispras.ru/ru/proceedings/docs/2014/26/1/isp_26_2014_1_421.pdf (дата обращения 19.04.2015).  
  13. Serelex [Электронный ресурс]. – URL: http://sere­lex.cental.be (дата обращения 19.04.2015).
  14. WordNet [Электронный ресурс]. – URL: https://wordnet.princeton.edu/ (дата обращения 25.05.2015).
  15. Baroni, M. The wacky wide web: A collection of very large linguistically processed web-crawled corpora / M. Baroni, S. Bernardini, A. Ferraresi, E. Zanchetta [Электронный ресурс]. – 2008. – URL: http://wacky.sslmit.uni­bo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf (дата обращения 19.04.2015).
  16. Шеннон, К. Работы по теории информации и кибернетики / К. Шеннон; пер. с англ. – М.: Иностранная литература, 1963. –  С. 669–686. (Shannon C.E. Prediction and entropy of printed English. BSTJ 1951; 30(1): 50-64).

© 2009, IPSI RAS
Institution of Russian Academy of Sciences, Image Processing Systems Institute of RAS, Russia, 443001, Samara, Molodogvardeyskaya Street 151; E-mail: ko@smr.ru; Phones: +7 (846) 332-56-22, Fax: +7 (846) 332-56-20