Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
Михайлов Д.В., Козлов А.П., Емельянов Г.М.

 

Новгородский государственный университет имени Ярослава Мудрого, Великий Новгород, Россия

Аннотация:
Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются известные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематического текстового корпуса. По сравнению с поиском совокупностей указанных составляющих на синтаксически размеченном текстовом корпусе, предложенный в работе метод отбора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.

Ключевые слова :
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.

Цитирование:
Михайлов, Д.В.
Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2016. – Т. 40, № 4. – С. 572-582. – DOI: 10.18287/2412-6179-2016-40-4-572-582.

Литература:

  1. Кольцов, П.П. О количественной оценке эффективности алгоритмов анализа изображений / П.П. Кольцов, А.С. Осипов, А.С. Куцаев, А.А. Кравченко, Н.В. Котович, А.В. Захаров // Компьютерная оптика. – 2015. – Т. 39, № 4. – С. 542-556. – DOI: 10.18287/0134-2452-2015-39-4-542-556.
  2. Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2015. – Т. 39, № 3. – С. 429-438. – DOI: 10.18287/0134-2452-2015-39-3-429-438.
  3. Царьков, С.В. Автоматическое выделение ключевых фраз для построения словаря терминов в тематических моделях коллекций текстовых документов / С.В. Царьков // Естественные и технические науки. – 2012. – № 6. – С. 456-464.
  4. Шеннон, К. Работы по теории информации и кибернетики / К. Шеннон; пер. с англ. – М.: Иностранная литература, 1963. – С. 669-686.
  5. Национальный корпус русского языка [Электронный ресурс]. – URL: http://www.ruscorpora.ru/ (дата обра-щения 26.02.2016).
  6. Biemann, C. Language-independent Methods for Compiling Monolingual Lexical Data / C. Biemann, S. Bordag, G. Heyer, U. Quasthoff, C. Wolff // 5th International Conference “Computational Linguistics and Intelligent Text Processing” (CICLing 2004). – 2004. – Vol. 2945. – P. 217-228.
  7. McDonald, J.H. G-test of goodness-of-fit / J.H. McDo­nald. – Handbook of Biological Statistics. – Third ed. – Baltimore, Maryland: Sparky House Publishing, 2014. – P. 53-58.
  8. Дистрибутивно-статистический метод построения тезау­русов: современное состояние и перспективы / В.А. Мос­кович. – М., 1971. – 66 с.
  9. Tanimoto, T.T. An elementary mathematical theory of classification and prediction / T.T. Tanimoto. – New York: International Business Machines Corporation, 1958. – 10 p.
  10. Емельянов, Г.М. Формирование единиц представления предметных знаний в задаче их оценки на основе открытых тестов / Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов // Машинное обучение и анализ данных. – 2014. – Т. 1, № 8. – С. 1089-1106. – ISSN 2223-3792.
  11. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко. – Новосибирск: Издательство института математики, 1999. – 270 с. 
  12. Гречников, Е.А. Поиск неестественных текстов / Е.А. Гречников, Г.Г. Гусев, А.А. Кустарев, А.М. Райгородский // Труды XI Всероссийской научной конференции RCDL’2009. – Петрозаводск: КарНЦ РАН, 2009. – С. 306-308.
  13. Manber, U. Finding Similar Files in a Large File System / U. Manber // USENIX Winter 1994 Technical Conference Proceedings. – 1994. – P. 1-10.
  14. Heintze, N. Scalable Document Fingerprinting / N. Heintze // Proceedings of the Second USENIX Workshop on Electronic Commerce. – 1996. – P. 191-200.
  15. Бродский, А. Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008 / А. Бродский, Р. Ковалев, М. Лебедев, Д. Лещинер, П. Сушин, И. Мучник // Труды РОМИП 2007-2008. – СПб., 2008. – С. 160-169.
  16. Karp, R.M. Efficient randomized pattern-matching algorithms / Richard M. Karp, Michael O. Rabin // IBM Journal of Research and Development. – 1987. – Vol. 31(2). – P. 249-260. – ISSN 0018-8646.
  17. Knuth, D. Fast pattern matching in strings / Donald E. Knuth, James H. Morris, Vaughan R. Pratt // SIAM Journal on Computing. – 1977. – Vol. 6(2). – P. 323-350. – ISSN 0097-5397.
  18. Boyer, R.S. A fast string searching algorithm / Robert S. Boyer, J. Strother Moore // Communications of the ACM. – 1977. – Vol. 20(10). – P. 762-772. – ISSN 0001-0782.
  19. Apache OpenNLP [Электронный ресурс]. – URL: https://opennlp.apache.org/ (дата обращения 31.03.2016).
  20. Leipzig Corpora Collection Download Page [Электронный ресурс]. – URL: http://corpora2.informatik.uni-leipzig.de/download.html (дата обращения 31.03.2016).
  21. Gurevich, I. The challenges, the problems and the tasks of the descriptive approach to image analysis / I. Gurevich, Yu. Trusova, V. Yashina // 11th International Conference «Pattern Recognition and Image Analysis: New Information Technologies» (PRIA-11-2013). Samara, September 23-28, 2013: Conference Proceedings. – Vol. 1. – Samara: IPSI RAS, 2013. – P. 30-35.

© 2009, IPSI RAS
Institution of Russian Academy of Sciences, Image Processing Systems Institute of RAS, Russia, 443001, Samara, Molodogvardeyskaya Street 151; E-mail: ko@smr.ru; Phones: +7 (846) 332-56-22, Fax: +7 (846) 332-56-20