Выделение знаний, языковых форм их выражения и оценка эффективности  формирования множества тематических текстов
Михайлов Д.В., Козлов А.П., Емельянов Г.М.
   
  Новгородский государственный университет имени  Ярослава Мудрого, Великий Новгород, Россия
Аннотация:
Статья посвящена взаимосвязанным проблемам  выделения единиц знаний из множества (корпуса) тематических текстов и отбора  текстов в корпус анализом релевантности исходной фразе. Данные проблемы  актуальны для построения систем обработки, анализа, оценивания и понимания  информации. Конечной практической целью является поиск наиболее рационального  варианта передачи смысла средствами заданного естественного языка для  последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области.  При этом релевантность текста по описываемому фрагменту знания (включая формы  выражения в языке) определяется суммарной численной оценкой силы связи  встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе  рассматриваются известные варианты такой оценки и особенности их использования  для выделения составляющих образа исходной фразы в виде слов и их сочетаний в  текстах при формировании тематического текстового корпуса. По сравнению с  поиском совокупностей указанных составляющих на синтаксически размеченном  текстовом корпусе, предложенный в работе метод отбора текстов позволяет в  среднем в 15 раз сократить выход фраз, не релевантных исходной ни по  описываемому фрагменту знания, ни по языковым формам его выражения.
Ключевые слова
  :
  распознавание образов, интеллектуальный анализ  данных, теория информации, тест открытой формы, языковое представление  экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование  документов.
Цитирование: 
Михайлов, Д.В. Выделение знаний, языковых форм их выражения и оценка эффективности  формирования множества тематических текстов / Д.В. Михайлов, А.П. Козлов,  Г.М. Емельянов // Компьютерная оптика. – 2016. – Т. 40, № 4. –  С. 572-582. – DOI: 10.18287/2412-6179-2016-40-4-572-582.
Литература:
  - Кольцов, П.П. О количественной оценке эффективности алгоритмов анализа изображений /  П.П. Кольцов,  А.С. Осипов, А.С. Куцаев,  А.А. Кравченко, Н.В. Котович, А.В. Захаров // Компьютерная оптика. – 2015. – Т. 39, № 4. – С. 542-556.  – DOI: 10.18287/0134-2452-2015-39-4-542-556.
- Михайлов, Д.В. Выделение знаний и языковых форм их выражения  на множестве тематических текстов: подход на основе меры TF-IDF / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. – 2015. – Т. 39, № 3. – С. 429-438.  – DOI: 10.18287/0134-2452-2015-39-3-429-438.
- Царьков, С.В. Автоматическое выделение  ключевых фраз для построения словаря терминов в тематических моделях коллекций  текстовых документов / С.В. Царьков // Естественные и  технические науки. – 2012. – № 6. – С. 456-464. 
- Шеннон, К. Работы по теории  информации и кибернетики / К. Шеннон; пер. с англ. – М.:  Иностранная литература, 1963. – С. 669-686. 
- Национальный корпус  русского языка [Электронный ресурс]. – URL: http://www.ruscorpora.ru/ (дата обра-щения  26.02.2016).
- Biemann, C. Language-independent  Methods for Compiling Monolingual Lexical Data / C. Biemann,  S. Bordag, G. Heyer, U. Quasthoff, C. Wolff // 5th  International Conference “Computational  Linguistics and Intelligent Text Processing” (CICLing 2004). – 2004. – Vol. 2945. – P. 217-228.
- McDonald, J.H. G-test of goodness-of-fit  / J.H. McDonald. – Handbook of Biological Statistics. – Third ed. – Baltimore, Maryland:  Sparky House Publishing, 2014. – P. 53-58.
- Дистрибутивно-статистический  метод построения тезаурусов: современное состояние и перспективы / В.А. Москович.  – М., 1971.  – 66 с.
- Tanimoto, T.T. An elementary mathematical  theory of classification and prediction / T.T. Tanimoto. – New York: International Business Machines Corporation, 1958. – 10 p.
- Емельянов, Г.М. Формирование единиц  представления предметных знаний в задаче их оценки на основе открытых тестов /  Г.М. Емельянов, Д.В. Михайлов, А.П. Козлов // Машинное обучение и анализ данных. – 2014.  – Т. 1, № 8. – С. 1089-1106. – ISSN 2223-3792. 
- Прикладные методы анализа  данных и знаний / Н.Г. Загоруйко. – Новосибирск: Издательство института математики,  1999. – 270 с.  
- Гречников, Е.А. Поиск неестественных  текстов / Е.А. Гречников, Г.Г. Гусев,  А.А. Кустарев, А.М. Райгородский // Труды XI  Всероссийской научной конференции RCDL’2009. – Петрозаводск:  КарНЦ РАН, 2009. – С. 306-308.
- Manber, U. Finding Similar Files in a  Large File System / U. Manber // USENIX Winter 1994 Technical Conference  Proceedings. – 1994. – P. 1-10.
- Heintze, N. Scalable Document  Fingerprinting / N. Heintze // Proceedings of the Second USENIX Workshop  on Electronic Commerce. – 1996. – P. 191-200.
- Бродский, А. Алгоритмы  контекстно-зависимого аннотирования Яндекса на РОМИП-2008 / А. Бродский,  Р. Ковалев, М. Лебедев, Д. Лещинер,  П. Сушин, И. Мучник // Труды РОМИП  2007-2008. – СПб., 2008. – С. 160-169.
- Karp, R.M. Efficient randomized pattern-matching algorithms / Richard  M. Karp, Michael O. Rabin // IBM Journal of Research and Development.  – 1987. – Vol. 31(2). – P. 249-260. – ISSN 0018-8646. 
- Knuth, D. Fast pattern matching in strings /  Donald E. Knuth, James H. Morris, Vaughan R. Pratt  // SIAM Journal on Computing. – 1977. – Vol. 6(2). – P. 323-350. –  ISSN 0097-5397. 
- Boyer, R.S. A fast string searching  algorithm / Robert S. Boyer, J. Strother Moore // Communications of the ACM.  – 1977. – Vol. 20(10). – P. 762-772. – ISSN 0001-0782. 
- Apache OpenNLP [Электронный ресурс]. – URL: https://opennlp.apache.org/  (дата обращения 31.03.2016).
- Leipzig Corpora Collection Download Page [Электронный ресурс]. – URL:  http://corpora2.informatik.uni-leipzig.de/download.html (дата обращения  31.03.2016).
- Gurevich, I. The challenges, the  problems and the tasks of the descriptive approach to image analysis /  I. Gurevich, Yu. Trusova, V. Yashina // 11th  International Conference «Pattern Recognition and Image Analysis: New  Information Technologies» (PRIA-11-2013). Samara, September 23-28, 2013:  Conference Proceedings. – Vol. 1. – Samara: IPSI RAS, 2013. – P. 30-35.
  
  
  © 2009, IPSI RAS
  Institution of Russian  Academy of Sciences, Image Processing  Systems Institute of RAS, Russia,  443001, Samara, Molodogvardeyskaya Street 151; E-mail: ko@smr.ru; Phones: +7 (846) 332-56-22, Fax: +7 (846) 332-56-20