Основы информационных технологий


Download 1.75 Mb.
Pdf ko'rish
bet47/49
Sana15.12.2022
Hajmi1.75 Mb.
#1008307
TuriУчебное пособие
1   ...   41   42   43   44   45   46   47   48   49
Bog'liq
Интеллектуальный анализ данных Чернышова

§3.5. Text Mining 
Text Mining охватывает новые методы для выполнения семантическо-
го анализа текстов, информационного поиска и управления. Синонимом 
понятия Text Mining является KDT (Knowledge Discovering in Text – поиск 
или обнаружение знаний в тексте). Text Mining – алгоритмическое выяв-
ление прежде неизвестных связей и корреляций в уже имеющихся тек-
стовых данных. Технологии Text Mining предназначены для проведения 
смыслового анализа, обеспечения навигации и поиска в неструктуриро-
ванных текстах. 
В отличие от технологии Data Mining, которая предусматривает ана-
лиз упорядоченной в некие структуры информации, технология Text 


– 89 – 
Mining анализирует большие и сверхбольшие массивы неструктуриро-
ванной информации.
Классическая схема обработки текстов подразумевает несколько по-
следовательных этапов: на первом происходит нормализация слов с уче-
том морфологии языка; на втором – семантический анализ текста, когда 
уточняется конкретный смысл слова в зависимости от контекста. Затем 
строится семантический образ исходного документа, на основе которого 
делаются интеллектуальные запросы на анализ текстов. 
Важный компонент технологии Text Mining связан с извлечением из 
текста его характерных элементов или свойств, которые могут использо-
ваться в качестве метаданных документа, ключевых слов, аннотаций. 
Другая важная задача состоит в отнесении документа к некоторым кате-
гориям из заданной схемы их систематизации. 
Программы, реализующие эту задачу, должны некоторым образом 
оперировать естественным человеческим языком и при этом понимать 
семантику анализируемого текста. Один из методов, на котором основа-
ны некоторые Text Mining системы, – поиск так называемой подстроки в 
строке.
Аналитические системы для работы с текстами документов необходи-
мы для комплексного анализа предметной области в больших информа-
ционных хранилищах (архивах) документов. 
Результаты аналитической обработки документов мониторинга пред-
метных областей используются в математическом прогнозировании и 
анализе рынков и социальной обстановки. 
Аналитические системы обработки документов – пример процедуры 
извлечения знаний. Средства, позволяющие решать задачи извлечения 
знаний из огромного информационного потока (хранилища документов), 
– обязательный инструмент аналитика в системе управления знаниями. 


– 90 – 

Download 1.75 Mb.

Do'stlaringiz bilan baham:
1   ...   41   42   43   44   45   46   47   48   49




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling