Основы информационных технологий
Download 1.75 Mb. Pdf ko'rish
|
Интеллектуальный анализ данных Чернышова
§3.5. Text Mining
Text Mining охватывает новые методы для выполнения семантическо- го анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text – поиск или обнаружение знаний в тексте). Text Mining – алгоритмическое выяв- ление прежде неизвестных связей и корреляций в уже имеющихся тек- стовых данных. Технологии Text Mining предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктуриро- ванных текстах. В отличие от технологии Data Mining, которая предусматривает ана- лиз упорядоченной в некие структуры информации, технология Text – 89 – Mining анализирует большие и сверхбольшие массивы неструктуриро- ванной информации. Классическая схема обработки текстов подразумевает несколько по- следовательных этапов: на первом происходит нормализация слов с уче- том морфологии языка; на втором – семантический анализ текста, когда уточняется конкретный смысл слова в зависимости от контекста. Затем строится семантический образ исходного документа, на основе которого делаются интеллектуальные запросы на анализ текстов. Важный компонент технологии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые могут использо- ваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым кате- гориям из заданной схемы их систематизации. Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основа- ны некоторые Text Mining системы, – поиск так называемой подстроки в строке. Аналитические системы для работы с текстами документов необходи- мы для комплексного анализа предметной области в больших информа- ционных хранилищах (архивах) документов. Результаты аналитической обработки документов мониторинга пред- метных областей используются в математическом прогнозировании и анализе рынков и социальной обстановки. Аналитические системы обработки документов – пример процедуры извлечения знаний. Средства, позволяющие решать задачи извлечения знаний из огромного информационного потока (хранилища документов), – обязательный инструмент аналитика в системе управления знаниями. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling