Курсовая работа по дисциплине "Информационно-коммуникационные технологии" на тему "Организация хранения и поиска информации в сети Интернет" Направление подготовки


Поисковые системы и правила поиска информации


Download 171.45 Kb.
bet4/9
Sana09.06.2023
Hajmi171.45 Kb.
#1473001
TuriКурсовая
1   2   3   4   5   6   7   8   9
Bog'liq
MoumwAgveAUZ

1.3 Поисковые системы и правила поиска информации


Для поиска информации в Интернете созданы мощные средства: поисковые серверы (поисковики), каталоги (рубрикаторы), списки рейтингов, тематические списки ссылок, онлайновые энциклопедии и справочники.
Поисковая система – комплекс программных и аппаратных средств для автоматического просмотра ресурсов Интернет, индексации их содержания и предоставления услуг по поиску информации Интернетпользователям. Поисковые системы могут отличаться по эффективности поиска, по языку поиска (русский, английский и др.) и по некоторым другим возможностям. Например, одни поисковые системы находят информацию только в виде Web-страниц, другие могут просматривать и группы новостей, и файловые серверы. Наиболее известны следующие международные системы для поиска информации в информационных ресурсах:

  1. Google (http://www.google.com/ или http://www.google.ru/);

  2. Microsoft Live Search (http://www.live.com/);

  3. Alta Vista (http://www.altavista.com/);

  4. Yahoo! (http://www.yahoo.com/);

  5. Рамблер (http://www.rambler.ru/);

  6. Яндекс (http://www.yandex. ru/);

  7. Апорт (http://www.aport.ru/).

Поисковые системы могут быть 2-х типов: универсальные и специализированные. Наиболее популярные современные поисковые системы сочетают в себе оба типа. В универсальных системах используется обычный принцип поиска в неструктурированных документах – по заданной строке поиска. На домашней странице поисковой системы обычно расположено поле для ввода строки поиска, может также присутствовать меню и прочие элементы. Домашняя страница системы Google может настраиваться зарегистрированным в системе пользователем. Большинство поисковых серверов предоставляют пользователям также услуги Интернет-почты (почтовые ящики), возможность создания личных Webстраниц, новости, гороскопы, курсы валют, прогноз погоды и прочие сервисы. Строка поиска может состоять из одного слова или группы слов. Если слова разделены пробелами, ищутся документы, в которых присутствует хотя бы одно слово из перечисленных. Для поиска словосочетания его следует заключить в кавычки. В некоторых системах можно осуществлять поиск по части слова, оставшаяся часть слова заменяется знаком «*», как в шаблоне имени файла. Знак «+» или «&» между словами требуют обязательного присутствия всех слов в документе.
Часто существует также кнопка перехода к расширенному поиску. Главное отличие расширенного поиска – использование в запросе логических операторов и круглых скобок. Для построения сложного запроса используются логические операторы AND (И), OR (ИЛИ), NOT (НЕТ) и NEAR (около; не далее чем в 10 символах). Логические операторы ставятся между словами или словосочетаниями. Здесь могут использоваться даты документов размер документов и другие критерии. Интерфейсы расширенного поиска у разных поисковых систем существенно отличаются. Поисковые системы обычно состоят из трех компонентов:

  1. поисковый робот (агент, паук или кроулер), который перемещается по сети и собирает информацию;

  2. база данных, которая содержит всю информацию, собираемую роботом;

  3. поисковый механизм, который используется как интерфейс для взаимодействия пользователей с базой данных.

Поисковые роботы – это специальные программы, которые занимаются поиском страниц в сети, сохраняют гипертекстовые ссылки на эти страницы и автоматически индексируют присутствующую на них информацию для построения базы данных поисковика. При построении индекса исходные данные преобразуются так, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. При запросе к поисковой системе она отыскивает в своей базе данных информацию, соответствующую запросу, и выводит список ссылок. В этом списке представлены ссылки на различные Webстраницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами или по дате источника. При просмотре списка можно выбрать и просмотреть заинтересовавшие Вас страницы. Существует два основных метода поиска в Интернете. В первом случае вы ищите web-страницы, относящиеся к определенной теме. Поиск производится путем выбора тематической категории и постепенным ее сужением. Подобные поисковые системы называют поисковыми каталогами. Они удобны, когда вам нужно вые познакомиться с новой для себя темой или добраться до широко известных «классических» ресурсов по данной теме. Второй способ поиска используется, когда тема носит узкий, специфический характер или нужны редкие, малоизвестные ресурсы. В этом случае вы должны представлять себе, какие ключевые слова должны встретиться в документе по интересующей вас теме. Эти слова надо выбрать таким образом, чтобы они, скорее всего, имелись в нужных документах, не имеющих отношения к выбранной теме. Системы, позволяющие выполнять подобный поиск, называют поисковыми указателями. Поисковые каталоги отличаются от поисковых указателей не только методом поиска, но и способом формирования. Любая поисковая система Интернета состоит из двух частей. Специализированная web-страница, доступная всем желающим и позволяющая выполнять поиск, опирается на большую, постоянно пополняемую и обновляемую базу данных, которая содержит сведения о ресурсах Интернета.
Способ пополнения этой базы данных зависит от типа поисковой системы, поисковых каталогов самое главное – это точность отбора. Каждый найденный ресурс должен быть полезным. Тематика страницы определяется или проверяется вручную. Из-за этого объем поисковых каталогов относительно невелик. Когда объем приближается к миллиону страниц, объем ручного труда настолько велик, что дальнейший рост каталога останавливается.
Поисковые указатели, напротив, ориентированы на широту охвата. С определением слов, имеющихся на web-странице, вполне справляется автоматика, данных поискового указателя может охватывать многие миллионы web-страниц. При этом выполнять поиск в указателе труднее, чем в каталоге, потому что одни те же ключевые слова могут встречаться на web-страницах, посвященным разным темам.
Информационно-поисковые системы размещаются в Интернете на общедоступных серверах. Основой поисковых систем являются так называемые поисковые машины, или автоматические индексы. Специальные программы-роботы (известные также как пауки) в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос, который обрабатывается системой, после чего в окно браузера выдаются результаты обработки запроса. Механизмы обработки запросов постоянно совершенствуются, и современные поисковые системы не просто перебирают огромное число документов. Поиск ведется на основе оригинальных и весьма сложных алгоритмов, а его результаты анализируются и сортируются таким образом, чтобы представленная пользователю информация в наибольшей степени соответствовала его ожиданиям.
В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, в объединение их возможностей вполне логично.
Тем не менее исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Поэтому не стоит ограничиваться использованием какой-либо одной из них. Если вам не удалось отыскать интересующую вас информацию с помощью одной системы, попробуйте воспользоваться другой.
Каждая поисковая Система имеет свои особенности и, и качество полученного результата зависит от предмета поиска и точности формулировки запроса. Поэтому, приступая к поиску информации, прежде всего, нужно четко представлять себе, что именно и где вы хотите найти. Например, зарубежные системы поражают числом проиндексированных документов. Для поиска в области профессиональных знаний, особенно информации на иностранном языке, такие системы, как AltaVista, HotBot или Northern, подходят наилучшим образом.
Однако для поиска информации на русском языке, особенно в российской части Интернета, лучше приспособлены русские поисковые машины. Во-первых, они специально ориентированные именно на русскоязычные ресурсы Сети и, как правило, отличаются большей полнотой охвата и глубиной исследования эти ресурсов. Во-вторых, российские системы работают с учетом морфологии русского языка, то есть в поиск включаются все формы искомых слов. Российские системы лучше учитывают и такую исторически сложившуюся особенность российских Интернет-ресурсов, как сосуществование нескольких кодировок кириллицы.

Download 171.45 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling