Способы просмотра и поиска информации в internet. Основные методы поиска информации в интернете. Схематический плановый конспект

Три способа поиска в Интернете

Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом «информационном океане»? Для этого необходимо научиться искать и находить нужную информацию в сети.

Как уже было сказано, существуют три основных способа поиска информации в Интернете.

1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.

2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.

3. Обращение к поисковому серверу (поисковой системе) . Использование поисковых серверов – наиболее удобный способ поиска информации. В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы: Yandex; Rambler.

Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail.ru.

Поисковые серверы

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.

Язык запросов поисковой системы

Группа ключевых слов, сформированная по определенным правилам – с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел «Помощь» нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Yandex.

Синтаксис оператора Что означает оператор Пример запроса
пробел или & Логическое И (в пределах предложения) Несъемные протезы
&& Логическое И (в пределах документа) Виды && (Несъемные протезы)
| Логическое ИЛИ фото | фотография | снимок | фотоизображение
+ Обязательное наличие слова в найденном документе +быть или +не быть
() Группирование слов (технология | изготовление) (сыра | творога)
~ Бинарный оператор И НЕ (в пределах предложения) банки ~ закон
~~ или _ Бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур)
/(n m) Расстояние в словах (минус (-) – назад, плюс (+) – вперед) поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов
« « Поиск фразы «Несъемные протезы» Эквивалентно: Несъемные /+1 протезы
&&/(n m) Расстояние в предложениях (минус (-) – назад, плюс (+) – вперед) медицина && /1 протезы

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты , сведения, данные .

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

Методы поиска

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:

  1. Наличие у документа точного адреса
  2. Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи , и адреса хранения документов в хранилище.

Семантический поиск

Процесс поиска документов по их содержанию .
Условия:

  • Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
  • Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов.
В этом принципиальное отличие каталогов и картотек .
Библиотека - собрание библиографических записей без указания адресов.

Документальный поиск

Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

  1. Библиотечный, направленный на нахождение первичных документов.
  2. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск

Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

  1. Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.
  2. Фактологический (описание фактов), предпологающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Информационный поиск как наука

Информационный поиск - большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии , информатики , информационного дизайна , лингвистики , семиотики , и библиотечного дела .

ИП рассматривает поиск информации в документах , поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы .

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП - это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет . ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса .

Запрос - это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов , синтаксис варьируется от системы к системе. Кроме специального языка запросов , современные поисковые системы позволяют вводить запрос на естественном языке .

Объект запроса - это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией . Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат .

Задачи информационного поиска

Центральная задача ИП - помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

  • Вопросы моделирования;
  • Проектирование архитектур поисковых систем и пользовательских интерфейсов
  • Извлечение информации, в частности аннотирования и реферирования документов;

Оценки эффективности

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности , является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

Точность (precision)

Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу документов:

,

где D r e l D r e t r По результатм исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.

Точность рамблера~ 0,756. яндекса~0.706, гугла~0.899 апорта~0.705 yahoo~0.689 altavista~0.698 Эти показатели были получены на основе анализа запроса на слово cat и по тому, как много релевантных ссылок выдаёт поисковик на 100 первых ответов.

Полнота (recall)

Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

,

где D r e l - это множество релевантных документов в базе, а D r e t r - множество документов, найденных системой.

Выпадение (fall-out)

Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

,

где D n r e l - это множество не релевантных документов в базе, а D r e t r - множество документов, найденных системой.

F-мера (F-measure, мера Ван Ризбергена)

Традиционно F-мера определяется, как гармоническое среднее точности и полноты:

Часто ее также называют F 1 мерой, потому что точность и полнота присутствуют в этой формуле с одинаковым весом.

Более общая формула для положительного вещественного α имеет вид:

См. также

  • Российский семинар по оценке методов информационного поиска (РОМИП)

Ссылки

  • Юрий Лифшиц. Курс лекций Алгоритмы для Интернета
  • Э.Э. Гасанов. Курс лекций Теория баз данных и информационного поиска
  • Университетская информационная система РОССИЯ (УИС РОССИЯ)
  • Обзор «Оценка систем текстового поиска.» Кураленок И.Е., Некрестьянов И.С.

Литература

  • Дональд Кнут Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. - 2-е изд. - М.: «Вильямс» , 2007. - С. 824. - ISBN 0-201-89685-0

Wikimedia Foundation . 2010 .

Смотреть что такое "Поиск информации" в других словарях:

    В узком смысле процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска (запросу). По английски: Information retrieval Синонимы: Поиск данных См. также: Автоматизированный информационный поиск… … Финансовый словарь

    поиск (информации) - — Тематики нефтегазовая промышленность EN retrieval …

    поиск информации - — Тематики электросвязь, основные понятия EN information retreival … Справочник технического переводчика

    поиск информации - informacijos paieška statusas T sritis automatika atitikmenys: angl. information retrieval vok. Informationserschließung, f; Wiederauffinden von Informationen, n; Wiedergewinnung von Nachrichten, f rus. информационный поиск, m; поиск информации,… … Automatikos terminų žodynas

    ПОИСК ИНФОРМАЦИИ - совокупность логических и технических операций, конечной целью которых является извлечение из массива документов нужной информации или документа по заданным признакам в соответствии с запросом … Большой экономический словарь

Поиск информации – одна из задач, которую приходится решать каждому пользователю интернета.

Приступая к поиску данных в интернете, стоит определить цель поиска . Полезно ответить для себя на следующие вопросы:

  • известны ли вам адреса ресурсов сети, с которых можно начать поиск?
  • что вы уже знаете о проблеме, информацию о которой ищете?
  • с каких ключевых слов стоит начать поиск?
  • сколько времени вы готовы потратить на поиск нужных данных?
От того, как именно поставлена задача, во многом зависит и стратегия поисковой деятельности, и выбор соответствующих поисковых средств.

Существуют три основных способа поиска информации в интернете:

Способ 1: Указание адреса страницы
Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.

Способ 2: Передвижение по гиперссылкам
Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу. Но этот способ очень простой и подходит для начинающего пользователя.

Способ 3: Обращение к поисковой системе
На помощь приходят специальные поисковые системы (их еще называют поисковыми машинами).
Результатом выполнения запроса является перечень ссылок на Web-страницы, рядом с которыми присутствуют заданные текстовые фрагменты. Наиболее популярные поисковые серверы: Яндекс (yandex.ru), Гугл (google.ru) и Рамблер (rambler.ru).Языки запросов различных поисковиков несколько отличаются друг от друга.
Поисковая система Яндекс

  • Ч тобы найти информацию с помощью поисковой системы Яндекс, откроем главную страницу . Строка для ввода поискового запроса расположена в верхней части страницы, в области, выделенной желтым фоном.
Укажем в ней необходимые ключевые слова и нажмем на клавиатуре клавишу или щелкнем мышью на кнопке «Найти», размещенной возле строки поиска.
Получив такую команду, Яндекс просмотрит всю свою базу данных и попытается найти в ней веб-страницы, где встречается введенное нами слово или словосочетание. При этом нужно заранее учитывать, что чем обширнее наш запрос, тем меньшее количество веб-страниц будет ему соответствовать.
  • П о умолчанию на одной странице Яндекс отображает только 10 таких ссылок, поэтому для ознакомления с полными результатами поиска необходимо будет листать страницы с помощью цифр-ссылок.
  • К аждый обнаруженный ресурс в результатах поиска представлен названием веб-страницы и текстом ссылки. Кроме того, в большинстве случаев поисковая система демонстрирует небольшой фрагмент текста, содержащегося на той или иной найденной веб-странице, в котором обнаружено совпадение с текстом вашего запроса. При этом слова, которые мы ввели для поиска, в этих фрагментах будут выделены полужирным начертанием.
  • В низу страницы с результатами поиска, есть строка «в других поисковых системах» . Рядом с этими словами имеются ссылки на несколько других популярных поисковых систем. Поэтому, если мы не нашли с помощью Яндекса нужной нам информации, можно воспользоваться другими поисковыми системами, перейдя по ссылке.

Поиск информации в Яндексе можно осуществлять

в простом и расширенном поисковом режиме .

  • Простой поиск
Поиск по одному или нескольким ключевым словам, введенным в строку запроса.
Перед тем как начинать вводить в строку поиска поисковой системы запрос, тщательно его сформулируйте .
Чем более четкой будет выбранная формулировка, тем меньше ненужных вам сайтов предложит в результатах поиска поисковая система.
  • Расширенный поиск
Все популярные поисковые системы располагают специальными возможностями для расширенного поиска ресурсов.

Чтобы попасть на веб-страницу, предоставляющую такие возможности, необходимо воспользоваться ссылкой с названием типа «Расширенный поиск» .

Перейдя по этой ссылке, мы увидим большую поисковую форму, в которой можно указать множество параметров.
Поисковая система Яндекс позволяет, например, настраивать параметры поиска слов в зависимости от их расположения (рядом, в одном предложении, на одной странице) и формы.
Кроме того, она может искать веб-страницы по их языку (русский, украинский, белорусский и т.д.), по дате последнего изменения и даже по формату файла веб-страницы.
Наконец, с помощью Яндекса информацию можно искать на каком-то конкретном сайте. Это бывает полезно в том случае, если на нужном вам сайте нет встроенной поисковой системы.

Для каждой поисковой системы существуют свои языки запросов. Мы познакомимся с логическим языком запросов для Яндекса, который позволяет в режиме обычного поиска вводить в строку поиска дополнительные служебные команды, уточняющие ваши требования. Рассмотрим некоторые такие команды.
  • Используйте знаки "+" и "-".
Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса (-). И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс (+). Обратите внимание, что слово и знак плюс-минус должны быть написаны слитно.
Например, если вы хотите узнать про аквариумных рыбок, но без продажи и разведения, то набираем в поисковой строке:
«аквариумные рыбки -разведение -продажа».
  • Поиск точного соответствия - знак "!".
Искать по точной словоформе . Вы можете дать команду Яндексу не учитывать формы слов из запроса при поиске.
Например, запрос!иванов найдет только страницы с упоминанием этой фамилии, а не города "Иваново".
  • Поиск точной фразы – кавычки.
Помещать поисковый запрос в кавычки (например, «кто виноват и что делать») нужно только в том случае, если мы хотим найти фразу, на 100% совпадающую с текстом нашего запроса.
Кавычки заставляют поисковый механизм отбирать лишь документы, в которых слова из запроса стоят в точно таком же порядке, в котором мы указали их в поисковом запросе. Если же кавычек нет, то по запросу «кто виноват и что делать» поисковая система может предложить нам страницу, содержащую фразу «кто виноват - тому и делать, что скажут» или же «ну и кто виноват, что Петр Петрович не умеет делать пельмени». Формально при этом поисковая система справится со своей работой, ведь в указанных отрывках есть все слова из введенной фразы. А то, что они стоят совсем не в том порядке, в котором нам нужно, — это уже другой вопрос, которыйи уточняется использованием кавычек .
При работе с поисковыми системами рано или поздно мы встретим слово «релевантность» .
Релевантность — это степень соответствия найденных документов нашему запросу. Например, в Яндексе его можно обнаружить внизу каждой веб-страницы, содержащей результаты поиска, сразу под набором цифр-ссылок. Здесь оно используется в качестве параметра для функции «Отсортировано». Помимо параметра по релевантности, доступен также вариант по дате.
Если страницы в результатах поиска сортируются по релевантности, то это значит, что в самом начале указываются сайты с наибольшим уровнем соответствия вашему запросу, после них располагаются ресурсы с меньшим уровнем релевантности и т.д.
Детские поисковые системы
  • Чтобы обезопасить детей от ненужной информации, созданы специальные детские поисковые системы, которые индексируют не все сайты, а только сайты с детской или околодетской тематикой.
Для самых юных пользователей Интернета создана специальная поисковая система АгА, которая предназначена для поиска информации детских ресурсов. Она содержит много ресурсов по воспитанию и здоровью детей, поэтому ее можно рекомендовать не только детям, но и родителям. Очень удобно искать в этой поисковой системе, используя карту сайта.

АгА не только поисковый сервис. Здесь есть всеми любимые мультики, раскраски, просмотр диафильмов, помощь по разным школьным предметам и т.д.
Quintura для Детей – визуальный поиск по детским ресурсам, разработанный специально для детей и ориентирован на школьников младших и средних классов.

Для поиска используется интерактивное облако Quintura. Красочный и привлекательный интерфейс сервиса содержит несколько интерактивных картинок, кликая на которые, дети сразу могут выбрать интересную для себя тему, например: наука, музыка, динозавры или игры.

  • Началка - Детский поиск.

1. Указание адреса страницы . Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.

ДЛЯ ПОИСКА НУЖНОЙ ИНФОРМАЦИИ В СЕТИ ИСПОЛЬЗУЕТСЯ АДРЕС Унифицированный указатель ресурса (URL-адрес, англ. Uniform Resource Locator), содержащий имя протокола по которому нужно обращаться к требуемой информации, адрес сервера и имя файла на этом сервере, например:

http://www.kazan.ru

(иерархическая структура - справа налево http - протакол гипертекста, www - узел находится в Web прстранстве).

Части адреса :

Ru - Россия (может быть и трехбуквенный)

Kazan - ресурс Казани,

Www - Интернет-ресурс, Web Site (веб-страница), сайт содержит гиперссылки, позволяющие перемещаться в потоке информации по принципу матрешки. Программа браузер позволяет не заблудиться (Home Page-главная страница).

Http - протокол передачи гипертекста.

Что касается протоколов, в Интернете используются несколько типов протоколов, появлявшихся с течением времени и развитием компьютерных технологий. К ним относятся текстовый протокол telnet, файловый протокол ftp, протокол телеконференций usenet, протокол баз данных wais, протокол gopher и др.

2. Обращение к поисковому серверу (поисковой системе). Использование поисковых серверов наиболее удобный способ поиска информации.

В настоящее время в русскоязычной части Интернета популярны следующиепоисковые серверы:

Пример поисковых систем :

Www.rambler.ru

Www.goo-gle.ru

Поисковая система находит адрес сайта по ключевым словам, даже по словосочетаниям.

Существуют и другие поисковые системы. Например, эффективная система поиска реализована на сервере почтовой службы mail.ru.

Язык запросов поисковой системы

Группа ключевых слов, сформированная по определен-ным правилам — с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом мож-но узнать, посетив раздел «Помощь» нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Yandех.

Синтаксис оператора Что означает оператор Пример запроса
пробел или & Логическое И (в пределах предложения) лечебная физкультура
&& Логическое И (в пределах документа) рецепты && (плавле-ный сыр)
I Логическое ИЛИ фото | фотография | сни-мок | фотоизображение
+ Обязательное наличие слова в найденном документе +быть или +не быть
() Группирование слов (технология \изготовление) (сыра\ творога)
~ Бинарный оператор И НЕ (в пределах предложения) банки ~ закон
~~ или ___ Бинарный оператор И НЕ (в пределах документа) путеводитель по Пари-жу ~~ (агентство | тур)
/(n m) Расстояние в словах (минус (-) — назад, плюс (+) — вперед) поставщики /2 кофе музыкальное /(-2 4) об-разование вакансии - /+1 студен-тов
“ ” Поиск фразы "красная шапочка" Эквивалентно: красная /+1 шапочка
&&/(n m) Расстояние в предложениях (минус (-) — назад, плюс (+) — вперед) банк && /1 налоги

Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:


Не искать информацию только по одному ключевому слову.

Лучше не вводить ключевые слова с прописной буквы, так как это может привести к тому, что не будут найдены те же слова, написанные со строчной буквы.

Если в итоге поиска вы не получили никаких результатов, проверьте, нет ли в ключевых словах орфографических ошибок.

Современные поисковые системы предоставляют воз-можность подключения к сформированному запросу се-мантического анализатора. С его помощью можно, введя какое-либо слово, выбрать документы, в которых встреча-ются производные от этого слова в различных падежах, временах и пр.

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осущест-влять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более по-дробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки си-стематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автома-тическом режиме путем регулярного просмотра всех появля-ющихся во Всемирной паутине Web-страниц.

Кроме того, по-исковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода клю-чевых слов поисковый сервер начинает просматривать доку-менты на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специ-ального рейтинга документов, который показывает, насколь-ко полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.

Некоторые важные адреса:

www.kros.ru - Казанская региональная образовательная сеть,

www.edu.ru - сайт Министерства образования России,

www.fio.ru - федерация Интернет образования.

3. Передвижение по гиперссылкам . Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвящены спорту