Как быстро найти нужную информацию? Такой вопрос может возникнуть тогда, когда что-то нужно найти в Сети, в случае если объем нужной информации довольно-таки велик, а времени не так уж и много.
Можно искать по ключевым словам. Например, искусство каратэ. Поисковая система тебе выдаст все источники, где содержится эта фраза. Это могут быть форумы, журнальные статьи, главы из энциклопедии. Короче говоря, любые сайты, где хотя бы единожды упоминается эта фраза. Согласись. Способ универсален, хотя можешь попробовать искать по-другому.
Допустим, мы имеем некий текст-источник и хотим найти в сети Интернет документы схожего содержания.
Поскольку сама задача поиска не могла возникнуть из ничего, где-то непременно должна существовать информация, возбудившая интерес к проблеме. Может быть, это журнальная статья, книга, веб-страница и т. п. Именно эту информацию и нужно упорядочить и привести в форму, удобную для анализа. Попробуй написать небольшое сочинение, изложив свое видение проблемы. Это и станет текстом-источником. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из поисковой системы такие же бестолковые документы. Удаляешь из текста стоп-слова (их можно просто вычеркивать). Вычисляешь частоту вхождения каждого термина. Причем делаешь это без учета морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать и регистр, все буквы считаешь строчными. Выписываешь на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще). Выбираешь диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен. Тебе следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, ведь теперь ты выбираешь термины не из текста, а из построенного по определенному закону упорядоченного списка. Достаточно взять 10–20 терминов.
Не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона). Составляешь запрос, располагая отобранные слова в порядке их следования в списке терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы. Отправляешь запрос поисковой системе. В ответ ты можешь получить несколько миллионов ссылок. Но не стоит пугаться. Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), то на первых страницах окажутся практически стопроцентно релевантные (нужные) документы. Самое любопытное, что документ-источник запроса (если его аналог существует в Интернете) вовсе не обязательно будет возглавлять список. Он может оказаться и на задворках.
Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему.
Можно искать по ключевым словам. Например, искусство каратэ. Поисковая система тебе выдаст все источники, где содержится эта фраза. Это могут быть форумы, журнальные статьи, главы из энциклопедии. Короче говоря, любые сайты, где хотя бы единожды упоминается эта фраза. Согласись. Способ универсален, хотя можешь попробовать искать по-другому.
Допустим, мы имеем некий текст-источник и хотим найти в сети Интернет документы схожего содержания.
Поскольку сама задача поиска не могла возникнуть из ничего, где-то непременно должна существовать информация, возбудившая интерес к проблеме. Может быть, это журнальная статья, книга, веб-страница и т. п. Именно эту информацию и нужно упорядочить и привести в форму, удобную для анализа. Попробуй написать небольшое сочинение, изложив свое видение проблемы. Это и станет текстом-источником. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из поисковой системы такие же бестолковые документы. Удаляешь из текста стоп-слова (их можно просто вычеркивать). Вычисляешь частоту вхождения каждого термина. Причем делаешь это без учета морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать и регистр, все буквы считаешь строчными. Выписываешь на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще). Выбираешь диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен. Тебе следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, ведь теперь ты выбираешь термины не из текста, а из построенного по определенному закону упорядоченного списка. Достаточно взять 10–20 терминов.
Не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона). Составляешь запрос, располагая отобранные слова в порядке их следования в списке терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы. Отправляешь запрос поисковой системе. В ответ ты можешь получить несколько миллионов ссылок. Но не стоит пугаться. Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), то на первых страницах окажутся практически стопроцентно релевантные (нужные) документы. Самое любопытное, что документ-источник запроса (если его аналог существует в Интернете) вовсе не обязательно будет возглавлять список. Он может оказаться и на задворках.
Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему.
Авторское право на материал
Копирование материалов допускается только с указанием активной ссылки на статью!
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Похожие статьи