Как это работает? | Поисковая система

Первой программой для поиска в сети стал проект Арчи, созданный студентами из Монреаля в 1990 году. Она загружала перечни файлов со всех доступных FTP-серверов и формировала базу данных, в которой можно было искать по названиям файлов. Первая полнотекстовая поисковая система стала «WebCrawler», запущенная в 1994 году и индексирующая ресурсы с помощью робота. Она давала возможность искать по любым словам, встречающимся на любой веб-странице. В 1998 году Ларри Пейдж и Сергей Брин разработали поисковую систему Google, основываясь на их проекте BackRub. Их инновационное решение заключалось во внедрении алгоритма PageRank, ранжирующего страницы по числу гиперссылок на них. Поиск с учетом русской морфологии впервые появился в 1996 году на поисковике Altavista; в тот же период запустились Рамблер и Апорт. А в сентябре 1997 года появился поисковик Яндекс. Как же функционирует поисковая система — об этом в сегодняшнем выпуске.

Изначально поисковому роботу нужно получить содержимое, а индексатору — сформировать индекс, пригодный для поиска. Поисковый робот, или «краулер», представляет собой программу, которая автоматически обходит все ссылки, обнаруженные на странице, и выделяет их. На основе заранее заданного списка адресов она ищет новые документы, ранее не обнаруженные системой. Обнаруженные страницы проходят анализ со стороны поисковика для последующей индексации. Этим занимается специальный модуль — индексатор, который предварительно разделяет страницы на фрагменты, используя лексические и морфологические методы. Информация о веб-страницах хранится в индексной базе. Индекс обеспечивает быстрое извлечение информации по запросам пользователей.

Как это работает? | Поисковая система

Поисковик же работает с данными, полученными индексатором. Когда пользователь набирает запрос, система обращается к своему индексу и возвращает список наиболее релевантных страниц.

Разбор запроса начинается с определения языка, потому что одно и то же слово может иметь разное значение в разных языках. Поэтому система учитывает алфавит, регион и язык интерфейса пользователя. Далее поисковик переходит к морфологии и определяет, к какой части речи относятся слова. Это позволяет находить документы, содержащие различные формы одних слов. Также система выделяет в запросе различные объекты — географические названия, имена людей и названия организаций; чтобы учесть все варианты, дополняет запрос новыми формулировками с тем же смыслом. Кроме того, поиск автоматически исправляет ошибки или показывает результаты как по ошибочному, так и по исправленному запросам.

Как это работает? | Поисковая система

Большинство поисковых систем применяют методы ранжирования и машинного обучения, чтобы в начале списка отображать «лучшие» результаты.

В продвинутых поисковых системах нейронные сети преобразуют поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы. Их можно сопоставлять друг с другом и выдавать ещё более точные результаты.

Как это работает? | Поисковая система

Существуют алгоритмы, которые сопоставляют векторы запросов и веб-страниц целиком — а не только их заголовков. Это даёт системе понять смысл страниц и корректно отбирать их, когда люди формулируют искомое своими словами. Для этого нейросеть заранее преобразует тексты страниц в семантические векторы на этапе индексирования. А когда пользователь вводит запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Источник

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Строительство и Производство