Перевод статьи Билла Славски — эксперта по патентам Google
КАК GOOGLE ОТВЕЧАЕТ НА ЗАПРОСЫ ПРИ РАНЖИРОВАНИИ РЕЗУЛЬТАТОВ ПОИСКА
Патент от Google, который был заявлен в 2019 году и выдан в 2021 году, касается аспектов ранжирования результатов поиска Google (SERPs).
Этот патент был переуступлен компании Google, которая начинала как поисковая система BackRub, основанная Лоуренсом Пейджем (Lawrence Page) и Сергеем Брином (Sergey Brin) во время их обучения в Стэнфордском университете. Пейдж подал заявку на патент, который был переуступлен Стэнфордскому университету, а затем передан Google как PageRank. Патент PageRank назван в честь своего создателя Лоуренса Пейджа и описывает действия независимой от запросов системы ранжирования страниц на основе указывающих на них ссылок).
Поисковая система ранжирует результаты поиска, используя оценку качества страниц и сайтов.
Google не использует оценку авторитетности домена, такую как Domain Authority, поскольку некоторые сайты являются субдоменами других сайтов, например WordPress.com.
Google может применять оценки, например оценку качества сайта, основываясь на показателях сайтов, но не на уровне домена. Таким образом, Google не ранжирует страницы в поисковой выдаче с использованием оценки Domain Authority (и никогда этого не делал).
В патенте указано, что поисковая система может возвращать общедоступные документы, а также документы, доступные только авторизированным пользователям или лицам, иным образом получившим доступ к этим частным страницам.
Этот более современный патент о ранжировании в Google также несколько раз ссылается на сущности (Entities), которые стали использоваться Google с 2012 года, когда поисковик представил граф знаний (Knowledge Graph) и начала включать в результаты поиска информацию о реальных объектах.
Патент действительно стоит того, чтобы разобраться в его тонкостях, поскольку он помогает понять, как работает современная поисковая система и какую роль она может играть в жизни многих людей.
КАК ПОИСКОВАЯ СИСТЕМА ИНДЕКСИРУЕТ КОНТЕНТ И РАНЖИРУЕТ РЕЗУЛЬТАТЫ ПОИСКА
Патент начинается с сообщения о том, что поисковые системы предоставляют информацию о различных документах, таких как:
- веб-страницы;
- изображения;
- текстовые документы;
- мультимедийные материалы;
- прочие электронные сообщения.
В ответ на запрос Google ранжирует результаты поиска, возвращая одну или несколько страниц или другие типы результатов.
Эти страницы могут быть ранжированы на основе релевантности запросу или по другим сигналам ранжирования, после чего представляются в поисковой выдаче.
Патент сообщает нам:
- об особенностях страниц, отвечающих на запросы (интент) пользователя;
- о свойствах запроса пользователя, которые влияют на последующие результаты поисковой выдачи.
В патенте часто встречается понятие «характеристики представления» (presentation characteristics), но при этом не уточняется его значение. Google разработал множество уникальных способов представления информации при ранжировании результатов поиска для ответа на запросы. И патент на самом деле не определяет основные различия между органическими результатами поиска с заголовком, URL-адресом и сниппетом и другими вариантами результатов поиска в виде карт, определений, блоков с быстрыми ответами, связанных вопросов, панелей знаний (Knowledge Panels), карт сайта и универсальных результатов поиска. Мы писали о многих из этих типов представлений, однако в патенте речи о них не идет.
GOOGLE РАНЖИРУЕТ РЕЗУЛЬТАТЫ ПОИСКА ДОКУМЕНТОВ С ОГРАНИЧЕННЫМ ДОСТУПОМ
Одна из тем, о которых говорится в патенте, — так называемые «документы с ограниченным доступом» (access restricted documents). Google позволяет пользователю выполнять поиск по контенту, который виден только при авторизации на сайте, например через Gmail, или по контенту, связанному с Google My Business. Это может быть деловая информация, управление которой возможно только после входа в систему. Кроме того, пользователь может видеть поисковые аннотации общедоступных или частных данных, связанных с использованием поисковой системы, а также получать доступ к документам с ограниченной видимостью.
Патент больше ориентирован на поиск документов с ограниченным доступом, чем на любой другой контент, доступный залогиненным пользователям поисковой системы. Но основное внимание в патенте уделяется внешнему виду результатов поиска, независимо от того, имеют ли они ограниченный доступ. Несмотря на то, что в начале патента речь идет именно о частных документах, он охватывает все результаты поиска.
Некоторые страницы, которые Google ранжирует как результаты поиска, отвечающие на запрос, могут иметь доступ к документам с ограниченной видимостью. Они будут доступны только пользователю, отправившему запрос, и, возможно, другим лицам, которым пользователь открыл доступ.
В патенте указаны показатели, связанные с атрибутами страницы или запроса, которые определяют характеристики представления.
Этот показатель основан на прошлых взаимодействиях пользователей других страниц, которые обладают сходными атрибутами, но при этом отличаются от данной страницы (и каждая страница отличается друг от друга).
Анализ таких показателей позволяет использовать прошлые взаимодействия с другими страницами для определения релевантности данной страницы. При этом отсутствует ссылка на прошлые взаимодействия на основе запроса, указывающие на данную страницу.
Другие страницы могут включать в себя или полностью состоять из страниц, доступ к которым также ограничен.
КАК GOOGLE РАНЖИРУЕТ РЕЗУЛЬТАТЫ ПОИСКА С ПОМОЩЬЮ ЗАВИСИМЫХ И НЕЗАВИСИМЫХ ОТ ЗАПРОСА АТРИБУТОВ
Патент также упоминает «зависимые от запроса» (Query Dependent) и «независимые от запроса» (Query Independent) аспекты сигналов ранжирования, которые могут влиять на способ ранжирования страниц при вводе запроса пользователем.
Когда на страницу ссылается множество других страниц, ее значимость возрастает согласно подходу PageRank. Ссылка на страницу похожа на сноску в печатной книге, которая указывает на использованный источник информации. Чем больше подобных ссылок и чем выше качество источника, тем более важной считается эта страница. Это влияние ссылок, указывающих на страницу, считается независимым от запроса, поскольку используется для оценки независимо от релевантности ведущей на страницу ссылки (и ее анкорного текста). Эта независимая от запроса оценка PageRank сочетается с оценкой релевантности при ранжировании страницы в ответ на запрос.
Атрибут страницы, зависимый от запроса, обычно основан на оценке информационного поиска, которая учитывает релевантность (и значение) слов на странице, а также анкорный текст ссылок, указывающих на эту страницу. Новый патент указывает на атрибуты запроса и атрибуты документа в поисковой системе, а также упоминает атрибуты, зависимые и независимые от запросов. Для них важно определить, играет ли здесь роль релевантность (или значение).
Вернемся к патенту о ранжировании результатов поиска…
Чтобы определить характеристики представления результата поиска, указывающие на соответствие страницы запросу, для данной страницы создается зависимый от запроса показатель.
Зависимый от запроса показатель может определять оценку страницы, и эта оценка может использоваться для ранжирования страницы относительно других страниц, отвечающих на запрос (например, на основе их оценок, которые также могут быть основаны на соответствующих зависимых от запроса показателях).
Зависимый от запроса показатель может изменить начальную оценку для данной страницы (например, оценку, основанную на степени соответствия страницы запросу), и измененную оценку, используемую для ранжирования данной страницы относительно других страниц, отвечающих на запрос.
Ранжирование может определять, какие отвечающие на запрос страницы используются для предоставления соответствующих результатов поиска, а также порядок представления (или других способов отображения) результатов поиска.
Зависимый от запроса показатель данной страницы, отвечающей на запрос, может быть определен на основе показателей прошлых взаимодействий между атрибутами запроса и атрибутами данной страницы.
Каждый показатель может быть основан на нескольких прошлых взаимодействиях данных пользователей с другими страницами, обладающими схожими атрибутами, когда другие страницы были представлены в ответ на соответствующие запросы с одним или несколькими схожими атрибутами запроса.
Различные прошлые взаимодействия между атрибутами запроса и атрибутами страницы могут использоваться для определения таких показателей, как:
- выборка результатов поиска для других страниц в ответ на соответствующие запросы (например, коэффициент кликабельности);
- посещаемость страницы;
- отслеживание курсора;
- отслеживание движений пальца по сенсорному экрану (Touch gestures).
Другие страницы могут включать в себя или полностью состоять из документов с ограниченным доступом, например частных страниц того или иного пользователя, недоступных для других лиц.
КАК GOOGLE РАНЖИРУЕТ РЕЗУЛЬТАТЫ ПОИСКА, ИСПОЛЬЗУЯ НЕЗАВИСИМЫЕ ОТ ЗАПРОСА СИГНАЛЫ РАНЖИРОВАНИЯ
Независимый от запроса показатель страницы может быть создан и использован для определения характеристики представления. Это будет происходить независимо от его релевантности запросу.
Независимый от запроса показатель может быть основан на прошлых взаимодействиях других пользователей с другими страницами, обладающими схожими атрибутами страницы, когда они отображались в ответ на соответствующие запросы без каких-либо схожих атрибутов запроса.
Этот независимый от запроса атрибут может определять популярность страниц со схожими атрибутами, где зависимый от запроса показатель обеспечивает признак популярности страниц, имеющих атрибуты страницы, в ответ на запросы, имеющие атрибуты запроса.
Метод может демонстрировать получение запроса, введенного пользователем через поисковый интерфейс вычислительного устройства.
Этот метод может также включать в себя определение страниц, отвечающих на запрос, в том числе электронных писем, отправленных на адрес пользователя.
Этот метод может также включать в себя определение одного или нескольких атрибутов страницы для электронного письма.
Атрибуты страницы включают по крайней мере один атрибут электронного письма из перечисленных ниже:
- Информация об отправителе, находящаяся в поле «От кого» в электронном письме.
- Информация о теме, находящаяся в поле «Тема» в электронном письме.
Этот метод может также включать в себя определение атрибутов запроса и создание зависимого от запроса показателя электронного письма на основе показателей прошлых взаимодействий между атрибутами запроса и атрибутами страницы, где каждый показатель основан на прошлых взаимодействиях соответствующих пользователей с другими страницами, обладающими атрибутами страницы, когда другие страницы были представлены в ответ на соответствующие запросы, обладающие одним или несколькими атрибутами запроса.
Метод ранжирования результатов поиска также включает:
- Использование зависимого от запроса показателя электронного письма, позволяющего определить характеристики представления результатов поиска по электронным письмам.
- Предоставление в ответ на запрос результатов поиска по электронным письмам в соответствии с характеристикой представления.
Данный метод и прочие реализации, раскрытые в патенте, могут включать в себя один или несколько следующих атрибутов:
- Атрибут электронного письма, основанный на информации об отправителе в поле «От кого» или на информации о теме в поле «Тема».
- Атрибут электронного письма, основанный на одновременном присутствии информации об отправителе в поле «От» и информации о теме в поле «Тема».
Информация об отправителе может включать в себя доменное имя адреса электронной почты отправителя, а информация о теме — шаблон, содержащий один или несколько ключевых слов или заполнителей.
По крайней мере, один атрибут электронного письма основан на информации о теме в поле «Тема», которая включает в себя шаблон, содержащий одно или несколько ключевых слов или иных условных указателей.
В некоторых реализациях документы, на которых основаны показатели, не включают электронные письма.
Метод также включает:
- Создание независимого от запроса показателя электронного письма на основе большего количества показателей дополнительных прошлых взаимодействий с атрибутами документа в ответ на дополнительные запросы, не имеющие каких-либо атрибутов запроса.
- Использование независимого от запроса показателя электронного письма для определения характеристики представления соответствующего результата поиска по электронным письмам.
Использование зависимого от запроса показателя электронной почты для определения характеристики представления включает:
- Определение оценки электронного письма на основе зависимого от запроса показателя.
- Определение дополнительной оценки других документов, отвечающих на запрос.
- Ранжирование электронных писем относительно других документов, отвечающих на запрос, на основе оценки и дополнительной оценки.
- Определение характеристики представления на основе ранжирования.
Атрибуты документа могут дополнительно включать в себя категорию электронного письма. Для определения этой категории могут использоваться модели машинного обучения.
Прошлые взаимодействия с другими документами, имеющими атрибуты документа, могут включать выборки других документов.
Метод включает получение запроса, введенного пользователем через поисковый интерфейс вычислительного устройства, и определение документов, отвечающих на запрос.
Метод ранжирования результатов поиска также включает атрибуты запроса для каждого из нескольких документов с ограниченным доступом:
- Определение атрибутов документа с ограниченным доступом.
- Создание зависимого от запроса показателя документа с ограниченным доступом на основе показателей прошлых взаимодействий между атрибутами запроса и атрибутами документа. При этом каждый показатель основан на ряде прошлых взаимодействий соответствующих пользователей с другими документами, имеющими атрибут документа. Кроме того, другие документы были представлены в ответ на соответствующие запросы, имеющие атрибуты запроса, при этом другие документы могут включать в себя несколько документов, недоступных для пользователя.
Метод также включает использование зависимых от запроса показателей для документов с ограниченным доступом, чтобы определить порядок представления документов, отвечающих на запрос, и предоставить в ответ на запрос один или несколько документов в соответствующем порядке.
Данный метод и другие реализации, раскрытые в патенте, могут включать в себя один или несколько атрибутов.
Атрибуты документа с ограниченным доступом могут содержать шаблон, включенный в конкретное поле документа с ограниченным доступом.
Другие документы могут исключать один или несколько документов с ограниченным доступом.
Другие документы, на которых основан данный показатель, могут состоять из документов, недоступных для пользователя.
Метод также включает в себя :
- создание для каждого документа с ограниченным доступом независимого от запроса показателя документа на основе большего количества показателей большего количества прошлых взаимодействий с атрибутами документа в ответ на большее количество запросов без каких-либо атрибутов запроса;
- использование независимых от запроса показателей документов с ограниченным доступом для определения порядка представления документов, отвечающих на запрос.
Кроме этого, метод может включать:
- Получение запроса, введенного пользователем через поисковый интерфейс вычислительного устройства.
- Определение документов, отвечающих на запрос.
- Определение атрибутов запроса.
Метод также включает (для каждого документа):
- Определение атрибутов документа.
- Создание зависимого от запроса показателя документа на основе показателей прошлых взаимодействий между атрибутами запроса и атрибутами документа, где каждый показатель основан на прошлых взаимодействиях пользователей с другими документами, имеющими атрибут документа. При этом другие документы были представлены в ответ на соответствующие запросы, имеющие атрибуты запроса, и включают в себя множество документов.
Метод также включает использование зависимых от запроса показателей документов. Это позволяет определить порядок представления документов, отвечающих на запрос, и выдать в ответ на запрос один или несколько документов в соответствующем порядке.
Данный метод ранжирования результатов поиска может включать:
- Выбор нескольких атрибутов документа и атрибутов запроса.
- Выбор каждого атрибута документа основан на его появлении в числе документов, доступ к которым ограничен по крайней мере для порогового количества пользователей.
- Выбор атрибута запроса основан на его появлении в запросах, доступ к которым ограничен по крайней мере для порогового количества пользователей.
- Запросы с ограниченным доступом — это запросы, в ответ на которые предоставляется хотя бы один документ с ограниченным доступом.
Метод включает создание показателя (показателей) предыдущего взаимодействия между атрибутами запроса и документа на основании ранее сформированных кортежей свойств документов и запросов.
Создание показателя прошлого взаимодействия основано на прошлых взаимодействиях с документами с ограниченным доступом. При этом должны быть выполнены следующие условия:
- документы были представлены в ответ на соответствующие запросы с ограниченным доступом;
- документы имеют атрибуты документа кортежа атрибутов запроса и документа;
- соответствующие запросы имеют атрибут запроса кортежа атрибутов запроса и документа.
Метод также включает сохранение на одном или нескольких носителях каждого показателя прошлого взаимодействия в сочетании с соответствующим кортежем атрибутов запроса и документа.
Данный метод и другие реализации, раскрытые в патенте, могут включать в себя один или несколько атрибутов:
- Определение нового документа, который отвечает на новый запрос пользователя и включает новую группу запросов атрибутов документа.
- Создание показателя нового документа на основе группы показателей прошлых взаимодействий.
В группе показателей прошлых взаимодействий учитываются также кортежи атрибутов запроса и документа, каждый из которых включает хотя бы один атрибут нового запроса или один из атрибутов документа новой группы запросов.
Также имеет место предоставление нового документа в ответ на новый запрос, основанный на показателе.
Новый документ может быть исключен из числа документов с ограниченным доступом, которые используются при создании показателей прошлых взаимодействий.
Возможен выбор нескольких атрибутов документа и множества атрибутов запроса.
Для каждого кортежа атрибутов запроса и документа, который включает хотя бы по одному атрибуту запроса и атрибуту документа, актуально следующее:
- создание показателя прошлых взаимодействий между атрибутами запроса и атрибутами документа кортежа атрибутов запроса и документа на основе нескольких прошлых взаимодействий с документами, которые были представлены в ответ на запросы;
- документы имеют атрибуты документа кортежа атрибутов запроса и документа;
- запросы имеют атрибут запроса кортежа атрибутов запроса и документа.
Другие реализации могут включать один или несколько носителей информации, на которых хранятся инструкции для процессоров, позволяющие применять описанные методы.
Еще одна реализация может включать в себя систему, которая состоит из памяти и одного или нескольких процессоров, способных выполнять хранящиеся в памяти инструкции для применения одного или нескольких методов, описанных в документе.
Все комбинации упомянутых и дополнительных концепций ранжирования результатов поиска рассматриваются как часть объекта изобретения, раскрытого в патенте.
Патент также включает сохранение на одном или нескольких носителях каждого показателя прошлых взаимодействий в сочетании с соответствующим кортежем атрибутов запроса и документа.
В некоторых реализациях метод ранжирования результатов поиска также включает:
- Определение нового документа, который отвечает на новый запрос пользователя и включает новую группу запросов атрибутов документа.
- Создание показателя нового документа на основе группы показателей прошлых взаимодействий.
Метод также включает предоставление нового документа в ответ на новый запрос, основанный на сформированном показателе или группе показателей.
Все комбинации упомянутых и дополнительных концепций ранжирования результатов поиска рассматриваются как часть объекта изобретения, раскрытого в патенте.
Следует принимать во внимание, что все комбинации вышеупомянутых концепций и дополнительных концепций, подробно описанных в данном документе, рассматриваются как часть объекта изобретения.
Например, все комбинации заявленного объекта изобретения, появляющиеся в конце этой публикации, рассматриваются как часть объекта изобретения, раскрытого в данном документе.
Данный патент о ранжировании Google результатов поиска, можно найти по ссылке:
Документы о ранжировании результатов поиска
Разработчики: Майк Бендерски, Марк Александр Наджорк, Дональд Метцлер и Сюаньхуэй Ван
Правопреемник: GOOGLE LLC
Патент США: 10,970,293
Дата выдачи: 6 апреля 2021 г.
Дата заявки: 26 августа 2019 г.
Аннотация
Методы и средства, относящиеся к использованию атрибута(-ов) документа, который отвечает на запрос, и, опционально, атрибута(-ов) запроса, помогающие определить характеристику представления результата поиска, соответствующего документу.
В некоторых реализациях для определения характеристики представления могут использоваться показатели, связанные с атрибутом(-ами) документа и/или атрибутом(-ами) запроса.
Показатели могут быть основаны на прошлых взаимодействиях пользователя с другими документами, которые имеют один или несколько общих атрибутов документа, где множество других документов отличаются от данного документа (и, опционально, каждый отличается друг от друга).
В некоторых реализациях документ и/или другие документы включают в себя или полностью состоят из документов, доступ к которым ограничен.
РАНЖИРОВАНИЕ РЕЗУЛЬТАТОВ ПОИСКА ДОКУМЕНТОВ С ОГРАНИЧЕННЫМ ДОСТУПОМ
Патент сообщает нам, что некоторые процессы ранжирования могут применяться для поиска документов с ограниченным доступом. Речь идет о документах, по которым пользователь может осуществлять поиск, например его собственные электронные письма.
Также об этих «документах с ограниченным доступом» известно то, что их можно противопоставить общедоступным документам, которые могут просматривать все пользователи.
Доступ к таким документам может быть ограничен конкретной группой пользователей на основе их учетных данных. А документ с ограниченным доступом может быть доступен через частную сеть для определенной группы пользователей и/или другим способом, открывающим его видимость.
Эти «пользовательские документы с ограниченным доступом» открыты только для данного пользователя и, опционально, для ограниченной группы других пользователей, которые могут назначаться или иначе контролироваться данным пользователем.
Пользовательский документ с ограниченным доступом может быть доступен только данному пользователю в зависимости от:
- Локального хранения на вычислительном устройстве, контролируемом пользователем.
- Доступности через одно или несколько компьютерных приложений с использованием соответствующих учетных данных пользователя и т. д.
Например, электронные письма пользователя могут быть пользовательскими документами с ограниченным доступом, которые доступны лишь пользователю через соответствующие учетные данные.
Кроме того, разнородные пользовательские документы, хранящиеся в облачной системе хранения, могут являться пользовательскими документами с ограниченным доступом, которые доступны только пользователю через соответствующие учетные данные.
Опционально, один или несколько разнородных документов также могут быть доступны ограниченной группе других пользователей на основе авторизации через одно или несколько компьютерных приложений. Например, общие документы в такой программе, как Google Documents.
Также мы узнаем, что различные документы, хранящиеся локально на мобильном телефоне, планшете, компьютере и/или других электронных устройствах пользователя, могут являться документами с ограниченным доступом на основании локального хранения на устройстве(-ах) пользователя.
ДАННЫЕ О ВЗАИМОДЕЙСТВИИ С ПОЛЬЗОВАТЕЛЯМИ, ПРИМЕНЯЕМЫЕ ПРИ РАНЖИРОВАНИИ РЕЗУЛЬТАТОВ ПОИСКА
Патент также сообщает нам о данных о взаимодействии с пользователями (например, коэффициент кликабельности), которые применялись для ранжирования конкретных общедоступных документов с результатами поиска по конкретным запросам.
Эти данные о взаимодействии с пользователями могут указывать на то, что для конкретного поискового запроса конкретный общедоступный документ, который представлен в результатах поиска и отвечает на конкретный поисковый запрос, имеет намного больший коэффициент кликабельности, чем у любого другого общедоступного документа, представленного в результатах поиска и отвечающего на конкретный поисковый запрос.
На основе этого показания результат поиска, соответствующий конкретному общедоступному документу, может быть представлен более заметно, чем другие общедоступные документы.
НЕКОТОРЫЕ ДАННЫЕ О ВЗАИМОДЕЙСТВИИ С ПОЛЬЗОВАТЕЛЯМИ НЕ МОГУТ ПРИМЕНЯТЬСЯ В РАНЖИРОВАНИИ РЕЗУЛЬТАТОВ ПОИСКА ДАННЫХ С ОГРАНИЧЕННЫМ ДОСТУПОМ
Далее патент сообщает нам, что некоторые методы, связанные с использованием данных о взаимодействии с пользователями для ранжирования общедоступных результатов поиска по конкретным запросам, могут не применяться к различным документам и/или могут не обеспечивать желаемого качества.
Различные технологии могут не применяться к различным документам с ограниченным доступом (например, принадлежащим пользователю, отправляющему запрос) и/или к различным общедоступным документам (например, не имеющим взаимодействий в ответ на запросы или имеющим их в небольшом количестве).
Предположим, что кто-то отправляет запрос для поиска по своим частным электронным письмам, и несколько электронных писем (которые являются пользовательскими документами с ограниченным доступом) возвращаются как отвечающие на поисковый запрос (например, электронные письма включают одно или несколько ключевых слов поискового запроса).
Одно или несколько электронных писем, отвечающих на запрос, возможно, никогда не были представлены и/или не взаимодействовали в ответ на предыдущие поисковые запросы других пользователей и/или пользователя.
Конкретное электронное письмо могло быть отправлено только пользователю и, возможно, пользователь ранее с ним не взаимодействовал в ответ на предыдущий поисковый запрос.
Таким образом, могут отсутствовать какие-либо данные о взаимодействии пользователя с конкретным электронным письмом, что делает технологии, применяющие данные о взаимодействии с пользователем для ранжирования общедоступных результатов поиска, неэффективными для ранжирования конкретного электронного письма.
В качестве другого примера предположим, что пользователь отправляет запрос для поиска в числе документов с ограниченным доступом, которые видны лишь ограниченной группе пользователей, и что многие документы определены как отвечающие на поисковый запрос.
Один или несколько документов, отвечающих на запрос, возможно:
- никогда не были представлены;
- и/или не взаимодействовали в ответ на предыдущие поисковые запросы;
- и/или могли быть недостаточно представлены в ответ на предыдущие поисковые запросы;
- и/или недостаточно взаимодействовали в ответ на предыдущие поисковые запросы.
Может отсутствовать необходимое количество данных о взаимодействии пользователя с такими страницами в ответ на поисковый запрос, что делает технологии, применяющие данные о взаимодействии с пользователем для ранжирования общедоступных результатов поиска, неэффективными для ранжирования таких документов.
В качестве еще одного примера предположим, что кто-то отправляет запрос для поиска в числе общедоступных документов, и что многие документы определены как отвечающие на поисковый запрос.
Документы, отвечающие на запрос, возможно:
- никогда не были представлены;
- и/или не взаимодействовали в ответ на предыдущие поисковые запросы;
- и/или могли быть недостаточно представлены;
- и/или взаимодействовали в ответ на предыдущие поисковые запросы в недостаточной степени.
Таким образом, могут отсутствовать достаточные данные о взаимодействии пользователя с такими документами в ответ на поисковый запрос. И это тоже делает технологии, связанные с применением данных о взаимодействии с пользователем для ранжирования общедоступных результатов поиска, неэффективными для ранжирования таких документов.
В данном патенте представлены различные технические особенности, связанные с использованием атрибутов документа, отвечающего на запрос, и, опционально, атрибутов запроса, которые применяются для определения характеристики представления результата поиска, а также для выдачи результатов поиска в ответ на запрос.
Для определения характеристики представления могут использоваться показатели, связанные с атрибутами документа и/или атрибутами запроса.
Эти показатели могут быть основаны на прошлых взаимодействиях, совершенных предыдущими пользователями с другими документами, которые имеют схожие атрибуты, но при этом отличаются от данного документа (и, опционально, каждый отличается друг от друга).
Использование таких показателей позволяет применять эти прошлые взаимодействия для определения основанной на взаимодействии релевантности документа с ограниченным доступом, и, опционально, без ссылки на какие-либо прошлые взаимодействия, направленные на конкретный документ с ограниченным доступом.
Другие документы могут включать в себя или полностью состоять из документов, доступ к которым ограничен.
Для определения характеристики представления результата поиска, соответствующего документу, который отвечает на запрос, создается зависимый от запроса показатель документа с ограниченным доступом.
Зависимый от запроса показатель может быть основан на показателях прошлых взаимодействий между атрибутами запроса и атрибутами документа.
Каждый показатель может быть основан на каком-либо количестве прошлых взаимодействий предыдущих пользователей с другими документами, обладающими одним или более атрибутами документа, при этом другие документы были представлены в ответ на соответствующие запросы с одним или несколькими атрибутами запроса.
Предположим, что пользователь применяет интерфейс поиска по электронным письмам, чтобы отправить запрос «номер заказа книги».
Можно выполнить поиск в электронных письмах пользователя, каждое из которых является пользовательским документом с ограниченным доступом, и многие электронные письма будут определены как отвечающие на запрос.
Конкретное электронное письмо, отвечающее на запрос, может быть от получателя store@exampleurl.com, иметь тему «Подтверждение заказа 1A2B3C» и включать текст, где упоминается конкретная книга, приобретенная пользователем, вместе с деталями покупки (например, дата покупки, адрес доставки, дата доставки, стоимость).
Конкретное электронное письмо, отвечающее на запрос, возможно, никогда не взаимодействовало с другими пользователями в ответ на их запросы (поскольку оно является частным документом пользователя и недоступно для других лиц) и, возможно, даже никогда не взаимодействовало с данным пользователем в ответ на его запрос. Однако описанные методы все же можно использовать для определения зависимого от запроса показателя конкретного электронного письма на основе показателей прошлых взаимодействий между атрибутами запроса «номер заказа на книгу» и атрибутами документа конкретного электронного письма.
Например, первый показатель прошлых взаимодействий может быть определен на основе нескольких взаимодействий множества пользователей с другими электронными письмами, которые содержат store@exampleurl.com в поле «От» и «Подтверждение заказа [#]» (где [#] обозначает буквенную и/или числовую строку) в поле «Тема», когда эти электронные письма были представлены в ответ на соответствующие запросы, содержащие n-граммы «заказ книги».
Также второй показатель взаимодействий может быть определен на основе множества взаимодействий множества пользователей с другими электронными письмами, которые содержат store@exampleurl.com» в поле «От» и «Подтверждение заказа [#]» в поле «Тема», когда эти электронные письма были представлены в ответ на соответствующие запросы, содержащие n-граммы «номер заказа».
Зависимый от запроса показатель может быть создан на основе первого показателя, второго и, опционально, других показателей, определенных аналогичным способом.
Зависимый от запроса показатель может быть суммой, средним значением, медианным значением или другой статистической комбинацией показателей.
Зависимый от запроса показатель может использоваться для определения характеристики представления конкретного электронного письма, отвечающего на запрос.
Зависимый от запроса показатель может использоваться для изменения начальной оценки конкретного электронного письма, отвечающего на запрос (например, оценки, основанной на степени соответствия между запросом и конкретным электронным письмом), и оценки, используемой для ранжирования конкретного электронного письма относительно другого письма, отвечающего на запрос (например, на основе опционально измененных начальных оценок этих писем).
Ранжирование может применяться для определения того, какие электронные письма, отвечающие на запрос, изначально используются для предоставления соответствующих результатов поиска, для определения порядка представления (или других способов отображения) результатов поиска и/или для определения дополнительных или альтернативных характеристик представления результатов поиска.
НЕЗАВИСИМЫЕ ОТ ЗАПРОСА ПОКАЗАТЕЛИ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА
Для документа создается независимый от запроса показатель, который можно использовать для определения характеристики представления.
Независимый от запроса показатель может быть основан на показателях прошлых взаимодействий предыдущих пользователей с другими документами, обладающими одним или более атрибутами документа, когда эти документы были представлены в ответ на соответствующие запросы, которые включают в себя или полностью состоят из запросов без атрибутов.
Независимый от запроса показатель может указывать на общую популярность документов, имеющих атрибут документа, где зависимый от запроса показатель указывает на популярность документов, имеющих атрибуты документа, в ответ на запросы, имеющие атрибуты запроса.
Зависимые и независимые от запроса показатели документа могут быть созданы на основе модели «атрибут запроса — атрибут документа».
Модель «атрибут запроса — атрибут документа» может быть создана на основе модели «запрос — документ», модели «документ — атрибут» и/или модели «запрос — атрибут».
Модель «запрос — документ» может представлять собой двудольный граф, который моделирует взаимодействия между запросами и документами, на что указывает одна или несколько сохраненных записей прошлых запросов и соответствующих взаимодействий.
Вершины графа «запрос — документ» могут обозначать запросы и документы.
Ребра графа могут находиться между вершинами запроса и документа и указывать, просматривался ли соответствующий документ по соответствующему запросу (например, результат поиска, представленный в ответ на запрос) и/или осуществлялось ли взаимодействие с документом (например, выбор результата поиска) по запросу.
Модель «документ — атрибут» может представлять собой двудольный граф, который моделирует взаимосвязь между документами и их атрибутами.
Могут использоваться различные атрибуты, такие как атрибуты категорий, структурные атрибуты и/или атрибуты n-грамм.
Атрибуты категории документа могут обозначать категории, к которым принадлежит документ, и могут быть основаны на применении атрибутов документа к классификатору или другой модели машинного обучения, а также на определении атрибутов категории на основе выходных данных, созданных с помощью модели машинного обучения.
В качестве примера можно рассмотреть категории электронных писем, которые могут относиться к финансам, путешествиям, подтверждению заказа и/или другим категориям.
Структурные атрибуты могут указывать на шаблоны и/или другой контент конкретных структурных полей документов.
Для электронных писем и прочих электронных сообщений структурные атрибуты могут включать:
- Информацию об отправителе в поле «От» электронного сообщения (например, доменное имя адреса электронной почты отправителя, отношение отправителя к пользователю).
- Информацию о теме письма в поле «Тема» электронного сообщения (это может быть конкретный шаблон, которому соответствует поле «Тема», например «Подтверждение заказа [#]»).
- Совместное появление конкретной информации об отправителе и конкретной темы сообщения (то есть содержимое полей «От» и «Тема»).
Также, например, структурные атрибуты документа с ограниченным доступом могут включать в себя атрибут типа файла, основанный на расширении файла документа с ограниченным доступом.
Другие структурные атрибуты могут включать в себя контент, такой как шаблон(-ы) и/или n-граммы, которые появляются в одном или нескольких конкретных дополнительных и/или альтернативных полях документа, например, в полях заголовка документа, местоположении, календарной записи и т.д.
Модель «запрос — атрибут» может представлять собой двудольный граф, который моделирует взаимосвязь между запросами и их атрибутами.
Атрибуты запроса могут включать:
- N-граммы, появляющиеся в запросе (например, самая длинная n-грамма, появляющаяся в запросе).
- Сущности, указанные в запросе (например, конкретный человек, место и/или предмет).
- Категории сущностей, указанные в запросе (например, город, имя человека, местоположение, ресторан).
- Грамматические атрибуты запроса и т.д.
Модель «атрибут запроса — атрибут документа» может представлять собой двудольный граф, который создается с использованием графов «запрос — документ», «документ — атрибут» и «запрос — атрибут».
Модель «атрибут запроса — атрибут документа» может моделировать взаимодействия между атрибутами документа и атрибутами запроса.
Другими словами, она моделирует взаимодействия между атрибутами документа и запроса, а не взаимодействия непосредственно между запросами и документами.
Модель создается на основе преобразования модели «запрос — документ» в пространстве «атрибуты документа» и «атрибуты запроса» при помощи совместного использования моделей «документ — атрибут» и «запрос — атрибут».
Только атрибуты (запроса или документа), присутствующие не менее порогового количества раз (в запросах или документах) и/или хотя бы для минимального числа пользователей, могут использоваться при создании графов «запрос — атрибут», «документ — атрибут» и/или «атрибут запроса — атрибут документа».
Это может гарантировать, что атрибуты не включают конфиденциальную информацию и будут появляться хотя бы минимальное количество раз и/или хотя бы для минимального числа пользователей.
Для данного документа модель «атрибут запроса — атрибут документа» может использоваться для определения независимого и/или зависимого от запроса показателя.
Это может быть сделано для определения зависимого от запроса показателя, имеющего данные атрибуты, а также вершин графа между атрибутами запроса и атрибутами документа.
Каждая вершина предоставляет показатель прошлых взаимодействий между атрибутом запроса и атрибутом документа.
Показатели могут быть комбинированными (например, с помощью суммирования или других статистических комбинаций) для определения зависимого от запроса показателя.
Также, чтобы определить независимый от запроса показатель данного документа, могут быть определены ребра между всеми атрибутами запроса и атрибутами документа.
Показатели могут быть скомбинированы для определения независимого от запроса показателя.
ГДЕ МОГУТ ИСПОЛЬЗОВАТЬСЯ МЕТОДЫ, РАСКРЫТЫЕ В ПАТЕНТЕ О РАНЖИРОВАНИИ РЕЗУЛЬТАТОВ ПОИСКА
Сферы, где могут быть использованы данные методы:
- пользовательское устройство;
- поисковая система;
- система показателей прошлых взаимодействий;
- система показателей документа.
Примерная системная среда включает в себя массив документов пользователя гаджета.
Сборник документов может храниться на одном или нескольких электронных носителях и/или удаленно (например, на одном или нескольких удаленных серверах).
Каждый массив может хранить один или несколько пользовательских документов с ограниченным доступом, таких как электронные сообщения пользователя (электронные письма, SMS-сообщения, сообщения чата, сообщения социальных сетей), мультимедийные файлы (аудиофайлы, изображения, видеофайлы), текстовые документы, календарные записи, записи контактов и т. д.
Примерная среда также включает модель «запрос — документ», которая может храниться на одном или нескольких электронных носителях.
Модель «запрос — документ» может представлять собой двудольный граф, который моделирует взаимодействия между запросами и документами (могут включать в себя или полностью состоять из документов с ограниченным доступом), на что указывает одна или несколько сохраненных записей прошлых запросов и соответствующих взаимодействий.
Например, модель «запрос — документ» может быть создана на основе записей прошлых запросов и соответствующих взаимодействий, предоставленных данной поисковой системой и/или другими поисковыми системами на основе взаимодействия с ней множества пользователей через соответствующие клиентские устройства.
Примерная среда также включает в себя дополнительные модели, которые могут быть созданы системой показателей прошлых взаимодействий и использованы системой показателей документов.
Например, дополнительные модели могут включать в себя, по крайней мере, модель «атрибуты запроса — атрибуты документа».
Пользователь устройства может отправлять запросы в поисковую систему через один или несколько интерфейсов.
В ответ на запрос от клиентского устройства поисковая система выполняет поиск стандартными и/или другими методами в персональных корпусах, чтобы выявить пользовательские документы с ограниченным доступом, которые отвечают на запрос.
Массив может включать в себя каталог, который индексирует документы на основе одного или нескольких атрибутов. С помощью такого каталога поисковая система определяет документы, отвечающие на запрос.
Поисковая система выполняет поиск по множеству документов, которые включают в себя или полностью состоят из документов с ограниченным доступом. Такие документы не являются пользовательскими документами с неограниченным доступом и/или общедоступными документами.
Поисковая система ранжирует оценки документов, отвечающих на запрос, с использованием одного или нескольких сигналов ранжирования.
Каждый из сигналов ранжирования предоставляет информацию о самом документе и взаимосвязи между документом и поисковым запросом.
Подход к ранжированию результатов поиска для вычисления оценок документов, включает зависимые и/или независимые от запроса показатели, которые, согласно патенту, создаются системой показателей документа.
Механизм ранжирования может использовать дополнительные сигналы ранжирования, например, указывающие на степень соответствия данного документа поисковому запросу.
Сигналы ранжирования документа могут быть основаны на следующих вводных:
- Встречается ли в документе одно или несколько ключевых слов из запроса.
- Где в документе встречается одно или несколько ключевых слов из запроса.
- Частота появления в документе одного или нескольких ключевых слов из запроса.
- Частота появления документов, в которых встречается одно или несколько ключевых слов из запроса.
Затем механизм с помощью оценок ранжирует документы, отвечающие на запрос.
Поисковая система использует ранжированные документы для создания результатов поиска в ответ на запрос.
Выдача включает результаты поиска соответствующих документов, отвечающих на запрос.
Ранжирование результатов поиска может включать:
- Title документа
- Ссылку на документ
- Краткое содержание документа
Краткое содержание может включать сниппет или раздел документа, который отвечает на поисковый запрос.
Результаты поиска изображений могут включать:
- уменьшенный размер изображения;
- заголовок, связанный с изображением;
- ссылку на изображение.
Результаты поиска видео могут включать:
- кадр из видео;
- фрагмент видео;
- заголовок видео;
- ссылку на видео.
ДРУГИЕ РЕЗУЛЬТАТЫ ПОИСКА
Другие результаты поиска включают в себя краткую информацию, соответствующую запросу.
Она формируется из документов, отвечающих на поисковый запрос, и/или из других источников.
Эти результаты поиска отображаются в форме, позволяющей представить их пользователю через интерфейс вывода пользовательского устройства.
КАК ПРОИСХОДИТ РАНЖИРОВАНИЕ РЕЗУЛЬТАТОВ ПОИСКА (SERPS)
Система показателей документов может включать:
- механизм атрибутов документа;
- механизм атрибутов запроса;
- механизм зависимых от запроса атрибутов;
- механизм независимых от запроса атрибутов.
В патент сказано, что могут быть определены различные атрибуты запроса, такие как:
- n-граммы, появляющиеся в запросе;
- сущности, указанные в запросе;
- категории сущностей, указанные в запросе;
- грамматические атрибуты
- и так далее.
Механизм зависимых от запроса показателей создает соответствующий показатель каждого из документов.
При определении зависимого от запроса показателя документа механизм зависимых от запроса показателей определяет показатели прошлых взаимодействий, которые назначаются атрибутам запроса и атрибутам документа в соответствующей модели.
Предположим, что имеются атрибуты запроса QF1 и QF2 (где QF обозначает атрибут запроса) и атрибуты отвечающего на запрос документа с ограниченным доступом DF1, DF2 и DF3 (где DF обозначает атрибут документа).
Механизм зависимых от запроса показателей может определять показатель прошлых взаимодействий для каждого из сочетаний QF1 и DF1, QF1 и DF2, QF1 и DF3, QF2 и DF1, QF2 и DF2, QF2 и DF3.
Затем механизм зависимых от запроса показателей может создать соответствующий показатель документа с ограниченным доступом на основе комбинации шести отдельных показателей прошлых взаимодействий.
Каждый показатель прошлых взаимодействий, который используется механизмом зависимых от запроса показателей, может быть основан на количестве прошлых взаимодействий пользователей с другими документами, обладающими одним или более атрибутом документа, при этом документы были представлены в ответ на соответствующие запросы, обладающие одним или несколькими атрибутами запроса.
Другие документы могут включать в себя или полностью состоять из множества документов с ограниченным доступом, например, из частных документов того или иного пользователя, недоступных для других лиц. В патенте приводится дополнительное описание того, как создаются показатели прошлых взаимодействий.
Механизм независимых от запроса показателей создает соответствующий показатель каждого из документов.
При определении независимого от запроса показателя документа механизм независимых от запроса показателей определяет прошлые показатели взаимодействия, которые назначаются группе атрибутов запроса и атрибутам документа в соответствующей модели.
Группа атрибутов запроса включает в себя или полностью состоит из атрибутов запроса, дополняющих те, которые определяются механизмом атрибутов запроса.
Соответственно, группа атрибутов запроса не зависит от запроса, на который отвечает страница, поскольку включает в себя дополнительные атрибуты запроса. В качестве примера предположим, что имеются атрибуты документа с ограниченным доступом DF1, DF2 и DF3 (где DF обозначает атрибут документа).
Механизм независимых от запроса атрибутов может определять:
- Все показатели прошлых взаимодействий между группой атрибутов запроса и DF1.
- Все показатели прошлых взаимодействий между группой атрибутов запроса и DF2.
- Все показатели прошлых взаимодействий между группой атрибутов запроса и DF3.
Предположим, что группа атрибутов запроса включает атрибуты запроса с QF1 по QF1000.
Для DF1 показатели прошлых взаимодействий могут быть определены как сочетания QF1 и DF1, QF2 и DF1, QF3 и DF1, … , и QF1000 и DF1.
Затем механизм независимых от запроса показателей может создать соответствующий показатель документа на основе комбинации показателей прошлых взаимодействий.
Система показателей документа предоставляет поисковой системе зависимый и/или независимый от запроса показатель каждого из документов.
Механизм ранжирования может использовать зависимые и/или независимые от запроса показатели при ранжировании документов, а также использовать ранжирование при определении порядка представления и/или других характеристик представления результатов поиска документов.
Механизм ранжирования использует зависимые и/или независимые от запроса показатели для определения оценки документа, в соответствии с которой проводится ранжирование.
Например, механизм ранжирования может корректировать базовую оценку документа (например, основанную на других сигналах ранжирования) из-за зависимых и/или независимых от запроса показателей для создания модифицированной оценки.
Предположим, что базовая оценка sc.sub.b используется для документа, отвечающего на запрос.
Эта базовая оценка может быть основана на совпадении ключевых слов и/или других сигналах ранжирования.
Механизм ранжирования может определять окончательную оценку sc.sub.f, основанную на f (sc.sub.b, M.sub.d, M.sub.q,d), где M.sub.d — зависимый от запроса показатель документа, а M.sub.q,d — независимый от запроса показатель документа.
Опционально f ( ) может быть настроенной вручную оценкой или функцией ранжирования, полученной с помощью машинного обучения.
В некоторых реализациях механизм ранжирования поддерживает фиксированную базовую оценку (sc.sub.b) и обучает корректировку .delta.(M.sub.d, M.sub.q,d) по сравнению с базовой оценкой sc.sub.b.
Таким образом, оценочная функция f ( ) принимает следующий вид: f (sc.sub.b, M.sub.d, M.sub.q,d) = SC.sub.b + .delta.(M.sub.d, M.sub.q,d).
Эта адаптивная формулировка может быть полезной для той среды, где базовая оценка уже высоко оптимизирована и, опционально, не пересекается с независимыми и/или зависимыми от запроса показателями.
Система показателей прошлых взаимодействий может включать в себя механизм модели «запрос — документ», механизм модели «документ — атрибут», механизм модели «запрос — атрибут» и/или механизм модели «атрибут запроса — атрибут документа».
Все аспекты механизмов могут быть опущены, объединены и/или реализованы в компоненте, отдельном от системы показателей прошлых взаимодействий.
Механизм модели «запрос — документ» создает модель «запрос — документ».
Механизм модели «запрос — документ» может быть реализован поисковой системой.
Модель «запрос — документ» может представлять собой двудольный граф, который моделирует взаимодействия между запросами и документами, на что указывает одна или несколько сохраненных записей прошлых запросов и соответствующих взаимодействий.
Например, вершины графа «запрос — документ» могут обозначать запросы и документы.
Вершины графа могут находиться между вершинами запроса и документа, и каждое из них может представлять, просматривался ли соответствующий документ по соответствующему запросу (например, результат поиска, представленный в ответ на соответствующий запрос) и/или осуществлялось ли взаимодействие с документом (например, выбор результата поиска) по запросу.
В некоторых реализациях каждая из вершин может включать в себя двоичное представление того, произошло ли взаимодействие.
Ребрам графов может быть присвоен определенный вес в зависимости от типа взаимодействия.
Более высокий вес присваивается результатам поиска, к которым получен доступ за более короткий промежуток времени, чем результатам поиска с временем взаимодействия ниже порогового значения.
Модель «запрос — документ» может быть представлена тройкой ( ):
- набор вершин, представляющих соответствующие запросы;
- набор вершин, представляющих соответствующие документы;
- набор вершин, соединяющих вершины запроса и документа.
Вершины в наборе могут быть параметризованы кортежами вида e(q, d)=<.gamma..sub.o(q, d),.gamma..sub.c(q, d)>, где q — вершина запроса, соединенная границей графа, d — вершина документа, соединенная границей графа, а функции параметризации .gamma..sub.o (a, b) и .gamma..sub.c(a, b) указывают на то, что объекты a и b просматривались или нажимались в одном и том же сеансе поиска.
В этой спецификации термин «граф» будет широко использоваться для обозначения любого отображения множества связанных информационных элементов.
Граф или часть графа не обязательно должны находиться на одном устройстве хранения данных. Они могут включать в себя указатели или другие индикаторы элементов информации, которые могут находиться на других устройствах хранения информации.
Например, граф может включать в себя несколько вершин, сопоставленных друг с другом. Причем каждая вершина включает в себя идентификатор объекта или другой информационный элемент, который может присутствовать в другой структуре данных и/или на другом носителе.
Механизм модели «документ — атрибут» создает модель «документ — атрибут», которую можно дополнительно включить в модель(-и).
Механизм модели «документ — атрибут» может создавать атрибуты документа на основе документов, включенных в модель «запрос — документ».
Например, для каждого из документов модели «запрос — документ» механизм может определить один или несколько атрибутов документа, а также взаимосвязь между документом и его атрибутами. Модель «документ — атрибут» может представлять собой двудольный граф, который моделирует взаимосвязь между документами и их атрибутами.
Например, первая вершина в модели может представлять атрибут документа. И эта вершина может быть связана множеством ветвь графов соответствующих документов, включающих в себя их атрибуты.
Каждая ветвь графа может указывать, присутствует ли в документе соответствующий атрибут, и, опционально, вес соответствующего атрибута документа. Например, для атрибута категории вес может указывать, насколько сильно документ связан с категорией.
При ранжировании результатов поиска могут использоваться различные атрибуты:
- атрибуты категории;
- структурные атрибуты;
- атрибуты n-грамм.
В некоторых реализациях модель «документ — атрибут» может быть представлена тройкой (, A.sup.D, ):
- набор вершин, представляющих соответствующие документы;
- набор вершин атрибутов документа, представляющих набор атрибутов документа;
- набор графов .epsilon..sup.D, соединяющих вершины документа и вершины атрибутов документа.
Графы в наборе.epsilon..sup.D могут быть параметризованы с помощью e(d, a.sub.ij.sup.d), где e(d, a.sub.ij.sup.d) указывает на присутствие/отсутствие соответствующего атрибута в документе и, опционально, на вес соответствующего атрибута документа.
Механизм модели «запрос — атрибут» создает модель «запрос — атрибут», которую можно дополнительно включить в модель(-и).
Механизм модели «запрос — атрибут» может создавать атрибуты для запросов, включенных в модель «запрос — документ».
Например, для каждого из запросов модели «запрос — документ» механизм может определить один или несколько атрибутов запроса, а также взаимосвязь между запросом и его атрибутами.
Модель «запрос — атрибут» может представлять собой, например, двудольный граф, который моделирует взаимосвязь между запросами и их атрибутами.
Например, первая вершина в модели может представлять атрибут запроса, и эта вершина может быть связана с каждой из множества вершин соответствующих запросов, которые включают в себя атрибуты запросов.
Вершины графов могут указывать, присутствует ли соответствующий атрибут в запросе и, опционально, вес соответствующего атрибута запроса.
Для ранжирования результатов поиска могут использоваться различные атрибуты, такие как:
- n-граммы, появляющиеся в запросе;
- сущности, указанные в запросе;
- категории сущностей, указанные в запросе;
- грамматические атрибуты запроса
- и так далее.
Модель «запрос — атрибут» может быть представлена тройкой ( ):
- набор вершин, представляющих соответствующие запросы;
- набор вершин, представляющих соответствующие атрибуты запроса;
- набор ребер, соединяющих вершины запроса и вершины атрибутов запроса.
Вершины графов в наборе .epsilon..sup.D могут быть параметризованы с помощью e(q, a.sub.kl.sup.q), где e(q, a.sub.kl.sup.q) указывает, присутствует ли соответствующий атрибут в запросе и, опционально, вес соответствующего атрибута запроса.
Механизм модели «атрибут запроса — атрибут документа» создает модель «атрибут запроса — атрибут документа», которую можно дополнительно включить в модель(-и).
Модель «атрибут запроса — атрибут документа» может представлять собой двудольный граф, созданный с использованием графов «запрос — документ», «документ — атрибут» и «запрос — атрибут».
Модель «атрибут запроса — атрибут документа» моделирует взаимодействия между атрибутами документа и атрибутами запроса.
Другими словами, она моделирует взаимодействия между атрибутами документа и запроса, а не взаимодействия непосредственно между запросами и документами.
Модель создается путем преобразования модели «запрос — документ» в пространстве «атрибуты документа» и «атрибуты запроса», с помощью совместного использования моделей «документ — атрибут» и «запрос — атрибут».
Модель «атрибут запроса — атрибут документа» может быть представлена тройкой (, .epsilon..sup.A):
- набор вершин, представляющих набор атрибутов запроса;
- A.sup.D — набор вершин атрибутов документа, представляющих набор атрибутов документа;
- набор ребер .epsilon..sup.D, соединяющих вершины атрибутов запроса и атрибутов документа.
Ребра в наборе.epsilon..sup.A имеют вес или другой показатель, основанный на количестве прошлых взаимодействий между атрибутом запроса соответствующей вершины и атрибутом документа соответствующей вершины.
Ребра в наборе ребер .epsilon..sup.A могут быть параметризованы с помощью:
.function..function..times..function..times..function..gamma..function..gamma..function. ## EQU00001 ##, где каждая функция ребра e() определена согласно описанному выше принципу.
Таким образом, методика определения графов моделирует атрибут «документ-запрос» при просмотре и нажатии посредством суммирования всех запросов и документов, которые могут быть связаны с соответствующими атрибутами.
Во многих реализациях только атрибуты (запроса или документа), присутствующие хотя бы минимальное количество раз (в запросах или документах) и/или хотя бы для минимального числа пользователей, могут использоваться при создании моделей «запрос — атрибут», «документ — атрибут» и/или «атрибут запроса — атрибут документа».
Это может гарантировать, что вершины атрибутов не включают конфиденциальную информацию и будут появляться не менее стольки-то раз и/или хотя бы для порогового числа пользователей.
Это может быть достигнуто:
- путем удаления из графа «документ — атрибут» любых вершин атрибутов документа, которые не имеют хотя бы минимального количества вершин графов, указывающих на присутствие в соответствующих документах;
- и/или путем удаления из модели «запрос — атрибут» любых вершин атрибутов запроса, которые не имеют по крайней мере порогового количества ребер, указывающих на присутствие в соответствующих запросах.
Вершины атрибутов запроса и/или вершины атрибутов документа могут быть удалены из модели «атрибут запроса — атрибут документа» с использованием аналогичных методов.
Для данного документа модель «атрибут запроса — атрибут документа» может использоваться для определения независимого и/или зависимого от запроса показателя.
Например, чтобы определить зависимый от запроса показатель данного запроса, имеющего заданные атрибуты, могут быть определены ребра между атрибутами запроса и атрибутами документа. Каждое из ребер предоставляет показатель прошлых взаимодействий между атрибутом данного запроса и атрибутом документа.
Показатели могут быть скомбинированы с помощью суммирования или других статистических комбинаций:
- для определения зависимого от запроса показателя;
- для определения независимого от запроса показателя ребер данного документа между группой атрибутов запроса (которая включает в себя или полностью состоит из атрибутов запроса, не включенных в данный запрос) и атрибутами документа;
- для определения независимого от запроса показателя.
ДОБАВЛЕНИЕ ЧАСТНЫХ ДОКУМЕНТОВ В РАНЖИРОВАНИЕ GOOGLE РЕЗУЛЬТАТОВ ПОИСКА
Такие документы, как электронные письма, в отличие от страниц не имеют ссылок. Но можно определить, какой из этих документов может быть важнее остальных, с помощью способов, которые не зависят от ключевых слов запроса. В патенте указано, какой подход использует Google, учитывая такие частные документы при ранжировании результатов поиска.
С момента запуска поисковой системы Google в принцип работы поиска было внесено множество изменений, включая то, как возвращаются частные и общедоступные результаты поиска, а также присутствие сущностей в запросах.
P.s. Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов.