Отправить заявку на SEO-продвижение сайта от Ant-Team.ru

Заказать

Патент Apple: как смешивать и повторно ранжировать результаты поиска

Перевод статьи Билла Славски

ЕЩЕ ОДИН ПРИЗНАК СКОРОГО ПОЯВЛЕНИЯ ПОИСКОВОЙ СИСТЕМЫ ОТ APPLE

Похоже, Apple работает над созданием собственной поисковой системы. Я уже публиковал ряд материалов о патентах, разработанных в Apple, которые говорят о том, что компания начинает проникать в области, в которых традиционно доминирует Google.

Судя по новому патенту, Apple разработала способ повторного ранжирования результатов поиска. Патент подробно описывает, как может происходить этот процесс. Ниже я привожу подборку моих предыдущих статей о поиске на устройствах Apple:

11.05.2015 – Встречайте, Applebot: Apple запускает свою поисковую систему? (англ.)

16.05.2015 – Ранжирование страниц в поисковой системе Apple? (англ.)

25.06.2016 – Увидим ли мы скоро дополненную реальность Apple? (англ.)

10.09.2020 – Поисковая система Apple уже близко (англ.)

Новый патент касается технологии поиска и того, как Apple может повторно ранжировать результаты, используя модель комбинированного обучения на пользовательском устройстве.

Пользователи ищут информацию по запросу в интернете или в других источниках данных. Поиск по запросу начинается со строки запроса, которая затем отправляется на поисковый сервер. Получив строку запроса, поисковый сервер ищет соответствующий результат.

Затем поисковый сервер возвращает результаты пользователю. Используя эту строку запроса, человек может искать информацию в локальных данных (например, на собственном телефоне). Каждый результат выдачи будет включать рейтинг для смешивания и повторного ранжирования. Результаты поиска с более высоким рейтингом будут располагаться выше, чем результаты с более низким рейтингом.

Основная проблема заключается в том, как представить эти результаты, чтобы они отражали предпочтения пользователя.

После того как пользователь получает результаты выдачи, он может взаимодействовать с некоторыми из них (например, перейти по ссылке и ознакомиться с сайтом, на который она ведет), а также отказаться от результатов, менее релевантных его запросу.

ПОВТОРНОЕ РАНЖИРОВАНИЕ РЕЗУЛЬТАТОВ ПОИСКА НА APPLE

По итогам такого взаимодействия можно судить, какие результаты поиска предпочтительны для пользователя, а от каких он хотел бы отказаться.

Такие выводы можно сделать и на основании других типов данных, но они, как правило, являются частными данными устройства.

В рамках этого патента речь идет о повторном ранжировании результатов поиска на пользовательском устройстве.

Устройство может получать от сервера уже агрегированную внутридоменную выдачу. Внутридоменная выдача — это выдача после повторного ранжирования результатов поиска, созданная на основе данных о предпочтениях множества схожих пользователей.

Далее устройство объединяет агрегированную внутридоменную выдачу с локальной внутридоменной выдачей. Локальная внутридоменная выдача — это персонализированная выдача, привязанная к конкретному устройству, она формируется на основе частных данных, собранных о предпочтениях  пользователя данного устройства. 

ЭТОТ МЕТОД ИСПОЛЬЗУЕТ АГРЕГИРОВАННУЮ ВНУТРИДОМЕННУЮ МОДЕЛЬ

Метод заключается в получении агрегированной внутридоменной модели (выдачи) от сервера. При этом все данные, которые используют для построения такой модели, не персонализированы.

Множество внутридоменных моделей выдачи соответствуют множеству поисковых доменов, которые используются для генерирования результатов поиска. Выбор агрегированной внутридоменной модели следует за локальной моделью, связанной с конкретным устройством пользователя. Модель повторного ранжирования — это модель, построенная нейронной сетью, которая использует исходные данные.

Метод повторного ранжирования начинает работать после того, как пользователь введет поисковой запрос в первый раз.

Данный подход генерирует модель повторного ранжирования, которая  основана на взаимодействии с другими результатами выдачи пользователей на других устройствах. Таким образом, каждая выдача соответствует одной из множества внутридоменных моделей.

Начиная со второго ранжирования применяется метод повторного ранжирования.

СМЕШИВАНИЕ ВНУТРИДОМЕННЫХ РЕЗУЛЬТАТОВ

Как говорилось выше, множество внутридоменных моделей соответствуют множеству доменов из выдачи, которые используются для генерирования множества результатов поиска. Сюда относится множество доменов как на устройстве, так и вне его. Выбор доменов на устройстве основан на текстовых сообщениях, электронной почте, контактах, календарях, музыке, фильмах, фотографиях, состояниях приложений и других установленных программах. Выбор доменов вне устройства основан:

  • в доменах, участвующих в поиске;
  • ссылках с  внешних медиаплощадок;
  • ссылках из онлайн-энциклопедий;
  • ссылках с других сайтов.

Внутридоменная модель основана на частной информации, хранящейся на конкретном устройстве пользователя. В итоге метод повторно ранжирует подмножество результатов из доменов с использованием соответствующей внутридоменной модели.

Данный метод использует поисковый запрос от пользователя.

Сначала он генерирует результаты поиска по множеству доменов, где эти результаты следуют за первым ранжированием.

КОГДА ПОВТОРНОЕ РАНЖИРОВАНИЕ СТАНОВИТСЯ ЧАСТЬЮ ПРОЦЕССА ПОИСКОВОЙ СИСТЕМЫ APPLE

метод генерирует модель повторного ранжирования, которая использует внутридоменные модели,

Затем метод генерирует модель повторного ранжирования, которая использует внутридоменные модели, основанные на взаимодействиях пользователей с поисковиком на устройстве, в совокупности с другими устройствами. Каждый домен из выдачи соответствует внутридоменным моделям.

Далее метод повторно ранжирует результаты поиска, используя модель повторного ранжирования.

Наконец, метод представляет определенное количество результатов поиска с использованием второго ранжирования.

Домены из выдачи включают в себя домены на устройстве. В их основе могут лежать:

  • Текстовые сообщения
  • Электронная почта
  • Контакты
  • Записи в календаре
  • Музыка
  • Фильмы
  • Фотографии
  • Установленные приложения

Внутридоменная модель также рассматривает частную информацию, которую пользователь хранит на своем устройстве. Машиночитаемый метод также повторно ранжирует подмножество результатов в доменах с использованием соответствующей внутридоменной модели.

Домены из выдачи могут также включать в себя домены вне устройства, выбранные на основе частной информации, которую пользователь хранит на устройстве. Это также может включать повторное ранжирование доменов с помощью междоменной модели. Модель повторного ранжирования представляет собой модель нейронной сети и может дополнительно включать в себя аглоритм.

АГРЕГИРОВАННАЯ МОДЕЛЬ ПОВТОРНОГО РАНЖИРОВАНИЯ

Метод также может генерировать агрегированную модель на основе необработанных данных. Агрегированная модель включает внутридоменную модель, внутридоменная модель используется для повторного ранжирования результатов поиска, а агрегированная модель определяет количество доменов в результате выдачи. Данный метод показывает, что агрегированная модель используется по запросу пользовательского устройства.

Пользовательское устройство регистрирует запрос на получение агрегированной модели. Этот запрос также может рассматриваться как согласие на сбор диагностических данных.

Метод генерирует агрегированную модель, которая используется для повторного ранжирования результатов поиска на пользовательском устройстве. Сначала метод получает необработанные данные от устройства, где результирующими данными является то, как пользователи устройств применяют эти устройства, а необработанные данные не раскрывают личные данные о пользователе. Затем метод генерирует агрегированную модель на основе необработанных данных.

Далее в способе раскрывается, что модель с использованием краудсорсинга отправляется на пользовательское устройство для запроса агрегированной модели. Запрос пользовательского устройства — это согласие устройства пользователя на получение агрегированной модели. Этот запрос может быть также разрешением на сбор диагностических данных.

УСТРОЙСТВО, КОТОРОЕ МОЖЕТ ПОВТОРНО РАНЖИРОВАТЬ РЕЗУЛЬТАТЫ ПОИСКА

Устройство включает в себя процессор и накопитель, соединенный с процессором через шину. Устройство использует процедуру, выполняемую с накопителя процессором, который заставляет его принимать поисковый запрос от пользователя и генерировать результаты поиска по доменам. После этого процессор генерирует модель повторного ранжирования, с помощью которой повторно ранжирует результаты поиска и представляет итоги второго ранжирования. В конце результаты поиска используют первое ранжирование. Модель повторного ранжирования включает внутридоменные модели, созданные на основе взаимодействий других пользователей с устройствами. Домены в выдаче соответствуют одной из множества внутридоменных моделей.

Ниже представлены подробные сведения об этом патенте на повторное ранжирование результатов поиска:

Повторное ранжирование результатов поиска с использованием моделей комбинированного обучения

Изобретатели: Хон Юк Чан, Джон М. Хорнквист, Лунь Цуй, Випул Вед Пракаш, Анубхав Малхотра, Стэнли Н. Хунг и Жюльен Фрейдигер

Правопреемник: Apple Inc.

Патент США: 11,003,672

Дата выдачи: 11 мая 2021 г.

Дата заявки: 12 июля 2017 г.

Аннотация.

Рисунок 1. Уровень 1

Такой подход позволяет повторно ранжировать результаты с поискового сервера. Более того, многие детали дают исчерпывающее объяснение об особенностях выдачи конкретного пользовательского устройства.

Упоминание «примера осуществления» означает, что конкретная описанная особенность, структура или характеристика включена в изобретение.

Изображенные процессы выполняются алгоритмом обработки, который использует аппаратное обеспечение (например, электрические и специализированные логические схемы и т. д.), программное обеспечение (компьютерной системы общего назначения или специализированной машины) или их комбинацию. Таким образом, описанные операции могут выполняться в разном порядке.

НЕОБРАБОТАННЫЕ ДАННЫЕ ПРИ ПОВТОРНОМ РАНЖИРОВАНИИ РЕЗУЛЬТАТОВ ПОИСКА

Описываются метод и средства устройства, которое может повторно ранжировать результаты поиска, полученные от поискового сервера на устройстве. Устройство повторно ранжирует результаты поиска, полученные на устройстве, с использованием краудсорсинговых (агрегированных) моделей с сервера моделей. Сервер моделей генерирует краудсорсинговые модели из необработанных данных, которые периодически получает от множества устройств. Необработанные данные — это данные, указывающие на использование устройства, например:

  • типы результатов, с которыми взаимодействует пользователь;
  • типы результатов, от которых пользователь отказывается;
  • история использования приложения;
  • как пользователь взаимодействует с установленными на устройстве приложениями, такими как контакты, календарь, электронная почта, музыка и т. д.

Необработанные данные, собранные с разных устройств, являются анонимными. Таким образом, обнаружение необработанных данных не приведет к раскрытию частной информации, хранящейся на этом устройстве, или того, какое устройство передало эти необработанные данные.

Рисунок 2. Необработанные данные

Благодаря этим необработанным данным, сервер моделей может генерировать два типа краудсорсинговых доменных моделей:

  • внутридоменная модель;
  • междоменная модель.

Внутридоменная модель способствует тому, что устройство ранжирует результаты поиска в пределах домена. Для различных доменов из выдачи на устройстве может быть несколько поддерживаемых внутридоменных моделей. Может существовать отдельная внутридоменная модель для каждого из доменов на устройстве, либо одна или несколько общих внутридоменных моделей для некоторых или всех доменов.

Междоменная модель может иметь домены поиска на уровне устройств. Каждая из внутри- и междоменных моделей представляет собой модели машинного обучения (например, модель нейронной сети). Сервер моделей генерирует краудсорсинговые внутри- и междоменные модели и отправляет их на устройство.

ИСПОЛЬЗОВАНИЕ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ НА УСТРОЙСТВЕ ДЛЯ ПОВТОРНОГО РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА

Устройство может получать описанные выше модели. Но вместо использования этих моделей для ранжирования результатов и/или доменов устройство может также комбинировать каждую внутри- и междоменную модель с конфиденциальными данными на устройстве для создания локальных (и персонализированных) внутри- и междоменных моделей.

Конфиденциальные данные на устройстве — это частные данные о том, какие действия на устройстве выполняет пользователь. Тем не менее эти данные остаются резидентными на устройстве и не отправляются на сервер для сбора (например, на сервер моделей как часть набора необработанных данных, на поисковый сервер как часть поискового запроса или в рамках других сценариев сбора данных).

Конфиденциальные данные на устройстве могут включать историю браузера пользователя, состояния приложений, а также другие типы частных данных.

Рисунок 3. Частные данные

Устройство использует локальную внутридоменную модель для повторного ранжирования результатов поиска из доменов на устройстве, таких как контакты, электронная почта, сообщения, календарь, история приложений, музыка, прочие медиафайлы и т. д.

Для ранжирования поисковых доменов на устройстве используется локальная междоменная модель.

Устройство может использовать введенный запрос для поиска в доменах на устройстве и/или вне устройства (например, запрос, отправленный на поисковый сервер). Устройство получает результаты поиска на устройстве и/или вне устройства и повторно ранжирует их, используя локальные внутри- и междоменные модели.

Сервер повторно ранжирует результаты поиска вне устройства с использованием серверных внутри- и междоменных моделей, которые не включают персонализацию с использованием конфиденциальных данных пользователя. Затем устройство объединяет повторно ранжированные результаты поиска на устройстве и вне устройства и применяет одну или несколько стратегий, которые могут ограничивать повторное ранжирование, добавлять дополнительные повторные ранжирования и/или другими способами влиять на ранжирование результатов поиска.

СИСТЕМА, КОТОРАЯ ВОЗВРАЩАЕТ РЕЗУЛЬТАТЫ ПОИСКА С ВОЗМОЖНОСТЬЮ ИХ ПОВТОРНОГО РАНЖИРОВАНИЯ СО СТОРОНЫ ПОЛЬЗОВАТЕЛЬСКОГО УСТРОЙСТВА

Система включает в себя пользовательское устройство, сервер моделей и поисковый сервер, соединенные с сетью. Поисковый сервер собирает серверы, которые получают запросы от пользовательских и других устройств, и возвращает результаты поиска. Пользовательское устройство и серверы могут быть персональным компьютером, портативным компьютером, сервером, мобильным устройством (например, смартфоном, портативным компьютером, персональным виртуальным ассистентом, музыкальным проигрывателем, игровым устройством и т. д.) или любым устройством, способным отправлять поисковый запрос и отображать результаты поиска.

Кроме того, пользовательское устройство, сервер моделей или поисковый сервер могут представлять собой как физические, так и виртуальные устройства. Например, смартфон может быть сотовым телефоном, который способен выполнять многие функции устройства.

Пользовательское устройство включает в себя браузер для ввода префикса запроса пользователем. Браузер включает в себя поле для ввода поискового запроса. Браузер позволяет пользователю выполнять поиск в интернете или в других доменах и возвращать различные результаты. Например, браузер может разрешить пользователю вводить запрос для поиска в доменах на устройстве и/или вне устройства. Браузер включает в себя поле ввода, которое пользователь применяет для ввода строки поискового запроса.

Пользовательское устройство отправляет этот поисковый запрос на сервер. Поисковый сервер выполняет поиск по доменам. Сначала сервер выполняет поиск релевантных результатов во множестве доменов вне устройства (например, карты, мультимедиа, электронные энциклопедии, сайты и т. д.). Затем устройство получает набор результатов с множества доменов вне устройства и ранжирует эти результаты на основе оценок, полученных для каждого домена, и междоменной информации. Наконец, поисковый сервер определяет результаты поиска по этим доменам и отправляет их обратно устройству.

ПРОЦЕСС ПОИСКА С ПОВТОРНЫМ РАНЖИРОВАНИЕМ И СМЕШИВАНИЕМ

Пользовательское устройство может повторно ранжировать результаты поиска.

Сначала браузер получает поисковый запрос и отправляет его поисковому модулю пользовательского устройства.

Затем этот модуль отправляет запрос на поисковый сервер, выполняя поиск по доменам.

Сервер определяет и ранжирует результаты поиска на основе индивидуальной оценки.

Затем сервер отправляет обратно результаты поиска, которые включают соответствующие оценки. Наконец, поисковый модуль устройства получает результаты поиска и передает их в модуль повторного ранжирования.

Пользовательское устройство может использовать запрос для поиска на устройстве по доменам, размещенным на устройстве.

Затем пользовательское устройство выполняет поиск по доменам на устройстве в соответствии с запросом. Домены на устройстве — это различные базы данных, которые можно индексировать и хранить на устройстве (сообщения, электронная почта, контакты, календарь, музыка, фильмы, прочие медиафайлы, установленные приложения и т. д.).

Из этих доменов устройство может получить от поискового сервера набор результатов поиска на устройстве и/или вне устройства. Пользовательское устройство может повторно ранжировать эти наборы результатов поиска, используя модель повторного ранжирования.

Модель повторного ранжирования на устройстве включает в себя внутридоменную модель для повторного ранжирования результатов поиска и междоменную модель для повторного ранжирования доменов.

Наконец, модель политики конфиденциальности — это набор правил, обеспечивающих соблюдение решений, связанных с интерфейсами пользователя или предприятия. Внутридоменные и междоменные модели основаны на краудсорсинговых моделях и конфиденциальных данных на устройстве.

Рисунок 4. Конфиденциальные данные

НЕОБРАБОТАННЫЕ ДАННЫЕ, ПОКАЗЫВАЮЩИЕ, КАК ИСПОЛЬЗОВАЛОСЬ ПОИСКОВОЕ УСТРОЙСТВО

Сервер моделей может получать необработанные данные от множества устройств и генерировать на их основе краудсорсинговую внутридоменную модель и краудсорсинговую междоменную модель. Необработанные данные — это данные, указывающие на  то, что устройство использовалось, и каким образом это происходило. Необработанные данные могут включать:

  • длину поля;
  • данные запроса (например, количество условий запроса и/или другие типы данных запроса);
  • данные результатов запроса (например, косинусный эффект и/или другие типы данных запроса);
  • данные о действиях пользователя по отношению к результату (например, принял ли пользователь результат или отказался от него), удаленность пользователя от объектов в результатах выдачи;
  • данные пользователя (например, тип устройства результата, время дня, когда выполняется запрос, и/или другой тип результата пользователя) и другие типы данных запроса, результата, пользователя или используемого устройства.

Необработанные данные, собранные с разных устройств, являются анонимными. Таким образом, алгоритм не затрагивает и не считывает частные данные с устройства.

Эти необработанные данные можно собирать, например, ежедневно, еженедельно или с иной периодичностью. Кроме того, необработанные данные могут собираться по мере их создания. Наконец, необработанные данные собираются по решению пользователя, если он дает согласие на сбор диагностических данных.

Вместо того чтобы собирать все возможные необработанные данные, метод учитывает только их выборочные подмножества. Например, необработанные данные могут быть собраны одновременно как определенный набор из всех результатов взаимодействия, а необработанные данные, собранные в разное время, могут служить набором результатов, от которых отказался пользователь.

Другими типами собираемых данных может быть характер взаимодействия пользователя с приложениями на устройстве. Например, могут быть собраны данные о частоте взаимодействий пользователя с контактами или почтовым приложением. Опять же, информация собирается таким образом, что частные данные пользователя этого устройства не раскрываются.

Конфиденциальные данные на устройстве — это частные данные о том, какие действия на устройстве выполняет пользователь. Эти данные остаются на устройстве и не отправляются на сервер для сбора.

Данные на устройстве могут включать историю браузера пользователя, состояния приложений, а также другие типы частных данных.

Модуль моделей повторного ранжирования использует краудсорсинговые внутри- и междоменные модели, чтобы создавать локальные внутри- и междоменные модели на основе конфиденциальных данных на устройстве.

Затем модель генерирует междоменную модель на основе краудсорсинговой междоменной модели и конфиденциальных данных на устройстве. Модуль повторного ранжирования использует внутри- и междоменную модели для повторного ранжирования результатов поиска по доменам на устройстве и/или вне устройства.

Модель повторного ранжирования может включать в себя внутреннюю политику, куда входит набор правил для повторного ранжирования этих результатов. Пользовательское устройство получает краудсорсинговую внутри- и междоменную модель, если дает на это разрешение. Пользователь может согласиться на сбор диагностических данных или сделать иной выбор.

СИСТЕМА, КОТОРАЯ ПОЛУЧАЕТ НЕОБРАБОТАННЫЕ ДАННЫЕ ПОЛЬЗОВАТЕЛЬСКОГО УСТРОЙСТВА И ИСПОЛЬЗУЕТ ИХ ДЛЯ СОЗДАНИЯ КРАУДСОРСИНГОВЫХ МОДЕЛЕЙ

Пользовательское устройство работает с сервером моделей и включает в себя необработанные данные. Необработанные данные — это данные, которые показывают, как пользователь взаимодействует с устройством. Необработанные данные могут быть из периодического или динамического расписания.

Сервер моделей включает в себя модуль генерации краудсорсинговых моделей, который собирает необработанные данные на устройстве и использует их от этого устройства и/или других устройств для генерации краудсорсинговых моделей домена. Сгенерированный модуль краудсорсинговой модели может создавать внутридоменную модель из собранных необработанных данных.

Необработанные данные с сервера моделей, взятые на пользовательском устройстве или на других устройствах, включаются в собранные данные. Затем сервер моделей предварительно обрабатывает собранные данные для получения собранного набора данных. Наконец, сервер моделей предварительно обрабатывает собранный набор данных, преобразуя и удаляя элементы, создавая новые данные, нормализуя данные и/или выполняя прочие действия по их предварительной обработке.

Сервер моделей использует собранные данные в качестве входных данных для алгоритма машинного обучения, используемого для создания краудсорсинговой внутридоменной модели. Алгоритм машинного обучения представляет собой нейронную сеть. Сервер моделей использует набор данных как нижний слой нейронной сети. Кроме того, промежуточные слои представляют собой сжатое представление и последний слой нейронной сети.

Последний слой может включать в себя два нейрона, которые с одинаковой вероятностью представляют либо взаимодействие, либо отказ пользователя от результата. Таким образом, для краудсорсинговой внутридоменной модели количество результатов и их типов на последнем слое нейронов может быть большим.

Сервер использует собранные данные в качестве входных данных для краудсорсинговой междоменной модели. Кроме того, сервер моделей использует собранный набор данных в качестве входных данных для нейронной сети, где существует набор промежуточных слоев и последний слой нейронов.

Последний слой может включать четыре нейрона, представляющих результаты в различных доменах (например, плохой результат, удовлетворительный результат, хороший результат и отличный результат). Для краудсорсинговой междоменной модели количество результатов и их типов на последнем слое нейронов может быть большим.

ПОЛЬЗОВАТЕЛЬСКОЕ УСТРОЙСТВО МОЖЕТ ИСПОЛЬЗОВАТЬ НЕСКОЛЬКО РАЗЛИЧНЫХ КРАУДСОРСИНГОВЫХ ВНУТРИДОМЕННЫХ МОДЕЛЕЙ

Во-первых, это может быть краудсорсинговая внутридоменная модель для каждого из доменов на устройстве.

Во-вторых, может существовать общая краудсорсинговая внутридоменная модель для доменов из выдачи и различные краудсорсинговые внутридоменные модели для других доменов.

В-третьих, для всех поддерживаемых доменов из выдачи может использоваться общая краудсорсинговая внутридоменная модель.

В-четвертых, для поддерживаемых доменов можно применять общую краудсорсинговую междоменную модель.

Наконец, для поддерживаемых доменов может существовать несколько краудсорсинговых междоменных моделей.

В зависимости от географического положения и языкового сегмента могут использоваться разные внутри- и междоменные модели. Сервер моделей может отправлять созданные междоменные и/или внутридоменные модели пользовательскому устройству.

Рисунок 5. Внутри- и междоменные модели

МОГУТ СУЩЕСТВОВАТЬ МОДЕЛИ ДЕРЕВА РЕШЕНИЙ С ГРАДИЕНТНЫМ ПОВЫШЕНИЕМ (GBDT) ДЛЯ L2 И L3

Сервер моделей может использовать попарное обучение, чтобы уменьшить систематическую погрешность.

L2 и L3 могут быть сгенерированы только с использованием информации, которую пользователи отправили через канал диагностических данных (анонимно и без совместного использования фактического запроса) без использования каких-либо данных из общей обратной связи, содержащей запрос пользователя. Вместо этого сервер моделей отправляет метаданные локальных результатов через анонимную обратную связь.

Сервер моделей может создавать искусственные (вымышленные) данные для обучения и создания другой модели. Это может повысить рейтинг результатов некоторых типов.

Например, результат приложения или электронного письма, которое использовалось недавно, может получить более высокий рейтинг, даже если он не соответствует текстовым данным по сравнению с другими результатами. Точно так же письмо, отправленное людьми, обозначенными как VIP (избранные), может иметь более высокий рейтинг, чем другие электронные письма с тем же временем отправки или текстовыми характеристиками.

Повышение также работает в комбинации. Так, например, письмо, отправленное избранным контактом, которое также является более новым, получит более высокий рейтинг, чем более старое письмо, отправленное также VIP-контактом, при условии, что оба имеют одинаковое качество совпадения (совпадение текста и т. д.).

Один из способов использования модели повышения — это объединить оценку из первой модели (обученной с использованием органических данных) и второй модели (обученной с использованием фиктивных данных) в виде единой функции для получения окончательной оценки для ранжирования результатов.

Рисунок 6. Окончательная оценка

НАБОР РЕЗУЛЬТАТОВ ПОИСКА ПО ЗАПРОСУ ИЗ НЕСКОЛЬКИХ ДОМЕНОВ

Домены группируют результаты поиска. Каждый домен может включать несколько результатов или нулевой результат. Например, домен включает результаты, в которых N, M, P, Q могут иметь одинаковые или разные значениями.

Пользовательское устройство может использовать внутридоменную модель для повторного ранжирования результатов поиска в одном или нескольких доменах. Внутридоменная модель позволяет устройству повторно ранжировать одни результаты раньше других. Пользовательское устройство может использовать междоменную модель для повторного ранжирования доменов. Например, используя междоменную модель, устройство может ранжировать результаты поиска из домена контактов раньше, чем результаты поиска из домена новостей.

Таким образом, используя междоменную модель, устройство может ранжировать один домен раньше другого (и, соответственно, связанные с ними результаты). Затем устройство может представить результаты поиска, используя эти скорректированные рейтинги (например, в браузере или другом приложении, способном выполнять поиск).

НАБОР СЛОЕВ, ИСПОЛЬЗУЕМЫХ ДЛЯ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА

Набор слоев может первоначально и повторно ранжировать результаты поиска из доменов на устройстве и/или вне устройства.

Первый слой — это необработанные данные, полученные из набора результатов, поискового запроса и устройства или контекста, используемого при отправке поискового запроса.

Необработанные данные могут быть из набора результатов (например, оценка результата, косинусный эффект и/или другие типы данных запроса), а также являться данными результата пользователя (например, принял ли пользователь результат или отказался от него), расстоянием пользователя от результата (независимо от того, является ли результат представлением объекта в мире) или другими типами данных набора результатов.

Эти данные могут являться данными запроса (такими как множество ключевых слов или другие типы данных запроса).

Наконец, данные могут поступать от устройства или контекста, используемого при отправке поискового запроса (например, как пользователь взаимодействует с установленными на устройстве приложениями, такими как контакты, календарь, электронная почта, музыка и т. д.). Например, более высокий слой L2 представляет собой ранжирование результатов с использованием внутридоменных моделей устройства или сервера. Уровень L2 является результатом того, что устройство использует внутридоменную модель для повторного ранжирования результатов определенного домена.

Рисунок 7. Ранжирования результатов определенного домена

В одном примере осуществления уровень L3 повторно ранжирует домены с использованием междоменной модели.

Дальнейшее ранжирование может применяться на основе политики обращения с данными. Это может быть уровень L4, который использует политику конфиденциальности для корректировки ранжирования доменов и/или отдельных результатов. L4 — это уровень алгоритмов для фильтрации результатов на основе оценки L3 или их перегруппировки согласно требованиям к интерфейсу пользователя.

Политика обращения с данными на уровня L4 может различаться на стороне сервера и на стороне устройства. Например, алгоритмы L4 могут представлять собой ограничения на переупорядочивание результатов сервера, ограничения на вставку результатов между результатами сервера или рекомендации по размещению.

МОДЕЛИ ЛОКАЛЬНЫХ ДОМЕНОВ, СОЗДАННЫЕ ИЗ КРАУДСОРСИНГОВЫХ МОДЕЛЕЙ И КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ НА УСТРОЙСТВЕ

Система использует необработанные данные пользовательского устройства или других устройств для создания краудсорсинговой внутридоменной модели. Даже если устройство, возможно, недавно загрузилось и не поделилось необработанными данными, оно может получить краудсорсинговую модель домена с сервера моделей.

Даже если пользователь устройства не дал соответствующего согласия, он все равно может получить краудсорсинговую внутридоменную модель для повторного ранжирования результатов поиска. Локальная внутридоменная модель основана на краудсорсинговой внутридоменной модели и конфиденциальных данных на устройстве. Эта модель представляет собой линейную комбинацию краудсорсинговой внутридоменной модели и конфиденциальных данных на устройстве.

Рисунок 8. Линейная комбинация

Краудсорсинговая внутридоменная модель и локальная внутридоменная модель представляют собой модель нейронной сети или другой тип модели машинного обучения.

Устройство получает краудсорсинговую междоменную модель, созданную на основе собранных необработанных данных. Устройство генерирует локальную междоменную модель из краудсорсинговой междоменной модели и конфиденциальных данных на устройстве.

Рисунок 9. Краудсорсинговая междоменная модель

Локальная междоменная модель представляет собой линейную комбинацию краудсорсинговой междоменной модели и конфиденциальных данных на устройстве.

ПРОЦЕСС СОЗДАНИЯ ВНУТРИ- И МЕЖДОМЕННЫХ МОДЕЛЕЙ

Процесс начинается с отправки необработанных данных на сервер моделей.

Необработанные данные устанавливают взаимодействие между пользователем и устройством, которое собирает необработанные данные.

Процесс получает краудсорсинговые внутридоменные модели.

Краудсорсинговая внутридоменная модель — это модель машинного обучения, созданная сервером моделей с использованием собранных необработанных данных от пользовательского устройства и/или других устройств. Данный процесс создает локальные внутридоменные модели из краудсорсинговых внутридоменных моделей и конфиденциальных данных на устройстве.

Процесс создает локальные внутридоменные модели.

Процесс получает краудсорсинговые междоменные модели. Краудсорсинговая междоменная модель — это модель машинного обучения, созданная сервером моделей с использованием собранных необработанных данных от пользовательского устройства и других устройств.

Затем процесс создает локальную междоменную модель из краудсорсинговой междоменной модели и конфиденциальных данных на устройстве.

Наконец, процесс создает локальную междоменную модель.

ПРОЦЕСС ПОВТОРНОГО РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА С ИСПОЛЬЗОВАНИЕМ ВНУТРИ- И МЕЖДОМЕННЫХ МОДЕЛЕЙ

Процесс получает поисковый запрос.

С помощью поискового запроса поиск может выполняться на устройстве и/или вне устройства.

Если процесс выполняет поиск вне устройства, он отправляет поисковый запрос на сервер.

ОЦЕНКИ L2 ДЛЯ РЕЗУЛЬТАТОВ ПОИСКА ВНЕ УСТРОЙСТВА

Сначала процесс получает с сервера оценки L2 для результатов поиска вне устройства с помощью поискового запроса.

Затем оценки L2 для результатов поиска вне устройства берутся из серверной внутридоменной модели, созданной из набора необработанных данных, которые собраны со многих устройств.

Наконец, процесс отправляет оценки L2 — выполнение продолжается для поиска вне устройства.

Затем процесс получает с сервера оценки L3.

Оценка L3 для результатов поиска вне устройства генерируется с использованием серверной междоменной модели. Процесс отправляет оценки L3 — выполнение продолжается для поиска вне устройства. Наконец, процесс получает с сервера стратегии L4 и перенаправляет их.

Если процесс выполняет поиск на устройстве, поисковый запрос применяется к доменам на устройстве.

Сначала процесс применяется к оценкам поиска в доменах на устройстве.

Затем процесс получает результаты поиска на этих доменах.

Наконец, процесс извлекает необработанные данные для результатов поиска в доменах на устройстве.

Процесс генерирует оценки L2 для этих результатов поиска.

Сначала процесс генерирует оценки L2.

Затем процесс объединяет оценки L2 из поиска на устройстве и поиска вне устройства.

Наконец, процесс повторно ранжирует результаты поиска в доменах на устройстве, используя локальную модель L2.

Процесс определяет оценки L3 с помощью модели L3 на устройстве.

Далее процесс определяет оценку L3.

Затем процесс объединяет оценки L3 из поиска на устройстве и поиска вне устройства.

Наконец, процесс повторно ранжирует домены на устройстве, используя локальную модель L3.

Процесс определяет стратегию L4 на устройстве.

Сначала процесс определяет слой стратегии на устройстве.

Затем процесс объединяет политики L4 из политик слоя L4 на устройстве и вне устройства. Далее процесс применяет к политике правила и генерирует окончательный набор результатов поиска. Наконец, окончательный набор результатов поиска предоставляется пользователю.

ПРОЦЕСС СОЗДАНИЯ КРАУДСОРСИНГОВЫХ ВНУТРИ- И МЕЖДОМЕННЫХ МОДЕЛЕЙ

Процесс начинается с получения необработанных данных от множества устройств.

Затем процесс генерирует краудсорсинговые внутридоменные модели. Краудсорсинговая внутридоменная модель может повторно ранжировать результаты поиска в домене.

Затем процесс генерирует краудсорсинговые междоменные модели. Краудсорсинговая междоменная модель — это модель, которая может повторно ранжировать домены.

Наконец, процесс отправляет краудсорсинговые внутри- и междоменные модели на устройства.

Модуль модели повторного ранжирования генерирует внутри- и междоменные модели. Модуль повторного ранжирования результатов поиска включает:

  • модуль отправки необработанных данных;
  • модуль получения внутридоменной модели;
  • модуль создания локальной внутридоменной модели;
  • модуль получения междоменной модели;
  • модуль создания локальной междоменной модели.

Модуль отправки необработанных данных отправляет необработанные данные с устройства.

Модуль получения внутридоменной модели получает краудсорсинговые внутридоменные модели.

Модуль создания локальной внутридоменной модели создает локальную внутридоменную модель.

Модуль получения междоменной модели получает междоменную модель.

Модуль создания локальной междоменной модели создает локальную междоменную модель.

МОДУЛЬ ПОВТОРНОГО РАНЖИРОВАНИЯ, КОТОРЫЙ ГЕНЕРИРУЕТ РЕЗУЛЬТАТЫ ПОИСКА С ПОВТОРНЫМ РАНЖИРОВАНИЕМ С ПОМОЩЬЮ ВНУТРИ- И МЕЖДОМЕННЫХ МОДЕЛЕЙ

Эта часть патента представляет собой общий обзор процесса повторного ранжирования результатов поиска.

Модуль повторного ранжирования включает:

  • модуль получения данных сервера;
  • модуль обработки оценки L2;
  • модуль обработки оценки L3;
  • модуль обработки оценки L4;
  • модуль создания окончательного набора.

Модуль получения данных сервера принимает с сервера данные поиска.

Модуль обработки оценки L2 извлекает необработанные данные и определяет оценки L2.

Модуль обработки оценки L3 обрабатывает результаты поиска, используя модель L3.

Модуль обработки оценки L4 обрабатывает результаты поиска, используя политику L4.

Модуль создания окончательного набора генерирует окончательный набор результатов поиска с использованием политик L4.

Рисунок 10. Окончательный набор результатов поиска

У нас не так много подробностей о поиске на Apple, но похоже, что компания использует все более изощренные методы. Посмотрим, как все будет развиваться дальше.

Автор: Билл Славски.

P.s. Подписывайтесь на наш телеграм-канал t.me/seoantteam, чтобы первыми узнавать о выходе новых материалов. Мы публикуем только полезный контент, например, о показателях трафика сайта, о том, как провести seo-аудит сайта или о том, как писать seo тексты для сайта.