- (Обновлено: ) Елена Камская
Пропонуємо вашій увазі переклад дослідження Яндексу про поведінкові чинники, який був представлений на конференції CIKM 2013 (Берлінгейм, листопад 2013). У доповіді, яка називається “Through-the-Looking Glass: Utilizing Rich Post-Search Trail Statistics for Web Search”, йдеться про вивчення поведінки користувачів після переходу на сайт зі сторінки пошуку і про те, як ці дані можуть впливати на видачу.
Автори дослідження: Олексій Толстіков (atolstikov@yandex-team.ru), Михайло Шахрай (smikler@yandex-team.ru), Гліб Гусєв (gleb57@yandex-team.ru), Павло Сердюков (pavser@yandex-team.ru). Яндекс, 119021, Росія, м.Москва, вул. Л.Толстого 16
АНОТАЦІЯ
З ростом популярності різних тулбарів збільшується і важливість коректного використання даних про поведінку користувачів, які зберігаються в їх балках.
Інформація про поведінку відвідувачів після переходу на сайт з видачі (пост-кліки) виявилася дуже корисною під час вивчення користувацьких переваг і допомогла поліпшити поточну систему пошуку. Однак питання, наскільки поведінкові характеристики можуть впливати на модель ранжирування, досі остаточно не розкриті.
Ми провели масштабне дослідження цілого ряду характеристик пошукових маршрутів у реальних умовах і прийшли до висновку, що більш глибоке вивчення користувацького досвіду задовго до кліка за результатами пошуку може значно поліпшити існуючу модель ранжирування.
1. ВВЕДЕННЯ
З недавнього часу дані про поведінку користувачів грають важливу роль у персоналізації пошуку.
Найвідоміший спосіб оцінки переваг і ступеню задоволеності користувача – це аналіз його кліків за результатами пошуку. Він дає багато неявної інформації про переваги користувачів. Але обсягу і надійності цих даних не завжди достатньо, адже основна активність проявляється за межами пошукової видачі.
З ростом популярності інструментів для браузерів з’явилася можливість частково компенсувати брак інформації про пост-кліки за рахунок даних про переглянуті користувачами сторінки, які зберігаються в журналах їх тулбаров.
Виявилося, що такий показник взаємодії користувача зі сторінкою, як dwell time (час перебування юзера на сторінці за запитом – прим. Перекладача) , може служити надійним показником релевантності документу.
Але послідовність пересувань відвідувача по сайту з метою знайти потрібну інформацію після того, як він перейшов з результатів пошуку (post-query search trail), досі не вивчена як фактор ранжування сторінок, що потрапили в його маршрут.
Ми припускаємо, що детальний аналіз пошукових маршрутів допоможе ще більше вдосконалити пошукову модель, в якій використовується всім вже відомий dwell time.
У даній статті описується масштабне дослідження різних характеристик пошукових маршрутів, яке є продовженням попередніх досліджень користувальницьких факторів і їхнього впливу на якість пошуку.
Спираючись на результати інших досліджень (Р.У. Уайта і С.М. Друкера) , ми представляємо пошуковий маршрут у вигляді дерева, де в ролі коренів виступають кліки на посилання в результатах пошуку, а гілками є переходи за гіперпосиланнями всередині пошукового ланцюжка. Автори дослідження надали древовидному маршруту такі характеристики: кількість перехресних точок, глибина, ширина, середня довжина гілки.
Крім перерахованих якостей ми вивчили і оцінили ще кілька нових, включаючи кількість кроків пошукового маршруту і час знаходження користувача в бездіяльності на кожній сторінці. Деякі з цих факторів згадувалися раніше в інших теоретичних роботах. Але, наскільки нам відомо, можливість їх впливу на пошук як поведінкових факторів ще не оцінювався.
Об’єднавши результати переходів на один документ або на домен в цілому, можна значно поліпшити поточну пошукову модель за рахунок впровадження постклікових факторів. Результати дослідження підтверджують згадане вище припущення, що детальне вивчення пошукового маршруту, а не тільки лише використання даних про час перебування користувача на тій чи іншій сторінці, дозволяє поліпшити релевантність пошуку.
Підводячи підсумок, хотілося б сказати, що цінність даної роботи в тому, що:
- ми провели масштабне дослідження з вивчення властивостей цілого ряду пошукових маршрутів і використання даної інформації для поліпшення веб-пошуку;
- ми виявили, що детальне вивчення характеристик пошукового маршруту може надати деякі додаткові дані, важливі для інформаційно-пошукових завдань.
2. РОБОТИ ЗА СХОЖОЮ ТЕМАТИКОЮ
З точки зору пошукової системи, оптимальний спосіб використання даних про ПФ користувачів з існуючою системою ранжирування – це створення нових показників, які будуть відображати різні властивості взаємодії користувача з веб-сайтами.
Однією з перших робіт, що вивчає якісний вплив використання даних ПФ для поліпшення ранжирування і релевантності видачі пошуку, є дослідження Е. Агічтайн, E. Брилл і С.Дюме «Поліпшення якості веб-пошуку за допомогою обліку користувача поведінки» , де характеристики ПФ беруться з логів тулбару.
Поряд з іншими характеристиками поведінки користувача автори вивчили основні статистичні дані взаємодії користувача з веб-сторінками, наприклад, різну тривалість часу перебування відвідувача на документі за запитом (dwell time).
Хотілося б також відзначити, що непрямим доказом для користувача активності в браузері може послужити аналіз пересування між об’єктами і переміщення курсора [4].
У своєму дослідженні ми також вирішили вийти за рамки показника dwell time як основного доказу активності користувача, більш того, ми зробили крок набагато далі першої сторінки в пошуковому маршруті.
Іншим способом використання даних про поведінку користувачів є освоєння формулювань початкових пошукових запитів, з яких починається пошуковий маршрут користувача, що веде до аналізованого документу [2].
Комплексний аналіз всього пошукового маршруту дає більше користі, ніж порівняння першої та останньої сторінки маршруту за різними критеріями, такими, як релевантність, тематичне охоплення, різноманітність тем, новизна і корисність [8].
У своєму дослідженні ми представляємо пошукові маршрути як деревоподібну структуру, як це було раніше зроблено в роботі Р.У.Уайта і С.М. Друкера [7], також ми скористалися деякими основними графами властивостей з цієї роботи.
Бінарність кліків, яка вказує на наявність пост-клікового маршруту, використана для налагодження класифікатора з виявлення «шумових» кліків.
3. ДАНІ
Всі експерименти в рамках доповіді засновані на даних про поведінку користувачів, які анонімно зберігаються в логах тулбару пошукової системи, встановленого в браузерах мільйонів користувачів.
Кожен запис в такому журналі містить в собі (анонімно) ідентифікатор користувача, тимчасову мітку і такі деталі активності в браузері, як: пошуковий запит користувача, URL сторінки,що відвідується , закриття вікна браузера.
Для свого дослідження ми взяли дані логів за 3 місяці (11 грудня 2012 – 10 березня 2013). Дані включають 3 млрд запитів, 5,3 млрд пошукових маршрутів, 16 млрд переходів по сторінках і охоплюють 2,7 млрд різних документів.
З отриманих даних ми витягли пошукові маршрути, які починаються з запиту користувача і складаються з послідовності його візитів по сторінках з метою задовольнити свою інформаційну потребу.
Для того щоб зменшити вплив «зашумленості» і не враховувати сторінки, не пов’язані з початковим пошуковим запитом, ми вважаємо пошуковий маршрут закінченим у наступних випадках:
- користувач увів новий запит;
- користувач перейшов на головну сторінку, ввів URL в адресний рядок браузера або завантажив іншу сторінку через закладку браузера;
- немає браузерної активності більше 30 хвилин (таймаут активності);
- користувач закрив вікно браузера.
Весь цей список також використовується для визначення пошукового маршруту в роботі Р.У. Уайта і С.М. Друкера [7], за винятком одного правила – «перевірити електронну пошту або залогінитися в сервісі». Ми вважаємо, що дані дії можуть бути логічним продовженням пошукового маршруту, тому що користувач у рамках свого запиту може переходити за гіперпосиланнями веб-сайтів, які потребують аутентифікації.
4. ХАРАКТЕРИСТИКА ПОШУКОВИХ МАРШРУТІВ
У цьому розділі ми коротко опишемо спосіб побудови пошукового маршруту, як це представлено у вищезгаданій роботі [7].
Як уже згадувалося, ми представляємо кожен пошуковий маршрут у вигляді деревовидної структури. Вузлами дерева є унікальні сторінки, а гілками – прямі переходи користувачів за гіперпосиланнями між ними.
Таким чином, рух користувача за гіперпосиланнями відображає пересування по гілці дерева. Якщо користувач повторно заходить на сторінку, яку він уже відвідував у рамках маршруту, цей крок розцінюється як повернення до відповідного вузла дерева. У свою чергу нові сторінки, на які переходить користувач за гіперпосиланнями, являють собою нову гілку дерева.
Якщо користувач повертається на сторінку результатів пошукової видачі і натискає на новий документ, ми починаємо створювати нове дерево. Див. Приклад деревовидної структури на малюнку №1. У наступних розділах ми опишемо властивості, властиві пошуковому маршруту, які можна використовувати в якості факторів ранжирування.
Малюнок № 1: Пошуковий маршрут представлений у вигляді дерева.
Вузлів = 10, глибина = 4, ширина = 3, довжина гілки = 3, к-ть кроків = 12, к-ть повернень = 2, час = 1590 кількість задоволених кроків = 6, к-ть довгих кроків = 3 .
4.1 ОСОБЛИВОСТІ ГРАФІВ
Кількість вузлів (Nodes Count). Це число унікальних сторінок, відвіданих користувачем в рамках пошукового маршруту після переходу на сайт зі сторінки видачі.
Велика кількість вузлів може говорити про те, що користувач не знаходить відповідь на свій запит на першій (посадковій) сторінці маршруту і змушений шукати його далі, переходячи за внутрішніми гіперпосиланнями.
Але з іншого боку, велика кількість вузлів характерна для маршрутів за інформаційними запитами, які не можуть бути повністю розкриті на одній веб-сторінці.
Глибина (Depth). Це відстань між коренем дерева (пошуковим запитом) і найбільш віддаленим вузлом. Відстань міряється кількістю відрізків (кліків) між проміжними вузлами по найкоротшй траєкторії.
Глибока структура дерева більш характерна для сайтів, внутрішні переходи за якими здійснюються за рахунок послідовних кліків по посиланнях типу «вперед», «назад».
Наприклад, якщо інформація розбита на кілька сторінок, що мають сувору послідовність.
Ширина дерева (Breadth). Шириною дерева пошукового маршруту є загальна кількість його листя (Leaves).
Листя – це цільові сторінки, після переходів на які користувачі не йдуть далі за гіперпосиланнями. Ширина маршруту збігається з числом гілок, що детально розглядається в роботі [7].
Великий показник ширини маршруту може означати, що у запиту користувача багато значень, тому він шукає інформацію в дослідницькій манері. Але також він може вказувати на те, що у сайту проблеми зі зручністю.
Середня довжина гілки (Average branch length). Ми розбили пошуковий маршрут на відрізки, кожен з яких починається з повторного візиту сторінки, що раніше відвідується і являє собою ланцюжок послідовних переходів вперед за гіперпосиланням.
Довжина кожного ланцюжка визначається кількістю відрізків, з яких вона складається, – це і є гілка.
Ми не беремо до уваги ланцюжка довжиною в один відрізок, оскільки вони не створюють нові гілки. Виходить, що середня довжина гілки – це усереднена довжина ланцюжків, з яких складаються різні гілки дерева. Варто відзначити, що це значення можна також розрахувати за формулою: ((к-ть вузлів -1) / ширина) +1.
4.2 ОСОБЛИВОСТІ ПЕРЕМІЩЕНЬ
Крім розглянутих вище кількісних характеристик пошукового маршруту, є ще й ряд якісних показників пересування користувача по сайту.
Число кроків в маршруті (Number of steps). Це загальне число переходів, скоєних користувачем в межах пошукового маршруту.
Даний показник схожий з кількістю вузлів, але відрізняється тим, що тут ми враховуємо повторні відвідування сторінок.
Кількість повернень (Revisits). Це число повторних відвідувань сторінок, зроблених користувачем в межах пошукового маршруту. На підставі цього показника можна оцінювати складність маршруту. Наприклад, великий показник повернень сигналізує про те, що користувач часто повертався на одну і ту ж сторінку, щоб клікнути по іншому внутрішньому посиланню або тому, що з першого разу у нього не вийшло вивчити/зрозуміти надану там інформацію.
Диверсифікація (Diversity, відхилення). Це кількість різних доменів другого рівня, представлених на сторінках маршруту.
Кількість задоволених кроків (Satis_ed steps) і довгих кроків (long steps). Це число кліків, виконаних після затримки на сторінці на 30 і 300 секунд відповідно.
Таким чином, ми визначаємо задоволені кроки маршруту аналогічно тому, як зазвичай визначаються задоволені кліки (див. [6]). Задоволені кроки вказують на сторінки, які більше за інших гідні уваги користувачів.
На малюнку № 1 (див. вище) показаний приклад пошукового маршруту, під малюнком вказані значення перерахованих характеристик.
4.3 ОБ’ЄДНАННЯ ХАРАКТЕРИСТИК
Після того як по кожному окремому маршруту були зібрані всі характеристики, ми об’єднали їх в такий спосіб: на рівні першого документа пошукового маршруту (рівень сторінки) і на рівні домену, до якого належить документ (рівень домену).
У результаті ми отримали зразки пошукових маршрутів, пов’язаних або з документом, або з доменом.
Для кожного описаного вище показника маршруту ми вирахували його середнє значення (AV), стандартне відхилення (STD), 10-й і 90-й персентиль (тобто нижній і верхній дециль відповідно), мінімальне і максимальне значення (MIN, MAX) і використовували їх в якості факторів ранжирування. У наступному розділі ми розповімо про результати дослідження того, як описані характеристики залежать від тематики домену веб-сторінки.
5. ЗАЛЕЖНІСТЬ ФАКТОРІВ ВІД ТЕМАТИКИ ДОМЕНУ
У цьому розділі ми покажемо, як залежать характеристики пошукового маршруту від різних тематик посадочних веб-сторінок (тобто перших сторінок маршруту).
Ми взяли власну базу доменів з вручну визначеними тематиками і на її основі розробили і навчили наївний байесовський класифікатор. Цей класифікатор аналізує всі домени другого рівня, які потрапили в нашу вибірку пошукових маршрутів, і присвоює кожному певну тематику.
Ми взяли типові характеристики на рівні домену (див. Блок 4.3), і розрахували для кожної з них середні значення в рамках певної тематики. Таким чином, для кожної тематики ми отримали свій середній показник усіх раніше розглянутих характеристик.
Ми відсортували усі теми за середнім значенням кожної характеристики і відобразили результати в таблиці № 1.
Таблиця №1: тематики з найбільшим середнім значенням кожної основної властивості маршруту, згруповані відповідно до домену.
Як видно з таблиці, деякі тематики природним чином розташовані внизу топу за багатьма показниками пошукового маршруту.
Наприклад, користувач, який переглядає сайт з продажу автомобілів, не може заздалегідь напевно знати, яка конкретна машина йому підійде. Щоб вивчити всі варіанти, він переглядає безліч сторінок з різними комплектаціями і характеристиками. Подібне спостерігається і за такими показниками, як глибина, ширина і кількість кроків.
Найбільший показник задоволених кроків притаманний такими тематиками, як «Товариство», «ЗМІ» та «Наука». Контент на більшості сайтів таких тематик побудований так, що користувачеві доводиться заглиблюватися всередину сайту (наприклад, анонс статті та посилання «докладніше» – прим. Перекладача).
Ми також виявили і інші примітні закономірності для тематик, які перебувають на нижніх позиціях.
До тематик, які мають скромний показник задоволених кроків, належать «Приватне життя» і «Авто», в той час як саме ці теми мають високий показник загальної кількості кроків.
Це означає, що незважаючи на велику кількість відвідувань, користувач, як правило, недовго затримується на сторінках сайтів даних тематик.
Згідно з результатами нашого дослідження, характеристики пошукового маршруту несуть якусь інформацію про тематику сайту, і це може бути використано пошуковою системою. У наступному розділі ми розповімо про те, як оцінка пошукового маршруту може використовуватися для ранжирування.
6. ОЦІНКА
Під час оцінки показників маршруту ми спиралися на широку вибірку випадкових пошукових запитів в популярній пошуковій системі.
За кожним запитом були взяті топові сторінки з результатів видачі лідируючого у світі пошукача.
Релевантність кожного документа оцінили професійні фахівці за шкалою: «чудово», «відмінно», «добре», «непогано» і «погано».
В цілому було оброблено 50K запитів і поставлено оцінку по 1,5 млн пар запит-документ.
Привласнюючи оцінки, ми використовували градієнтне древо рішень Фрідмана (Friedman’s gradient boosting decision trees, метод машинного навчання) як модель ранжирування.
Ми порівняли корисність запропонованих вище показників з базовим набором характеристик: алгоритм BM25, PageRank, показник CTR сторінок і домену в цілому, а також 7 модифікацій показника dwell time [см.1, табл.4.1]: Time-OnPage¹ – TimeOnDomain² and AverageDwellTime³ – DomainDeviation4.
Де:
1 – загальний час перебування на сторінці.
2 – загальний час перебування на сайті.
3 – середній час перебування відвідувача на документі за різними пошуковими запитами.
4 – відхилення від середнього часу перебування на домені.
Дані базові характеристики досить інформативні, легко інтерпретуються і включають в себе широкий спектр відомих на даний момент особливостей, заснованих на показниках часу перебування користувача на документі за запитом (dwell time).
Ми розділили всю базу запитів на дві рівні частини, першу використовували для навчання, а другу – для оцінки.
У таблиці № 2 показана продуктивність трьох моделей навчання: (1) базовий набір характеристик; (2) базовий набір характеристик + характеристики маршруту на рівні домену і (3) базовий набір характеристик + характеристики маршруту на рівні URL.
Таблиця № 2: Показники NDCG @ 10, отримані на основі стандартних характеристик, а також з додаванням до них характеристик пошукового маршруту, об’єднаних на рівні URL і домену. Формують 45.18% набору даних, коефіцієнт запитів ≥ 10 в тиждень вважати популярним. Відмінності, виділені жирним шрифтом, – це статистично значущі на рівні достовірності в 0.99%.
Як видно з таблиці, використання характеристик пошукового маршруту як на рівні домену, так і на рівні сторінки сприяє підвищенню ефективності.
Модель, навчена на основі базового набору характеристик без урахування 7 модифікацій dwell time, володіє показником N DCG @ 5 = 55,9%. Отже, показники маршруту на рівні сторінки підвищують якість результату на 0,82% на додачу до 2,9%, отриманих за рахунок dwell time.
Ми також виміряли продуктивність трьох моделей окремо за різними класами запитів. Було виявлено, що характеристики пошукового маршруту ще більше впливають на низькочастотні та вузькоспеціалізовані запити.
Це можна пояснити наступним чином: показники маршрутів, об’єднані по домену і сторінкам, проектують користувальницькі переваги на більш складні та рідкісні ситуації, де поведінка користувачів мало вивчена.
Для того щоб підтвердити цю гіпотезу, ми розділили всі досліджувані запити на чотири майже рівні частини
в залежності від наявності даних про пошукові маршруті (починаючи з маршрутів, що складаються з мінімум 2-х кроків від пошукового запиту).
Отримані результати представлені в таблиці № 3. У ній видно, що фактори пошукового маршруту мають значний вплив на складні запити.
Таблиця № 3: Показник NDCG @ 10, отриманий при чотирьох різних рівнях доступності даних, де buc. 1 вважати найменш доступним, а buc. 4 – максимально доступним.
У таблиці № 4 показаний топ-10 характеристик, відсортованих в залежності від їх впливу (вимірюється рівнем поліпшення функції втрат протягом усього процесу навчання). Показники пошукового маршруту виділені курсивом.
Таблиця № 4: Топ-10 характеристик згідно їх впливу.
7. ВИСНОВОК
Ми провели масштабне дослідження пост-клікових маршрутів і з’ясували, як отримані дані можна використовувати для поліпшення якості пошуку. Було розглянуто широкий набір характеристик пошукового маршруту як потенційного джерела інформації про переваги користувача, які проявляються далеко за межами сторінки результатів видачі.
Докладний аналіз показав, що врахування особливостей пошукового маршруту може істотно поліпшити існуючий алгоритм пошуку. Наскільки нам відомо, більшість якостей пошукового маршруту що раніше не оцінювалися по IR-метрикам. Ми вважаємо, що дослідження нових якостей пошукових маршрутів і різних способів їх інтерпретації удосконалить пошукову модель ще більше, ніж вже відомі поведінкові чинники.
8. СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
[1] E. Agichtein, E. Brill, and S. Dumais. Improving web search ranking by incorporating user behavior information. In SIGIR, pages 19–26, 2006.
[2] M. Bilenko and R. W. White. Mining the search trails of surfing crowds: identifying relevant websites from user activity. In WWW, pages 51–60, 2008.
[3] Q. Guo and E. Agichtein. Smoothing clickthrough data for web search ranking. In SIGIR, pages 355–362, 2009.
[4] Q. Guo and E. Agichtein. Beyond dwell time: estimating document relevance from cursor movements and other post-click searcher behavior. In WWW, pages 569–578, 2012.
[5] A. Singla, R. White, and J. Huang. Studying trailfinding algorithms for enhanced web search. In SIGIR, pages 443–450, 2010.
[6] K. Wang, T. Walker, and Z. Zheng. Pskip: estimating relevance ranking quality from web search clickthrough data. In KDD, pages 1355–1364, 2009.
[7] R. W. White and S. M. Drucker. Investigating behavioral variability in web search. In WWW, pages 21–30, 2007.
[8] R. W. White and J. Huang. Assessing the scenic route: measuring the value of search trails in web logs. In SIGIR, pages 587–594, 2010.
Авторський переклад статті – Олена Камська.
Еще по теме:
- Як провести аналіз сайтів конкурентів? 7 видів аналізу
- Основи веб-аналітики. Як налаштувати цілі в Google Analytics
- 3 кроки в Яндекс.Метриці: шукаємо джерело падіння трафіку
Есть вопросы?
Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.