- (Обновлено: ) Елизавета Сопруненко
Google представив свою нову розробку, модель ранжирування, засновану на оцінці достовірності фактів на сайтах, – Knowledge-Based Trust. Ми підготували переклад документа, в якому представники Google описують, як працює модель KBT, і доповнили його короткими і зрозумілими роз’ясненнями Іллі Зябрева.
Google представив свою нову розробку Knowledge-Based Trust (КВТ), в основі якої лежить оцінка достовірності фактів. Ми підготували переклад документу, в якому описана модель KBT.
У тексті перекладу багато формул, тому радимо почати знайомство з розробкою Google з роз’яснень Іллі Зябрева, який просто і коротко описав її. Під роз’ясненнями можна прочитати повну версію документу російською.
Роз’яснення Іллі Зябрева щодо нової моделі Google:
Нова модель Гуглу, назва якої дослівно перекладається як «Довіра, заснована на базі знань», – це, як мінімум, мікрореволюция в інформаційному пошуку. Її основна особливість полягає в тому, що «зважування» сторінок проводиться на основі достовірності поданих на них «фактів». При цьому, що вкрай важливо, що ця «метрика» практично ніяк не перетинається з PageRank і подібними до нього оцінками веб-документів, тобто сторінки, які мають високий PR, цілком можуть мати низький рівень довіри, і навпаки. Це досить сильний аргумент для її використання в якості додаткових «заходів якості» сторінки, тому що більшість інших оцінок сильно корелюються з PR, не несучи, по суті, ніякої нової інформації. Розглянемо докладніше основні тези, викладені в статті.
Повний переклад документу “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources”
Xin Luna Dong, Evgeniy Gabrilovich, Kevin Murphy, Van Dang, Wilko Horn, Camillo Lugaresi, Shaohua Sun, Wei Zhang
Google Inc.
{lunadong|gabr|kpmurphy|vandang|wilko|camillol|sunsh|weizh}@google.com
Анотація
Якість веб-ресурсів традиційно оцінювалася з використанням зовнішніх даних, таких, як структура посилального графа. Ми пропонуємо новий підхід, заснований на внутрішніх характеристиках, а саме – достовірності інформації, поданої на сайті. Ресурс з невеликою кількістю помилкових даних вважається вартим довіри.
Факти, які автоматично витягуються з веб-сторінок на основі методів парсингу, утворюють базу знань. Ми пропонуємо метод, що дозволяє відрізняти помилки, допущені в процесі парсингу від фактичних помилок на основі нової багатошарової ймовірнісної моделі.
Запропонована оцінка достовірності ресурсу називається Knowledge-Based Trust (KBT) – дослівно: довіра, заснована на базі знань. На експериментальних даних показано, що запропонований метод може з високим рівнем адекватності визначати достовірність веб-ресурсів. Зокрема, ми використовували метод на базі знань розміром у 2,8 мільярдів фактів, спарсених з мережі, оцінивши достовірність 119 мільйонів сторінок. Ручна оцінка вибірки отриманих результатів підтвердила ефективність методу.
У січні ми публікували переклад доповіді Яндексу про його нову розробку Supervised Nested PageRank, також супроводжуючи його роз’ясненнями Іллі Зябрева.
Еще по теме:
- Асессорська інструкція Google: оцінка якості пошуку (Частина 2)
- Нові інструменти в Яндекс.Вебмайстрі та способи їх використання для оптимізації сайту
- Що змінилося в алгоритмі Google у серпні 2018?
Есть вопросы?
Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.