Як Google може оцінювати сайти. Нова модель Knowledge-Based Trust (КВТ)

18.03.2015 (Обновлено: Елизавета Сопруненко

Google представив свою нову розробку, модель ранжирування, засновану на оцінці достовірності фактів на сайтах, – Knowledge-Based Trust. Ми підготували переклад документа, в якому представники Google описують, як працює модель KBT, і доповнили його короткими і зрозумілими роз’ясненнями Іллі Зябрева.

Google представив свою нову розробку Knowledge-Based Trust (КВТ), в основі якої лежить оцінка достовірності фактів. Ми підготували переклад документу, в якому описана модель KBT.

У тексті перекладу багато формул, тому радимо почати знайомство з розробкою Google з роз’яснень Іллі Зябрева, який просто і коротко описав її. Під роз’ясненнями можна прочитати повну версію документу російською.

Роз’яснення Іллі Зябрева щодо нової моделі Google:

Нова модель Гуглу, назва якої дослівно перекладається як «Довіра, заснована на базі знань», – це, як мінімум, мікрореволюция в інформаційному пошуку. Її основна особливість полягає в тому, що «зважування» сторінок проводиться на основі достовірності поданих на них «фактів». При цьому, що вкрай важливо, що ця «метрика» практично ніяк не перетинається з PageRank і подібними до нього оцінками веб-документів, тобто сторінки, які мають високий PR, цілком можуть мати низький рівень довіри, і навпаки. Це досить сильний аргумент для її використання в якості додаткових «заходів якості» сторінки, тому що більшість інших оцінок сильно корелюються з PR, не несучи, по суті, ніякої нової інформації. Розглянемо докладніше основні тези, викладені в статті.

Читати повністю

Повний переклад документу “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources”

Xin Luna Dong, Evgeniy Gabrilovich, Kevin Murphy, Van Dang, Wilko Horn, Camillo Lugaresi, Shaohua Sun, Wei Zhang

Google Inc.

{lunadong|gabr|kpmurphy|vandang|wilko|camillol|sunsh|weizh}@google.com

Анотація

Якість веб-ресурсів традиційно оцінювалася з використанням зовнішніх даних, таких, як структура посилального графа. Ми пропонуємо новий підхід, заснований на внутрішніх характеристиках, а саме – достовірності інформації, поданої на сайті. Ресурс з невеликою кількістю помилкових даних вважається вартим довіри.

Факти, які автоматично витягуються з веб-сторінок на основі методів парсингу, утворюють базу знань. Ми пропонуємо метод, що дозволяє відрізняти помилки, допущені в процесі парсингу від фактичних помилок на основі нової багатошарової ймовірнісної моделі.

Запропонована оцінка достовірності ресурсу називається Knowledge-Based Trust (KBT) – дослівно: довіра, заснована на базі знань. На експериментальних даних показано, що запропонований метод може з високим рівнем адекватності визначати достовірність веб-ресурсів. Зокрема, ми використовували метод на базі знань розміром у 2,8 мільярдів фактів, спарсених з мережі, оцінивши достовірність 119 мільйонів сторінок. Ручна оцінка вибірки отриманих результатів підтвердила ефективність методу.

Читати повністю

У січні ми публікували переклад доповіді Яндексу про його нову розробку Supervised Nested PageRank, також супроводжуючи його роз’ясненнями Іллі Зябрева.

Подписаться на рассылку

Еще по теме:

Елизавета Сопруненко

Редактор

Оцените мою статью:

1 Star 2 Stars 3 Stars 4 Stars 5 Stars (4 оценок, среднее: 3,75 из 5)

Есть вопросы?

Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.

Наверх