Новости

Продолжаем изучать Баден-Баден. Что считается спамом, где пороги срабатывания фильтра?

Автор Дата 17.06.2017

На волоске опубликовал исследование алгоритма «Баден-Баден№», вроде меня буквально завалили вопросами про конкретные цифры для того выявленных показателей. На что ориентироваться? Какой ярус водности или там индекса биграммы/униграммы оценивать хорошим, а какой — плохим? К чему стремиться около доработке текстов? Где буйки, за которые не полагается заплывать?..

Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы по-под фильтр было бы просто здорово.

Однако сия задача очень сложна. Поймать различия на нескольких десятках сайтов числом отдельности и усреднить их для всей выборки рядом просто. Еще более важно, что в этом случае наша сестра можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину никак не искажают, абсолютные различия переведены в проценты, благодаря чему их имеется возможность сравнивать. Просто копаем в сторону самых сильных отклонений и безвыездно.

Благодать, основные тенденции выявлены. На практике есть проделать аналогичное исследование для любого сайта и сыскать самые критичные проблемы конкретных текстов.

Если но просто найти среднее значение текстовых метрик у страниц, попавших по-под Баден-Баден, то эти данные сами соответственно себе мало что будут значить. Мы безлюдный (=малолюдный) можем быть уверены, отловленные цифры будут актуальны угоду кому) другого сайта в другой тематике.

В целом, мое отчёт по этому вопросу совпадает с тем, что писал Славнейший Ставский:

Если попытаться определить пороги срабатывания алгоритма, ведь это практически нереальная, на мой взгляд, цель. В выборках всегда будут примеры, которые должны навалиться, но не падают. И, возможно, наоборот. 900 факторов напротив одного-двух факторов текстового антиспама — всегда будут ситуации, нет-нет да и документы будут вытягиваться наверх другими сигналами.

Тем безлюдный (=малолюдный) менее даже сомнительные ориентиры могут пригодиться (опора не забывать, откуда они взялись, и не отсчитывать их высеченными в камне). Попробуем их выделить, чтоб иметь отправную точку для анализа, задать систему координат.

Несмотря на то, зачем я вру. Главная задача — иметь ссылку, которую позволено отправить в ответ на вопрос «много или недовольно, когда в анализе текстов в bez-bubna.com получаются такие цифры»:


Методика: чего и как считаем

Выборка — та же, что и в прошлом исследовании ((хорошо, для этих страниц уже посчитаны все значимые текстовые метрики, предуготовлено, попал ли URL под санкции, отброшен откровенный рассылка). Всего 4297, из них под «Баден-Баденом» 2772.

Тем не менее теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей вдоль всем URL сразу, сравнивая «хорошие» и «плохие».

Разумеется, любая маржа между средними величинами может оказаться случайной. Очень важно отличать истинные различия от случайных. К счастью, тутовник не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился побольше века назад. Это ​t-критерий Стьюдента. Интересующиеся могут загуглить иначе почитать самое простое объяснение, какое я только встречал, сверху сайте «Статистика и котики».

Для понимания этой статьи в достаточной мере помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий в среде средними из двух выборок. Грубо говоря, делать что для той или иной метрики (например, тошноты) такого склада шанс больше 1%, то считаем разницу сообразно параметру не доказанной. Если меньше — то берем держи вооружение и рассматриваем среднее значение для «плохих» страниц ни дать ни взять опасный порог (возможны и другие интерпретации, важнее всего делов наличие/отсутствие различий как таковое).

Результаты в области средним значениям и ​t-критерию

Вот моя рабочая табличка:


Медленно вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют точию средние значения по академической тошноте и по водности (возможность значительно меньше 1%, выделено зеленым). Все остальное заключать во внимание нельзя.

Полезным ориентиром можно подсчитывать только порог по водности. Видим, что среднее в (видах плохих страниц почти 0,31, а для хороших — 0,29. В общем-ведь результат ожидаем. «Вода» — естественная часть любых статей, да даже небольшое перенасыщение стоп-словами ухудшает цвет текста. Это как машинное масло: без него никуда, так если перелить — мотор не обрадуется.

Конечно, «нормальная» водность может зверски меняться в зависимости от тематики (например, в юридических текстах бессчётно перечислений и мало вводных оборотов, а в статьях о литературе – компаратив наоборот).

Второй параметр, для которого различия достоверны, академическая отвращение. Вряд ли он особо нам поможет. Тем больше что из таблицы можно сделать вывод — «пихай сильнее ключей, и будет хорошо». Ведь на страницах подо фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.

Хоть ли найти дополнительные пороги? Можно!

Введем поправку для водность

Итак, мы получили еще одно констатация в пользу того, что тексты с высокой водностью Яндекс отнюдь не любит. Естественно, мы хотим знать больше. Что-нибудь еще ему может не нравиться, когда с водностью любое в порядке? Сформируем новую выборку проблемных страниц. Возьмем угоду кому) анализа только те, где водность не превышает 0,3:


Ого, си куда интереснее!

  • Исчезла какая-либо статистическая значимость в отношении тошноты. После всей видимости, она и правда никак не влияет получи наложение фильтра (напоминаю, что я работал с выборкой будет качественных сайтов, где этот показатель не зашкаливал).
  • Появились значимые различия угоду кому) показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 противу 0,24. Как и водность, это весьма устойчивый бонитет, с небольшой изменчивостью.
  • Наконец, есть достоверная разница (обратите тщательность на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.

Выводы

Пропущу мильон оговорок и напоминаний о том, что реальная картина сложнее, нежели ограниченная выборка, что различие по параметру а ещё не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, сие и так понятно. По уму, конечно, нужно создавать модель с использованием логистической регрессии. Проще говоря — намечать формулу, которая бы определяла вероятность попадания страницы по-под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, только прогнозировать что-то сложно, поэтому пока работаем с тем, который есть.

Итак, отправными точками для анализа страниц-кандидатов возьми попадание под Баден-Баден можно считать:

  • Водность 0,31 и паче.
  • Вариативность 0,23 и менее.
  • Тошноту биграмм 3,6 и сильнее
  • Тошноту триграмм 1,8 и более.
  • Индекс биграммы/униграммы 32 и побольше.
  • Индекс триграммы/униграммы 17 и более.

Источник: www.seonews.ru