Новости

Baltic Digital Days 2017: Текстовая аналитика

Автор Дата 16.08.2017

Продолжаем рассмотрение программной части конференции Baltic Digital Days, которая уж в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил рапорт Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».

В навечерие всего, спикер напомнил слушателям о том, что в сервисе новообращенный появилась текстовая выгрузка и кластеризация, при помощи которой спеца для доклада на BDD 2017 удалось сделать малость выгрузок для выдачи США.

Традиционно SEO-специалистов волнуют следующие вопросы:

1. Какое количество раз нужно «поспамить фразой»?

2. Как правильно спамить?

3. Какой размер текста нужно дислоцировать на странице?

4. Как найти LSI-фразы?

5. Как испытать воду в тексте?

Озвучив эти вопросы, Олег пообещал передать исчерпывающие ответы на них, но немного отнюдь не в том ключе, как этого обычно ожидают. Нате самом деле, однозначного и четкого ответа на сей вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Сей подход в математике носит название «Правило трех сигм» («three-sigma rule» то есть (т. е.) «68–95–99 rule»).

Вот почему имеет смысл применять статистический путь к ответу на перечисленные выше вопросы. С этой целью нужно:

1. Обосновать распределение метрик своих конкурентов в выдаче.

2. Исключить аномалии отсечением хвостов за «правилу трех сигм» (анализируя тем самым 68, 95 тож 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут предоставить возможность себе слабую релевантность или переспам.

3. Составить рекомендационную базу, содержащую:

  • зона релевантности ключу;
  • диапазон приемлемой длины текста;
  • матрикул LSI-слов и вероятностей их употребления конкурентами.

Что сие значит для SEO-специалиста: если у вас есть безусловный показатель, то нужно стараться, чтобы показатели мало-: неграмотный выходили за пределы данного диапазона. Максимальное аномалия – плюс-минус 30% от заданного числа.

В следующей части доклада колонка показал, как работает данное правило на примере разных выборок.

Уместность

Что касается спамности (релевантности или тошнотности), в таком случае однозначного ответа на вопрос о том, сколько разок можно употребить конкретное слово в тексте, нет и приставки не- может быть. В каждой тематике, в каждом тексте и пусть даже в каждом срезе будет свой ответ на данный вопрос. Однако, зная формулу релевантности, можно выискать правильный ответ. Так, например, в компании Serpstat используют модифицированный алгорифм ВМ25, который способен учитывать немного пре факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае позволяется контролировать, насколько вы отходите от этой релевантности. Присутствие этом важно помнить, что диапазон попадания в нужные формат колеблется в пределах 30% от среднего значения релевантности в ТОП в области запросу. Это дает странице возможность на некоторое эпоха оказаться в ТОПе. Также важно помнить, что выключая текстового ранжирования на нахождение сайта в ТОПе влияет туча других факторов.

Итак, SEO-специалисту не стоит перезабывать о том, что:

  • нужно контролировать переспам;
  • контролировать страницы с низкой релевантностью;
  • состав в любой из формул ничего не значит, данные необходимо сравнивать с конкурентами в тематике;
  • из-за большого количества факторов, нет возможности провести reverse engineering;
  • нужны «веса слов».

Продолжая усваивать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю уместность в ТОП-10 по каждой фразе и разницу посреди средним значением и значением каждой страницы.

Графики распределения релевантности до коммерческим и информационным запросам получились следующими:

Как думается, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных досель 20–30%.

Важно отметить, что западном сегменте поисковая государственное устройство гораздо лучше понимает текст, а в текстовых факторах используются далеко не вхождения, а синонимы, связанные с тематикой. Здесь текстовая уместность не играет столь большого значения. При этом нужно топтать, чтобы показатель не уходил в крайнюю правую поле графика. То есть важно избегать переспама.

В целом в западной выдаче подымай выше ранжируются статьи, в которых не только текст, же и дополнительные полезные пользователю элементы: видео, таблицы, картеж и другие.

Выводы:

1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете очень больше аномалий).

2. Сколько нужно вхождений: +/- 30% с средней релевантности в ТОПе.

3. Следить за переспамом только и можно с помощью % отклонения от среднего показателя в ТОПе.

4. В информационной̆ тематике разброс релевантности больше, чем в коммерческой̆, т.е. следить стоит с лишним за коммерческими запросами.

Аномалии в релевантности

Всегда занятно следить за сайтами, которые входят в ТОП выдачи, за всем тем у них наблюдаются некоторые аномалии в релевантности. Чтобы разоблачить закономерности, был произведен анализ выдачи в регионе США пользу кого более чем 10 тысяч страниц. Анализировали выдачу в соответствии с высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (в таком случае есть сайты, которые не входят в средний доход).

Результаты оказались вполне закономерными, среди подобных сайтов:

  • YouTube/wiki/quora
  • Трастовые старшие ресурсы bbc/forbes/amazon/newegg.com
  • Каталоги
  • Категория товаров вне текста: https://losangeles.craigslist.org/search/mcy

Далее возникает контроверза, как наполнить страницу с релевантной тематикой и как постичь, что нужно изменить странице? Ответом может душа статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.

Тем не менее и тут могут возникать проблемы:

  • Как спарсить «чистый» конферанс со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
  • Нужно ли попользовать все страницы в выдаче для анализа (поиск своей тематики и обсуждение конкурентов из этой группы).
  • Какие именно трепотня советовать (какие слова важны). СПОЙЛЕР: простой фильтр замри слов в данном случае не поможет.

Еще одним значимым аспектом продвижения в Google является утилизация слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, ведь здесь формула, казалось бы, проста:

Значимые болтология у конкурентовСлова, которые уже есть у нас = Рекомендации

Же на самом деле здесь также присутствует определенная хитроумие. Прежде всего, это такие негативные явления, сиречь:

  • При анализе конкурентов в выдаче всегда проявляется шелест: брендовые фразы, стоп-слова.
  • В SERP несколько интентов. Сие явление ярко выражено в США.
  • Страницы в одном кластере сверху разных языках.
  • Страницы разных тематик в одном кластере.
  • Расследование только текстовой составляющей (без навигации, хлебных крошек и т.п.).

В качестве решения разрешено использовать CF-TF-IDF ранжирование:

CF – как часто слово встречается в тематике.

TF – встречаемость в каждом тексте изо тематики.

IDF – информативность слова [контролирует стоп слова].

Отвод: лучше всего использовать не переспам, а другие ключевые фр из тематики.

Далее на основе статистического анализа строят выводы.

Чтоб проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили сии кластеры на два типа:

1. для обучения;

2. про проверки.

Проверили сколько рекомендованных слов содержит вторая выбор. Результат получился следующим:

Также проанализировали по информационным запросам – далее больше значимых слов и их больше используют прямо в текстах страниц:

Чтобы написать качественные тексты, которые будут здорово ранжироваться в Google, необходимо использовать значимые слова. Хотя здесь есть важная деталь: при сборе запросов формируется отчасти тематик и нельзя конкурировать со всеми этими тематиками. В соответствии с, надо выбирать тематику, которая наиболее подходит подо вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя изо тематики страницы и тематик, представленных в ТОПе.

Для тех, который интересуется вопросом, какой должна быть средняя продолжительность текстового блока для коммерческих и информационных запросов, вещун привел следующие результаты выборки по 10 тысячам сайтов.

Завершая нестандартный доклад, Олег Саламаха поделился ссылками на полезные либы угоду кому) работы с текстами. Они будут полезны тем, кто такой занимается автоматизированной разработкой:

  • Парсинг текста — breadability — https://github.com/bookieio/breadability 
  • Кодификатор языка — https://github.com/saffsd/langid.py
  • Лемматизаторы (английский) — http://www.clips.ua.ac.be/pages/pattern-en

Источник: www.seonews.ru