Baltic Digital Days 2017: Текстовая аналитика
Продолжаем рассмотрение программной части конференции Baltic Digital Days, которая уж в пятый раз проходит в Калининграде. Секцию «SEO в Европе и США» продолжил рапорт Олега Саламахи, founder Serpstat, на тему «Текстовая аналитика».
В навечерие всего, спикер напомнил слушателям о том, что в сервисе новообращенный появилась текстовая выгрузка и кластеризация, при помощи которой спеца для доклада на BDD 2017 удалось сделать малость выгрузок для выдачи США.
Традиционно SEO-специалистов волнуют следующие вопросы:
1. Какое количество раз нужно «поспамить фразой»?
2. Как правильно спамить?
3. Какой размер текста нужно дислоцировать на странице?
4. Как найти LSI-фразы?
5. Как испытать воду в тексте?
Озвучив эти вопросы, Олег пообещал передать исчерпывающие ответы на них, но немного отнюдь не в том ключе, как этого обычно ожидают. Нате самом деле, однозначного и четкого ответа на сей вопрос нет – правильнее всего рассматривать определенные диапазоны показателей. Сей подход в математике носит название «Правило трех сигм» («three-sigma rule» то есть (т. е.) «68–95–99 rule»).
Вот почему имеет смысл применять статистический путь к ответу на перечисленные выше вопросы. С этой целью нужно:
1. Обосновать распределение метрик своих конкурентов в выдаче.
2. Исключить аномалии отсечением хвостов за «правилу трех сигм» (анализируя тем самым 68, 95 тож 99% выборки). Это позволит убрать из рекомендации «Титанов», которые могут предоставить возможность себе слабую релевантность или переспам.
3. Составить рекомендационную базу, содержащую:
- зона релевантности ключу;
- диапазон приемлемой длины текста;
- матрикул LSI-слов и вероятностей их употребления конкурентами.
Что сие значит для SEO-специалиста: если у вас есть безусловный показатель, то нужно стараться, чтобы показатели мало-: неграмотный выходили за пределы данного диапазона. Максимальное аномалия – плюс-минус 30% от заданного числа.
В следующей части доклада колонка показал, как работает данное правило на примере разных выборок.
Уместность
Что касается спамности (релевантности или тошнотности), в таком случае однозначного ответа на вопрос о том, сколько разок можно употребить конкретное слово в тексте, нет и приставки не- может быть. В каждой тематике, в каждом тексте и пусть даже в каждом срезе будет свой ответ на данный вопрос. Однако, зная формулу релевантности, можно выискать правильный ответ. Так, например, в компании Serpstat используют модифицированный алгорифм ВМ25, который способен учитывать немного пре факторов. В настоящее время данная возможность для клиентов включена в текстовый анализатор. В этом случае позволяется контролировать, насколько вы отходите от этой релевантности. Присутствие этом важно помнить, что диапазон попадания в нужные формат колеблется в пределах 30% от среднего значения релевантности в ТОП в области запросу. Это дает странице возможность на некоторое эпоха оказаться в ТОПе. Также важно помнить, что выключая текстового ранжирования на нахождение сайта в ТОПе влияет туча других факторов.
Итак, SEO-специалисту не стоит перезабывать о том, что:
- нужно контролировать переспам;
- контролировать страницы с низкой релевантностью;
- состав в любой из формул ничего не значит, данные необходимо сравнивать с конкурентами в тематике;
- из-за большого количества факторов, нет возможности провести reverse engineering;
- нужны «веса слов».
Продолжая усваивать тему, специалисты Serpstat взяли выборку из нескольких тысяч запросов и нескольких десятков тысяч URL-ов, которые находятся в ТОП-10 выдачи. Посчитали среднюю уместность в ТОП-10 по каждой фразе и разницу посреди средним значением и значением каждой страницы.
Графики распределения релевантности до коммерческим и информационным запросам получились следующими:
Как думается, показатели для основных сайтов по коммерческим запросам находятся в пределах обозначенных досель 20–30%.
Важно отметить, что западном сегменте поисковая государственное устройство гораздо лучше понимает текст, а в текстовых факторах используются далеко не вхождения, а синонимы, связанные с тематикой. Здесь текстовая уместность не играет столь большого значения. При этом нужно топтать, чтобы показатель не уходил в крайнюю правую поле графика. То есть важно избегать переспама.
В целом в западной выдаче подымай выше ранжируются статьи, в которых не только текст, же и дополнительные полезные пользователю элементы: видео, таблицы, картеж и другие.
Выводы:
1. Релевантность в ТОПе сконцентрирована возле среднего значения (в Рунете очень больше аномалий).
2. Сколько нужно вхождений: +/- 30% с средней релевантности в ТОПе.
3. Следить за переспамом только и можно с помощью % отклонения от среднего показателя в ТОПе.
4. В информационной̆ тематике разброс релевантности больше, чем в коммерческой̆, т.е. следить стоит с лишним за коммерческими запросами.
Аномалии в релевантности
Всегда занятно следить за сайтами, которые входят в ТОП выдачи, за всем тем у них наблюдаются некоторые аномалии в релевантности. Чтобы разоблачить закономерности, был произведен анализ выдачи в регионе США пользу кого более чем 10 тысяч страниц. Анализировали выдачу в соответствии с высокочастотным и среднечастотным фразам. Цель: найти в ТОПе сайты с низкой текстовой релевантностью (в таком случае есть сайты, которые не входят в средний доход).
Результаты оказались вполне закономерными, среди подобных сайтов:
- YouTube/wiki/quora
- Трастовые старшие ресурсы bbc/forbes/amazon/newegg.com
- Каталоги
- Категория товаров вне текста: https://losangeles.craigslist.org/search/mcy
Далее возникает контроверза, как наполнить страницу с релевантной тематикой и как постичь, что нужно изменить странице? Ответом может душа статистический анализ сайтов конкурентов, которые уже находятся в ТОПе.
Тем не менее и тут могут возникать проблемы:
- Как спарсить «чистый» конферанс со всех страниц из ТОПа (без «шапок», комментариев и прочих блоков).
- Нужно ли попользовать все страницы в выдаче для анализа (поиск своей тематики и обсуждение конкурентов из этой группы).
- Какие именно трепотня советовать (какие слова важны). СПОЙЛЕР: простой фильтр замри слов в данном случае не поможет.
Еще одним значимым аспектом продвижения в Google является утилизация слов из вектора тематики. Что касается поиска тематических слов автоматизированным способом, ведь здесь формула, казалось бы, проста:
Значимые болтология у конкурентов – Слова, которые уже есть у нас = Рекомендации
Же на самом деле здесь также присутствует определенная хитроумие. Прежде всего, это такие негативные явления, сиречь:
- При анализе конкурентов в выдаче всегда проявляется шелест: брендовые фразы, стоп-слова.
- В SERP несколько интентов. Сие явление ярко выражено в США.
- Страницы в одном кластере сверху разных языках.
- Страницы разных тематик в одном кластере.
- Расследование только текстовой составляющей (без навигации, хлебных крошек и т.п.).
В качестве решения разрешено использовать CF-TF-IDF ранжирование:
CF – как часто слово встречается в тематике.
TF – встречаемость в каждом тексте изо тематики.
IDF – информативность слова [контролирует стоп слова].
Отвод: лучше всего использовать не переспам, а другие ключевые фр из тематики.
Далее на основе статистического анализа строят выводы.
Чтоб проверить теорию, в Serpstat проанализировали несколько сотен кластеров запросов, разделили сии кластеры на два типа:
1. для обучения;
2. про проверки.
Проверили сколько рекомендованных слов содержит вторая выбор. Результат получился следующим:
Также проанализировали по информационным запросам – далее больше значимых слов и их больше используют прямо в текстах страниц:
Чтобы написать качественные тексты, которые будут здорово ранжироваться в Google, необходимо использовать значимые слова. Хотя здесь есть важная деталь: при сборе запросов формируется отчасти тематик и нельзя конкурировать со всеми этими тематиками. В соответствии с, надо выбирать тематику, которая наиболее подходит подо вашу страницу. Serpstat использует алгоритм автоматического определения тематики вашего сайта и строит рекомендации, исходя изо тематики страницы и тематик, представленных в ТОПе.
Для тех, который интересуется вопросом, какой должна быть средняя продолжительность текстового блока для коммерческих и информационных запросов, вещун привел следующие результаты выборки по 10 тысячам сайтов.
Завершая нестандартный доклад, Олег Саламаха поделился ссылками на полезные либы угоду кому) работы с текстами. Они будут полезны тем, кто такой занимается автоматизированной разработкой:
- Парсинг текста — breadability — https://github.com/bookieio/breadability
- Кодификатор языка — https://github.com/saffsd/langid.py
- Лемматизаторы (английский) — http://www.clips.ua.ac.be/pages/pattern-en
Источник:
Новости
-
Нормативные документы по повышению квалификации
1. Узаконение Совета Министров Республики Беларусь через 22 июня 2011...
- Опубликован 8 января, 2024
- 0
-
Как сократить количество отказов от «Корзины»
Возможно, каждый владелец интернет-магазина считает, что «Корзиночка» – это очень...
- Опубликован 19 августа, 2019
- 0
-
#SEOnews14: мы празднуем – вы получаете подарки!
У SEOnews сегодняшнее день рождения! Уже 14 лет SEOnews по...
- Опубликован 19 августа, 2019
- 0
-
5 книг от эксперта: Андрей Калинин (Mail.ru Group)
А ваша милость любите читать? Если да, то наша часть...
- Опубликован 19 августа, 2019
- 0
-
Планы на неделю: покорение ТОПа выдачи и 8 часов разборов кейсов
Каждое воскресенье чтение SEOnews публикует подборку образовательных мероприятий на ближайшие...
- Опубликован 18 августа, 2019
- 0
-
Типичные ошибки при запуске рекламы в Яндекс.Директ: как сделать сразу правильно, чтобы не слить бюджет
Контекстная раскручивание — уникальный канал привлечения целевой аудитории получи и...
- Опубликован 18 августа, 2019
- 0
-
7 способов перевода аудио и видео в текст
Давайте начистоту. (у)потреблять люди, которые ненавидят голосовые сообщения. Есть челядь,...
- Опубликован 18 августа, 2019
- 0
нет комментариев