Если на проекте много похожих статей, то кроме проверки на уникальность, нужно сравнивать тексты между собой. Сравнение 2 текстов между собой необходимо, если на вашем сайте много статей с похожей структурой или на близкую тему. Объясним, почему это нужно, и расскажем о хороших сервисах для такой задачи.
Зачем сравнивать тексты?
Все знают, что уникальный контент выше ранжируется, поэтому все перепроверяют уник размещаемых текстов. Но мало кто думает о том, что если на сайте размещено много сходных между собой материалов, то поисковик будет считать уникальной только первую страницу, которую он посетил.
Например, у вас проект про казино США. Все тексты в разделе пишутся примерно по одному плану на плюс-минус одну тему (виды казино). И вот вам прислали для размещения два текста — «Самые стремные казино США» и «Самые крутые казино США». Вы перепроверяете уник — у каждой статьи он выше 85 % по выбранному вами сервису. По идее, все в порядке и можно размещать. А потом сравниваете эти два текста между собой и выясняете, что разница между ними меньше 70 % — это означает, что после размещения обеих статей только первая будет иметь уник выше 85 %, а вторая окажется уникальной лишь на 10–30 %, что совершенно неудовлетворительно.
Мы в редакции находили и другие удивительные вещи с помощью сравнения текстов между собой, например:
- Копипаст из одной статьи в другую. Недобросовестный автор просто копировал целые абзацы из одного текста в другой, при этом сервис проверки уника ничего не находил, потому что каждая статья была уникальной относительно контента в интернете.
- Поверхностный рерайт. Автор не пытался провести оригинальное исследование для каждого материала, а просто переписывал каждое предложение своей первой статьи во вторую, меняя отдельные слова. Например, в первой было «Стремные казино США внушают ужас игрокам», а во второй «Крутые казино США вызывают восхищение у игроков». Такое сервис проверки уника тоже не найдет. Кстати говоря, это выдает непрофессионала. Здесь мы рассказываем и о других признаках плохого копирайтера по гемблингу.
Бывает и такое, что автор не халтурит, а просто устал или стал заложником своего стиля письма и неосознанно повторяет какие-то идеи или конструкции в нескольких статьях. Это может быть вредно для уникальности точно так же, как скопированный контент.
Поэтому на всех типичных статьях мы обязательно сравниваем тексты между собой, даже если этого нет в ТЗ клиента. И мы рекомендуем включать сервисы сравнения в ТЗ с обязательным указанием нормального значения совпадений.
Такое значение зависит от объема текста, темы (терминология и устойчивый профессиональный сленг) и неизменяемого контента на странице, например, заголовки разделов. В среднем нормальная разница между двумя текстами должна быть 60–70 %, то есть совпадать должно лишь 30–40 % контента, включая ключевые слова, заголовки и другие вещи, которые нельзя менять автору.
Топ-5 сервисов для сравнения текстов
Большинство из приведенных ниже сервисов работают бесплатно и без регистрации. Интерфейс везде примерно одинаков: вы просто вставляете первый и второй текст в отдельные окошки и нажимаете «Проверить». После этого система выдает результат в процентном значении (сколько процентов совпадает) и показывает совпадающие фрагменты.
BackLinks Manager
Этот сервис мы используем чаще всего, потому что здесь можно настраивать шингл. Интерфейс только русский, но ни один из наших нейтивов не жаловался, потому что проверка запускается элементарно.
Copyscape
Хотя Copyscape обычно не входит в число сервисов для проверки текста на уникальность, он предлагает простой и, что главное, бесплатный инструмент для сравнения двух текстов. Ничего особенного, только базовый функционал: процент совпадения, количество слов.
Copyleaks
Copyleaks предлагает более продвинутую аналитику сравнения между собой двух текстов. Помимо процента совпадений и количества одинаковых слов он также показывает куски текста с минимальными изменениями, близким значением и пропущенными словами. Все это отображается разными цветами.
Countwordsfree
Используя этот сервис, можно узнать процент различия и совпадений. Эти же данные выводятся в количестве символов. Countwordsfree отображает одинаковые фрагменты без выделения, отмечая зеленым цветом добавленный текст, а красным — удаленный. Сайт также предлагает сохранить результаты в Word или PDF.
Cortical.io
Сервис автоматически определяет и работает с семью языками:
- английский;
- немецкий;
- французский;
- испанский;
- китайский;
- арабский;
- датский.
После завершения сравнения сайт показывает процент совпадений и оба текста в виде квадратных сеток с закодированными семантическими отпечатками. Если вам не нужно видеть, какие именно фразы были скопированы, Cortical.io вполне подойдет.
Наш выбор
По удобству нам больше всего нравится BackLinks Manager, потому что он выдает результат в процентах и предлагает настройки шингла. Но в целом все сервисы из топа хороши, работают без накладок и удобны, если ваша цель — увидеть заимствованные фрагменты, а не быстро оценить процент совпадающего материала.
Расскажите для тех, кто в танке: а что такое шингл?..
Шингл (слово произошло от англ shingle «галька, плитка, черепица») — это последовательность из нескольких слов, обычно от 2 до 7. Используется при анализе уникальности и других технических параметров, например, при сравнении двух текстов. Мы скоро подготовим хороший и понятный словарь по всем терминам, которые часто используем в нашей работе, пригласим почитать:)