Поиск битых ссылок запросом. универсальный алгоритм и обработка-пример

Содержание:

Проверка ссылочной структуры сайта

Проверка битых ссылок

Показывает список исходящих ссылок для URL и проверяет их отклик. Может проверять рекурсирвно, то есть переходить от одного документа к другому самостоятельно.
http://validator.w3.org/checklink

Freeware инструмент для проверки битых ссылок. Для работы нужно установить его на свой компьютер. Рекурсивно сканирует сайт, делает отчеты, может быть полезен для составления карты сайта.
http://home.snafu.de/tilman/xenulink.html

Проверка перелинковки и заголовков страниц

Проверяет и показывает внутренние ссылки, заголовки страниц, наличие дублированного контента на сайте. Бесплатно позволяет сканировать сайт 1 раз в 30 дней.http://www.siteliner.com/

Сканирует до 500 страниц сайта в бесплатной версии. Проверяет число внешних и внутренних ссылок. Выводит информацию о просканированных страницах: вложенность, коды ответа, названия, мета информацию и заголовки.http://www.screamingfrog.co.uk/seo-spider/

Проверка ссылочной структуры и веса внутренних страниц

Программа сканирует сайт, строит матрицу внутренних ссылок,
добавляет внешние (входящие) ссылки с заданных URL и, на основании этих данных, рассчитывает
внутренние веса страниц сайта. Программа может быть использована для нахождения внешних (исходящих) ссылок для списка URL страниц сайта.
http://www.design-sites.ru/utility/link-analyzer.php

Нерабочие ссылки в Yandex Webmaster

Многие знакомы с инструментами для вебмастеров от Яндекс. Если вы ими еще не пользуетесь, то рекомендую туда добавить свои сайты, так как более подробной информации по техническому состоянию веб ресурсов не найти.

Ссылка на регистрацию – webmaster.yandex.ru

В отличие от описанных выше методов, с помощью Яндекса мы можем отследить  битые ссылки не со своего сайта, а на свой (ссылаются чужие домены или ведут внутренние линки).

Открываете сервис, выбираете нужный сайт, после чего в левом меню раскрываете категорию «Индексирование сайта», а в ней открываете «Исключенные страницы» – там нас интересует раздел с 404 ошибками.

В нем содержатся адреса, на которые есть ссылки, а самих страничек не существует.

Переадресация через файл htaccess решит сию проблему и, постепенно, по мере обхода поискового робота ошибки уйдут, а вес ссылок перетечет на новую страницу.

Что такое битая ссылка?

Битая ссылка — это страница на сайте, которую нельзя открыть. Ее не существует. Когда потенциальный посетитель пытается на нее попасть, то получает в ответ ошибку. Это может быть ошибка 404 Not Found или 400 Bad Request. Или без кода вовсе: Timeout, Empty, Reset. Зависит от настроек конкретного ресурса. Оболочка разная, а смысл один и тот же. Сервер говорит, что искомой страницы здесь нет.

Такие ссылки еще изредка называют «мертвыми». Они возникают по нескольким распространенным причинам:

  1. В адресе страницы допущена ошибка. Неправильно написано слово или не хватает какого-то символа. Или не настроены алиасы.
  2. Структуру сайта недавно кардинально поменяли, не настроив при этом перенаправление со старых ссылок.
  3. Ссылки на сторонний контент на странице удалили или каким-либо образом «сломали».
  4. В коде сайта затесались ошибки. В HTML или в JavaScript. Может быть, это сбой в CMS.

Откуда берутся битые ссылки?

Битые ссылки — это ссылки, ведущие на несуществующие страницы, которые отдают ошибку 404. Они бывают двух типов — внешние (ссылающиеся на неработающие страницы других ресурсов) и внутренние (существующие на разных страницах одного сайта).

Повторимся, битые ссылки естественны для экосистемы интернета. Отдельные страницы и целые сайты периодически удаляются, и ссылки на них превращаются в код ответа 404

В умеренном количестве это принимается во внимание поисковыми краулерами и не чревато проблемами с SEO, а для пользователей сгладить негативный эффект от 404-х страниц всегда можно при помощи кастомного дизайна с юмором и забавным оформлением

Куда большую опасность для поискового продвижения представляет резкое увеличение числа битых линков. Такой «взрыв», обычно, касается только внутренних ссылок и происходит по нескольким причинам:

Ошибки при глобальной реорганизации сайта. Проведение редизайна с изменением структуры сайта, переформатирование каталога, перенос проекта на новый домен или переезд на HTTPS-протокол, — все эти мероприятия связаны с изменением URL-адресов страниц. Без грамотной постраничной настройки 301-х редиректов (перенаправлений со старых страниц на новые) неизбежен «взрыв» битых ссылок.

Удаление разделов сайта или отдельных документов. Подобный сценарий типичен для онлайн-магазинов, у которых структура пребывает в постоянной динамике — появляются новые товарные группы, разделы и подразделы, а старые удаляются. При этом ссылки на пропавшие страницы остаются в других разделах сайта.

Программные ошибки CMS. Массовое увеличение битых ссылок нередко происходит в результате сбоев в модулях системы управления контентом. Также причиной может становиться человеческий фактор, когда вебмастер по неосмотрительности или недостаточной компетенции генерирует множество некорректных URL-адресов.

Отчего возникают битые ссылки?

Если пользователи, кликая на ссылку на вашем сайте, попадают в конечном итоге на страницу 404 ошибки, вы теряете свою прибыль. Может быть, вы пока ещё не припоминаете проблем со своими ресурсами? А, может, такие ссылки уже завелись на вашем сайте?

Сохраняйте спокойствие. Нерабочие ссылки могут возникнуть по самым разным причинам, например:

  • Последний переезд на новый хостинг был не столь успешным, как вам казалось
  • Вы добавили ссылку на сторонний ресурс, а владелец этого ресурса удалил его или изменил его URL-адрес
  • Возможно, вы изменили URL-адрес старого поста, но забыли обновить ссылки на страницы и посты
  • Новая бизнес-стратегия повлекла за собой смену доменного имени
  • Поскольку человеку свойственно ошибаться, вы неправильно написали ссылку, например, вы оставили букву или http:// частью ссылки
  • Комментаторы могут оставить пустые ссылки
  • Ваш хостинг может иметь необычные настройки брандмауэра, потому что… Короче говоря, некоторые хостинги играют по собственным правилам
  • Вы перешли с Blogger на WordPress и ваши постоянные ссылки изменилось? Это происходит довольно часто
  • Если вы забыли исправить ссылки после конвертации вашего сайта из HTML в WordPress, вы получите неработающие ссылки
  • Посторонний сайт, на который вы ссылаетесь, прекратил своё существование, потому что владелец не оплатил хостинг.

Это далеко не полный список причин, так что, если у вас возник единичный случай, дочитайте нашу статью до конца, и вы узнаете способы решения проблемы. Но сначала давайте поговорим о последствиях, возникающих от неработающих ссылок.

Настройка плагина Broken Link Checker

Плагин переводил «добросовестный» работник :-), но мы справимся.

Look for links in (Где искать битые ссылки)

Поставьте галочку у «Custom fields» (произвольные поля) если используете произвольные поля и хотите там проверять ссылки.

Остальное здесь все прозрачно и понятно. Пояснений не требуется.

Which Links To Check (Тип проверяемых ссылок)

На этом блоге я использую текстовые HTML ссылки, HTML ссылки на картинки и видео с YouTube с новым и старым кодом. Эти типы ссылок я и отметил.

Protocols & APIs

Выбор протоколов и APIs, с помощью которых будут проверяться ссылки на битость. Установленный по умолчанию «Basic HTTP» со своей задачей вполне справляется и я здесь ничего не менял.

Дополнительно

Цифровые значения, выставленные по умолчанию, оптимальны и менять их следует для нештатных ситуаций.

Link monitor: Галочка в верхней строке активирует непрерывную работу плагина при открытой панели. Галочка ниже разрешает работать плагину в фоновом режиме.

Нажатием кнопки «Проверить все страницы» плагин очистит свою базу данных по ссылкам и перепроверит сайт заново.

Как искать неработающие ссылки

Находить битые ссылки на сайте можно по-разному. Далее мы подробно расскажем о тех способах, которые не требуют платного софта и гарантируют максимально точную проверку. В обзор включены 100% бесплатные инструменты — без триалов, ограничений по количеству проверок и без урезанного функционала.

Яндекс.Вебмастер

Проверить сайт на битые ссылки можно в Яндекс.Вебмастере. Для этого нужно открыть панель управления и перейти в разделы «Индексирование» — «Статистика обхода».

Далее, переключиться на вкладку «Все страницы», в фильтре «Код ответа» выбрать 404 Not Found и нажать «Применить».

Список проблемных ссылок можно выгрузить в формате XLS или CSV таблиц.

Google Search Console

Аналогичную процедуру можно провести с помощью Google Search Console. Здесь работает следующий алгоритм действий. Заходим в панель управления, переходим в разделы «Индекс» — «Покрытие», и во вкладке «Ошибки» получаем развернутый отчет о текущих недочетах на сайте.

Xenu Link Sleuth

Проверенный инструмент для эффективного поиска битых ссылок. Xenu Link Sleuth — это полностью бесплатная программа, устанавливаемая на ПК. По функциональным возможностям она является полноценным аналогом таких популярных коммерческих анализаторов как Netpeak Spider или Screaming Frog SEO Spider.

Несмотря на то, что Xenu не обновляется с 2010 года, она по-прежнему ценится многими специалистами как многофункциональный инструмент для всестороннего аудита внутренней структуры сайта. Помимо поиска неработающих ссылок с ее помощью можно решать много других SEO-задач:

  • автоматически генерировать Sitemap;
  • находить страницы с большой задержкой отдачи;
  • фильтровать документы с неуникальными тайтлами;
  • искать страницы с большим уровнем вложенности;
  • смотреть статистику внутренних и внешних ссылок по конкретной странице;
  • искать картинки с непрописанным атрибутом alt, оптимизируя изображения на сайте.

При всех своих возможностях программа предельно проста в освоении. Из относительных недостатков — устанавливается только на Windows.

LinkChecker

Ссылочный валидатор со свободной GPL-лицензией. Инструмент доступен в виде десктопной программы. С его помощью можно проверить ссылки как на отдельных страницах, так и полностью просканировать весь сайт. В отличие от Xenu Link Sleuth этот софт можно использовать не только на Windows, но и на Linux или MacOS. Из недостатков: придется потратить время на то, чтобы разобраться с инсталляцией и понять, как работает программа. Интерфейс на английском.

Screaming Frog SEO Spider

SEO фрог – это известный каждому оптимизатору инструмент для проведения анализа сайта. Программа устанавливается на компьютер, бесплатная версия имеет ограничение на 500 проверяемых урлов. Отлично подходит для владельцев сайтов, которые занимаются самостоятельным продвижением собственного проекта. В случае больших команд обязательно необходима покупка лицензии.

Brokenlinkcheck

Среди онлайн-инструментов для поиска битых ссылок лучшим из решений, пожалуй, является сервис www.brokenlinkcheck.com. Сразу отметим, что это условно бесплатный инструмент, но с весьма привлекательными условиями пользования. Free-версия предусматривает бесплатную проверку 3000 страниц сайта без ограничений в количестве сканируемых ссылок. Для использования инструмента на потоке такого лимита окажется недостаточно, но он отлично подойдет тем, кто хочет провести единоразовый аудит собственного проекта.

Сервис максимально прост, понятен и не требует регистрации. Все что нужно — ввести адрес интересующего сайта и запустить сканирование. Алгоритм подготовит развернутый отчет, в котором будет представлена информация не только по внутренним, но и внешним URL. Валидатор с высокой точностью определит битые ссылки и покажет, где именно находятся проблемные элементы в вашем HTML-коде.

Broken Link Checker — плагин для WordPress

Разговор о ссылочных валидаторах был бы неполным без затрагивания темы плагинов для WordPress. Лучшим бесплатным решением в этом вопросе единогласно считают модуль Broken Link Checker. Он не самый простой в освоении, но потратить время на то, чтобы разобраться в нем — точно стоит, если вы владелец сайта на WordPress. Основное назначение плагина поиск и отслеживание битых ссылок. Он сканирует весь контент на сайте, включая комментарии, блогроллы, содержимое пользовательских полей и т.д., уведомляя о наличии выявленных проблем в панели управления или по почте. Помимо этого плагин обнаруживает недоступные изображения и ошибочные редиректы. Редактировать битые ссылки можно прямо из панели модуля, что значительно ускоряет работу.

Плагины, работающие с битыми ссылками

Предупреждение: мы не несём ответственности за проблемы, которые могут возникнуть при использовании данных плагинов. В частности, идёт речь о том, что они выкачивают ресурсы сервера. В результате некоторые хостинги блокируют подобные плагины. Если вы заметили существенное падение производительности при использовании любого из этих плагинов, отключите плагин после нахождения битых ссылок. Активируйте плагин только тогда, когда вам нужно проверить сайт на неработающие ссылки.

Не будем больше о плохом и представим вам несколько лучших из подобных плагинов.

1. Broken Link Checker

Плагин позволяет фильтровать ссылки по URL-адресам, анкорам и так далее. Если он обнаруживает любые неработающие ссылки, вы можете исправить их прямо на странице плагина. Это мощный плагин с массой различных функций.

2. WP Broken Link Status Checker

Плагин имеет хороший рейтинг, легко устанавливается и настраивается. Он находит битые ссылки, а вы переходите на нужные пост/страницу для того, чтобы отредактировать или удалить эти ссылки. Или просто отправить их в корзину.

Желающие получить больше функций могут за $20 приобрести Pro версию.

3. Link Checker

Скажем для начала, что вы не можете использовать этот плагин непосредственно на сайте. Разработчик использует внешний сервер, чтобы проверить ваш сайт на предмет неработающих ссылок. Он утверждает, что никакая конфиденциальная информация не передается на сервер, но что вы думаете по этому поводу?

Бесплатная версия плагина позволяет найти и исправить первые 500 ссылок. Для дальнейшей работы вам потребуется Pro версия.

С другой стороны, нагрузка на сервер идёт небольшая, что очень хорошо. Плагин прост в настройке, работает сразу после установки, но плохо совмещается с Broken Link Checker. Впрочем, с другими плагинами нет никаких проблем совместимости.

Pro версия среди прочих функций позволяет настроить сканирование по расписанию. Плагин имеет рейтинг выше 3.70/5.00 и более 2 тысяч активных установок.

Что делать с битыми ссылками?

Имея список страниц с неработающими URL, устранить имеющиеся ошибки можно несколькими способами.

Исправление внешних ссылок

1. Если страница, на которую вы ссылаетесь, продолжает существовать, но по каким-то причинам ссылка перестала работать — достаточно просто заменить линк.

2. Когда речь идет о купленной ссылке, которую нельзя деактивировать или заменить, нужно связаться с администратором сайта и совместно прояснить ситуацию.

Исправление внутренних ссылок

1. Если страница была удалена непреднамеренно — ее восстанавливают, и ссылка начинает работать заново.

2. В большинстве случаев неработающие ссылки просто заменяют на новые, если страницы на которые вы ссылались до этого продолжают существовать на сайте или у них имеются аналоги.

3. Если ссылки не работают из-за опечаток, допущенных в написании URL, их можно отредактировать вручную.

4. Еще один вариант решения проблемы — настройка 301-х редиректов с удаленных документов на другие релевантные страницы.

5. Самый радикальный подход к решению проблемы — простое удаление неработающих ссылок.

Мониторинг битых линков целесообразно проводить постоянно. Он особенно важен, если в структуру сайта вносились изменения, затрагивающие URL-адреса, проводились общие технические работы или удалялось много страниц. С представленными в обзоре инструментами такой аудит не займет много времени и обеспечит 100% результат без трат на коммерческий софт.

Удаление помеченных объектов, замена ссылок. Обычное и управляемое приложение. Не монопольно, включая рекурсивные ссылки, с отбором по метаданным и произвольным запросом Промо

Обработка удаления помеченных объектов с расширенным функционалом. Работает в обычном и управляемом приложении. Монопольный и разделенный режим работы. Отображение и отбор по структуре метаданных. Отборы данных произвольными запросами. Копирование и сохранение отборов. Удаление циклических ссылок (рекурсия). Представление циклических в виде дерева с отображением ключевых ссылок, не позволяющих удалить текущий объект информационной базы. Удаление записей связанных независимых регистров сведений. Групповая замена ссылок. Индикатор прогресса при поиске и контроле ссылочности.

10 стартмани

31.10.2016   
56982   
703   
m..adm   

225
   

Плагин для WordPress Broken Link Checker

Плагин довольно распространенный. В репозитории WordPress, среди других плагинов, он имеется и устанавливается через панель администратора сайта, если что, инструкция по установке плагинов здесь.

Broken Link Checker в режиме реального времени сканирует страницы веб ресурса, если находит битые ссылки, то добавляет их в список, указывая, количество проверок, периоды, типы ошибок.

Достоинства:

  • Контролирует ссылки постоянно (периодически делая обход);
  • Проверяет ссылки многократно и указывает сколько раз ссылка была нерабочей и в течении какого периода времени, что исключает случайные ложные срабатывания;
  • Позволяет прямо из админки исправить или удалить все копии битой ссылки в один клик;
  • Можно настроить уведомление по e-mail;
  • Проверяет ссылки в черновиках и на закрытых страницах.

Недостатки:

  • Работает только со страницами движка, если у вас есть отдельные страницы, например, лендинги, то плагин их не заметит;
  • Находит не все косяки, несмотря на то, что в настройках стоит проверка видео роликов, у меня он не находит в них нерабочих ссылок, иногда, пропускает и обычные ссылки.

В целом, я его работой доволен, процентов на 95% со своими функциями справляется, главное что в режиме реального времени.

После установки и активации в админке сайта, в разделе «Инструменты» появится закладка – «Неправильные ссылки» с указанием числа битых ссылок, найденных плагином.

Также, появится виджет «Broken Link Checker» с информацией по работе плагина.

А в разделе «Настройка» будет вкладка «Проверка ссылок», через которую вы сможете выставить конфигурацию плагина отличную от базовой, хотя там и по умолчанию все в порядке.

Итак, плагин работает и нашел у вас проблемы – высветится в виджете в админке и во вкладке инструменты. Нажав на ссылку с указанием числа неверных ссылок, вы перейдете к их списку.

Подводя курсор к каждому элементу, вы увидите, как появляются варианты действий:

  • Редактировать URL – меняете адрес на любой другой;
  • Удалить ссылку – анкорный текст перестанет быть ссылкой, сам текст сохранится;
  • Not Broken – сообщаете плагину, что ссылка рабочая и он ошибся, элемент из списка пропадает;
  • Dismiss – отключает проверку данной ссылки в будущем;
  • Recheck – перепроверить ссылку заново;

Под кодом ошибки есть ссылка на детализацию по проверкам – Details – там можно посмотреть подробности. Например, я не удаляю ссылки, которые были ошибочными один раз и, без раздумий удаляю те, которые являются битыми в течение нескольких месяцев и проверялись десятки раз.

Плагин, однозначно, полезный, и для более менее крупных проектов незаменим.

Помощник удаления и очистки объектов

При удалении помеченных не всегда понятно, почему не удаляется например элемент справочника. Написано, что на него ссылается какой-то документ. Заходим в этот документ — и не понятно, где именно смотреть этот элемент, и как его почистить. Особенно, если это какой-то полуслужебный элемент типа «ключ аналитики». Данное расширение выводит информацию, где именно в документе или в движениях этого документа содержится ссылка на удаляемый объект.
Второе расширение помогает удалять дополнительные реквизиты объектов, а именно убирает этот дополнительный реквизит из всех объектов, где он прописан в табличной части «Дополнительные реквизиты».

2 стартмани

Как найти битые ссылки

Это можно сделать с помощью панели Вебмастера Яндекса, плагина для Вордпресс или специальных программ и онлайн-сервисов. Давайте к рабочим способам. С их помощью можно найти битые ссылки, все до единой.

Ищем битые ссылки с помощью онлайн-сервисов

Удобство таких сервисов в том, что ничего не нужно скачивать или устанавливать. Открыл программку прямо в браузере, проверил и получил результат. Онлайн-сервисы бывают как платные, так и бесплатные.

Broken Link Checker

Это плагин для WordPress. BrokenLink Checker помимо обычной проверки на внешние и внутренние битые линки, еще и точно указывает их место в коде.

Вот довольно полная видео инструкция от автора блога Azoogle:

Если ваш сайт сделан на WordPress, скачиваем плагин, активируем его и настраиваем:

  1. Заходим в админку Вордпресс, жмем Параметры – Проверка ссылок;
  2. Где периодичность проверок, можно выставить значение «72» (каждые 72 часа), или свое число;
  3. Во вкладке Look For Linksin оставляем галочки на записях и страницах, в комментариях нам искать битые ссылки не обязательно, поэтому отметку можно убрать;
  4. Оставшиеся настройки изменять не нужно. Нажимаем «сохранить изменения».

После окончания проверки показывается, сколько неправильных ссылок обнаружил плагин. При нажатии на это число, можно увидеть каждый найденный адрес, в котором присутствует ошибка. Каждую ссылку есть возможность даже исправить вручную, открыв в «Источнике» эту самую запись. Также откорректировать гиперссылку можно и в окне плагина, путем изменения (редактирования) URL на правильный, либо эту ссылку можно и вовсе удалить.

Яндекс Вебмастер

Определить, есть ли на вашем ресурсе несуществующие страницы, поможет и старый добрый Яндекс Вебмастер. В меню слева нужно выбрать пункт «исключенные страницы» и вам откроется информация о всех проблемных страницах, которые не получилось проиндексировать

Ошибка 403 или 404 указывает на наличие несуществующих адресов, в первую очередь, обратите внимание именно на эти ошибки. Также в вебмастере есть возможность выгрузки в Excel — удобно, особенно если ошибок выявилось очень много

https://youtube.com/watch?v=xePymYgS1q4

Google Вебмастер

Также как и в Яндексе, в Гугл тоже есть возможность проверить свой ресурс на наличие несуществующих страниц. В панели вебмастера откройте вкладку «Ошибки сканирования» в разделе «Диагностика». Так вы увидите, с каких страниц, и какие ссылки не обнаружены. Если нажать на число возле записи, то вам откроется информация о страницах, содержащих битые линки.

Парсеры

Отличаются от онлайн-сервисов тем, что требуют установки на комп. Минус таких программ в том, что загрузочный файл может быть заражен вредоносным ПО. Прежде чем устанавливать программу, просканируйте её на наличие вирусов. Итак, какие программы для поиска битых линков считаются самыми востребованными? Давайте посмотрим.

Xenu Link Sleuth

Олдовый вариант. Сеошники впитали его вместе с молоком матери. Как пользоваться этой программой? Устанавливаем её к себе на компьютер, открываем, в меню выбираем File – Check URL, после чего нужно ввести адрес сайта, который хотите проанализировать. Около check external links отметку убираем и нажимаем ОК. При первичном запуске парсера, проверка сайта осуществляется намного дольше. Отличие этой программы от проверки поисковиками состоит в том, что она гарантирует актуальность всех данных, анализируя веб-ресурс в режиме реального времени. Единственный ее минус – это небольшая скорость проверки, особенно долго проверяются ресурсы, в которых тысячи страниц.

PageWeight

Еще одна неплохая программа для парсинга страниц и всех ссылок сайта. Фиксирует все кривые ссылки и указывает проблему каждой. Есть возможность настроить различные варианты сканирования, рассчитать статический вес страницы ресурса. Функция «моделирование» в PageWeight позволяет изменять варианты перелинковки, с ее помощью можно как удалить, так и добавить ссылку. Единственный минус – программа платная, у бесплатной версии сильно урезан функционал, поэтому лучше не пожалеть денег и купить полную версию. С пейдж вейт можно сделать правильную внутреннюю перелинковку и убрать битые линки, забирающие вес ресурса.

Screaming Frog

Программа по функциям в общем-то похожа на PageWeight. Может находить дубли страниц и кривые URLы. В отличие от других парсеров, есть версия под Mac.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector