Як блокувати пошукові системи
Пошукові системи оснащені роботами (веб-павуками або ботами), які сканують і індексують веб-сторінки. Якщо ваш сайт або сторінка знаходиться в стадії розробки або містить небажаний контент, роботам можна заборонити сканувати та індексувати ваш сайт. Дізнайтеся, як блокувати цілі сайти, сторінки і посилання за допомогою файлу robots.txt або конкретні сторінки і посилання за допомогою html-тегів . Читайте далі, щоб дізнатися, як заборонити доступ до контенту певним роботам.
кроки
Метод 1 з 2:
Блокування пошукових систем за допомогою файлу robots.txt1. Ознайомтеся з файлом robots.txt. файл robots.txt являє собою простий текстовий файл або файл ASCII, який повідомляє веб-павукам пошукових систем, до яких частин сайту вони можуть отримати доступ. Файли і папки, перераховані у файлі robots.txt, не можуть бути скановані та індексовані пошуковими роботами. Використовуйте файл robots.txt, якщо:
- ви хочете приховати певний контент від пошукових систем;
- ви перебуваєте в процесі розробки сайту і не готові до сканування і індексації сайту павуками пошукових систем;
- ви хочете обмежити доступ авторитетним ботам.
2. Створіть і збережіть файл robots.txt. Щоб створити файл, відкрийте звичайний текстовий редактор або редактор коду. Збережіть файл як robots.txt. Назва файлу повинна бути написано малими літерами.
3. Створіть файл robots.txt з безумовною директивою disallow. Безумовна директива disallow дозволить заблокувати пошукових роботів всіх основних пошукових систем, тим самим уникнувши сканування і індексації сайту. Додайте наступні рядки в текстовий файл:
User-agent: * Disallow: /
4. Створіть файл robots.txt з умовною директивою allow. Замість блокування всіх ботів, розгляньте можливість блокування доступу конкретних павуків до певних частин сайту. Основні команди умовної директиви allow включають ::
User-agent: * Disallow: / sample-directory /
User-agent: * Disallow: / private_file.html
User-agent: googlebot-imageDisallow: / images_mypicture.jpg
User-agent: googlebot-imageDisallow: /
User-agent: * Disallow: / p *.jpg $
5. Подстегніте ботів до індексації і сканування вашого сайту. Багато людей не тільки не блокують, а навпаки, вітають увагу павуків пошукових систем до свого сайту, щоб він був повністю проіндексований. Домогтися цього можна трьома способами. По-перше, можна відмовитися від створення файлу robots.txt. Якщо робот не знайде файл robots.txt, то продовжить сканувати та індексувати весь ваш сайт. По-друге, ви можете створити порожній файл robots.txt. Робот знайде файл robots.txt, побачить, що той порожній, і продовжить сканувати та індексувати сайт. Нарешті, можна створити файл robots.txt з директивою безумовного дозволу, використовуючи код:
User-agent: * Disallow:
6. Збережіть текстовий файл в кореневому каталозі домену. Після редагування файлу robots.txt збережіть зміни. Вставте файл в кореневий каталог сайту. Наприклад, якщо у вас домен yourdomain.com, помістіть файл robots.txt за адресою yourdomain.com / robots.txt.
Метод 2 з 2:
Блокування пошукових систем метатегами1. Ознайомтеся з HTML-метатегах robots. Метатег robots дозволяє програмістам встановлювати параметри для ботів або павуків пошукових систем. За допомогою цих тегів ботам забороняють індексувати і сканувати весь сайт або окремі його частини. Також їх можна використовувати, щоб заблокувати певного павука пошукової системи від індексації контенту. Ці теги вказуються в заголовку HTML-файлу.
- Цей метод зазвичай використовується програмістами, які не мають доступу до кореневого каталогу сайту.
2. Забороніть доступ ботам до одній сторінці. Індексацію сторінки і / або перехід по посиланнях на сторінці можна заборонити для всіх ботів. Цей тег зазвичай використовується, коли сайт знаходиться на стадії розробки. Після завершення роботи сайту настійно рекомендується видалити цей тег. Якщо ви не приберете тег, сторінка не буде проіндексована чи доступна для пошуку через пошукові системи.
name = "robots" content = "noindex, nofollow">
name = "robots" content = "noindex">
name = "robots" content = "nofollow">
3. Дозвольте роботам індексувати сторінку, але не переходити по її посиланнях. Якщо ви дозволите ботам проіндексувати сторінку, вона буде проіндексована. Якщо ви забороните павукам переходити за посиланнями, шлях посилання з цієї сторінки на інші буде заблокований. Вставте в заголовок наступний рядок коду:
name = "robots" content = "index, nofollow">
4. Дозвольте павукам пошукової системи переходити за посиланнями, але не індексувати сторінку. Якщо ви дозволите ботам переходити за посиланнями, шлях посилання з цієї сторінки на інші залишиться відкритим. Якщо ви забороните ботам індексувати сторінку, вона не з`явиться в індексі. Вставте в заголовок наступний рядок коду:
name = "robots" content = "noindex, follow">
5. Заблокуйте вихідну посилання. Щоб приховати одне посилання на сторінці, помістіть тег rel всередині тега посилання . Використовуйте цей тег для блокування посилань на інших сторінках, які ведуть на конкретну сторінку, яку ви хочете заблокувати.
href ="yourdomain.html" rel ="nofollow">Вставте посилання на заблоковану сторінку
6. Заблокуйте конкретного пошукового павука. Замість блокування доступу до сторінки для всіх ботів, встановіть заборону на сканування та індексування сторінки лише для одного бота. Для цього замініть слово «robots» в метатеге ім`ям певного бота. приклади: googlebot, googlebot-news, googlebot-image, bingbot і teoma.
name = "bingbot" content = "noindex, nofollow">
7. Подстегніте ботів до сканування і індексації сторінки. Якщо ви хочете переконатися, що сторінка буде проіндексована, а по посиланнях будуть переходити, додайте дозволяє мета-тег «robots» в свій заголовок. Використовуйте наступний код:
name = "robots" content = "index, follow">