Як блокувати пошукові системи (з ілюстраціями)

Пошукові системи оснащені роботами (веб-павуками або ботами), які сканують і індексують веб-сторінки. Якщо ваш сайт або сторінка знаходиться в стадії розробки або містить небажаний контент, роботам можна заборонити сканувати та індексувати ваш сайт. Дізнайтеся, як блокувати цілі сайти, сторінки і посилання за допомогою файлу robots.txt або конкретні сторінки і посилання за допомогою html-тегів . Читайте далі, щоб дізнатися, як заборонити доступ до контенту певним роботам.

кроки

Метод 1 з 2:

Блокування пошукових систем за допомогою файлу robots.txt

1. Ознайомтеся з файлом robots.txt. файл robots.txt являє собою простий текстовий файл або файл ASCII, який повідомляє веб-павукам пошукових систем, до яких частин сайту вони можуть отримати доступ. Файли і папки, перераховані у файлі robots.txt, не можуть бути скановані та індексовані пошуковими роботами. Використовуйте файл robots.txt, якщо:

ви хочете приховати певний контент від пошукових систем;
ви перебуваєте в процесі розробки сайту і не готові до сканування і індексації сайту павуками пошукових систем;
ви хочете обмежити доступ авторитетним ботам.

2. Створіть і збережіть файл robots.txt. Щоб створити файл, відкрийте звичайний текстовий редактор або редактор коду. Збережіть файл як robots.txt. Назва файлу повинна бути написано малими літерами.

Не забудьте додати «s» на кінці.

При збереженні файлу виберіть розширення «.txt ». Якщо ви використовуєте Word, виберіть опцію «Звичайний текст».

3. Створіть файл robots.txt з безумовною директивою disallow. Безумовна директива disallow дозволить заблокувати пошукових роботів всіх основних пошукових систем, тим самим уникнувши сканування і індексації сайту. Додайте наступні рядки в текстовий файл:

User-agent: * Disallow: /

Використовувати безумовну директиву «disallow» в файлі robots.txt настійно не рекомендується. Коли бот, такий як Bingbot, вважає цей файл, він не проиндексирует ваш сайт, а пошукова система його не відобразяться.

User-agents (Агенти користувача) - це ще одна назва веб-павуків, або пошукових роботів.

*: Зірочка означає, що код застосовується до всіх агентам користувача.

Disallow: /: Коса риска вказує, що весь сайт закритий для ботів.

4. Створіть файл robots.txt з умовною директивою allow. Замість блокування всіх ботів, розгляньте можливість блокування доступу конкретних павуків до певних частин сайту. Основні команди умовної директиви allow включають ::

Блокування конкретного бота: замініть зірочку поруч з User-agent на googlebot, googlebot-news, googlebot-image, bingbot або teoma.

Блокування каталогу або його вмісту:

User-agent: * Disallow: / sample-directory /

Блокування веб-сторінки:

User-agent: * Disallow: / private_file.html

Блокування зображення:

User-agent: googlebot-imageDisallow: / images_mypicture.jpg

Блокування всіх зображень:

User-agent: googlebot-imageDisallow: /

Блокування окремого формату файлу:

User-agent: * Disallow: / p *.jpg $

5. Подстегніте ботів до індексації і сканування вашого сайту. Багато людей не тільки не блокують, а навпаки, вітають увагу павуків пошукових систем до свого сайту, щоб він був повністю проіндексований. Домогтися цього можна трьома способами. По-перше, можна відмовитися від створення файлу robots.txt. Якщо робот не знайде файл robots.txt, то продовжить сканувати та індексувати весь ваш сайт. По-друге, ви можете створити порожній файл robots.txt. Робот знайде файл robots.txt, побачить, що той порожній, і продовжить сканувати та індексувати сайт. Нарешті, можна створити файл robots.txt з директивою безумовного дозволу, використовуючи код:

User-agent: * Disallow:

Коли бот, такий як googlebot, вважає цей файл, то зможе безперешкодно відвідувати весь ваш сайт.

User-agents (Агенти користувача) - це ще одна назва веб-павуків, або пошукових роботів.

*: Зірочка означає, що код застосовується до всіх агентам користувача.

Disallow: Порожня команда disallow означає, що всі файли і папки є доступними.

6. Збережіть текстовий файл в кореневому каталозі домену. Після редагування файлу robots.txt збережіть зміни. Вставте файл в кореневий каталог сайту. Наприклад, якщо у вас домен yourdomain.com, помістіть файл robots.txt за адресою yourdomain.com / robots.txt.

Метод 2 з 2:

Блокування пошукових систем метатегами

1. Ознайомтеся з HTML-метатегах robots. Метатег robots дозволяє програмістам встановлювати параметри для ботів або павуків пошукових систем. За допомогою цих тегів ботам забороняють індексувати і сканувати весь сайт або окремі його частини. Також їх можна використовувати, щоб заблокувати певного павука пошукової системи від індексації контенту. Ці теги вказуються в заголовку HTML-файлу.

Цей метод зазвичай використовується програмістами, які не мають доступу до кореневого каталогу сайту.

2. Забороніть доступ ботам до одній сторінці. Індексацію сторінки і / або перехід по посиланнях на сторінці можна заборонити для всіх ботів. Цей тег зазвичай використовується, коли сайт знаходиться на стадії розробки. Після завершення роботи сайту настійно рекомендується видалити цей тег. Якщо ви не приберете тег, сторінка не буде проіндексована чи доступна для пошуку через пошукові системи.

Забороніть ботам індексувати сторінку і переходити по будь-якій з посилань:

 name = "robots" content = "noindex, nofollow">

Забороніть всім роботам індексувати сторінку:

 name = "robots" content = "noindex">

Забороніть всім роботам переходити за посиланнями на сторінці:

 name = "robots" content = "nofollow">

3. Дозвольте роботам індексувати сторінку, але не переходити по її посиланнях. Якщо ви дозволите ботам проіндексувати сторінку, вона буде проіндексована. Якщо ви забороните павукам переходити за посиланнями, шлях посилання з цієї сторінки на інші буде заблокований. Вставте в заголовок наступний рядок коду:

 name = "robots" content = "index, nofollow">

4. Дозвольте павукам пошукової системи переходити за посиланнями, але не індексувати сторінку. Якщо ви дозволите ботам переходити за посиланнями, шлях посилання з цієї сторінки на інші залишиться відкритим. Якщо ви забороните ботам індексувати сторінку, вона не з`явиться в індексі. Вставте в заголовок наступний рядок коду:

 name = "robots" content = "noindex, follow">

5. Заблокуйте вихідну посилання. Щоб приховати одне посилання на сторінці, помістіть тег rel всередині тега посилання . Використовуйте цей тег для блокування посилань на інших сторінках, які ведуть на конкретну сторінку, яку ви хочете заблокувати.

 href ="yourdomain.html" rel ="nofollow">Вставте посилання на заблоковану сторінку

6. Заблокуйте конкретного пошукового павука. Замість блокування доступу до сторінки для всіх ботів, встановіть заборону на сканування та індексування сторінки лише для одного бота. Для цього замініть слово «robots» в метатеге ім`ям певного бота. приклади: googlebot, googlebot-news, googlebot-image, bingbot і teoma.

 name = "bingbot" content = "noindex, nofollow">

7. Подстегніте ботів до сканування і індексації сторінки. Якщо ви хочете переконатися, що сторінка буде проіндексована, а по посиланнях будуть переходити, додайте дозволяє мета-тег «robots» в свій заголовок. Використовуйте наступний код:

 name = "robots" content = "index, follow">