• Логин
  • Регистрация
  • ×
    Логин:
    Пароль (Забыли?)
  • О сайте
  • Пользователям
    • Правила
    • Требования к сатьям
    • Все статьи
  • Связь
  • Карта сайта
  • RSS
Подпишись:
  • Twitter
  • Facebook
  • RSS
  • Google+
  • Vimeo


  • Информационно-познавательный портал - pautina-net.org: Пришло время pautina-net.org
  • Авто и Мото
  • Бизнес
  • Девушки
  • Наука
  • Знаменитости
  • Работа
  • Видео
  • Еще
X
  • Вооружение и военная техника
  • Дом и быт
  • Животный мир
  • Закон и Право
  • Знакомства
  • Информационные технологии
  • Компьютерные игры
  • Кино, Музыка, Литература
  • Медицина и здоровье
  • Мобильная связь
  • Мода и Стиль
  • Недвижимость
  • Образование
  • Отдых - Туризм, Хобби
  • Политика
  • Праздники, поздравления, подарки
  • Психология
  • Развлечения
  • Семья и дети
  • Строительство и ремонт
  • Экология
  • Кулинария
  • Смешные картинки
  • Gif анимации
  •  

    • "pautina-net.org" ►► Техно ►► Robot.txt-проблемы в настройке

    Robot.txt-проблемы в настройке

    июнь 15, 2012
    Техно 0
    2334

    Этот файлик теперь, наверное, один из незаменимых в файлах сайта. Собственно , я никогда не заморачивался над тем как его настраивать, есть и есть , особо не мешает.

    Однако в процессе "эксплуатации" парочки своих сайтов начал обнаруживать крайне много дублированного контента- это и проиндексированные странички постраничной навигации, категории, версии для печати, архивы , тэги , особенно это актуально для сайтов под управлением CMS DLE.

    Сейчас , часть страниц с дублированным контентом закрыта от индексации в robots.txt , который изначально идет в архиве с dle, код указан ниже:

    
    	User-agent: *
    	Disallow: /engine/go.php
    	Disallow: /engine/download.php
    	Disallow: /user/
    	Disallow: /newposts/
    	Disallow: /statistics.html
    	Disallow: /*subaction=userinfo
    	Disallow: /*subaction=newposts
    	Disallow: /*do=lastcomments
    	Disallow: /*do=feedback
    	Disallow: /*do=register
    	Disallow: /*do=lostpassword
    	Disallow: /*do=addnews
    	Disallow: /*do=stats
    	Disallow: /*do=pm
    

    Собственно,  поисковый робот яши даже не перейдет по запрещенным ссылкам (некоторые ошибочно считают что он переходит, но при этом запрещенную страницу не включает в поиск). Т.е. сразу видно ,что запрещено для поисковика, для хорошего сайта эти подразделы не нужны, а вот для ГС (говно сайт) они важны в индексе, так как используются в SAPE (система купли-продажи ссылок).

    И теперь перейду к своему печальному опыту. Конечно, зная ,что яша любит сайты для людей ( в идеале поисковик должен только индексировать страницы с контентом), начал настраивать robots.txt, и изобразил убогую картину "приплыли":

    
    User-agent: *
    	Disallow: /engine/go.php
    	Disallow: /engine/download.php
    	Disallow: /user/
    	Disallow: /newposts/
    	Disallow: /statistics.html
    	Disallow: /*subaction=userinfo
    	Disallow: /*subaction=newposts
    	Disallow: /*do=lastcomments
    	Disallow: /*do=feedback
    	Disallow: /*do=register
    	Disallow: /*do=lostpassword
    	Disallow: /*do=addnews
    	Disallow: /*do=stats
    	Disallow: /*do=pm
    		User-agent: Yandex (инструкция чисто для ЯШИ)
    		Disallow: /engine/go.php
    		Disallow: /engine/download.php
    		Disallow: /user/
    		Disallow: /newposts/
    		Disallow: /statistics.html
    		Disallow: /*subaction=userinfo
    		Disallow: /*subaction=newposts
    		Disallow: /*do=lastcomments
    		Disallow: /*do=feedback
    		Disallow: /*do=register
    		Disallow: /*do=lostpassword
    		Disallow: /*do=addnews
    		Disallow: /*do=stats
    		Disallow: /*do=pm
    		Disallow: /*print
    		Disallow: /autobackup.php
    		Disallow: /2012/
    		Disallow: /2013/
    		Disallow: /tags/
    		Disallow: /page/
    		Disallow: */page/*
    		Disallow: /категория1/
    		Disallow: /категория2/ 
    		Disallow: /категория3/ и так далее  
    		Sitemap: http://мой сайт.ру /sitemap.xml
    		Host: мой сайт.ру
    	

    1.Итак, что я хотел из этого извлечь:

    1.1 В парочке блогов (кстати довольно посещаемых ,а посему воспринятых мной как качественные) прочитал ошибочные статьи-это то, что закрывая от индекса категорию Disallow: /категория1/  вы лишь закроете страницу Вашсайт.ру/категория1/, но при этом  Вашсайт.ру/категория1/контент1.html будет проиндексирован;Приняв на веру сии утверждения, решил закрыть все кроме контента. Благая цель- дать людям только информацию .

    1.2. Ускорить индексацию так как избавляюсь от лишних дублей;

    1.3. Моральное удовлетворение от проделанной глупости.

    2.И что приобрел:

    2.1 По первому пункту полное выпадение из индекса ЯШИ всех страниц уже через неделю, мало того выпал и из индекса Google (почему объясню ниже);

    2.2 По второму пункту полное отсутствие индексации нового контента, что не мудрено см. п.1.1;

    2.3  По третьему пункту глупость была достигнута и ,конечно, никакого морального удовлетворения. И слезное "прошу пояснить" в саппорд яши.

    Так почему же выпал из индекса сайт в Google?? - по инструкции для User-agent: * (т.е. всех поисковиков) нет запрета на контент, а для ЯШКИ (User-agent: Yandex ) идут чуть другие правила. Все оказалось до нельзя банально Google   включил правила ЯШИ к себе т.е.:

      
    	  User-agent: *
    		Disallow: /engine/go.php
    		Disallow: /engine/download.php
    		Disallow: /user/
    		Disallow: /newposts/
    		Disallow: /statistics.html
    		Disallow: /*subaction=userinfo
    		Disallow: /*subaction=newposts
    		Disallow: /*do=lastcomments
    		Disallow: /*do=feedback
    		Disallow: /*do=register
    		Disallow: /*do=lostpassword
    		Disallow: /*do=addnews
    		Disallow: /*do=stats
    		Disallow: /*do=pm
    		Disallow: /engine/go.php
    		Disallow: /engine/download.php
    		Disallow: /user/
    		Disallow: /newposts/
    		Disallow: /statistics.html
    		Disallow: /*subaction=userinfo
    		Disallow: /*subaction=newposts
    		Disallow: /*do=lastcomments
    		Disallow: /*do=feedback
    			Disallow: /*do=register
    			Disallow: /*do=lostpassword
    			Disallow: /*do=addnews
    			Disallow: /*do=stats
    			Disallow: /*do=pm
    			Disallow: /*print
    			Disallow: /autobackup.php
    			Disallow: /2012/
    			Disallow: /2013/
    			Disallow: /tags/
    			Disallow: /page/
    			Disallow: */page/*
    			Disallow: /категория1/
    			Disallow: /категория2/ 
    	  Disallow: /категория3/ и так далее  
    	  Sitemap: http://мой сайт.ру/sitemap.xml
    			Host: мой сайт.ру 
    	   
    	  

    Вот такой вот гладиолус. Возможно я и профан, но всегда думал поисковики читают в robotx.txt , только инструкции для себя.

    На данный момент все поправил и считаю что самой оптимальной конструкцией robotx.txt  для сайта, основанного на DLE и всех поисковиков, является:

    
    		 
    		
    			User-agent: *
    			Disallow: /engine/go.php
    			Disallow: /engine/download.php
    			Disallow: /user/
    			Disallow: /newposts/
    			Disallow: /statistics.html
    			Disallow: /*subaction=userinfo
    			Disallow: /*subaction=newposts
    			Disallow: /*do=lastcomments
    			Disallow: /*do=feedback
    			Disallow: /*do=register
    			Disallow: /*do=lostpassword
    			Disallow: /*do=addnews
    			Disallow: /*do=stats
    			Disallow: /*do=pm
    			Disallow: /*print
    			Disallow: /autobackup.php
    			Disallow: /2012/
    			Disallow: /2013/
    			Disallow: /tags/
    			Disallow: /page/
    			Disallow: */page/*
    			Sitemap: http://мой сайт.ру/sitemap.xml
    			Host: мой сайт.ру
    		

    Да и  помните, что директива Host:- воспринимается только ЯШКОЙ. И еще определитесь какой у вас будет основной сайт  мой сайт.ру или  www.мой сайт.ру(для поисковиков это разные сайты, поначалу) и пропишите в директиве Host: -это даст возможность яше быстро выделить основное зеркало и в будущем мой сайт.ру или  www.мой сайт.ру- склеить (т.е. выдавать как один сайт), но даже без этой директивы ЯША сам определит главное зеркало, да и гугля тоже, просто времени уйдет больше.

    Вот и все. Если есть замечания пишите.


    Нашли ошибку, выделите её , нажмите ENTER+CTRL и предупредите администратора.

     

    Метки: google, yandex, robots.txt

    • Мне нравится
    • Нравится
    • 0

    Подписаться на RSS

    Новости партнеров

    Похожие новости

    Еще раз о "Камеди клаб"

    август 28, 2012

    Карта сайта HTML в Dle стандартными функциями Dle

    июнь 13, 2012

    Превью игры Call of Duty Black Ops 2

    июнь 12, 2012

    Фильтры поисковика Google

    май 22, 2012

    Комментарии

    Оставить комментарий

    winkwinkedsmileam
    belayfeelfellowlaughing
    lollovenorecourse
    requestsadtonguewassat
    cryingwhatbullyangry

    Вопрос: 2+2

    ТОП месяца

    Иосиф Виссарионович Сталин СССР вождь (22 gif анимации)
    Иосиф Виссарионович Сталин СССР вождь (22 gif анимации)
    Правильная женская грудь выглядит именно так, как на этих 24 фото
    Правильная женская грудь выглядит именно так, как на этих 24 фото
    Торчащие соски девушек в 25 фото (часть 2)
    Торчащие соски девушек в 25 фото (часть 2)
    Безупречные девушки в 20 gif анимациях (часть 1)
    Безупречные девушки в 20 gif анимациях (часть 1)
    Российский боевой робот
    Российский боевой робот "Уран-9"
    Человек при перегрузке в центрифуге
    Человек при перегрузке в центрифуге

    Подпишись

    Виджет подписки

    Новости на Ваш email .
    Все права на материалы, размещенные на сайте www.pautina-net.org,
    • Главная
    • Контакты
    • Правообладателям
    • Мобильная версия
    © 2023. Любой материал с сайта www.pautina-net.org публикуется только с согласия автора