Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 11 гостей просматривают эту тему.

Yworld_garry

Mavn, Закроем, там есть ещё несколько моментов, не влияющих на индексацию, но для полного гламура так сказать :)
Да и в любом случаи чем больше голов думает, тем лучше всегда выходит ;)
Главное время на всё найти :'(

Makar, переиндексация штука злая, но её нужно пережить. Маленький совет, пока идёт переиндексация и есть странички которые хотелось бы поднять, добавьте на них по больше тематики и перелинкуйте с более ролевентными. Таким образом можно поднять сайтик ещё выше в ПС. ( по этому советику, вопросы в личку, тут не надо)

Mavn

Yworld_garry
по поводу времени ты прав.. бежит неумолимо, не остановишь...
кстати в smf 2.0 кое чего добавилось:
Disallow: /cache/

нужно будет посидеть покумекать с новым генератором карт... на нем сразу видно чего закрыто чего открыто для поисковиков.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Макар

еще вопрос

соит ли заменить <meta name="robots" content="noindex" /> на <meta name="robots" content="index, follow" />

потому что
Цитата: Yworld_garry от 02 октября 2009, 23:17:46
Всё нормально ( проверяйте закрытые урлы роботсом, на предмет "дружественных урлов", при написании этого файла robots.txt я их не учитывал. Почему написано в начальных постах топика. А у вас по моему они включены.)

да дружественные урлы включенны

следует ли из этого что мне необходимо переделывать роботс , или будет достаточно под уже существующий изменить noindex на ndex, follow
сорри если обсуждалось , но я чето соОовсем запутался среди этих роботов.................





Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Yworld_garry

1) Заглавный пост темы, там написано как и на что заменить.
2) Смотрите по выдаче, какие урлы в выдаче, под такие и делайте. Главное не наплодить дублей. Хотите оставить дружественные, делайте под них.

Mavn

SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

Сегодня вечерком постараюсь выложить дополненный.

Yworld_garry

Обновил файлик. Добавил несколько запретов и комментариев.
Комменты удалить вместе с # , они не помешают ботам, но не нужны.
Как использовать файл написано в этой теме.

Теперь он выглядит так:
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект, что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100


Добавлено:

Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php
Host: www.мой сайт.ru


Солярис

Интересно, а если запрещать адрес с *.msg , то получается что, кроме первого сообщения в теме другие сообщения не будут индексироваться?
Получится в итоге, что форум (для поисковика) будет состоять не из количества сообщений (каждое из которых может представлять собой уникальный контент), а лишь из тем форума, которых по определению меньше сообщений.
Разве я не прав?

Yworld_garry

Не в ту сторону мысль пошла ваша.
Топик для ПС, это не отдельное первое сообщение, а страница с текстом уникальным. И он индексирует страницу целиком по определённому адресу. Соответственно и поиск идёт по странице, а не по мессагам.
Разбиение сделано для удобства навигации пользователям, а не ботам.
Так зачем плодить дубли и выбивать из индекса свои страницы?
Если контент на странице уникален, он будет участвовать в поиске и выдаваться по ролевентным запросам. А если не убрать дубли, то в свете борьбы ПС с дублями и улучшения качества выдачи, под АГС7( в яндексе) и фильтры (гугла) попадет куча контента. Который не будет участвовать в основной выдаче.

Солярис

О каких "дублях" может идти речь, если второе сообщение в теме уже будет находится по адресу *index.php?topic=*.msg* и содержать иной контент.
ПС будет определять дубль лишь по наличию одного и того же наименования у сообщений? Но это же полный абсурд. Любой крупный форум тогда будет на добрую половину и более исключен из поискового индекса.

Yworld_garry

Изначально мессага находится на странице по адресу http://www.simplemachines.ru/index.php?topic=5089.0  и проиндексирована ботом вся страница.
Потом мы начинаем дробить её на дубли
http://www.simplemachines.ru/index.php?topic=5089.msg57287#msg57287
http://www.simplemachines.ru/index.php?topic=5089.msg57290#msg57290  и так далее.

Любой скрипт форума имеет защиту от таких вот дроблений. На самом деле SMF так же защищён и если вы посмотрите код дефолтного форума, увидите в страницах всевозможных дублей и мессаг тег noindex для всего контента.
А так как при использовании роботс данного этот тег заменён, ввели в роботс запрет мессаг.

Beer

Сегодня ночью пришел яндекс, и перегрел сервак. Обращение к сайту-ежесекундно, почему он не увидел Crawl-delay: 5 ???

Роботс такой:

User-agent: Yandex
User-Agent: Googlebot
User-Agent: StackRambler
User-Agent: Aport
User-Agent: Webalta
User-Agent: Yahoo! Slurp
User-Agent: Googlebot
User-agent: BigmirSpider
User-agent: MetaSpider
User-agent: Slurp
User-agent: MSNbot
User-agent: Googlebot-Image
User-agent: Yahoo-MMCrawler

Crawl-delay: 5


----------------------------------------------------------------------------

User-Agent: Googlebot  директиву Crawl-delay игнорирует, он об этом пишет в панели управления сайтом.

Yworld_garry

User-agent: Yandex
Crawl-delay: 5

Вот так правильнее. Разве можно указывать списком?

BIOHAZARD

потому что написано неправильно

User-agent: *
Crawl-delay: 2
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Beer

Этот роботс я вроде как брал тут в теме.
Яндекс пишет, что директиву надо добавлять после Disallow:

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow"), т.е. видимо в конец файла. Так получается?

Yworld_garry

Не надо ставить эксперименты на своем проекте. Напишите для каждого отдельно.
User-agent: Yandex
Crawl-delay: 5
И тд.

В этой теме таких списков ограничений не было.

Beer

Сколько максимально Crawl-delay робот поймет не уснув на сайте? И сколько средне-оптимально?

Yworld_garry

Цитата: Beer от 06 ноября 2009, 14:51:49
Сколько максимально Crawl-delay робот поймет не уснув на сайте? И сколько средне-оптимально?
В маны по ботам, для многих ботов параметры отличаются кардинально. Но всё описано на сайтах владельцах.

jeeper

Из-за большой нагрузки на сервер хочу закрыть доступ к сайту всем поисковикам, кроме Гугла, Рамблера, ну и Яндекса. Где бы вот только раздобыть список остальных поисковиков, чтобы запихать их все в robots.txt? Или, может быть, это как-то проще решается?

BIOHAZARD

сначала всем запретить, потом ниже добавить секции для яндуха, гугла и рамы

но не забудьте СНАЧАЛА проверить такую конструкцию через панель вэбмастера в гугле и яндухе (рама по боку, всё равно с него три калеки ходит)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

diesel_sh

Цитата: jeeper от 12 ноября 2009, 19:52:31
Из-за большой нагрузки на сервер хочу закрыть доступ к сайту всем поисковикам, кроме Гугла, Рамблера, ну и Яндекса. Где бы вот только раздобыть список остальных поисковиков, чтобы запихать их все в robots.txt? Или, может быть, это как-то проще решается?
Как сделаете, просьба написать мне в icq. Очень бы помог :)

Yworld_garry

Самое продуктивное, это посмотреть какой бот нагибает вас. По логам апача.
И если он сканит вас не в 1000 потоков, поменять хост

Небольшой списочек. Учтите, у основных ПС бот не один.  Хотел бы я взглянуть на такой роботс :)
ЦитироватьУ Яндекса есть несколько роботов, которые представляются по-разному.

    * Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
    * Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
    * Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
    * Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
    * Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
    *

      Yandex/1.01.001 (compatible; Win16; m),

      Yandex/1.03.000 (compatible; Win16; M) — роботы, индексирующие мультимедийные данные
    * YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
    * YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий комментарии постов

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.

Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

    * Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
    * Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
    * Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
    * Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей.

googlebot=Google Bot
slurp@inktomi=Hot Bot
archive_org=Archive.org Bot
Ask Jeeves=Ask Jeeves Bot
Lycos=Lycos Bot
WhatUSeek=What You Seek Bot
ia_archiver=IA.Archiver Bot
GigaBlast=Gigablast Bot
Yahoo!=Yahoo Bot
Yahoo-MMCrawler=Yahoo-MMCrawler Bot
TurtleScanner=TurtleScanner Bot
TurnitinBot=TurnitinBot
ZipppBot=ZipppBot
StackRambler=StackRambler Bot
oBot=oBot
rambler=Rambler Bot
Jetbot=Jet Bot
NaverBot=Naver Bot
libwww=Punto Bot
aport=Aport Bot
msnbot=MSN Bot
MnoGoSearch=mnoGoSearch Bot
booch=Booch Bot
Openbot=Openfind Bot
scooter=Altavista Bot
WebCrawler=Fast Bot
WebZIP=WebZIP Bot
GetSmart=GetSmart Bot
grub-client=GrubClient Bot
Vampire=Net_Vampire Bot
Rambler=Rambler Bot
appie=Walhello appie
architext=ArchitextSpider
jeeves=AskJeeves
bjaaland=Bjaaland
ferret=Wild Ferret Web Hopper #1, #2, #3
googlebot=Googlebot
gulliver=Northern Light Gulliver
harvest=Harvest
htdig=ht://dig
linkwalker=LinkWalker
lycos_=Lycos
moget=moget
muscatferret=Muscat Ferret
myweb=Internet Shinchakubin
nomad=Nomad
scooter=Scooter
slurp=Inktomi Slurp
voyager=Voyager
weblayers=weblayers
antibot=Antibot
digout4u=Digout4u
echo=EchO!
fast-webcrawler=Fast-Webcrawler
ia_archiver=Alexa (IA Archiver)
jennybot=JennyBot
mercator=Mercator
msnbot=MSNBot
netcraft=Netcraft
petersnews=Petersnews
unlost_web_crawler=Unlost Web Crawler
voila=Voila
webbase=WebBase
wisenutbot=WISENutbot
fish=Fish search
abcdatos=ABCdatos BotLink
acme.spider=Acme.Spider
ahoythehomepagefinder=Ahoy! The Homepage Finder
alkaline=Alkaline
anthill=Anthill
arachnophilia=Arachnophilia
arale=Arale
araneo=Araneo
aretha=Aretha
ariadne=ARIADNE
arks=arks
aspider=ASpider (Associative Spider)
atn.txt=ATN Worldwide
atomz=Atomz.com Search Robot
auresys=AURESYS
backrub=BackRub
bbot=BBot
bigbrother=Big Brother
blackwidow=BlackWidow
blindekuh=Die Blinde Kuh
bloodhound=Bloodhound
borg-bot=Borg-Bot
brightnet=bright.net caching robot
bspider=BSpider
cactvschemistryspider=CACTVS Chemistry Spider
calif=Calif
cassandra=Cassandra
cgireader=Digimarc Marcspider/CGI
checkbot=Checkbot
christcrawler=ChristCrawler.com
churl=churl
cienciaficcion=cIeNcIaFiCcIoN.nEt
collective=Collective
combine=Combine System
conceptbot=Conceptbot
coolbot=CoolBot
core=Web Core / Roots
cosmos=XYLEME Robot
cruiser=Internet Cruiser Robot
cusco=Cusco
cyberspyder=CyberSpyder Link Test
desertrealm=Desert Realm Spider
deweb=DeWeb© Katalog/Index
dienstspider=DienstSpider
digger=Digger
diibot=Digital Integrity Robot
direct_hit=Direct Hit Grabber
dnabot=DNAbot
download_express=DownLoad Express
dragonbot=DragonBot
dwcp=DWCP (Dridus' Web Cataloging Project)
e-collector=e-collector
ebiness=EbiNess
elfinbot=ELFINBOT
emacs=Emacs-w3 Search Engine
emcspider=ananzi
esther=Esther
evliyacelebi=Evliya Celebi
fastcrawler=FastCrawler
fdse=Fluid Dynamics Search Engine robot
felix=Felix IDE
fetchrover=FetchRover
fido=fido
finnish=Hдmдhдkki
fireball=KIT-Fireball
fouineur=Fouineur
francoroute=Robot Francoroute
freecrawl=Freecrawl
funnelweb=FunnelWeb
gama=gammaSpider, FocusedCrawler
gazz=gazz
gcreep=GCreep
getbot=GetBot
geturl=GetURL
golem=Golem
grapnel=Grapnel/0.01 Experiment
griffon=Griffon
gromit=Gromit
gulperbot=Gulper Bot
hambot=HamBot
havindex=havIndex
hometown=Hometown Spider Pro
htmlgobble=HTMLgobble
hyperdecontextualizer=Hyper-Decontextualizer
iajabot=iajaBot
iconoclast=Popular Iconoclast
ilse=Ingrid
imagelock=Imagelock
incywincy=IncyWincy
informant=Informant
infoseek=InfoSeek Robot 1.0
infoseeksidewinder=Infoseek Sidewinder
infospider=InfoSpiders
inspectorwww=Inspector Web
intelliagent=IntelliAgent
irobot=I, Robot
iron33=Iron33
israelisearch=Israeli-search
javabee=JavaBee
jbot=JBot Java Web Robot
jcrawler=JCrawler
jobo=JoBo Java Web Robot
jobot=Jobot
joebot=JoeBot
jubii=The Jubii Indexing Robot
jumpstation=JumpStation
kapsi=image.kapsi.net
katipo=Katipo
kilroy=Kilroy
ko_yappo_robot=KO_Yappo_Robot
labelgrabber.txt=LabelGrabber
larbin=larbin
legs=legs
linkidator=Link Validator
linkscan=LinkScan
lockon=Lockon
logo_gif=logo.gif Crawler
macworm=Mac WWWWorm
magpie=Magpie
marvin=marvin/infoseek
mattie=Mattie
mediafox=MediaFox
merzscope=MerzScope
meshexplorer=NEC-MeshExplorer
mindcrawler=MindCrawler
mnogosearch=mnoGoSearch search engine software
momspider=MOMspider
monster=Monster
motor=Motor
muncher=Muncher
mwdsearch=Mwd.Search
ndspider=NDSpider
nederland.zoek=Nederland.zoek
netcarta=NetCarta WebMap Engine
netmechanic=NetMechanic
netscoop=NetScoop
newscan-online=newscan-online
nhse=NHSE Web Forager
northstar=The NorthStar Robot
nzexplorer=nzexplorer
objectssearch=ObjectsSearch
occam=Occam
octopus=HKU WWW Octopus
openfind=Openfind data gatherer
orb_search=Orb Search
packrat=Pack Rat
pageboy=PageBoy
parasite=ParaSite
patric=Patric
pegasus=pegasus
perignator=The Peregrinator
perlcrawler=PerlCrawler 1.0
phantom=Phantom
phpdig=PhpDig
piltdownman=PiltdownMan
pimptrain=Pimptrain.com's robot
pioneer=Pioneer
pitkow=html_analyzer
pjspider=Portal Juice Spider
plumtreewebaccessor=PlumtreeWebAccessor
poppi=Poppi
portalb=PortalB Spider
psbot=psbot
python=The Python Robot
raven=Raven Search
rbse=RBSE Spider
resumerobot=Resume Robot
rhcs=RoadHouse Crawling System
road_runner=Road Runner: The ImageScape Robot
robbie=Robbie the Robot
robi=ComputingSite Robi/1.0
robocrawl=RoboCrawl Spider
robofox=RoboFox
robozilla=Robozilla
roverbot=Roverbot
rules=RuLeS
safetynetrobot=SafetyNet Robot
search-info=Sleek
search_au=Search.Aus-AU.COM
searchprocess=SearchProcess
senrigan=Senrigan
sgscout=SG-Scout
shaggy=ShagSeeker
shaihulud=Shai'Hulud
sift=Sift
simbot=Simmany Robot Ver1.0
site-valet=Site Valet
sitetech=SiteTech-Rover
skymob=Skymob.com
slcrawler=SLCrawler
smartspider=Smart Spider
snooper=Snooper
solbot=Solbot
speedy=Speedy Spider
spider_monkey=spider_monkey
spiderbot=SpiderBot
spiderline=Spiderline Crawler
spiantispamn=Spiantispamn
spiderview=SpiderView™
spry=Spry Wizard Robot
ssearcher=Site Searcher
suke=Suke
suntek=suntek search engine
sven=Sven
tach_bw=TACH Black Widow
tarantula=Tarantula
tarspider=tarspider
techbot=TechBOT
templeton=Templeton
titan=TITAN
titin=TitIn
tkwww=The TkWWW Robot
tlspider=TLSpider
ucsd=UCSD Crawl
udmsearch=UdmSearch
urlck=URL Check
valkyrie=Valkyrie
verticrawl=Verticrawl
victoria=Victoria
visionsearch=vision-search
voidbot=void-bot
vwbot=VWbot
w3index=The NWI Robot
w3m2=W3M2
wallpaper=WallPaper (alias crawlpaper)
wanderer=the World Wide Web Wanderer
wapspider=w@pSpider by wap4.com
webbandit=WebBandit Web Spider
webcatcher=WebCatcher
webcopy=WebCopy
webfetcher=webfetcher
webfoot=The Webfoot Robot
webinator=Webinator
weblinker=WebLinker
webmirror=WebMirror
webmoose=The Web Moose
webquest=WebQuest
webreader=Digimarc MarcSpider
webreaper=WebReaper
websnarf=Websnarf
webspider=WebSpider
webvac=WebVac
webwalk=webwalk
webwalker=WebWalker
webwatch=WebWatch
whatuseek=whatUseek Winona
whowhere=WhoWhere Robot
wired-digital=Wired Digital
wmir=w3mir
wolp=WebStolperer
wombat=The Web Wombat
worm=The World Wide Web Worm
wwwc=WWWC Ver 0.2.5
wz101=WebZinger
xget=XGET
aport=Aport
awbot=AWBot
baiduspider=BaiDuSpider
bobby=Bobby
boris=Boris
bumblebee=Bumblebee (relevare.com)
cscrawler=CsCrawler
daviesbot=DaviesBot
exactseek=ExactSeek Crawler
ezresult=sEzresult
gigabot=GigaBot
gnodspider=sGNOD Spider
grub=Grub.org
henrythemiragorobot=Mirago
holmes=Holmes
internetseer=InternetSeer
justview=JustView
linkbot=LinkBot
linkchecker=LinkChecker
mediapartners-google=Google AdSense
metager-linkchecker=MetaGer LinkChecker
microsoft_url_control=Microsoft URL Control
nagios=Nagios
msiecrawler=MSIECrawler
perman=Perman surfer
pompos=Pompos
rambler=StackRambler
redalert=Red Alert
shoutcast=Shoutcast Directory Service
slysearch=SlySearch
surveybot=SurveyBot
turnitinbot=Turn It In
turtle=Turtle
turtlescanner=Turtle
ultraseek=Ultraseek
webclipping.com=WebClipping.com
webcompass=webcompass
wonderer=spider: Web Wombat Redback Spider
yahoo-verticalcrawler=Yahoo Vertical Crawler
zealbot=ZealBot
zyborg=Zyborg
BecomeBot=Become Bot
Yandex=Yandex Bot
StackRambler=Rambler Bot
msnbot=MSN Bot
googlebot=Google Bot
slurp@inktomi=Hot Bot
ask jeeves=Ask Jeeves Bot
lycos=Lycos.com Bot
whatuseek=What You Seek Bot
ia_archiver=Archive.org Bot

yrygvay

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /forum/*sitemap
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # ???? ??? ???????? ??? ????? ? ???
Host: www.flashnight.ru # ??????? ???? ??????? ???????

User-agent: Slurp
Crawl-delay: 100

Поставил такой роботс и теперь запрещено индексом :
Перейти по URL-адресуhttp://forum/index.php?action=help     URL, запрещенный файлом robots.txt    14.11.2009
Перейти по URL-адресуhttp://forum/index.php?action=profile;u=34    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?action=register    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?action=search    URL, запрещенный файлом robots.txt    14.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=11.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=55.msg71    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=65.msg81    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=7.msg112    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=7.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=82.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=85.msg101    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=85.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=87.msg112    URL, запрещенный файлом robots.txt    14.11.2009
Перейти по URL-адресуhttp:/forum/index.php?topic=87.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp:/forum/index.php?topic=9.msg115;topicseen    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=9.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=9.msg116;topicseen    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=9.msg62    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=91.msg116    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=93.msg109;topicseen    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=97.msg113;topicseen    URL, запрещенный файлом robots.txt    15.11.2009
Перейти по URL-адресуhttp://forum/index.php?topic=97.msg116    URL, запрещенный файлом robots.txt    15.11.2009

Как ни странно, но тут почти все свежие темы на форуме!
Disallow: /forum/*topicseen  получается эта команда закрыла доступ в роботс  для индекса?

и что значит вот этот кусок ?
Disallow: /forum/*go.php # ???? ??? ???????? ??? ????? ? ???
Host: www.flashnight.ru # ??????? ???? ??????? ???????
почему он стал вопросами?
Music in Soul
Помогу с переездом с UCOZ

netoya

#273
На мой взгляд все отлично,
ссылки типа index.php?topic=9.msg116 Вам не нужны.
В индексе необходимы лишь ссылки на темы:
index.php?topic=9.0, index.php?topic=9.15 и т.п.
проверьте в панели, они же разрешены.

Относительно вопросов, это просто неверная кодировка, но это и не имеет значения, можно все убрать, так как там лишь комментарий после символа #

yrygvay

http://******.ru/forum/index.php/topic,9.msg21.html

ссылка выглядит вот так, такая будет индексироваться?
Music in Soul
Помогу с переездом с UCOZ

Yworld_garry

ЦитироватьDisallow: /forum/*topicseen  получается эта команда закрыла доступ в роботс  для индекса?
Ни коим образом не касается роботс.

Если стоит редирект, то оставляем.
Disallow: /forum/*go.php

Все ссылки проверяйте в панели яндекса.

netoya

Цитата: yrygvay от 18 ноября 2009, 11:19:11
http://******.ru/forum/index.php/topic,9.msg21.html

ссылка выглядит вот так, такая будет индексироваться?
это ссылка на сообщение, а не на тему.
вид сообщений на тему и на другие страницы я дал выше, их и проверяйте.

X-tremo

В общем смотрю страницы в Индексе и вижу там печатные страницы.
В чем проблема? Роботс составлен вот так:

Disallow: /*printpage
Disallow: /*printpage*
Disallow: /index.php?action=printpage
Disallow: /index.php?action=printpage*

Хоть один должен то работать)))
При анализе роботса через Вебмастер Я и проверки печатной страници, панель пишет что Урл разрешен к индексации.

И еще выдает ошибку на такое условие:

Disallow: /*;sort=starter;desc  - Возможно, был использован недопустимый символ

Как всетаки правильно поправить печатки? что бы их не было в индексе.

Mavn

Использовать стандартный роботс который опубликован в этой теме а не лепить огород!!!
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

X-tremo

В стандартном, в том который тут, не используется закрытие printpage, а закрываются все Экшены. Вот и приходится лепить огород)

Yworld_garry

X-tremo, а если внимательнее посмотреть на ссылку принта.
Вам в ней action, не о чём не говорит?

X-tremo

Внимательнее некуда. но в упор не вижу в чем причина....:(

ЦитироватьВам в ней action, не о чём не говорит?
Эм... нет.

Yworld_garry

Там есть такая строчка
Disallow: /forum/*action # она закрывает все не разрешённые екшены.

Так же, это всё описано сто раз в этой теме.

X-tremo

Цитата: Yworld_garry от 18 ноября 2009, 15:58:38
Там есть такая строчка
Disallow: /forum/*action # она закрывает все не разрешённые екшены.

Так же, это всё описано сто раз в этой теме.

Если я не ошибаюсь, то такой вариант, если Разрешенных экшенов минимум.
У меня на оборот. У меня запрещенных минимум. Остальные все должны быть открытыми.

Yworld_garry

Мне трудно посоветовать, не видя ваш файл.
Вот так должно работать.
Disallow: /forum/*printpage

Вопрос с местом расположения и теми разрешениями/запретами, что в вашем файле.

X-tremo

Цитата: Yworld_garry от 18 ноября 2009, 16:59:58
Мне трудно посоветовать, не видя ваш файл.
Вот так должно работать.
Disallow: /forum/*printpage

Вопрос с местом расположения и теми разрешениями/запретами, что в вашем файле.


Отправил в личку свой Роботс.
Так почему то не работает.

йфяцыч

Добрый день. Я все честно прочитал. Последний роботс установил. До Вас вообще никакого не было.

Я на днях одного оптимизатора спросил почему у меня гугл не любит ) ищет в 10 раз хуже яндекса. На что он ответил, что за такие дубли гугл вообще придет ко мне домой и прибьет меня.

http://forum-1c.ru/index.php?PHPSESSID=94075eaa982a9503b58dacba07a46fab&board=6.0
http://forum-1c.ru/index.php/board,6.0.html

Проблема в сессиях я так понял? От этого Роботс как то спасти может? И действительно ли он урлы с сессиями индексирует и считает за дубли?

ПС: В гугл-вебмастеру я смотрю - но где это проверить пока не нашел. Он вообще ничего не видит, несмотря на 4250 проиндексированных страниц (среди которых на вскидку страниц с сессиями я не вижу) Например не видит сволочь ни одну ссылку на меня (хотя яша видит 400) Я правда только позавчера роботс установил ваш. И гуглу указал свой основной урл.

Может после вашего роботса наладится? ))))
Форум о купонах, скидках.
Самая идеальная сборка форума SMF, по мнению моей тещи.

Yworld_garry

йфяцыч, в панели гугла теперь есть возможность добавить разные исключения для бота. И отменить те что он сделал автоматом, если посчитаете их не правильными. Туда же и добавьте PHPSESSID. Пункт настройки.

йфяцыч

Спасибо большое )) Сори, что может не по теме влез  - просто у вас тут живенько как-то )

Я поменял:

Конфигурация сайта - настройки - обработка параметров:

Параметр: PHPSESSID
Действие: Пропустить

Так?

Надеюсь теперь со временем получше станет... Одним Роботсом сколько дублей перекрою. Еще бы понять почему этот Гугл ссылки на меня не видит... )))
Форум о купонах, скидках.
Самая идеальная сборка форума SMF, по мнению моей тещи.

Yworld_garry

Сейчас посмотреть не могу, на работе.
Но если не путаю, то "не пропускать" . В блоге гугла написано и дана русская интерпритация.

Ссылки и тд могу посмотреть вечерком, если скинете урл в личку.

йфяцыч

Подскажите еще. Можно ли Роботсом защититься от подобных дублей:

http://---.ru/index.php/?nxpq=21 
http://---.ru/index.php/?nxpq=22 
http://---.ru/index.php/?nxpq=12 
http://---.ru/index.php/?nxpq=6 
http://---.ru/index.php/?nxpq=26

Обнаружил их в Панели Вебмастера Яндекса. Это все копии главной страницы.

ПС: Автор топика просил напомнить сегодня вечером про мой сайт в Гугле )

Форум о купонах, скидках.
Самая идеальная сборка форума SMF, по мнению моей тещи.

Yworld_garry

Запретите
Disallow: /*nxpq

PS
Напомнить лучше в личку, я скорее всего буду сегодня очень поздно.
Пока подумайте над тем ,что я написалвам вчера в личку и измените роботс.

Солярис

Кстати, хотел в Гугле попробовать найти данную тему (по её названию).
И ничего не получилось.

Кстати, в Яндексе всего проиндексировано около 7900 страниц данного форума. При количестве сообщений в 55000.

Yworld_garry


Солярис

Тема касается более полной индексации форума, вот я и хотел затронуть этот вопрос на примере данного форума.

Интересно, а почему у меня в Гугле ничего не нашлось по точно такому же запросу?

Yworld_garry

Цитата: Солярис от 27 ноября 2009, 21:36:31
Тема касается более полной индексации форума, вот я и хотел затронуть этот вопрос на примере данного форума.

Интересно, а почему у меня в Гугле ничего не нашлось по точно такому же запросу?
1 Ок понятно.
2 Видимо так звёзды расположены :)

Солярис

#296
Я еще несколько раз специально обновлял запрос, дабы убедиться, что данная тема не находится и не создавать здесь сообщение впустую.

С этими поисковиками голову сломаешь окончательно.

Кстати, данная тема форума проиндексирована только с адресом, ведущим только на её 18 страницу: http://www.simplemachines.ru/index.php?topic=5089.255

Yworld_garry

Индекс в гугле динамический и не один. есть основной и дополнительный, не участвующий в основной выдаче. Но странички под действием разных факторов, могут мигрировать.
Плюс внутренние факторы, обновление проекта и тд и тп.
Для гугла иногда достаточно поменять дизайн, потом долго удивляться произошедшими изменениями в индексе.

Abrikos

Ребята дайте свежий нормальный файл robots.php, чтобы в нем уже всё было написано...

Yworld_garry