日本aa在线观看-日本a视频-日本a视频在线观看-日本a在线播放-日本a在线观看

什么是網(wǎng)站robots.txt?我們應(yīng)該怎么做好robots文件?

2024/1/9 17:15:27 來(lái)源:網(wǎng)站優(yōu)化
{literal}{/literal}

對(duì)于網(wǎng)站文件除了一般的網(wǎng)頁(yè)內(nèi)容之外,還有sitemap和robots文件。這兩個(gè)文件比較特殊,上次我們已經(jīng)介紹了sitemap的的相關(guān)內(nèi)容,這次我們一起來(lái)看一下什么是網(wǎng)站robots.txt?我們應(yīng)該怎么做好robots文件?

網(wǎng)站robots.txt

一、什么是網(wǎng)站robots.txt?

robots.txt是一個(gè)純文本文件,是爬蟲(chóng)抓取網(wǎng)站的時(shí)候要查看的第一個(gè)文件,一般位于網(wǎng)站的根目錄下。robots.txt文件定義了爬蟲(chóng)在爬取該網(wǎng)站時(shí)存在的限制,哪些部分爬蟲(chóng)可以爬取,哪些不可以爬取(防君子不防小人),也限制了某些搜索引擎爬蟲(chóng)的爬取。

二、什么時(shí)候使用robots.txt文件?

1、屏蔽網(wǎng)站重復(fù)頁(yè)

有些網(wǎng)站為了方便用戶瀏覽而對(duì)一個(gè)內(nèi)容提供多種瀏覽版本,但是蜘蛛分不清哪個(gè)是主,哪個(gè)是次,因此需要屏蔽網(wǎng)站重復(fù)頁(yè)。

2、保護(hù)網(wǎng)站安全

一些低級(jí)黑客就是通過(guò)搜索默認(rèn)后臺(tái)登陸,以達(dá)到入侵網(wǎng)站的目標(biāo)。

User-agent: *

Disallow: /admin/ 《禁止蜘蛛抓取admin目錄下所有文件》

3、防止盜鏈

一般盜鏈也就幾個(gè)人,可是一旦被搜索引擎“盜鏈”那你100M寬帶也吃不消,如果你做的不是圖片網(wǎng)站,又不想被搜索引擎“盜鏈”你的網(wǎng)站圖片。

User-agent: *

Disallow: .jpg$

4、提交網(wǎng)站地圖

現(xiàn)在做優(yōu)化的都知道做網(wǎng)站地圖了,可是卻沒(méi)幾個(gè)會(huì)提交的,絕大多數(shù)人是干脆在網(wǎng)頁(yè)上加個(gè)鏈接,其實(shí)robots是支持這個(gè)功能的。

Sitemap:http://域名/sitemap.xml

5、禁止某二級(jí)域名的抓取

一些網(wǎng)站會(huì)對(duì)VIP會(huì)員提供一些特殊服務(wù),卻又不想這個(gè)服務(wù)被搜索引擎檢索到。

User-agent: *

Disallow: /

網(wǎng)站robots.txt

三、怎么對(duì)網(wǎng)站的robots.txt進(jìn)行設(shè)置?

robots.txt的幾個(gè)關(guān)鍵語(yǔ)法:

1、User-agent: 描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多條 User-agent記錄,說(shuō)明有多個(gè)robot會(huì)受到該協(xié)議的約束。所以,“robots.txt”文件中至少要有一條User- agent記錄。如果該項(xiàng)的值設(shè)為*(通配符),則該協(xié)議對(duì)任何搜索引擎機(jī)器人均有效。在“robots.txt”文件 中,“User-agent:*”這樣的記錄只能有一條。

2、Disallow: 要攔截的網(wǎng)址,不允許機(jī)器人訪問(wèn)。

3、Allow: 允許訪問(wèn)的網(wǎng)址

4、”*” : 通配符—匹配0或多個(gè)任意字符。

5、”$” : 匹配行結(jié)束符。

6、”#” : 注釋—說(shuō)明性的文字,不寫(xiě)也可。

7、Googlebot: 谷歌搜索機(jī)器人(也叫搜索蜘蛛)。

8、Baiduspider: 百度搜索機(jī)器人(也叫搜索蜘蛛)。

9、目錄、網(wǎng)址的寫(xiě)法:都以以正斜線 (/) 開(kāi)頭。

四、一些robots.txt的具體用法!

1、允許所有的robot訪問(wèn)

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

或者建一個(gè)空文件”robots.txt”即可。

2、僅禁止某個(gè)機(jī)器人訪問(wèn)您的網(wǎng)站,如Baiduspider。

User-agent: Baiduspider

Disallow: /

3、僅允許某個(gè)機(jī)器人訪問(wèn)您的網(wǎng)站,如Baiduspider。

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

4、禁止訪問(wèn)特定目錄

User-agent: *

Disallow: /admin/

Disallow: /css/

Disallow:

5、要攔截對(duì)所有包含問(wèn)號(hào) (?) 的網(wǎng)址的訪問(wèn)(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串),請(qǐng)使用以下內(nèi)容:

User-agent: *

Disallow: /*?

網(wǎng)站robots.txt

要指定與某個(gè)網(wǎng)址的結(jié)尾字符相匹配,請(qǐng)使用 $。例如,要攔截以 .xls 結(jié)尾的所有網(wǎng)址,請(qǐng)使用以下內(nèi)容:

User-agent: *

Disallow: /*.xls$

您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個(gè)會(huì)話 ID,那么您可能希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會(huì)抓取重復(fù)網(wǎng)頁(yè)。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁(yè)的版本。在此情況下,您可以對(duì)您的 robots.txt 文件進(jìn)行如下設(shè)置:

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*? 指令會(huì)阻止包含 ? 的所有網(wǎng)址(具體地說(shuō),它將攔截所有以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串的網(wǎng)址)。

Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址(具體地說(shuō),它將允許所有以您的域名開(kāi)頭、后接任意字符串,然后接 ?,? 之后不接任何字符的網(wǎng)址)。

當(dāng)然我們可以根據(jù)知名網(wǎng)站的robots.txt文件來(lái)修改而成,也可以使用愛(ài)站等工具按照自己的要求生成robots.txt文件。文件上傳后要驗(yàn)證robots是否生效,在百度站長(zhǎng)Robots里面優(yōu)化檢測(cè)更新,這樣就可以讓它生效了!

主站蜘蛛池模板: 亚洲影音先锋看看 | 加勒比一本一道在线 | 九九视频免费观看 | 色盈盈影院| 第一区免费在线观看 | 国产区小视频 | 国产日韩欧美高清 | 国产欧美日韩在线不卡第一页 | 免费看片网址 | 男人都懂www深夜免费网站 | 亚洲黄页 | 在线免费黄色网址 | 亚洲欧美综合 | 亚洲第一视频网站 | 日本一级毛片片免费观看 | 国产免费91视频 | 精品免费久久 | 99久久国语露脸精品国产 | 明星换脸高清一区二区 | 在线观看亚洲人成网站 | 欧美一级特黄aa大片 | 婷婷中文| 色很久| 日本一级特黄毛片高清视频 | www.黄色大片 | 特一级黄色录像 | 免费看片亚洲 | 亚洲国产精品综合欧美 | 亚洲第一区精品观看 | 日韩一区二区三区免费体验 | 国产日本三级欧美三级妇三级四 | 国产亚洲美女精品久久 | 很黄很黄视频 | 久久一本精品久久精品66 | 亚洲免费三级 | 国产大学生一级毛片绿象 | 国产三级在线观看视频不卡 | 在线欧美色| 狠狠色丁香久久婷婷综合五月 | 玖玖成人| 黄色片网站观看 |