網(wǎng)站的SEO以及它和站長(zhǎng)工具的之間秘密
博客遷移沒(méi)有注意URL地址的變化,導(dǎo)致百度和google這兩只爬蟲(chóng)引擎短時(shí)間內(nèi)找不到路。近段時(shí)間研究了下國(guó)內(nèi)最大搜索引擎百度和國(guó)際最大搜索引擎google的站長(zhǎng)工具,說(shuō)下...
博客遷移沒(méi)有注意 URL 地址的變化,導(dǎo)致百度和 google 這兩只爬蟲(chóng)引擎短時(shí)間內(nèi)找不到路。近段時(shí)間研究了下國(guó)內(nèi)最大搜索引擎百度和國(guó)際最大搜索引擎google的站長(zhǎng)工具,說(shuō)下感受。
- 百度的站長(zhǎng)工具地址:http://zhanzhang.baidu.com/dashboard/index
- google 的站長(zhǎng)工具地址:https://www.google.com/webmasters/tools/home
最近墻的比較厲害,google 不一定能訪問(wèn)進(jìn)去(我平時(shí)用的GreenVPN,還挺不錯(cuò)的,速度快,支持的國(guó)家也多)。
站長(zhǎng)工具的作用是為了輔助開(kāi)發(fā)者,針對(duì)自己的網(wǎng)站做出更加合理的網(wǎng)頁(yè)布局和代碼優(yōu)化,以便讓 spider 更好地理解網(wǎng)頁(yè),從而將最準(zhǔn)確的信息送達(dá)到用戶的熒屏上。它對(duì)搜索引擎和開(kāi)發(fā)者是雙贏的。
Web 發(fā)展極快,由于客戶端廠商紛紜加之開(kāi)發(fā)者沒(méi)把重點(diǎn)放在 web 標(biāo)準(zhǔn)上,直到 2014 年的 10 月底才有了統(tǒng)一的標(biāo)準(zhǔn)。用戶輸入關(guān)鍵詞,搜索引擎要在 0.1s 內(nèi)將網(wǎng)絡(luò)上的資源匯聚起來(lái),這個(gè)過(guò)程中計(jì)算的開(kāi)銷(xiāo)、數(shù)據(jù)整合的開(kāi)銷(xiāo)是極大的,如果我們開(kāi)發(fā)的網(wǎng)頁(yè)不能讓 spider 準(zhǔn)確理解,最后的結(jié)果就是,寫(xiě)的東西很難出現(xiàn)在用戶面前。
搜索引擎對(duì)網(wǎng)頁(yè)的理解
摸索兩個(gè)站長(zhǎng)工具,感觸最深的是結(jié)構(gòu)化數(shù)據(jù)(Structured Data),結(jié)構(gòu)化數(shù)據(jù)不是把文章段落分清楚、標(biāo)題寫(xiě)清楚,實(shí)際上你文章段落分的再清晰,爬蟲(chóng)機(jī)器也不知道你在表達(dá)什么,所以數(shù)據(jù)結(jié)構(gòu)化是給爬蟲(chóng)看而不是給人看的。HTML 標(biāo)簽的數(shù)量很有限,有限的幾個(gè)標(biāo)簽沒(méi)辦法表達(dá)網(wǎng)頁(yè)上每一個(gè)元素的含義,比如一個(gè)小的圖標(biāo)、一個(gè)廣告位、一個(gè)蒙層等,于是網(wǎng)頁(yè)上出現(xiàn)了很多 class 名、id 名來(lái)標(biāo)記一個(gè)元素。這些內(nèi)容的統(tǒng)一讓爬蟲(chóng)理解的略微透徹了一些,比如:
.banner: 一張banner廣告位.sidebar: 側(cè)邊導(dǎo)航欄.nav: 主導(dǎo)航.icon: 頁(yè)面小圖標(biāo).post: 一篇文章.post-title: 文章標(biāo)題
然而搜索引擎聚合的網(wǎng)頁(yè)太多,當(dāng)這些五花八門(mén)的 class 出來(lái)之后,它又開(kāi)始迷茫了,難以較好的聚合分類(lèi)。所以出現(xiàn)一個(gè)叫做 Schema 的東西,它用來(lái)表示一個(gè)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),可以看下面一個(gè) schema 示例:
<div itemscope itemtype="http://schema.org/Person"> <span itemprop="name">李靖</span> <img src="http://barretlee.com/avatar.png" itemprop="image" /> <span itemprop="jobTitle">攻城師</span> <div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress"> <span itemprop="streetAddress">文一西路969號(hào)</span> <span itemprop="addressLocality">浙江杭州</span> <span itemprop="postalCode">310000</span> </div> <span itemprop="telephone">(0571) 123-4567</span> <a href="mailto:barret.china@gmail.com" itemprop="email">barret.china@gmail.com</a> 李靖的主頁(yè): <a href="http://barretlee.com" itemprop="url">barretlee.com</a> </div>
在一個(gè)需要表達(dá)的塊上加上itemscope
屬性和一個(gè)itemtype
屬性,itemtype 是有固定值的,具體可以參閱schema.org的說(shuō)明。然后在塊內(nèi)添加詳細(xì)的說(shuō)明,使用itemprop
標(biāo)注。整個(gè)操作十分簡(jiǎn)單,略微麻煩的是需要對(duì)照 schema 的官方網(wǎng)站填寫(xiě)規(guī)定的itemprop
字段。
結(jié)構(gòu)化數(shù)據(jù),通常也可以稱之為元數(shù)據(jù),這些數(shù)據(jù)附著在網(wǎng)頁(yè)文本信息內(nèi),厘清了頁(yè)面上每個(gè)部件的功能、屬性和意義。當(dāng)機(jī)器進(jìn)入網(wǎng)頁(yè)的時(shí)候,能夠像人一樣,一眼瞄出要表達(dá)的內(nèi)容。關(guān)于 schema ,以前翻譯過(guò)一篇文章SEO:讓搜索引擎對(duì)你的網(wǎng)站更有親和力。
SEO和站長(zhǎng)工具的之間秘密
除非搜索引擎能夠猜到你要搜索的具體的 URL 地址,一般地,它都會(huì)從自己的數(shù)據(jù)索引庫(kù)中扒拉數(shù)據(jù)。對(duì)于權(quán)重高、更新頻率高、原創(chuàng)內(nèi)容多的網(wǎng)站,搜索引擎會(huì)十分勤快的爬最新內(nèi)容。那么,如何讓搜索引擎知道網(wǎng)站上有多少網(wǎng)頁(yè)便成了一件重要的事情。
我們經(jīng)常會(huì)聽(tīng)到一個(gè)叫做”網(wǎng)站地圖”的東西。有些網(wǎng)站會(huì)在自己的站點(diǎn)中添加一個(gè)頁(yè)面,這個(gè)頁(yè)面包括了整站的重要入口,那么這個(gè)頁(yè)面就是該頁(yè)面的網(wǎng)站地圖。這些地圖是給人看的,如果只想給爬蟲(chóng)引擎看,可以將所有的鏈接按照一定的格式放到sitemap.xml
文件中,然后把這個(gè)文件放到網(wǎng)站的根目錄下,如http://www.barretlee.com/sitemap.xml。
而最重要的還是robots.txt
這個(gè)文件,它是所有引擎約定俗成的一個(gè)文件,比如我的網(wǎng)站中用到的http://www.barretlee.com/robots.txt,其內(nèi)容為:
Sitemap: http://www.barretlee.com/sitemap.xmlUser-agent: *Allow: /
它告訴搜索引擎,網(wǎng)站地址的位置、允許蜘蛛爬取的內(nèi)容等,它是一個(gè)協(xié)議。最近,貌似還多了一個(gè)humans.txt
,也是一個(gè)比較有意思的文件,可以在這里了解它:http://www.humanstxt.org.cn/,它可以描述一些站點(diǎn)和團(tuán)隊(duì)的故事。
SEO上,站長(zhǎng)工具主要分為兩個(gè)方面,一個(gè)是對(duì)網(wǎng)頁(yè)的抓取,一個(gè)是對(duì)網(wǎng)頁(yè)的分析。
網(wǎng)頁(yè)的抓取在百度站長(zhǎng)工具中體現(xiàn)的比較多,而網(wǎng)頁(yè)的分析,諸如數(shù)據(jù)標(biāo)注、結(jié)構(gòu)化數(shù)據(jù)等,百度做的還比較搓,目前還在內(nèi)測(cè)階段,需要發(fā)送郵件才能申請(qǐng)權(quán)限??吹桨俣日鹃L(zhǎng)工具頁(yè)面上的幾個(gè)數(shù)據(jù)標(biāo)注示意圖,揣測(cè)應(yīng)該比 google 弱一百倍,所以我還是重點(diǎn)說(shuō)說(shuō) google 的吧。
網(wǎng)頁(yè)的抓取
這塊上,兩個(gè)站長(zhǎng)工具都是強(qiáng)調(diào)讓開(kāi)發(fā)者把網(wǎng)站地圖顯式的暴露給搜索引擎,提供了各種分析網(wǎng)站地圖準(zhǔn)確性合理性的工具,搜索引擎如果發(fā)現(xiàn)你的網(wǎng)站上一個(gè)地址時(shí)有時(shí)無(wú),就會(huì)覺(jué)得你不可信有點(diǎn)飄渺。所以一旦網(wǎng)頁(yè)因?yàn)楦脑旎蜻w移導(dǎo)致頁(yè)面鏈接丟失,可以在站長(zhǎng)工具中填寫(xiě)這些死鏈。
不要貪婪的讓搜索引擎不停的爬取你的網(wǎng)站,如果它多次過(guò)來(lái)發(fā)現(xiàn)內(nèi)容是一樣的,它也會(huì)很傷心的離開(kāi)。而如果它發(fā)現(xiàn)每次過(guò)來(lái)爬你的內(nèi)容都能找到很有意思的、從來(lái)沒(méi)發(fā)現(xiàn)過(guò)的東西,它會(huì)對(duì)你越來(lái)越感興趣,甚至日久天長(zhǎng)它會(huì)給你定型、定位,然后權(quán)重會(huì)越來(lái)越高。在站長(zhǎng)工具上都是可以設(shè)置的。
網(wǎng)頁(yè)的分析
google 的數(shù)據(jù)化標(biāo)記做的實(shí)在是太贊了!輸入網(wǎng)址,它會(huì)打開(kāi)你的網(wǎng)頁(yè),設(shè)置你要標(biāo)記的類(lèi)型,比如文章。選中頁(yè)面上的元素然后標(biāo)記。比如選中文章的標(biāo)題,選中之后有一個(gè)菜單,在菜單上選擇 title,選中作者名字,然后菜單上選擇 author,一個(gè)頁(yè)面標(biāo)記完了之后,他會(huì)分析整站的所有頁(yè)面,如果結(jié)構(gòu)相似,也會(huì)自動(dòng)標(biāo)記其他頁(yè)面。
整個(gè)標(biāo)記完成之后,google 就知道你整個(gè)網(wǎng)站的信息架構(gòu)了,下次要做的就是對(duì)這些信息內(nèi)容做匹配和分類(lèi)。所以我們可以看到,個(gè)人博客在 google 中的搜索是極其靠前的,因?yàn)轫?yè)面的信息結(jié)構(gòu)簡(jiǎn)單,即便你不去標(biāo)記,它爬取多次之后也能自己理解。
對(duì)比百度和 google ,兩者如同屌絲和高富帥。不過(guò)高富帥總是要越墻才能看到,所以我平時(shí)使用的依然是百度分析。百度分析和百度站長(zhǎng)工具還是不一樣的。百度對(duì)網(wǎng)頁(yè)流量的分析和搜索詞匯的分析還是挺精準(zhǔn),也很有參考價(jià)值。
小結(jié)
本文對(duì) SEO 相關(guān)的東西做了一個(gè)簡(jiǎn)要的概述,同時(shí)也概括了搜索引擎做的一些工作,知識(shí)量有限,難以面面俱到,如有錯(cuò)誤還請(qǐng)斧正。