在SEO基礎:檢索 (Crawl) 與索引 ( Index )中有提到過SEO運作的基本原理
當中有提到如何不浪費爬取額度(Crawl Budget)
本文要介紹到兩樣內容都可以減少浪費爬取額度
canonical
Canonical主要用途,即是遇到重複頁面時,定義哪一個目標頁面為『標準網址』,藉此改善網頁被判定為重複頁面及網頁權重稀釋所造成的排名波動。
重複頁面:『有某一個網頁可透過多個網址存取,或者不同網頁上存在相似的內容 (例如同時提供行動版和電腦版網頁),Google 會將這些網頁視為相同網頁的重複版本,從中選出一個網址做為「標準」版本進行檢索,然後將其他網址判定為「重複」網址並降低檢索頻率。』
白話解釋:網站中可能有很多性質或功能類似的頁面,其實並不需要每個頁面都被Google檢索,檢索太多重複頁面,會浪費浪費爬取額度,Google一天可能只花10分鐘檢索該網站,但這十分鐘都在檢索功能類似的網站,這樣就顯得很浪費時間,因此加入canonical告訴Google爬蟲:「這樣可以不用看啦」,以節省Google的時間。
Canonical使用方法
- Canonical的標籤語法位置:務必加在網頁的<head></head>區塊中
<link rel="canonical" href="標準網址" />
- 務必採用絕對路徑:標準網址位置處請避免使用相對路徑,採用Google官方推薦使用的絕對路徑,以免影響判定。
注:絕對路徑即為帶有協定(HTTP、HTTPS)、網域(inboundmarketing.com.tw)、路徑(/zh-hant/blog/duplicate-content-influence/)、以及查詢參數(例如&page=1)等相關元素的網址。
常使用Canonical的情境分享
- 商品頁:同樣商品有許多不同的尺寸與顏色可挑選,但點選其顏色或尺寸後,僅query string改變(例:&color=blue、&size=xs),或雖有網址變換但商品頁面內容幾乎相同,此情況下便不適合使用301轉址方式(導致使用者永遠選不到他要的尺寸或顏色QQ),此時便可使用Canonical標籤,使其能達到標示標準頁面且不影響使用者瀏覽網站的效益。
- 分類或集合頁:多樣商品組成的頁面,此類頁面通常會有排序或版面呈現(例:價錢排序、條列式或區塊顯示),會在相似商品內產生了許多不同網址,使用301跳轉會讓使用者不能使用篩選或排序功能
- 範例標準網址:https://www.example.com/category/monitor/
- 排序與篩選後網址:https://www.example.com/category/monitor/?refine=pay_card&sort=price
- 語言/多地區版本網站的重複頁面:該主題指的多語言與多地區並非不同語系的指定狀況,此處形容的情境為同語系內容發生於不同網域與目錄類型的情況下,發生的重複頁面問題。
- 範例標準網址:https://www.example.de/
- 範例目錄重複頁面網址:https://www.example.com/de/
- 行動版網頁為獨立網址時:針對行動裝置的網頁,部分網站是採用RWD的形式,亦有另一部分是採用獨立的行動版網頁,故會有桌機版與行動裝置版兩種不同網址,但內容上相似度較高的狀況產生,此時便需要將其設置Canonical與Alternate標籤,來向搜尋引擎說明兩者的關係。
- 桌機版網頁:https://www.web.com
- 需加入<link rel="alternate" href="https://m.web.com" />對應至桌行動裝置版網頁
- 行動裝置版網頁:https://m.web.com
- 需加入<link rel="canonical" href="https://www.web.com" />對應至桌機版網頁
- 採用AMP規範頁面:有設置AMP網頁,其網址同樣有重複頁面產生的可能性,故可針對其AMP頁面做Canonical標籤設置。
- 採用AMP規範頁面:AMP,是Accelerated Mobile Pages的縮寫,字面上的意思是「加速手機頁面」計畫。簡而言之,把不必要的東西通通刪光光,
robots
robots有關的概念有兩個:meta robots及robots.txt
分別是阻止Google 檢索、索引你的頁面。
如果你有特定頁面會傷害使用者體驗(UX),你可以透過這些方式去阻止該頁面出現在Google 搜尋結果中。
Meta Robots | Robots.txt | |
功能 | 阻止Google進行索引(index) | 阻止Google進行 |
使用方式 | 於Head底下加入Meta Robots的標籤:<meta name=”robots” content=”noindex, nofollow”> | 直接上傳檔名為Robots的txt檔案到根目錄上 |
使用時機 | 有特殊頁面不希望出現在搜尋引擎上,例:搜尋結果頁、購物車,但這些頁面可能對SEO有幫助,所以還是讓Google爬取。 | 有特殊頁面完全不希望Google抓取 EX: 未完成頁面、測試頁 |
index & follow
Meta Robots:<meta name=”robots” content=”noindex, nofollow”>
這個標籤中有兩個 noindex 以及 nofollow 兩個值
index:指的是索引
follow:希望搜尋引擎在檢索此頁面時,進一步的去檢索該頁面所連出去的連結。
舉例說明
< meta name=”robots” content=”noindex , nofollow”>
這個做法便是告訴搜尋引擎,不要索引我的網站,並且在檢索資料時該頁面的相關連結也不要去檢索。< meta name=”robots” content=”index , nofollow”>
檢索資料時該頁面的相關連結不要檢索。< meta name=”robots” content=”noindex , follow”>
不要索引我的頁面,但頁面上所有的連結請正常檢索(最常用之使用方式)< meta name=”robots” content=”index , follow”>
這個做法就沒有任何意義,加上這段標籤跟沒加的道理是一樣的,等於搜尋引擎將正常索引及檢索。
注意 – Google 說他們是參考參考
Google 官方不保證搜尋引擎會完全服從meta robots以及robots.txt,若搜尋引擎認為你的網站有很多很多的反向連結、流量很高、內容很優質,是優質網站,他也有可能會執意要檢索、索引你的網站。