【SEO入門】canonical和robot介紹

在SEO基礎：檢索 (Crawl) 與索引 ( Index )中有提到過SEO運作的基本原理
當中有提到如何不浪費爬取額度（Crawl Budget）
本文要介紹到兩樣內容都可以減少浪費爬取額度

內容目錄

canonical

Canonical主要用途，即是遇到重複頁面時，定義哪一個目標頁面為『標準網址』，藉此改善網頁被判定為重複頁面及網頁權重稀釋所造成的排名波動。

重複頁面：『有某一個網頁可透過多個網址存取，或者不同網頁上存在相似的內容 (例如同時提供行動版和電腦版網頁)，Google 會將這些網頁視為相同網頁的重複版本，從中選出一個網址做為「標準」版本進行檢索，然後將其他網址判定為「重複」網址並降低檢索頻率。』

白話解釋：網站中可能有很多性質或功能類似的頁面，其實並不需要每個頁面都被Google檢索，檢索太多重複頁面，會浪費浪費爬取額度，Google一天可能只花10分鐘檢索該網站，但這十分鐘都在檢索功能類似的網站，這樣就顯得很浪費時間，因此加入canonical告訴Google爬蟲：「這樣可以不用看啦」，以節省Google的時間。

Canonical使用方法

Canonical的標籤語法位置：務必加在網頁的<head></head>區塊中
<link rel="canonical" href="標準網址" />
務必採用絕對路徑：標準網址位置處請避免使用相對路徑，採用Google官方推薦使用的絕對路徑，以免影響判定。
注：絕對路徑即為帶有協定（HTTP、HTTPS）、網域（inboundmarketing.com.tw）、路徑（/zh-hant/blog/duplicate-content-influence/）、以及查詢參數（例如&page=1）等相關元素的網址。

常使用Canonical的情境分享

商品頁：同樣商品有許多不同的尺寸與顏色可挑選，但點選其顏色或尺寸後，僅query string改變（例：&color=blue、&size=xs），或雖有網址變換但商品頁面內容幾乎相同，此情況下便不適合使用301轉址方式（導致使用者永遠選不到他要的尺寸或顏色QQ），此時便可使用Canonical標籤，使其能達到標示標準頁面且不影響使用者瀏覽網站的效益。
分類或集合頁：多樣商品組成的頁面，此類頁面通常會有排序或版面呈現（例：價錢排序、條列式或區塊顯示），會在相似商品內產生了許多不同網址，使用301跳轉會讓使用者不能使用篩選或排序功能
- 範例標準網址：https://www.example.com/category/monitor/
- 排序與篩選後網址：https://www.example.com/category/monitor/?refine=pay_card&sort=price
語言/多地區版本網站的重複頁面：該主題指的多語言與多地區並非不同語系的指定狀況，此處形容的情境為同語系內容發生於不同網域與目錄類型的情況下，發生的重複頁面問題。
- 範例標準網址：https://www.example.de/
- 範例目錄重複頁面網址：https://www.example.com/de/
行動版網頁為獨立網址時：針對行動裝置的網頁，部分網站是採用RWD的形式，亦有另一部分是採用獨立的行動版網頁，故會有桌機版與行動裝置版兩種不同網址，但內容上相似度較高的狀況產生，此時便需要將其設置Canonical與Alternate標籤，來向搜尋引擎說明兩者的關係。
- 桌機版網頁：https://www.web.com
- 需加入<link rel="alternate" href="https://m.web.com" />對應至桌行動裝置版網頁
- 行動裝置版網頁：https://m.web.com
- 需加入<link rel="canonical" href="https://www.web.com" />對應至桌機版網頁
採用AMP規範頁面：有設置AMP網頁，其網址同樣有重複頁面產生的可能性，故可針對其AMP頁面做Canonical標籤設置。
- 採用AMP規範頁面：AMP，是Accelerated Mobile Pages的縮寫，字面上的意思是「加速手機頁面」計畫。簡而言之，把不必要的東西通通刪光光，

robots

robots有關的概念有兩個：meta robots及robots.txt
分別是阻止Google 檢索、索引你的頁面。
如果你有特定頁面會傷害使用者體驗（UX），你可以透過這些方式去阻止該頁面出現在Google 搜尋結果中。

	Meta Robots	Robots.txt
功能	阻止Google進行索引（index）	阻止Google進行
使用方式	於Head底下加入Meta Robots的標籤： `<meta name=”robots” content=”noindex, nofollow”>`	直接上傳檔名為Robots的txt檔案到根目錄上
使用時機	有特殊頁面不希望出現在搜尋引擎上，例：搜尋結果頁、購物車，但這些頁面可能對SEO有幫助，所以還是讓Google爬取。	有特殊頁面完全不希望Google抓取 EX: 未完成頁面、測試頁

index & follow

Meta Robots：<meta name=”robots” content=”noindex, nofollow”>
這個標籤中有兩個 noindex 以及 nofollow 兩個值
index：指的是索引
follow：希望搜尋引擎在檢索此頁面時，進一步的去檢索該頁面所連出去的連結。

舉例說明

< meta name=”robots” content=”noindex , nofollow”>
這個做法便是告訴搜尋引擎，不要索引我的網站，並且在檢索資料時該頁面的相關連結也不要去檢索。
< meta name=”robots” content=”index , nofollow”>
檢索資料時該頁面的相關連結不要檢索。
< meta name=”robots” content=”noindex , follow”>
不要索引我的頁面，但頁面上所有的連結請正常檢索（最常用之使用方式）
< meta name=”robots” content=”index , follow”>
這個做法就沒有任何意義，加上這段標籤跟沒加的道理是一樣的，等於搜尋引擎將正常索引及檢索。

注意 – Google 說他們是參考參考
Google 官方不保證搜尋引擎會完全服從meta robots以及robots.txt，若搜尋引擎認為你的網站有很多很多的反向連結、流量很高、內容很優質，是優質網站，他也有可能會執意要檢索、索引你的網站。

延伸推薦

【新手必讀】行銷專用詞彙～BtoB篇～

行銷流程是什麼？基礎知識與六大步驟

【重要】行銷的分析方法與框架