2008年5月30日 星期五

Google自訂搜尋引擎 - 打造個人資訊檢索系統,這樣做才叫強大

Google自訂搜尋引擎Google Co-op Custom Search Engine,簡稱Google CSE)」有兩個主要的功能。第一大功能就是讓網站、部落格打造自己的站內搜索:撇開「Google自訂搜尋引擎」強大的功能性不說,即使就是最簡單的添加單一網站然後進行搜索Google CSE也比最近推出的「Yahoo!奇摩站長工具」更適合國內部落格平台的使用者;因為有點搞笑的是,Yahoo站長工具裡的 「搜尋工具」並無法很準確的使用在國內BSP平台的部落格身上,它並不支援設定第二層的網址名稱當作搜尋條件,但是偏偏像無名小站、Pixnet、天空、Xuite和奇摩自己的部落格全部都是把部落格名稱放在第二層以後的網址,例如:

「www.wretch.cc/blog/XXX」這是無名小站的部落格網址,當你設定這樣的條件到Yahoo站長搜尋工具中時,你會發現到時候真正搜索的是整個無名小站(www.wretch.cc)。而Google的自訂搜尋引擎則不會有這種問題出現。

但是我今天要推薦的是Google CSE另外一種非常實用的使用方式(或者說這才是它真正設計的目的):就是利用「聯合搜索」和「條件過濾」,來快速打造出你的個人資訊檢索系統;這個檢索系統不需要你一條一條的把資料拷貝、剪貼進去,而是直接透過「搜尋」來取用整個網路,只要設定好條件,輕輕鬆鬆就可以擁有各式各樣不同使用需求的資料庫,而且設定過程中可以完全不需要懂任何程式碼或網頁語法,任何人都可以完成自己的自訂搜尋引擎系統。

2015/6/30 新增如何為每個研究專案建立一個 Google 自訂搜尋引擎?



很久之前就寫過一篇相關的介紹,我自己也長期使用透過Google CSE製作的三個資料檢索系統:「中文電腦資訊部落格搜索 」、「英文電腦資訊部落格搜索 」、「軟體資訊與下載 」。其實我們透過搜索引擎找資料常常是有「針對性」、「範圍性」的,這和「漫無目的」搜索是兩種不同的需求,與其每次都在「一般性的搜尋引擎」裡面大海撈針,不如自己設定一些條件來做出一個「專門」的個人化替代性搜尋引擎,打造自己的檢索系統,讓不同的需求找到最好的解決出口。



基礎設定:

1.
使用「Google自訂搜尋引擎」並不難,只是有一些小細節可以注意一下,會讓你的設計更有效果。首先來到CSE首頁,當然你要先登入自己的Google帳戶,然後點選﹝建立自訂搜尋引擎﹞。

cse-01



2.
接下來你會需要輸入這個自訂搜尋引擎的「名稱」和「說明」,這邊依照你的設計目的填寫即可,這裡的內容和真正的搜索結果不相關,只是給你和訪客了解而已。然後接著的「搜尋引擎關鍵字」就很重要了,我後面會獨立解說,這邊可以先留白。然後「搜尋引擎語言」則選擇你檢索的首要語言種類,例如選擇【繁體中文】的話,繁中網站的排序會適度的調前。

cse-02



3.
接下來「你想要搜尋什麼?」,你可以讓搜尋引擎檢索「僅我選取的網站」;或者你希望讓範圍擴大則可以選擇「整個網路,但將重點放我選取的網站」,這樣你等等加入的網站列表的結果會被排前,但是也可以搜索到整個網路上的內容。

「選取一些網站」就是重頭戲了,你可以在這邊加入你想檢索的網站網址,設計一個專門查找這些網站的搜索引擎。加入網址的方法很簡單,就是「把網址輸入」,用「Enter換行」來區分不同網站即可,如果有疑惑可以按旁邊的「格式化URL的秘訣」查看,它會教你如何運用「*」星號來達到更有彈性的設計。

cse-03

因為Skyvee說我寫文章很詳細,深怕漏了哪個步驟,所以我還是再囉嗦一下好了。例如像電腦玩物的網址「http://playpcesor.blogspot.com/」,你就可以直接輸入「playpcesor.blogspot.com」;如果是像簡睿兄的「http://blog.xuite.net/emisjerry/tech」,就輸入「blog.xuite.net/emisjerry/tech」;這樣都可以直接搜尋到這兩個網站的整個站內文章



4.
然後就只剩最後一步了,一般人設計的搜尋引擎都是選擇「標準版」,而因為我們應該都不是非營利組織、大學或政府機關,所以不要勾選「取消廣告」(雖然取消了還是可以用,但是不知道會不會有懲罰?)。然後一定要勾選「我已經閱讀並同意此服務條款」,最後按下﹝下一頁﹞。

cse-04



5.
大功告成!你可以用上方的搜索引擎試試看自己設計的結果,最後按下﹝完成﹞即可。

cse-05

你可以在自己的控制後台看到所有設計好的「Google 自訂搜尋引擎」,按下「首頁」可以切換到該搜尋引擎的專屬頁面;按下「控制台」可以對該搜尋引擎作進一步設計;按下「統計資料」則可以查看這個搜尋引擎被使用的情況;你也可以用「刪除」來移除已經設定好的檢索系統。

cse-06



進階控制台:

1.搜尋引擎關鍵字
進入「控制台」,剛剛我們沒有設定「搜尋引擎關鍵字」,這邊其實是很重要的一個功能,你可以在這裡加入「特定關鍵字」來讓「符合該關鍵字」的檢索資料在所有查詢中都「動態的排前」,注意喔!這邊是會依據Google的運算來「適度的(非絕對的)」讓排名結果提前。例如你這個搜尋引擎是設計來找「化妝品」,那麼你就可以把「化妝品」作為搜尋引擎關鍵字,這樣當你檢索「紅色」時,同時包含「化妝品」的資料會被自動往前排,讓你檢索時更方便、更有針對性。

cse-07

有無設定關鍵字的結果比較:例如下面這張圖是我原本「沒有設定任何關鍵字」的「中文電腦資訊部落格搜索」查詢「Google」一詞的結果。

cse-08

假設我加入了「電腦玩物」這個關鍵字,那搜尋的結果就會變成下圖。在關鍵字的設計上,如果你輸入多個關鍵字,可以用「空格」來隔開,不過第一個關鍵字的比重會最高;你也可以用「" "」來包住某個特定的詞組,表示一定要完整符合這個詞組的關鍵字才要排前。(P.S. 我這邊只是實驗,中文電腦資訊部落格搜索這個引擎,預設我是沒有加入任何關鍵字的)

cse-09



2.協同與公開自訂搜尋引擎
同樣在「控制台」的第一頁,在下方的「偏好設定」中,「誰可以協同作業:」讓你設定要讓哪些人可以和你「一起編修」這個搜尋引擎;而「搜尋引擎曝光率:」這可以讓你設定是否要讓自訂搜尋引擎出現在公開列表中,要注意的是即使設定為「Unlisted」,只要對方知道你的搜尋引擎網址,一樣可以看到並使用。不管做任何設定,最後都要記的按下﹝儲存變更﹞。

cse-10



加入新檢索網站的各種方法

1.在控制台新增、移除檢索網站
你可以隨時加入新的網站到檢索系統中。在「控制台」上方工具列中切換到「網站」,點選﹝新增網站﹞,同樣的輸入網址,勾選要加入的內容屬性
  • 「加入位址包含此 URL 的所有網頁」:就是搜尋整個網站的意思。
  • 「Include just this specific page」:就是只搜尋符合這個網址的特定網頁(單一網頁),但是這邊你也可以運用「*」。例如勾選這一項並在網址欄填寫「blog.pixnet.net/Nelson/*」;那麼結果和勾選「加入位址包含此 URL 的所有網頁」,並在網址欄填寫「blog.pixnet.net/Nelson」道理是一樣的。
  • 「動態擷取此網頁上的連結並將它們新增到我的搜尋引擎」:這是一個很棒的功能,我們下面特別獨立說明。
  • 「標籤」:這個和另外一個「限制條件」的功能相關,比較複雜一點,所以我們也留待後面說明。
cse-11

最後記得按下﹝儲存﹞,就可以在自訂搜尋中加入一個新的檢索網站了。



2.動態擷取網頁裡的連結
要一個一個把網站加入檢索系統是不是有點麻煩?而前面提到的「動態擷取此網頁上的連結並將它們新增到我的搜尋引擎」就是一個省時省力的方法,很多部落格在側邊欄都有友站的連結,如此一來你只要勾選「動態擷取」,就能夠把這個網頁裡出現的網頁連結或網站連結全部都自動加入你的搜尋引擎中,也就是說加入一個網站後可以同時獲得十幾個網站進入你的搜尋系統。

cse-12
cse-13
不過我還搞不太懂的是「包含此網頁連結的所有部分網站」和「包含此網頁連結的所有網站」有什麼區別?歡迎知道的朋友解惑。



3.設定排除的網站
或許你的檢索系統裡不想看到特定網站或特定網址,那麼你可以在「控制台」→「網站」頁面下方的「排除的網站」裡面設定即可。

cse-14



4.用Bookmarklet加入新網站
我在蒐集「中文電腦資訊部落格搜索」的過程中,因為不可能第一次就把快200個部落格的資料都加進去,一定是邊逛網路,邊看到不錯的就把它們加入檢索系統中。而這時候就可以利用「Bookmarklet」的方法:來到「Google標記」網頁,把裡面的「Google Maker」用滑鼠按住並拖曳到你的書籤工具列即可

cse-15

以後看到什麼網站,按下﹝Google Maker﹞就能夠快速的解析該網站的主網址並加入你的「自訂搜尋引擎」裡面了。但是這個方式有個小問題,就是它只有「此網站上的所有內容」和「僅此頁」兩個項目,遇到那種有好幾層網址的網站時,例如國內部落格平台的部落格,這個方法會無法正確的加入特定網站,這時候你必須回到控制台用我之前說的方法來添加。

cse-16



設定限制條件:

「限制條件」的功能是什麼呢?例如你設計的檢索系統裡可能會有不同的分類,在「中文電腦資訊部落格搜索」中還會有專門專精於「免費軟體、綠色軟體」或「Web2.0」等不同領域的部落格,這時候我就可以設計一個分類,讓想要專門搜索某個分類時可以快速的切換

1.呈現的結果
有無選取限制條件的比較:我們先看看實際使用出來的結果,例如我搜尋一個內涵很廣的「Desktop」關鍵字,原本的搜尋結果如下圖。

cse-18

這時候我點選「免費綠色」這個限制條件,於是被我標記為「免費綠色」的網站,他們的搜尋結果就會被提前,而呈現出入下圖的樣貌,這樣是不是讓搜索更具有彈性了呢?

cse-19



2.設定過程
假設我新增一個稱為「免費綠色」的限制條件,我可以選擇「如何搜尋已加上標籤的網站:」,這是指當我在搜索引擎中點選該限制條件時,要如何重新排序搜索結果的方式:「單純的排前」或「只搜索有加上標籤的網站」。另外也可以設定「要新增到搜尋查詢的字詞:」,這邊是指當點選限制條件時要加入一起檢索的關鍵字,你可以看看「進階搜尋運算子」裡面的說明來了解添加新關鍵字的方法,不過不添加關鍵字也可以。

cse-17



3.幫網站加上標籤
當前面已經設定好「限制條件」後,新增網站時就會出現「標籤」的項目可以勾選,你可以依據該網站的類型來設定標籤分類,將某個網站歸屬到某個限制條件(分類)中。這樣一來以後要「專精」搜索時就會更為方便了。

cse-20



在網站上添加自訂搜尋引擎:

1.
設計好的搜索引擎當然可以添加到自己的部落格中和大家一起共享。先在「控制台」的「外觀風格」裡面做一些調整,然後到「程式碼」裡面獲得安裝的外掛程式碼即可。

cse-21



2.
另外一種方法是來到你的自訂搜尋引擎「首頁」,然後透過右下角的「新增到~」來獲得外掛程式碼,也可以加入iGoogleNetvibes個人首頁喔!

cse-22



「大」結:

Skyvee說的沒錯,我真的忍不住又寫了一篇很長的文章,不過我深深覺得「Google自訂搜尋引擎」對於有「找資料」需求的人來說,是一定要會用的網路服務之一。Google Custom Search Engine就好像是一種「另類的書籤」、「另類的剪貼資料庫」,它讓你去「蒐集」各種網路上的網站,然後快速打造出一個「特別適合你自己」的搜尋引擎,而它的操作方式就是這麼簡單又強大。

最後,如果您也早就利用Google CSE來打造有用的搜索系統的話,非常歡迎在這篇文章的留言裡推薦出來讓大家知道,也讓有和您有相同需求的讀者,或許可以藉此找到更好的搜索管道。

37 則留言 :

  1. 頂極教學!!
    佩服!!!

    回覆刪除
  2. > 「包含此網頁連結的所有部分網站」和「包含此網頁連結的所有網站」有什麼區別?

    從字面上的意義來猜測, 一個是把網頁上的連結網站全抓出來, 一個是只抓前幾個網站.

    因為不知怎麼證明, 所以只能用猜的.

    回覆刪除
  3. "包含此網頁連結的所有網頁"

    "包含此網頁連結的所有網站"
    最大的差別好像是在能不能抓到.php等的即時連結

    所有網頁會抓不到,要用所有網站才行。

    我用這種方法抓學校的新聞庫有成功,不知道能不能用來抓論壇的內容,等等來試試。

    回覆刪除
  4. 試了常用的論壇(無限)好像有檔還是怎的,抓不到 sad

    偷偷打個小廣告

    "作報告搜尋引擎"
    http://www.google.com/coop/cse?cx=015696781779439219853:qlvkw-s-m4i


    徵求協同作業!

    (不知道有沒有人作過類似的東西)

    回覆刪除
  5. 一年半前作的:

    公民新聞的資訊來源
    http://blog.schee.info/2007/02/14/hinet-hipage/

    中央政府
    http://www.google.com/coop/cse?cx=017613148924565960545%3Aznpdthu2bxk

    數位典藏國家型計畫
    http://www.google.com/coop/cse?cx=017613148924565960545%3Ae4ktvgje1g0

    回覆刪除
  6. 有時候翻譯的字詞出來後的確會讓人摸不著頭緒,建議您可以試著更改語言設定成英文再重新進入該頁面看一下英文原文的意思應該會比較容易知道該意思為何。

    回覆刪除
  7. 這個建議滿好的,

    不過...那到底它的意思是什麼?真正的區別又是在哪裡呢?

    回覆刪除
  8. 非常感激

    已經採用CC原則,引用於下列兩個網址:

    http://bloguide.ettoday.com/alexandros/textview.php?file=147621

    http://blog.udn.com/alexandroslee/1917253

    回覆刪除
  9. 非常感激

    已經cc引用於下列兩個網址:

    http://blog.udn.com/alexandroslee/1917253

    http://bloguide.ettoday.com/alexandros/textview.php?file=147621

    回覆刪除
  10. 非常歡迎您這麼慎重的轉載^^

    回覆刪除
  11. 關於那個「中文電腦資訊部落格搜索」,我可以加入嗎?哈~ - www.clubeddy.com

    回覆刪除
  12. 當然當然,馬上將您加入囉^^

    回覆刪除
  13. 製作了一個站內搜尋http://www.google.com/coop/cse?cx=003826654219319364659:n5yfe-49nls
    但是都搜尋不到內容,我針對我的blog有提到的字串firefox,kanon,windows搜尋都沒有結果,我的blog網址是http://nusjmevms.blogspot.com/所有我在控制台網站加入了nusjmevms.blogspot.com/
    下面選項選了
    加入位址包含此 URL 的所有網頁
    用之前實驗的搜尋http://www.google.com/coop/cse?cx=003826654219319364659:ripw0bjnwtq
    54個著名的blog卻可以正常搜尋
    我當天如法炮製用別的blog的網址在製作一個發現也可以就是我自己的blog搜尋不出來請問是出了什麼問題嗎?是blog文章量太少,還是google的網頁索引還沒製作好,音為我是最近才寫blog的
    我已經把我現在出問題的
    frondget Blog Search
    誰可以協同作業:改成所有人都可以為此搜尋引擎參與內容。
    希望您能幫我看一下

    回覆刪除
  14. 站長您好, 想請教一下:

    我是在 Google 小工具中看到您這個 "中文電腦資訊部落格搜索" 的, 我很好奇, 想請教一下, 當您設計好 "中文電腦資訊部落格搜索" 這個自訂搜尋引擎後, 它是會自動出現在 Google 小工具中嗎? 還是您有透過什麼樣的設定還是撰寫 Google 小工具的程式, 它才會出現在 Google 小工具中?

    謝謝!

    回覆刪除
  15. 我看了一下,似乎是Google官方的人把它加上去的

    我這邊並沒有做其他動作XD

    回覆刪除
  16. 哎呀
    真是晚了好多步
    都已經看不到圖片了
    不知版大可以修正嗎?

    回覆刪除
  17. 可以看到圖片阿

    網頁重新整理幾次看看

    回覆刪除
  18. 我有個小問題,因為我最近開啟某些人的"自訂搜尋"系統,可是在收尋列的下方卻出現了以下字樣。

    http://i169.photobucket.com/albums/u224/toppy368/_.gif

    可是我開了自己的自訂搜尋,卻沒有出現這個字樣,可見這不是預設值,我的自訂搜尋首頁的網址如下

    http://www.google.com/coop/cse?cx=006145015934859971325:ynxxkbhyrww&hl=zh-TW

    有三個問題想問:
    1.請問這個"安全搜尋"是什麼?
    2.這是免費的服務嗎?還是要付費才能使用?
    3.我要如何把這個功能加到自己的自訂搜尋呢?

    回覆刪除
  19. 作者已經移除這則留言。

    回覆刪除
  20. 安全搜尋就是過濾掉色情、暴力等內容

    是免費使用的

    在妳的設定後台勾選即可

    回覆刪除
  21. 那是後台的哪一頁的哪一項,是"基本設定"嗎?還是其他頁面?

    如果可以最好附圖,因為頻道實在太多了,我從"基本資訊"及"限制條件"裡都找不到跟"安全搜尋"相關的設定。

    回覆刪除
  22. chi:為 何 變 英 文 版 ?
    中 文 版 的 無 法 申 請 了 嗎?

    回覆刪除
  23. 變成英文版,可能是你在其他Google服務中使用了英文版介面

    目前還是有中文介面的

    回覆刪除
  24. 好像沒辦法把「博客來」、「亞馬遜」等幾個線上書店作成搜尋引擎;也沒辦法把幾個圖書館的搜尋引擎合成。

    可以請站長幫我試試看嗎,謝謝您。

    回覆刪除
  25. 我剛剛試過,
    直接把博客來或Amazon的主網址加入即可。

    至於一般圖書館,這個我沒有嘗試,如果加入主網址後不行,可能表示它有封鎖Google的爬蟲。

    回覆刪除
  26. chi:

    我 發 現 自 定 搜 尋 的
    有 收 益 的 好 像 變 成
    不 法 只 單 獨 搜 尋 自
    定 的 網 站 耶 ?

    為 何 出 現 這 樣 呢 ?

    回覆刪除
  27. 您的意思是什麼?我不是很懂耶^^

    回覆刪除
  28. 請問
    我自己在自訂搜尋論壇資源的引擎時
    如果該論壇對於搜索有設會員資格之限定
    那請問引擎對於該論壇是否會失效呢?

    我自己對於自訂艾噹洛以及伊莉是會有失效的問題...

    回覆刪除
  29. 如果該論壇設定到禁止外部搜尋引擎檢索內容的程度
    那麼是會失效的

    回覆刪除
  30. 问一下,怎么搜索别人制定的规则?
    能把方法发到我邮箱吗?ninetales@live.cn

    回覆刪除
  31. 非常强大,,,,准备使用了。。。
    我开始喜欢这里了!

    回覆刪除
  32. @最爱口袋九尾 :

    目前沒有辦法搜索別人的規則

    回覆刪除
  33. 關於那個「中文電腦資訊部落格搜索」,我可以加入嗎?www.a00461.co.cc

    回覆刪除
  34. 2014 回過頭還看這篇文章,真的把 Google 搜尋發揮到極限了。
    感覺寫論文、收集資料,用這種方式過濾真的非常好用。

    回覆刪除

相關文章: