Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁

google docs ocr-02

來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。

我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。

透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!

 

我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。

但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!

至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!

google docs ocr-01

留言

 1. 提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?

  回覆刪除
 2. 感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD

  回覆刪除
 3. 有看到繁體的選項了唷~

  回覆刪除
 4. 為什麼現在很多網站都指提供簡體中文的服務...
  這樣看起來有點吃力

  回覆刪除
 5. 語言雖然沒有繁體可選
  但是第二個選項有打勾的話
  繁體的pdf檔還是可以ocr出來

  回覆刪除
 6. 我目前試了幾個繁體pdf都失敗(變成亂碼)

  歡迎大家回報看看你們的試用結果^^

  回覆刪除
 7. 我也測試了一下
  ....都亂碼...

  還不夠完善阿= = ...

  簡體中文~我最希望的是...可以掃"宋體"
  小說~大部分都宋體....

  回覆刪除
 8. 是不错的,不过格式会乱 :-)

  http://www.pimcorechina.org

  回覆刪除
 9. 拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~

  回覆刪除
 10. 刚刚尝试了一下,似乎文件大小限制是25MB……

  回覆刪除
 11. 咩哈哈哈哈,有繁體了~

  回覆刪除
 12. 覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好

  回覆刪除
 13. 文件扫描后的图片怎么识别不出来呢

  回覆刪除
 14. 不太完善,kai kai 的!!!! ;)
  ^^ha ha....

  回覆刪除
 15. chongdata.com的ocr也不错

  回覆刪除

張貼留言

為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

Google Maps 我的地圖完全教學!規劃自助旅行攻略

Dropbox 雲端資料同步軟體能用來幹嘛?10個我最常被滿足需求

AI 如何與寫筆記結合?我最常利用的 6 種提升筆記效率功能與案例

Facebook login out 遠端登出臉書帳號,安全清除遠端電腦密碼

Slack 完整教學與上手心得:找到正確的團隊溝通之道

Google NotebookLM 免費中文 AI 筆記實例教學,老師、學生、創作者利器

Supercoloring 免費兒童著色本,五萬張著色圖下載或線上塗鴉

Draw.io 中文線上製作流程圖首選!專業水準完全免費

為什麼大家愛用 Trello ?最佳整理教學讓事情井然有序