Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁

google docs ocr-02

來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。

我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。

透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!

 

我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。

但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!

至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!

google docs ocr-01

留言

  1. 提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?

    回覆刪除
  2. 感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD

    回覆刪除
  3. 有看到繁體的選項了唷~

    回覆刪除
  4. 為什麼現在很多網站都指提供簡體中文的服務...
    這樣看起來有點吃力

    回覆刪除
  5. 語言雖然沒有繁體可選
    但是第二個選項有打勾的話
    繁體的pdf檔還是可以ocr出來

    回覆刪除
  6. 我目前試了幾個繁體pdf都失敗(變成亂碼)

    歡迎大家回報看看你們的試用結果^^

    回覆刪除
  7. 我也測試了一下
    ....都亂碼...

    還不夠完善阿= = ...

    簡體中文~我最希望的是...可以掃"宋體"
    小說~大部分都宋體....

    回覆刪除
  8. 是不错的,不过格式会乱 :-)

    http://www.pimcorechina.org

    回覆刪除
  9. 拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~

    回覆刪除
  10. 刚刚尝试了一下,似乎文件大小限制是25MB……

    回覆刪除
  11. 咩哈哈哈哈,有繁體了~

    回覆刪除
  12. 覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好

    回覆刪除
  13. 文件扫描后的图片怎么识别不出来呢

    回覆刪除
  14. 不太完善,kai kai 的!!!! ;)
    ^^ha ha....

    回覆刪除
  15. chongdata.com的ocr也不错

    回覆刪除

張貼留言

相關文章:

這個網誌中的熱門文章

3000 多部古老童書繪本免費線上閱讀,橫跨三百年的童書收藏

OpenShot 免費中文版影片剪輯軟體,何必用精簡版的威力導演

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

掌中澳:免費手機版澳門觀光地圖指南,最輕便的旅遊電子書

Google Maps 我的地圖完全教學!規劃自助旅行攻略

自動化圖片去背教學!只需 Word 或 PowerPoint 搞定

2萬多個兒童紙上習作免費下載列印,從著色、迷宮到摺紙練習

DaVinci Resolve 免費中文影片製作軟體,好萊塢電影特效也用

立體摺紙地球儀 Mapscaping 免費12款地球摺紙模型下載列印

Glaze 簡報文章商用插畫免費圖庫,不過時原創插圖ICON下載