Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁

google docs ocr-02

來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。

我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。

透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!

 

我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。

但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!

至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!

google docs ocr-01

留言

  1. 提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?

    回覆刪除
  2. 感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD

    回覆刪除
  3. 有看到繁體的選項了唷~

    回覆刪除
  4. 為什麼現在很多網站都指提供簡體中文的服務...
    這樣看起來有點吃力

    回覆刪除
  5. 語言雖然沒有繁體可選
    但是第二個選項有打勾的話
    繁體的pdf檔還是可以ocr出來

    回覆刪除
  6. 我目前試了幾個繁體pdf都失敗(變成亂碼)

    歡迎大家回報看看你們的試用結果^^

    回覆刪除
  7. 我也測試了一下
    ....都亂碼...

    還不夠完善阿= = ...

    簡體中文~我最希望的是...可以掃"宋體"
    小說~大部分都宋體....

    回覆刪除
  8. 是不错的,不过格式会乱 :-)

    http://www.pimcorechina.org

    回覆刪除
  9. 拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~

    回覆刪除
  10. 刚刚尝试了一下,似乎文件大小限制是25MB……

    回覆刪除
  11. 咩哈哈哈哈,有繁體了~

    回覆刪除
  12. 覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好

    回覆刪除
  13. 文件扫描后的图片怎么识别不出来呢

    回覆刪除
  14. 不太完善,kai kai 的!!!! ;)
    ^^ha ha....

    回覆刪除
  15. chongdata.com的ocr也不错

    回覆刪除

張貼留言

相關文章:

這個網誌中的熱門文章

搜尋舊版報紙讀台灣歷史,免帳號檢索200萬筆半世紀前新聞

掌中澳:免費手機版澳門觀光地圖指南,最輕便的旅遊電子書

OpenShot 免費中文版影片剪輯軟體,何必用精簡版的威力導演

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

如何用 Telegram 建立 20 萬人討論群組、公開頻道教學

pyTranscriber 影片自動上字幕免費軟體!10分鐘搞定1小時影片

自己做 2020 年筆記本, 11 種行事曆、筆記範本下載列印網站

Google Maps 我的地圖完全教學!規劃自助旅行攻略

自動化圖片去背教學!只需 Word 或 PowerPoint 搞定

Glossika 線上強化台語、客家話日常聽說能力,60種語言自學