Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁

google docs ocr-02

來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。

我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。

透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!

 

我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。

但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!

至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!

google docs ocr-01

留言

  1. 提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?

    回覆刪除
  2. 感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD

    回覆刪除
  3. 有看到繁體的選項了唷~

    回覆刪除
  4. 為什麼現在很多網站都指提供簡體中文的服務...
    這樣看起來有點吃力

    回覆刪除
  5. 語言雖然沒有繁體可選
    但是第二個選項有打勾的話
    繁體的pdf檔還是可以ocr出來

    回覆刪除
  6. 我目前試了幾個繁體pdf都失敗(變成亂碼)

    歡迎大家回報看看你們的試用結果^^

    回覆刪除
  7. 我也測試了一下
    ....都亂碼...

    還不夠完善阿= = ...

    簡體中文~我最希望的是...可以掃"宋體"
    小說~大部分都宋體....

    回覆刪除
  8. 是不错的,不过格式会乱 :-)

    http://www.pimcorechina.org

    回覆刪除
  9. 拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~

    回覆刪除
  10. 刚刚尝试了一下,似乎文件大小限制是25MB……

    回覆刪除
  11. 咩哈哈哈哈,有繁體了~

    回覆刪除
  12. 覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好

    回覆刪除
  13. 文件扫描后的图片怎么识别不出来呢

    回覆刪除
  14. 不太完善,kai kai 的!!!! ;)
    ^^ha ha....

    回覆刪除
  15. chongdata.com的ocr也不错

    回覆刪除

張貼留言

相關文章:

這個網誌中的熱門文章

OpenShot 免費中文版影片剪輯軟體,何必用精簡版的威力導演

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

自動化圖片去背教學!只需 Word 或 PowerPoint 搞定

Google Maps 我的地圖完全教學!規劃自助旅行攻略

AnyDesk 最快的遠端桌面軟體,免費免安裝中文教學

Amazon Kindle 繁體中文電子書的購買、筆記與匯出書摘教學

一般人也能 10 分鐘自製 LINE 貼圖,1 天後完成貼圖上架教學

Google 智慧鏡頭 AR 翻譯英日文票券菜單,大勝 Google 翻譯

上班族如何養成閱讀習慣?我會這樣挑書、讀書與做學習筆記

工作愈忙愈要先理清順序,但不是排重要性,是避免時間浪費