Google Docs OCR 文字辨識pdf,圖檔34種語言,中文有簡無繁

google docs ocr-02

來自Google官方部落格的消息「Optical Character Recognition (OCR) in 34 languages」,Google Docs文件服務內建的「OCR文字辨識」功能,新增了29種語言辨識能力,目前可以辨識的PDF、圖片檔內文字來到了34種之多,而且這次包含了簡體中文,可惜尚未有針對繁體中文辨識的支援。

我們只要在Google Docs中選擇上傳新檔案,就可以在上傳介面中看到「將 PDF 檔案或圖片檔案中的文字轉換為 Google 文件。」的選項,勾選它!然後在下拉選單裡選擇相應要辨識的語言即可。

透過這種方式上傳的PDF、圖片檔案,會直接轉換成Google Docs文件格式(也就是不會佔用Google Docs總容量),而文件裡會包含原始檔案的每頁截圖,以及辨識出來的純文字內容,方便用戶進行對照!

 

我簡單測試了一個簡體中文內容的PDF檔案,大體來說,文字辨識的效果都很準確,尤其在「內文」的部份(也就是沒有使用太過特殊字體格式的部份),都能很順利的辨識出簡體中文。

但如果是一些使用特殊字體的標題,就可能辨識出亂碼了!

至於其它語言的辨識我沒有特別嘗試,歡迎有興趣的朋友玩玩看並回饋心得。當然,更重要的是希望能推出「繁體中文」的文字辨識服務支援啊!

google docs ocr-01

留言

  1. 提醒一下各位,识别有限制,只能小于2MB的文件,至少我在识别简体中文时候有遇到,英文还没有试过,各位有没有遇到这问题?

    回覆刪除
  2. 感謝你提供的回饋,我剛好都是上傳2MB以內的檔案XD

    回覆刪除
  3. 有看到繁體的選項了唷~

    回覆刪除
  4. 為什麼現在很多網站都指提供簡體中文的服務...
    這樣看起來有點吃力

    回覆刪除
  5. 語言雖然沒有繁體可選
    但是第二個選項有打勾的話
    繁體的pdf檔還是可以ocr出來

    回覆刪除
  6. 我目前試了幾個繁體pdf都失敗(變成亂碼)

    歡迎大家回報看看你們的試用結果^^

    回覆刪除
  7. 我也測試了一下
    ....都亂碼...

    還不夠完善阿= = ...

    簡體中文~我最希望的是...可以掃"宋體"
    小說~大部分都宋體....

    回覆刪除
  8. 是不错的,不过格式会乱 :-)

    http://www.pimcorechina.org

    回覆刪除
  9. 拉丁字母語言應該都還好做,但中文做起來應該超辛苦吧 XD,給工程師鼓掌~~

    回覆刪除
  10. 刚刚尝试了一下,似乎文件大小限制是25MB……

    回覆刪除
  11. 咩哈哈哈哈,有繁體了~

    回覆刪除
  12. 覺得 Microsoft Office Document Imaging 比 GOOGLE DOCS 辨識效果還好

    回覆刪除
  13. 文件扫描后的图片怎么识别不出来呢

    回覆刪除
  14. 不太完善,kai kai 的!!!! ;)
    ^^ha ha....

    回覆刪除
  15. chongdata.com的ocr也不错

    回覆刪除

張貼留言

為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

Google Maps 我的地圖完全教學!規劃自助旅行攻略

Slack 完整教學與上手心得:找到正確的團隊溝通之道

Google NotebookLM 免費中文 AI 筆記實例教學,老師、學生、創作者利器

Miro 遠距工作開視覺會議的免費強大白板,專案圖解實例教學

Google 表單自動關閉回覆教學:時間人數到達就過期

畫張圖說得更清楚! Napkin 用 AI 幫你的簡報文章手繪視覺思考圖

少記筆記,減少整理,高效輸出:6 原則打造任務驅動型第二大腦

Google 表單的 10 個專業問卷調查設計秘密教學