フリーの OCR ソフトです
画面をキャプチャして OCR するので扱いやすいです
画面をキャプチャして OCR するので扱いやすいです
フリーで OCR 使いたいなーと思って調べてみると スクリーンショットから使えるという便利なソフトがありました
スクリーンショットなので ブラウザ上のテキストでも PDF でも 画像でもなんでも OK です
一度 jpg 化する手間もなくてすごくよさそうです
Capture2Text
公式ページのサンプルでは日本語の漫画のテキストをちゃんと読み取れています
期待して使ってみましょう
まずは とりあえずで公式サイトの文字を読み取ってみます
Windowsボタン+Q を押すとマウスの位置が左上の始点となってキャプチャする領域を選択できます
右下の方にマウスを移動させて 青色の枠にキャプチャしたいテキストをいれてクリックします
右クリックしながらマウスを動かして四角形全体を動かせます
結果は…
ポップアップウィンドウで結果が見れます
悪くはないです
Zip が Zio になっていますが、文字が小さいですしリンクのアンダーラインと被っているので文脈判断とかまでやらないと難しそうです
ではお次は日本語いってみましょう
読み取る文字は直前の記事の最初のところにしました
この画像の部分が対象です
さて結果は
こ、これはヒドい
どうしてこうなった・・・
blu-ray しか読める文字になってないです
・・・
設定確認してみたら 日本語は設定が必要みたい
いい感じに OCR できるように設定を変更しました
○左上のところを Japanese にします
これが読み取りに設定されてる言語です
English だと日本語でもむりやり英語で近い文字に当てはめるのであんなひどいことになってたようです
○下の 「OCR method」 を 「Auto (best - slowest)」 にします
遅いですが これで精度があがります
速度優先にすると 間違いだらけであまり使えません
○「Text direction」 を 「Horizonal」 にします
横書きなら Horizontal、 縦書きなら Vertical を選びます
Auto はあまり当てにしないほうがいいです
設定の 「Capture Box」 は範囲選択する青色のボックスのことです
色と透過度が選べます
「Preview Box」 は速度の遅い日本語設定ではあまり見れないですが、プレビューがディスプレイ全体の左上に表示されます
そこのフォントや透過度を設定できます
これで日本語でも OCR できるはずです
では結果は
日本語を選んでる分、アルファベットや数字は部分は弱いようです
ですが 全体的にはいい感じにできてます
他にもいろいろためしてみたらこんな間違いがありました
似ている文字の細かい部分が別のものになっていたり、一つの文字が二つの文字で表示されていたりが多いです
フォントのものでもこれなので 手書きだとあまり効率よくはならないかも
「情報」が「惰報」なんて流し見で確認してたら見逃しそうです
「日」と「曰」みたいな間違い探しをするのと一から手打ちするのってどっちが楽なんでしょうね・・・
ところで、マイクからの音声もキャプチャできると紹介してるページもありますがその機能はありません
実験的機能で 2015年5月のアップデート Version 3.6 で削除されました
スクリーンショットなので ブラウザ上のテキストでも PDF でも 画像でもなんでも OK です
一度 jpg 化する手間もなくてすごくよさそうです
Capture2Text
公式ページのサンプルでは日本語の漫画のテキストをちゃんと読み取れています
期待して使ってみましょう
まずは とりあえずで公式サイトの文字を読み取ってみます
Windowsボタン+Q を押すとマウスの位置が左上の始点となってキャプチャする領域を選択できます
右下の方にマウスを移動させて 青色の枠にキャプチャしたいテキストをいれてクリックします
右クリックしながらマウスを動かして四角形全体を動かせます
結果は…
ポップアップウィンドウで結果が見れます
悪くはないです
Zip が Zio になっていますが、文字が小さいですしリンクのアンダーラインと被っているので文脈判断とかまでやらないと難しそうです
ではお次は日本語いってみましょう
読み取る文字は直前の記事の最初のところにしました
この画像の部分が対象です
さて結果は
こ、これはヒドい
どうしてこうなった・・・
blu-ray しか読める文字になってないです
・・・
設定確認してみたら 日本語は設定が必要みたい
いい感じに OCR できるように設定を変更しました
○左上のところを Japanese にします
これが読み取りに設定されてる言語です
English だと日本語でもむりやり英語で近い文字に当てはめるのであんなひどいことになってたようです
○下の 「OCR method」 を 「Auto (best - slowest)」 にします
遅いですが これで精度があがります
速度優先にすると 間違いだらけであまり使えません
○「Text direction」 を 「Horizonal」 にします
横書きなら Horizontal、 縦書きなら Vertical を選びます
Auto はあまり当てにしないほうがいいです
設定の 「Capture Box」 は範囲選択する青色のボックスのことです
色と透過度が選べます
「Preview Box」 は速度の遅い日本語設定ではあまり見れないですが、プレビューがディスプレイ全体の左上に表示されます
そこのフォントや透過度を設定できます
これで日本語でも OCR できるはずです
では結果は
日本語を選んでる分、アルファベットや数字は部分は弱いようです
ですが 全体的にはいい感じにできてます
他にもいろいろためしてみたらこんな間違いがありました
似ている文字の細かい部分が別のものになっていたり、一つの文字が二つの文字で表示されていたりが多いです
元のテキスト | OCR テキスト |
---|---|
r | 「 |
関して | 閏して |
情報 | 惰報 |
現象 | 王見蒙 |
ル | 丿し |
Firefox | Firef。x |
Capture2Text | CaptureZText |
フォントのものでもこれなので 手書きだとあまり効率よくはならないかも
「情報」が「惰報」なんて流し見で確認してたら見逃しそうです
「日」と「曰」みたいな間違い探しをするのと一から手打ちするのってどっちが楽なんでしょうね・・・
ところで、マイクからの音声もキャプチャできると紹介してるページもありますがその機能はありません
実験的機能で 2015年5月のアップデート Version 3.6 で削除されました
コメントする