韓国の新聞アーカイブを日本語に自動翻訳して読む方法

韓国の新聞アーカイブを日本語に自動翻訳して読む方法

みなさんこんにちは。
フィルムカメラ系Vtuberの御部スクラです。

最近、韓国のカメラについて調べることが多かったので、その方法について紹介したいと思います。

韓国の新聞を調べる方法

他の動画でも話している通り、佐藤成夫さんの同人誌『佐藤評論 番外編』がきっかけで、わたしも韓国のカメラについて調べるようになりました。

書籍紹介 『佐藤評論 番外編 知らなくても困らない韓国カメラの世界』

この動画をUPするまでの1ヶ月ちょっとで、おそらく韓国国内以外では知られていなかったことをザクザクと掘り返すことができたのですが、そのブレークスルーになったのが、Web上で公開されている、韓国の新聞のアーカイブなんですよね。

韓国語の新聞記事を探してみようと思ったきっかけ

そもそも、なぜ韓国語の過去の新聞記事がネットで読めるかもしれないと思ったかというと、とある文筆家の方がきっかけでした。

それが『「舞姫」の主人公をバンカラとアフリカ人がボコボコにする最高の小説の世界が明治に存在したので20万字くらいかけて紹介する本』の著者である、山下泰平さん Twitter:@kotoriko です。

「舞姫」の主人公をバンカラとアフリカ人がボコボコにする最高の小説の世界が明治に存在したので20万字くらいかけて紹介する本

山下泰平さんが2019年の暮れにblogに投稿した記事で「戦前の日本語新聞を読んで遊ぶ」というものがありました。

具体的には、戦前、日本統治下の韓国で刊行されていた新聞が、「韓国国立中央図書館」で大量にアーカイブとして公開されている、という情報です。
韓国国立中央図書館のアーカイブは韓国語、ハングルのものに限らず、当時日本語で刊行されていた新聞も分け隔てなく公開しているのでした。

韓国国立中央図書館公式Webサイトより「대한민국 신문 아카이브」(大韓民国新聞アーカイブ)
https://www.nl.go.kr/newspaper/index.do

韓国では新聞アーカイブが充実しているのではという直感

さて。
ということを知っていた上で、つい最近、韓国のカメラに興味を持ったときに「これはもしかして、韓国ではそのほかにも新聞のアーカイブが充実しているんじゃないか?」と思ったんです。

そうしたら、想像以上の成果があったんです。

順番に見ていきましょう。

文字起こしされているアーカイブ

まず、過去の新聞記事が文字起こしされている新聞から。

文字起こしされている場合、そのまま自動翻訳にかけられるので楽です。

朝鮮日報

조선 뉴스 라이브러리 100(朝鮮ニュースライブラリー100)

まずは朝鮮日報。

朝鮮日報のWebサイトでは、조선 뉴스 라이브러리 100(朝鮮ニュースライブラリー100)という過去の紙面アーカイブが公開されています。

このアーカイブはかなりすごくて、記事がすべて文字起こしされているうえに、紙面の画像までそれなりの解像度で閲覧することができます。

조선 뉴스 라이브러리 100(朝鮮ニュースライブラリー100)
https://newslibrary.chosun.com/

中央日報

中央日報

中央日報のWebサイトでもかなり古い記事まで、文字起こしされたアーカイブを読むことができます。
こちらはトップページの検索窓からそのまま検索できます。

中央日報
https://www.joongang.co.kr/

毎日経済新聞

毎日経済新聞

毎日経済新聞という韓国の新聞のWebサイトですが、Youtubeにいただいたコメントを見ると、こちらもアーカイブがあるようです。
ただ、こちらについてはまだ使い方がわかっていません。

わたしは毎日経済新聞については、次に紹介するNAVERニュースライブラリを使っています。

毎日経済新聞
https://www.mk.co.kr/

文字起こしされていないアーカイブ

次に、紙面の画像をそのまま読めるアーカイブです。

NAVERニュースライブラリ

NAVERニュースライブラリ

これは断然、NAVERニュースライブラリが凄いです。

NAVERニュースライブラリ
https://newslibrary.naver.com/search/searchByDate.naver

京郷新聞、東亜日報、毎日経済新聞、朝鮮日報、ハンギョレの5紙の紙面が1920年から1999年まで公開されています。

検索は日付のほかフリーワードでも可能です。

閲覧画面を開くと、このように紙面の画像のほか、文字起こしされたテキストも出てきます。

NAVERニュースライブラリ 閲覧画面

ただ、こちらについては文字起こしテキストは著作権上の問題か、コピペができないようになっています。

そのため日本語に翻訳する場合、ちょっとひと手間かける必要があります。

韓国語新聞を日本語翻訳して読む

さて、わたしは韓国語ができません。
ハングルも読めません。

なので、自動翻訳で読んでいます。

余談ですが、キリル文字が読めないのになぜかЗоркийやИндустарが読めるのと同じように、なぜかハングルが読めないのに카메라とか니콘とかは読めるようになりつつあります。

韓国語の自動翻訳は実用になる

よく、日本語と韓国語は文法が近いといいますが、実際、想像以上に韓国語の自動翻訳は実用的です。
再翻訳を行って見比べれば、それなりの精度で内容を掴むことができるでしょう。

わたしは、こちらもNAVERが提供しているPapago ウェブサイト翻訳を使用しています。
印象としては英語をDeepL翻訳するよりも精度が高いです。

しかも、DeepLみたいに勝手に文章がはしょられるようなこともありません。

NAVERニュースライブラリをOCRにかける

さて、NAVERニュースライブラリの記事を読みたい場合、わたしはOCRにかけてから翻訳しています。

具体的な方法を見ていくと……

スクショする

まずは文字起こしテキストをスクショします。

OCRの精度を高めるためにブラウザの表示を拡大した状態でスクショ

このとき、OCRの精度を高めるためにブラウザの表示を拡大した状態でスクショしています。

Google Driveに画像をアップロード

そうしたら、Google Driveに画像をアップロードします。

Googleドキュメントで開く

Googleドキュメントで開く

画像ファイルを右クリックして、アプリで開く→Googleドキュメントで開きます。

文字起こしされる

文字起こしされる

これで自動で文字起こしされます。
新聞記事程度のテキスト量なら待つことなく開きます。

精度についてですが、ハングルは非常に高い精度でOCR可能です。

ゴミ取り

ですが、このままでは自動翻訳できません。

過去の韓国語の新聞を自動翻訳するときにネックになるのが漢字です。

OCRしたままの状態のテキスト

1990年代前半くらいまでは、韓国の新聞では漢字ハングル混じり文が使われています。

どうやら、GoogleドキュメントのOCRは漢字ハングル混じり文には対応していないようで、漢字はまともに起こしてくれません。

もちろん、そのまま自動翻訳に突っ込むと訳文はめちゃくちゃです。

そこで、元のテキストと見比べながら手動でゴミ取りします。

自動翻訳する

自動翻訳した結果

ということで、ゴミ取りしたテキストを自動翻訳したところ、無事、意味の取れる文章になりました。

韓国語で検索するコツ

韓国語で検索するときのコツは、あらかじめハングルに自動翻訳してから検索するということです。

たとえばわたしはカメラについて調べていますが、大韓光学のKOBICAというカメラは、ハングルで대한광학 코비카このように表記されていることのほうが多いのですよね。

よくよく考えるとこれって、日本人のカメラマニアが、Nikonをニコン、Leicaをライカのようにカタカナで表記するのとまったく同じことです。

たぶん、日本国外のカメラマニアは、わたしが韓国語に対して感じたのと同じように、カメラについての情報が見つからずに歯がゆい思いをしているのでしょう。

ということがわかったので、わたしは今後できるだけ、カメラ名をカタカナで書いたときはアルファベットも併記するようにしようと思ったのでした。

まとめ

ということで、韓国語、ハングルの新聞を日本語話者が読むためのノウハウでした。

自動翻訳に頼るなんて問題外だと感じる方もいるかもしれませんが……ということは、韓国語ができるということですよね!
韓国カメラについては情報が非常に少なく、韓国ができる人材が求められています。

これは佐藤成夫さんが言っていたのですが、けっこうガチで、韓国語ができる人が一人いるだけで、韓国カメラについての不明なことが一気に判明してしまうと思います。

カメラという分野の中でもとくに研究途上な分野なので、本当に、この分野を調べる人が一人でも増えてくれたらなぁ、と思っています。

ありがとうございました。
御部スクラでした。

韓国製カメラの関連記事

大韓光学 KOBICA 35 BC-1 韓国初の国産カメラ

大韓光学 KOBICA 35 BC-1 分解時の内部写真

韓国カメラ史年表(暫定) 韓国製フィルムカメラの歴史