データサイエンスで古典籍の研究をバックアップ
昔の日本語、読めますか?
商店の看板などに、学校で習わないひらがなが使われていることがあります。現在の五十音表にない「変体仮名」と呼ばれるものです。ひらがなの元になっている漢字を「字母」や「字源」といいますが、変体仮名は、異なる字母や字形を持つものです。例えば現在使われている「あ」の字母は「安」ですが、ほかにも「愛」「阿」「惡」などが字母の「あ」があります。変体仮名は今から100年くらい前までは学校で教えられており、日本で広く使われていました。しかし明治期に現在のひらがなが統一されたあとは、一部の地名や人名に残っているものの、今やほとんどの人が読めなくなってしまいました。
機械学習で古文書を解読
江戸時代以前の文書は、字の形を崩した「くずし字」で書かれています。古典籍のくずし字を読んで活字化・テキストデータ化することを「翻刻(ほんこく)」といいます。くずし字は文字の種類の区別が曖昧であるなど、現代人には読むのが難しい文字ですが、さらに親しみのない変体仮名が加わることで判読の困難さが増しています。これまでは人の手によってくずし字翻刻が行われ、データベース化されてきました。しかしくずし字を読める人は少なく、大変な労力が必要であるため、有名な古典籍以外では翻刻は進んでいません。そこで、機械学習の画像認識技術を活用し、コンピュータにくずし字を認識させる「自動翻刻」が開発されています。
文字認識精度の向上をめざす
文字認識の精度をあげるためには質のよいデータを学習させることが必要で、そのための工夫が模索されています。既存の一般的な文字認識では、ひらがなの字母の違いが考慮されていません。そこで字母の違いを情報として与えて学習させたところ、認識精度の向上がみられました。
くずし字の文字認識はいまだ途上にあり、熟練した専門家と同程度に認識できる精度が目標とされています。同時に、広く一般の人々が古典籍にアクセスできるよう、データベースの拡充に向けた開発が進められています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
同志社大学 文化情報学部 文化情報学科 准教授 深川 大路 先生
興味が湧いてきたら、この学問がオススメ!
計算情報学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?