データサイエンスで古典籍の研究をバックアップ

データサイエンスで古典籍の研究をバックアップ

昔の日本語、読めますか?

商店の看板などに、学校で習わないひらがなが使われていることがあります。現在の五十音表にない「変体仮名」と呼ばれるものです。ひらがなの元になっている漢字を「字母」や「字源」といいますが、変体仮名は、異なる字母や字形を持つものです。例えば現在使われている「あ」の字母は「安」ですが、ほかにも「愛」「阿」「惡」などが字母の「あ」があります。変体仮名は今から100年くらい前までは学校で教えられており、日本で広く使われていました。しかし明治期に現在のひらがなが統一されたあとは、一部の地名や人名に残っているものの、今やほとんどの人が読めなくなってしまいました。

機械学習で古文書を解読

江戸時代以前の文書は、字の形を崩した「くずし字」で書かれています。古典籍のくずし字を読んで活字化・テキストデータ化することを「翻刻(ほんこく)」といいます。くずし字は文字の種類の区別が曖昧であるなど、現代人には読むのが難しい文字ですが、さらに親しみのない変体仮名が加わることで判読の困難さが増しています。これまでは人の手によってくずし字翻刻が行われ、データベース化されてきました。しかしくずし字を読める人は少なく、大変な労力が必要であるため、有名な古典籍以外では翻刻は進んでいません。そこで、機械学習の画像認識技術を活用し、コンピュータにくずし字を認識させる「自動翻刻」が開発されています。

文字認識精度の向上をめざす

文字認識の精度をあげるためには質のよいデータを学習させることが必要で、そのための工夫が模索されています。既存の一般的な文字認識では、ひらがなの字母の違いが考慮されていません。そこで字母の違いを情報として与えて学習させたところ、認識精度の向上がみられました。
くずし字の文字認識はいまだ途上にあり、熟練した専門家と同程度に認識できる精度が目標とされています。同時に、広く一般の人々が古典籍にアクセスできるよう、データベースの拡充に向けた開発が進められています。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

同志社大学 文化情報学部 文化情報学科 准教授 深川 大路 先生

同志社大学 文化情報学部 文化情報学科 准教授 深川 大路 先生

興味が湧いてきたら、この学問がオススメ!

計算情報学

先生が目指すSDGs

メッセージ

学校の勉強は必要ですが、それ以外にも、自分が興味を持ったことについて勉強するのが大事だと思います。例えば私は、大学に入ってから大学の授業とは別にプログラムの勉強をたくさんしました。それが今の研究につながっています。思わぬところで知識同士がつながったりするので、広く興味を持ち、苦手なものも含めていろいろなことにチャレンジしてください。失敗をたくさんしておくことも大切です。失敗から学ぶことは多いので、失敗しても大丈夫という気持ちで気負わず取り組んでほしいです。

先生への質問

  • 先生の学問へのきっかけは?
  • 先輩たちはどんな仕事に携わっているの?

同志社大学に関心を持ったあなたは

同志社大学は現在14学部34学科16研究科・学生数約28,000人を擁する総合大学となり、創立150周年を迎える2025年に向けて、教育・研究改革を進めています。
教学面においては、今出川・京田辺の両校地で年間約11,600の科目・クラスを開講し(2023年度)、そのうち14学部共通で学べる「全学共通教養教育科目」を約3,300科目・クラス設置しています。さらには、他大学との単位互換制度や副専攻制度を設置するなど、学生の興味・関心に合わせて自由に学ぶことができる充実した学習環境を整えています。