言語のデータベース「コーパス」で明らかにする、日本語の使われ方

「えっと」「まぁ」「うーん」……
私たちは普段、何気なく「えっと」や「まぁ」、「うーん」などの言葉を挟みながら話をしています。「フィラー」と呼ばれるこれらの言葉は、会話をなめらかにしたり、次に言うことが出てこないときに時間稼ぎをしたりする働きを持っています。それでは、日本語の中で一番多く使われるフィラーは、どの形でしょうか? この問いに正確に答えることは、母語話者であっても難しいでしょう。そこで力を発揮するのが、大量の言葉を記録してコンピュータで検索できるようにしたデータベース「コーパス」です。
日本語の使われ方を明らかにする
コーパスを検索することにより、日本語がどのように使われているのか、その実態を明らかにすることができます。例えば、約651時間、752万語の講演音声を収録した「日本語話し言葉コーパス」を検索すると、日本語の講演の中で最も多く使われるフィラーは「えー」であることがわかります(122,651回、フィラー全体の25.2%)。
では、書き言葉の中で、「たまご」「タマゴ」「玉子」「卵」のうち、最も多く使われるのはどの表記でしょうか? 「見られる」と「見れる」、「考えられる」と「考えれる」は、それぞれどれくらいの比率で使われているでしょうか? このような、母語話者が頭で考えてもわからない「日本語の使われ方」に関する問題を解くために、コーパスが必要になるわけです。
最先端の日本語研究
日本語コーパスの開発は2000年代から本格的に始まりました。現代では、いろいろなタイプの書き言葉を収録した「書き言葉コーパス」、外国人(非母語話者)が日本語を話したり書いたりした結果を収録した「学習者コーパス」、普段の日常会話を映像つきで収録した「日常会話コーパス」など、さまざまなコーパスの開発が盛んに進められています。コーパスに基づく日本語研究は、言語学と情報科学が融合した、最先端の日本語研究と言えます。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報

専修大学 国際コミュニケーション学部 日本語学科 教授 丸山 岳彦 先生
興味が湧いてきたら、この学問がオススメ!
日本語学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?