田中 もともと「国立国語研究所」(注1)は、戦後すぐの1948年に「これからの日本語をどうすべきか」という問題意識のもと、国によって設立された組織なんですね。以来、一貫して日本語の実態把握と研究に務めてきました。その中で、90年代後半から「日本語コーパス」プロジェクトがスタートしました。
小木曽 「コーパス」(注2)とは、端的に言えば、コンピューターによる検索や集計が可能な大量の言語データのことです。実は、日本語のコーパスを作るのは大変なのです。英語ですと、単語ごとに分かれていますから比較的作業がしやすいのですが、日本語だとそうはいかない。
田中 90年代前半までは、カードに単語を書き出すなど、手作業で進めていましたね。ようやくプログラムもできあがり、現在は奈良時代から現代まで、日本語の歴史を一本の線で結べるような、「日本語歴史コーパス」(下記囲み記事参照)に取り組んでいるところです。
小木曽 明治・大正期の総合雑誌『太陽』から5年分を抽出した『太陽コーパス』や、同じく明治・大正期の女性雑誌(『女学雑誌』『女学世界』『婦人倶楽部』)から40冊を抽出した『近代女性雑誌コーパス』など、スタートは近代語のコーパスからでした。
田中 そこから江戸に遡る手もあったのですが、近世の文章は、語彙や意味も豊富で、作業が難しいんですね。そこで、試作版として平安時代の作品を取り上げたのですが、これが思った以上にうまくいった。その時に、ベースとして利用したのが、ジャパンナレッジにも搭載されている『新編 日本古典文学全集』(小学館刊)です。原典がしっかりしていますし、研究者の多くも利用する。安心できるベースだ、というのがこの全集を選んだ理由です。
小木曽 現在、『日本語歴史コーパス』は、オンライン検索ツール「中納言」で利用できます。ここではまだ、平安時代の14作品(『枕草子』や『源氏物語』など)と室町時代の狂言しか収録されていませんが、これから次々と増えていく予定です。試しに、「語彙素」を選択して好きな単語で引いてみると、単語ひとつひとつに、「前文脈」や「後文脈」、「品詞」、「本文種別」、「話者」、「作品名」、「成立年」など、20以上の情報がついています。形態素解析という技術があるのですが、これによって、単語の情報が自動で付けられるようになりました。さらに、その単語が出てくるのが会話文なのか地の文なのか、会話文だとしたら話者・性別まで、細かな情報をコーパスによって一瞬で把握できるようになりました。
田中 私たちは、この『日本語歴史コーパス』によって、新しい発想や研究が生まれることを期待しています。例えば、現代社会では、使用されている言葉の半分が漢語なんですね。平安時代はというと、「物語の出で来はじめの親」である『竹取物語』でわずか5%。こうしたことが、『日本語歴史コーパス』だとたちどころにわかるんです。
では、具体的に検索してみましょう。例えば、「世界」、「世間」という言葉があります。ニュアンスは違いますが、どちらも同じ意味合いを持つ漢語です。これを『竹取物語』で検索してみます。
まずは「世界」。4つ出ました。3つが地の文、1つが会話文です。会話部分を確認してみましょう。〈昔の契りありけるによりてなむ、この世界にはまうで来たりける〉。外部リンクの「JK」をクリックすると、ジャパンナレッジの本文画像に飛びます。訳文を確認すると、〈前世の宿縁によって、この世界に参上して……〉とあります。
続いて「世間」。1つしか出ません。これも会話文です。〈見れば、世間心細くあはれにはべる〉。「JK」の訳文で確認すると、〈月を見ると、世の中が心細く……〉とあります。
どうやら、この時代も、現代社会と同じニュアンスで「世界」と「世間」を使い分けていたことがわかります。
小木曽 「犬」や「猫」、こうした身近な言葉で引いてみるのも面白いですよ。どの作品に出てくるのかすぐに分かります。平安時代に限って言えば、犬より猫のほうが多く登場しますが、室町になると犬の登場例のほうが多くなってきます。
当たり前のように今、私たちが使っている言葉を検索しましたが、ここからもわかるように、日本語では1000年前の言葉が、現代でも使われている。これは世界的に見ても希有な事例です。例えば、英語は1000年前にはまだ完成していなくて、今とはずいぶん違ったものです。ところが日本語は基本的な部分はそんなに変わっていない。私たちが用いている日本語は、実は、古典の中の言葉と繋がっているのです。
田中 『日本語歴史コーパス』のもうひとつの利点は、言葉の濃淡がわかることです。例えば、『日本国語大辞典』を引くと、その言葉の初出がわかります。しかし使用頻度はわからない。辞書は言葉が等価に扱われているからです。『日本語歴史コーパス』を用いれば、誰によって、どのように、そしてどのくらい使われていたのか実態が見えてくるのです。
あるひとつの言葉を手がかりに、古典の中に入っていけるわけですから、新しい古典の楽しみ方が生まれるかもしれません。
(注1)国民の言語生活や外国人への日本語教育についての調査・研究機関。昭和23年(1948)設立。平成13年(2001)独立行政法人に移行。平成21年(2009)独立行政法人を解散し、大学共同利用機関法人人間文化研究機構に移管。東京都立川市にある。(「大辞泉」)
(注2)「コーパス」は英語ではcorpus(複数形 corpora)と書き、ラテン語corpus(体)からきている。corpse(死体)、corps(兵隊)と同語源。コーパスcorpusということば自体は、文学のある領域や作家の「集成、全集」などをさす語として20世紀前半から用いられていたが、「言語分析のための言語資料体」という言語学的用法としてはOED(Oxford English Dictionary:オックスフォード英語辞典)では1956年を初出としている。(「日本大百科全書」「コーパス言語学」由来の項)
小木曽 『日本語歴史コーパス』とジャパンナレッジが2015年4月より連携したことで、使い勝手が非常によくなりました。コーパスで検索しながら、基盤となる実際の本文ページを確認できますから、思索も研究もグッと深まります。
田中 ただ、ゼミで使おうとすると難しいんですよね(笑)。本校の契約ですと、一度にジャパンナレッジにアクセスできる数に上限がある。そのゼミの間だけでも、ゼミ生全員が一時的に使用できるようになると嬉しいですね。
小木曽 同感です。いずれにせよ、『日本語歴史コーパス』とジャパンナレッジの連携で、新しい研究が生まれていくことを期待しています。学生のみなさんや研究者には大いに利用してほしいですね。