JKボイス お客様の声知識の泉へ
ジャパンナレッジを実際にご利用いただいているユーザーの方々に、その魅力や活用法をお聞きしました。
毎回さまざまなジャンルの方々にご登場いただく、インタビューコーナー。お仕事のことや、大好きな本や辞書、そしてジャパンナレッジにのぞむことなど、たっぷり語っていただきます。
2015年06月

開発者に聞く
『日本語歴史コーパス』とは?

田中牧郎さん
(たなか・まきろう、写真左)
明治大学国際日本学部教授、国立国語研究所言語資源研究系客員教授
小木曽智信さん
(おぎそ・としのぶ、写真右)
国立国語研究所言語資源研究系准教授
今年4月、『新編 日本古典文学全集』と国立国語研究所の『日本語歴史コーパス』との連携サービスがスタート。今回は『日本語歴史コーパス』の成り立ちや、両者の連携によって生まれた新たな古典の楽しみ方など、開発者お二人にうかがいました。

90年代後半から始まった「日本語コーパス」

田中 もともと「国立国語研究所」(注1)は、戦後すぐの1948年に「これからの日本語をどうすべきか」という問題意識のもと、国によって設立された組織なんですね。以来、一貫して日本語の実態把握と研究に務めてきました。その中で、90年代後半から「日本語コーパス」プロジェクトがスタートしました。

小木曽 「コーパス」(注2)とは、端的に言えば、コンピューターによる検索や集計が可能な大量の言語データのことです。実は、日本語のコーパスを作るのは大変なのです。英語ですと、単語ごとに分かれていますから比較的作業がしやすいのですが、日本語だとそうはいかない。

田中 90年代前半までは、カードに単語を書き出すなど、手作業で進めていましたね。ようやくプログラムもできあがり、現在は奈良時代から現代まで、日本語の歴史を一本の線で結べるような、「日本語歴史コーパス」(下記囲み記事参照)に取り組んでいるところです。

小木曽 明治・大正期の総合雑誌『太陽』から5年分を抽出した『太陽コーパス』や、同じく明治・大正期の女性雑誌(『女学雑誌』『女学世界』『婦人倶楽部』)から40冊を抽出した『近代女性雑誌コーパス』など、スタートは近代語のコーパスからでした。

田中 そこから江戸に遡る手もあったのですが、近世の文章は、語彙や意味も豊富で、作業が難しいんですね。そこで、試作版として平安時代の作品を取り上げたのですが、これが思った以上にうまくいった。その時に、ベースとして利用したのが、ジャパンナレッジにも搭載されている『新編 日本古典文学全集』(小学館刊)です。原典がしっかりしていますし、研究者の多くも利用する。安心できるベースだ、というのがこの全集を選んだ理由です。


ひとつの言葉を手がかりに古典を楽しむ

小木曽 現在、『日本語歴史コーパス』は、オンライン検索ツール「中納言」で利用できます。ここではまだ、平安時代の14作品(『枕草子』や『源氏物語』など)と室町時代の狂言しか収録されていませんが、これから次々と増えていく予定です。試しに、「語彙素」を選択して好きな単語で引いてみると、単語ひとつひとつに、「前文脈」や「後文脈」、「品詞」、「本文種別」、「話者」、「作品名」、「成立年」など、20以上の情報がついています。形態素解析という技術があるのですが、これによって、単語の情報が自動で付けられるようになりました。さらに、その単語が出てくるのが会話文なのか地の文なのか、会話文だとしたら話者・性別まで、細かな情報をコーパスによって一瞬で把握できるようになりました。

田中 私たちは、この『日本語歴史コーパス』によって、新しい発想や研究が生まれることを期待しています。例えば、現代社会では、使用されている言葉の半分が漢語なんですね。平安時代はというと、「物語の出で来はじめの親」である『竹取物語』でわずか5%。こうしたことが、『日本語歴史コーパス』だとたちどころにわかるんです。

 では、具体的に検索してみましょう。例えば、「世界」、「世間」という言葉があります。ニュアンスは違いますが、どちらも同じ意味合いを持つ漢語です。これを『竹取物語』で検索してみます。

 まずは「世界」。4つ出ました。3つが地の文、1つが会話文です。会話部分を確認してみましょう。〈昔の契りありけるによりてなむ、この世界にはまうで来たりける〉。外部リンクの「JK」をクリックすると、ジャパンナレッジの本文画像に飛びます。訳文を確認すると、〈前世の宿縁によって、この世界に参上して……〉とあります。

 続いて「世間」。1つしか出ません。これも会話文です。〈見れば、世間心細くあはれにはべる〉。「JK」の訳文で確認すると、〈月を見ると、世の中が心細く……〉とあります。

 どうやら、この時代も、現代社会と同じニュアンスで「世界」と「世間」を使い分けていたことがわかります。

『日本語歴史コーパス』で「世界」を引くと『竹取物語』では4か所出てくる。右のJKというボタンを押すと、ジャパンナレッジの『新編 日本古典文学全集』にリンクされる。
『日本語歴史コーパス』で「世界」を引くと『竹取物語』では4か所出てくる。
右のJKというボタンを押すと、ジャパンナレッジの本文画面が表示される。
※画面をクリックすれば大きく表示されます。

小木曽 「犬」や「猫」、こうした身近な言葉で引いてみるのも面白いですよ。どの作品に出てくるのかすぐに分かります。平安時代に限って言えば、犬より猫のほうが多く登場しますが、室町になると犬の登場例のほうが多くなってきます。

 当たり前のように今、私たちが使っている言葉を検索しましたが、ここからもわかるように、日本語では1000年前の言葉が、現代でも使われている。これは世界的に見ても希有な事例です。例えば、英語は1000年前にはまだ完成していなくて、今とはずいぶん違ったものです。ところが日本語は基本的な部分はそんなに変わっていない。私たちが用いている日本語は、実は、古典の中の言葉と繋がっているのです。

田中 『日本語歴史コーパス』のもうひとつの利点は、言葉の濃淡がわかることです。例えば、『日本国語大辞典』を引くと、その言葉の初出がわかります。しかし使用頻度はわからない。辞書は言葉が等価に扱われているからです。『日本語歴史コーパス』を用いれば、誰によって、どのように、そしてどのくらい使われていたのか実態が見えてくるのです。

 あるひとつの言葉を手がかりに、古典の中に入っていけるわけですから、新しい古典の楽しみ方が生まれるかもしれません。


注1国民の言語生活や外国人への日本語教育についての調査・研究機関。昭和23年(1948)設立。平成13年(2001)独立行政法人に移行。平成21年(2009)独立行政法人を解散し、大学共同利用機関法人人間文化研究機構に移管。東京都立川市にある。(「大辞泉」)

注2「コーパス」は英語ではcorpus(複数形 corpora)と書き、ラテン語corpus(体)からきている。corpse(死体)、corps(兵隊)と同語源。コーパスcorpusということば自体は、文学のある領域や作家の「集成、全集」などをさす語として20世紀前半から用いられていたが、「言語分析のための言語資料体」という言語学的用法としてはOED(Oxford English Dictionary:オックスフォード英語辞典)では1956年を初出としている。(「日本大百科全書」「コーパス言語学」由来の項)

ジャパンナレッジとの連携開始でのぞむこと。

小木曽 『日本語歴史コーパス』とジャパンナレッジが2015年4月より連携したことで、使い勝手が非常によくなりました。コーパスで検索しながら、基盤となる実際の本文ページを確認できますから、思索も研究もグッと深まります。

田中 ただ、ゼミで使おうとすると難しいんですよね(笑)。本校の契約ですと、一度にジャパンナレッジにアクセスできる数に上限がある。そのゼミの間だけでも、ゼミ生全員が一時的に使用できるようになると嬉しいですね。

小木曽 同感です。いずれにせよ、『日本語歴史コーパス』とジャパンナレッジの連携で、新しい研究が生まれていくことを期待しています。学生のみなさんや研究者には大いに利用してほしいですね。


田中牧郎
1962年生まれ。東京工業大学大学院社会理工学研究科博士課程修了、東北大学大学院文学研究科修士課程修了。国立国語研究所において、難解用語の言語問題の改善や、歴史コーパスの構築による日本語史などを研究。近著は『近代書き言葉はこうしてできた』(岩波書店)、『外来語研究の新展開』(共著、おうふう)。

小木曽智信
1971年生まれ。東京大学人文社会系研究科博士課程退学、奈良先端科学技術大学院大学情報科学研究科博士課程修了(社会人学生)。在学中から、国立国語研究所でコーパス作成に携わる。成蹊大学文学部、上智大学文学部非常勤講師として教鞭もとる。著書に『書き言葉コーパス(講座日本語コーパス)』(共著、朝倉書店)など。

取材・文/角山祥道

日本語歴史コーパス

2015_06_web.jpg国立国語研究所がデジタル時代における日本語史研究の基礎資料として開発を進めているコーパス。すべてのテキストに読み・品詞などの形態論情報が付与されているため、総索引の代わりになるだけではなく、より高度な検索や集計を行なうことができるようになっている。現在は「平安時代編」と「室町時代編Ⅰ狂言」を公開(将来的には上代から近代までをカバーする通史コーパスを予定)。2015年4月、『日本語歴史コーパス』の検索結果の用例リストから、ジャパンナレッジの『新編 日本古典文学全集』の当該ページ(本文、現代語訳、頭注)へのリンクが実現した。
※なお「日本語歴史コーパス」【中納言】のご利用には登録が必要です。