翻訳データベースの検索システムを開発しているGC学部の仁科教授が英語コーパス学会で研究発表しました
2022/10/11
英国オックスフォード大学客員教授として翻訳データベースの検索システム開発にあたっているグローバル・コミュニケーション学部の仁科恭徳教授が10月1日、オンラインで開催された第48回 英語コーパス学会で研究発表を行い、日英・英日パラレルコーパス(注1)を検索するためのサイト「Parallel Link (パラレルリンク)」のプロトタイプ(試作品)を無償一般公開しました。
詳しくはこちら
(注1)パラレルコーパス:ある言語のテキストと翻訳されたテキストを文や段落の単位で対応させた2言語以上から構成されるコーパスのこと。コーパスとは、言語学において、統計的な分析や研究を行う目的で集めて構築した言語テキストの集合体のことです。ほとんどが電子化されています。
仁科教授らが開発したツールは、国立国語研究所と旧Lago言語研究所が共同開発した「現代日本語書き言葉均衡コーパス」(Balanced Corpus of Contemporary Written Japanese: BCCWJ)と「筑波ウェブコーパス」(Tsukuba Web Corpus: TWC)のオンライン検索システム「NINJAL-LWP」でも採用された「インターフェース」(注2)をベースにしています。起点言語となる日本語の見出し語のパターン分析を可能にし、その共起語(あるキーワードと一緒に使われやすい言葉や単語)抽出における統計指標をNINJAL-LWPよりも充実させ、さらにその対訳結果が瞬時に一覧表示されるように設計されています。
(注2)インターフェース:パソコンやスマートフォンに表示されている検索画面を指し、さまざまな分析機能が実装されたもの、およびその「アーキテクチャー(≒構造)」。
「専門家の調査・分析にも耐えうる国内では唯一のレキシカルプロファイラー(注3)を搭載した翻訳データベース検索システム」(仁科教授)となっています。現在公開されているのがVer.1.2で、より検索機能を高め、データ増補に努めたVer.2.0を今後開発する予定です。
(注3)レキシカルプロファイラー:研究社のホームページなどによると、コーパスを利用して、語の「共起」(どの語とどの語が一緒に使われやすいか)関係や文法的な使われ方などを調査した情報を集積し、結果を統計的に処理したうえで、その語の特徴的な「振る舞い」を提示する役割を果たすものです。
なお、本ツールはJSPS科研費20K00692 の助成を受けて開発されています。