ナレッジ

フェイクニュースと自然言語処理

テクノロジー、アルゴリズムの観点から紐解く

本稿のキーワード:自然言語処理、分散表現(埋め込み表現)、単語埋め込み、Transformer、言語モデル、BERT、XLNet 、GPT、フェイクニュース

インターネットがモバイルを介して広く普及している現代社会において、世界のどこかで発信されたデマが別の場所で暴発し思いもよらない損害を被る時代が到来したことを、新型コロナウイルスをめぐるフェイクニュースから実感されている。冷静に考えれば、自ら裏付け情報等を確認することも出来るが、平時とは異なる精神状態にあればあるほど信じ込んでしまう傾向があるのも特徴である。ソーシャルメディアが隆盛を極める現在は、誰でも簡単に情報発信やシェアを出来ることから、デマの拡散に拍車がかかっている。さらに、驚くべきことであるが、人は真実よりも虚偽の情報を拡散する傾向があるとの調査結果がある[1]。

 

公開が見送られた人工知能「GPT-2」

イーロン・マスク氏などが共同会長を務める非営利団体のAI(人工知能)研究企業OpenAIは2019年2月、文を生成する言語モデル「GPT-2 (Generative Pre-Trained-2)」[2]を発表した。しかし、OpenAIはGPT-2がフェイクニュース作成に悪用されるとして、この技術革新の影響について考える時間をとるため開発した4つのモデルを一度に一般公開せず、段階的に公開していくという異例の対応に出た。なぜならGPT-2は特定の個人が過去に書いた文章を学習することで、これまで発表されてきた言語モデルと比べ「説得力」を持って、その個人が書きそうな文章を自動で作成出来る可能性を示したからである。さらに2020年5月にはGPT-2の改良版にあたるGPT-3に関する論文[3]が発表され、2020年6月にはGPT-3のAPIが公開された。これらを応用すると、ネット上に大量に溢れるフェイクニュース、スパムメール、不正論文まで、人間によるものか人工知能によるものか判別できなくなる未来がそう遠くないと筆者は予想している。

 

機械は言葉の意味をどう学習するか?

単純な単語埋め込み表現Word2vec

2013年に提唱されたWord2vec[4,5,6]は,近年注目されているディープニューラルネットワークではないが、2013年当時は意味記述に対するアプローチで自然言語処理分野に大きなブレークスルーをもたらした手法である。Word2vecは、コンテキスト(文脈)が判別できる十分な大きなコーパスデータ中の単語の出現例に基づき統計的に単語の関係性を認識する。具体的には、2層のニューラルネットワークの中間層にて算出される特徴量ベクトル(feature vector)を利用する。その際に重要となるアイデアは”分布仮説”である。これは、ある単語の意味は周囲の単語つまり文脈から決定されるという考え方である。これによって、”ある単語と他の単語との関連性”をかなり高い精度で推測することが出来る。つまり、分散した単語の特徴(例えば個々の単語のコンテキストなど)をWord2vecにより数値的なベクトルとして表現することで、ある単語の類似語をベクトル空間にグループ化することが出来る。さらに類似ベクトルをクラスタリングするとWord2vec の単語空間上に”トピック”が検出出来る様になる。

汎用言語表現モデルBERT

Word2vecなどの単純な単語埋め込み表現では、ある単語のひとつひとつに対して”文脈に依存”せず同じ数値ベクトルが出力されてしまうことが長らく課題とされていた。ここで”文脈に依存する”とは、具体的に、文中にある節の順序関係や前置詞や格助詞により、主体や意図して強調される内容が異なることを意味する。また、文中に出現する形容詞や多義語(類義語)の意味も変化する。スマートスピーカーのような音声検索デバイスが生活空間に浸透しつつある中で、これまでの単純な単語の羅列だけのクエリ検索から、微妙なニュアンスの違いが含まれる口語的な文による検索へとシフトする中、Word2vecの課題解決が望まれていた。この課題が解決されるためには、機械が単語の文脈を考慮した理解が出来ることが必要とされたのである。その背景のなか、2018年にGoogle は汎用言語表現モデルBERT[7]を発表した。

BERTは、Transformer [8]と呼ばれるディープラーニング手法を発展させ、自然言語処理をはじめとする深層学習用に特化したプロセッサ(TPU; Tensor Processing Unit)と33億単語が収録された大規模なコーパスを利用して実現した。自然言語処理のタスクには様々な種類があるが、人がそれらのタスクを個別に学習しないのと同様に、これらのタスクは言語に関するメタな知識を共有しているはずである。既存のモデルそのものを改良しなくとも、ニューラルネットワークの前に接続するだけで精度が向上するという点で、BERTは評価されている。これは転移学習と呼ばれ、ディープラーニングによる学習済みモデルの転移学習が画像や音声データにおいて躍進的な向上を遂げている中、自然言語処理分野においても遂に実証されたことになる。そしてBERTはGLUE (General Language Understanding Evaluation) [9]と呼ばれる代表的なベンチマークテストにおいて、当時、すべてのタスクにおいて非常に高い精度を一度に発揮し、一部のスコアは人を超えるなど、自然言語処理研究に大きなインパクトを与えた。

BERTが話題になった2018年10月から4ヶ月後に、前述のGPT-2がOpenAIから発表され、その半年後にCarnegie Mellon University からXLNet[10]、また2019年7月に早くもBERTの改良版として、Microsoftの共同設立者の一人であるポール・アレンが設立した「アレン人工知能研究所(Ai2)」からRoBERTa[11]、さらに9月にBERTを軽量化したモデルALBERT[12]発表された。2020年8月現在は、2020年2月にGoogleが発表したT5[13]が最も高いスコアを残しているが、これも半年経たないうちに記録が塗り替えられるだろうと予測されている。このようにめまぐるしく記録が更新されていくこの分野の発展に驚かされるとともに、最近は様々なタスクで人間を超えると主張するモデルが多数登場していて、「機械の言語能力をどうやって測るか」という問題を再定義することが必要になっていると筆者は感じている。

GPT-3

OpenAIが発表したGPT-3[3]はGPT-2と同様に自己回帰型言語モデルと呼ばれる、シーケンスが与えられた際に次にくる単語の出現確率を出力するモデルを採用している。また、特定のタスクを解く場合に転移学習が必要となるBERTとは異なり、GPT-3はFew-shotと呼ばれる、タスクに関連するいくつかの事例をモデルに入力することでタスクに適応する手法を採用している。Few-shotを採用することで転移学習用データセットを用意する必要がなくなる。その他GPT-3で特筆すべき点は1750憶(GPT-2の117倍)という膨大なパラメータを含んだ巨大なモデルで、45TBの大規模データセットから学習している点である。昨今のディープラーニングはモデル巨大化による性能向上が主流であり、GPT-3はこの潮流に真正面から立ち向かったものである。GPT-3は英語で記載されたクエリからのプログラム自動生成、人間との自然な対話、人が書いたものと見分けがつかない文書生成等が可能な一方で、ナンセンスな(文法的には正しいが、現実世界の常識が反映されていない)問いかけに対しては人間のような受け答えができないといった指摘が存在し、モデルの巨大化による性能向上の限界を認識する必要がある。

また、GPT-3はモデルが段階的に公開されたGPT-2とは異なり、APIによる公開となっている。OpenAI[14]によれば、GPT-2の公開時に懸念されたモデルの悪用について、モデルのオープンソース化よりもAPIによる公開のほうが問題に簡単に対応できるためとしている。

 

人間によるフェイクニュース拡散の加速

マサチューセッツ工科大学は2018年に、それぞれ独立した6つのファクトチェック機関により情報の真偽が確認されている約126,000件のツイート(Twitterに投稿された情報)の情報拡散に関する調査を発表した[1]。この調査によると、フェイクニュース(偽情報)は、真実に基づいた情報よりも、速くかつ広範囲に拡散されることが確認された。特にこの傾向が顕著なのは政治的な情報であることも明らかになっている。しかし、ここでは、大きな影響力を持つエンティティが自身に不利な情報に対して真偽に関わらず“フェイク”のレッテルを貼り、フェイクニュース拡散のダイナミクスを悪用することも不可能ではないということは注意が必要である。

また、フェイクニュースは機械的なアカウントであるBOTよりも人間により拡散されていることも明らかになった。これは、現在の主なフェイクニュース対策である悪質なBOT検知では根本解決とならないことを示している。オンライン上のフェイクニュースが明らかに増加傾向にあるなかで、フェイクニュース対策の必要性が増していることに疑いの余地は無い。IT等の技術的な側面からではなく、人間がフェイクニュースを拡散しないための対策も検討しなくてはならないのだ。

 

「人間的洞察」と「AIによるインサイト」との融合

このように近年急成長を遂げている自然言語処理技術を用い、企業のビジネスモデルや長期的な成長力、価値創造の能力に対する新たなリスクを特定、分析、監視することへの期待が高まっている。リスクセンシングとは,企業の経営陣や意思決定者に対して潜在もしくは顕在化している最も企業に関連のあるリスクを特定するものだ。何故なら、企業価値に占める無形資産、特にテキストデータの割合や重要性が高まってきており、それに伴い財務情報などからだけでは得られない情報をあらかじめセンシングする需要が高まっているからだ。

リスクセンシングでは、「人間的洞察」により様々なシナリオを想定することで、イベントやトレンドそして異常性の戦略リスク指標を特定、企業のリスク許容水準および閾値との監視を行っている。また、近年急速に進展してきたアナリティクスと組み合わせた高度な分析が期待されている。しかし、人間の認知に迫る数々の記録を出している最新のディープラーニングを駆使した自然言語処理技術を活用したとしても、依然として「人間的洞察」が必要とされる”企業の潜在的なリスクシナリオ”を想定することはとても難しい。一方で、人間が処理できないほどの大量の記事からリスクシナリオを構成するひとつのトピック(主題)を機械が分析して定量的な指標を提供した後に、社会に及ぼす影響(世論や政策対応・制度化など)の進行度合いなどの事象を人間が俯瞰し、整理することで定性的なインサイトを獲得するといった高度なリスクセンシングの支援をすることも可能だ。

本稿では、自然言語処理分野で大きな話題となった最新の言語モデル「GPT-3」や「BERT」を紹介した。これらを利用して文章を出力させると,TwitterやFacebookなどのSNSへの投稿するための短い文章のみならず、詩や小説、ニュース記事やプログラムのコード、ギターのタブ譜などが再現され“人間にしかできないこと”の根本を考えさせられている。しかし、現状これらのモデルは初期のWord2vecでは得られなかった単語や文書の埋め込み表現(feature vector)が得られるようになっただけであり、人間のもつ「常識」を直接的に有して判断しているわけではない。すべからく、現段階においても人間的洞察による問題定義がビジネスにおいて重要な点には変わりはないと筆者は信じている。とは言え、高度なアナリティクスを用いたパターン認識と機械学習は、従来人間が認識し得なかった要素をデータから意思決定に資する情報を的確に発見することが出来るであろう。

[参考文献]

[1]   VOSOUGHI, Soroush; ROY, Deb; ARAL, Sinan. The spread of true and false news online. Science, 2018, 359.6380: 1146-1151.

[2]   A Radford, J Wu, R Child, D Luan, D Amodei, “Language Models are Unsupervised Multitask Learners”, (2019).

[3]   Brown, Tom B., et al. "Language models are few-shot learners." arXiv preprint arXiv:2005.14165 (2020).

[4]   Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig, “Linguistic Regularities in Continuous Space Word Representations”, NAACL, (2013).

[5]   Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, “Efficient estimation of word representations in vector space”, ICLR, (2013).

[6]   Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, “Distributed representations of words and phrases and their compositionality” NIPS, (2013).

[7]   Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, NAACL-HLT, (2019).

[8]   Ashish Vaswani, Noam Shazeer, and Illia Polosukhin, “Attention is All you Need”, NIPS, (2017).

[9]   “GLUE, the General Language Understanding Evaluation benchmark” , (https://gluebenchmark.com/tasks)(2020/4/3)

[10]         Zhilin Yang, Zihang Dai, and Quoc V. Le, “XLNet: Generalized Autoregressive Pretraining for Language Understanding”, NeurIPS, (2019).

[11]         Yinhan Liu, Myle Ott, and Veselin Stoyanov, “RoBERTa: A Robustly Optimized BERT Pretraining Approach”, ArXiv, (2019).

[12]         Zhen-Zhong Lan, Mingda Chen, and Radu Soricut, “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations”, ICLR, (2020).

[13]         Colin Raffel, Noam Shazeer, and Peter J. Liu, “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”, ArXiv, (2019).

[14]         OpenAI API https://openai.com/blog/openai-api/

■執筆者プロフィール

毛利 研

有限責任監査法人トーマツ リスクアドバイザリー事業本部
デロイトアナリティクス マネジャー

国内最大級のインターネットサービス企業におけるR&D部門にて、機械学習およびディープラーニング、自然言語処理技術の研究および同テクノロジを利用した機能開発をプロダクトマネージャーとしてリード。研究開発の他、AIやブロックチェーンテクノロジを含む最新技術をビジネスモデルのコアとするベンチャー企業への投資実行の経験も有する。その後、有限責任監査法人トーマツに勤務、経営の課題解決やアナリティクス組織の立ち上げから高度化に繋がるデータ分析活動の推進支援に関わる。大手メーカー時代は、防衛事業を主にする部署にて情報システムの開発、米国拠点において国防省・諜報機関の先端技術動向調査に従事。

 

深澤 信也

有限責任監査法人トーマツ リスクアドバイザリー事業本部
デロイトアナリティクス

素粒子物理学において博士(理学)取得後、有限責任監査法人トーマツに入社。金融機関を中心に、データを活用した法人営業の効率化・高度化支援、機械学習を用いたマーケティング高度化支援等のコンサルティング業務に従事するとともに、機械学習・数理最適化・量子コンピュータといった分析技術の研究開発にも従事している。

 

Deloitte Analyticsトップページへ戻る

サービス内容等に関するお問い合わせは、下記のお問い合わせフォームにて受付いたします。お気軽にお問い合わせください。

オンラインフォームより問い合わせを行う

お役に立ちましたか?