(画像は国务院のサイトより)
この開発計画では、AIがビッグデータを構造化して人間の意思決定をサポートしたり、視覚・聴覚など異なるモダリティのデータを統合的に分析・学習して推論を行うことや、最終的には人間の介在なしに自律的に動作する知的システムの構築を目指しています。
応用領域として、消費者が日常的に使う配送サービスや決済システム、自動運転カー、AIによる医療診断などが考えられており、対話型UIをIoTシステムに組み込むための音声処理・音声認識処理も応用領域の一つです。
雑音がある環境下での音声の認識や、認識した音声を文脈の元で解釈する認知的機能、さらには、音声に基づく対話形式のUIから、音声に加えて視覚情報(話し手の表情や身振り手振りなど)も活用したマルチモーダルな会話AIの開発が目標です。
人間はこれらを自然にこなしており、音声の認識や言語理解をコンピュータに搭載するためには、人間がどのように音声や言語を処理しているか、脳の機能の理解が一つのキーになると考えられます。