言語を介した人間とエージェントの共通理解基盤の構築

人間とコンピュータが言語テキストを介してコミュニケーションをとるためには、与えられたテキストに対する理解(解釈)を共有する必要があります。 本研究では、対話システムや言語の基盤化(grounding)の課題に取り組みます。


Evaluating Quality of a Dialogue Response

Decomposition the structure ofa response quality

Evaluating natural language is a challenging task. Without a proper assessment of a text’s quality, it is difficult to determine which models can produce a better generation. In this research, we focus on techniques to enhance the evaluation of NLG.
Many automatic evaluation metrics have been proposed to score the overall quality of a response in open-domain dialogue. Generally, the overall quality is comprised of various aspects, such as relevancy, specificity, and empathy, and the importance of each aspect differs according to the task. For instance, specificity is mandatory in a food-ordering dialogue task, whereas fluency is preferred in a language-teaching dialogue system. However, existing metrics are not designed to cope with such flexibility. For example, BLEU score fundamentally relies only on word overlapping, whereas BERTScore relies on semantic similarity between reference and candidate response. Thus, they are not guaranteed to capture the required aspects, i.e., specificity. To design a metric that is flexible to a task, we first propose making these qualities manageable by grouping them into three groups: understandability, sensibleness, and likability, where likability is a combination of qualities that are essential for a task. We also propose a simple method to composite metrics of each aspect to obtain a single metric called USL-H, which stands for Understandability, Sensibleness, and Likability in Hierarchy. We demonstrated that USL-H score achieves good correlations with human judgment and maintains its configurability towards different aspects and metrics. [ Vitou Phy et al.: COLING-2020 , https://github.com/vitouphy/usl_dialogue_metric ]

連続的かつ部分観測的コンテクストにおける基盤化対話コーパスの構築と分析

提案タスクにおける対話例

人間は自然言語による対話を通じて様々な共通理解を作り出し、必要に応じて修正・維持することができます。本研究では、このような人間の高度なコミュニケーション能力に焦点を当てたタスクの設計と対話システムの評価・分析を行います。具体的には、連続的かつ部分観測的な情報について共通理解を作る新しい対話タスクを定義し、クラウドソーシングによって6,760対話を含む大規模なデータセットを構築しました。また、データセットの分析によって離散的または完全観測的な既存タスクよりも複雑で高度な基盤化現象が現れることを示しました。最後に、深層学習に基づくベースラインモデルはある程度の性能を出せるものの、本質的に高度な基盤化を必要とするため改善の余地が大きくあることを示します。(Udagawa et al.: AAAI-2019, Udagawa et al.: AAAI-2020, https://github.com/Alab-NII/onecommon)