公開リソース | 相澤研究室

コーパス

BeNEDect:A Benchmark for Numerical Error Detection task
JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
2WikiMultiHopQA: A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps
FECFeval: 定型表現評価用データセット
OneCommon: A Natural Language Corpus of Common Grounding under Continuous and Partially-Observable Context
Dynamic-OneCommon: A Natural Language Corpus of Maintaining Common Ground in Dynamic Environments
NTCIR-Math: 数式検索の評価タスク
NTCIR-math-annotation: 数式説明文のアノテーション
Q-Scisumm: A Evaluation Dataset for Query-focused Scientific Paper Summarization
VQAG: Synthetic datasets for Machine Reading Comprehension

Some High-Level Thoughts on How to Conduct Research: 本研究室に所属していた宇田川拓真さんによる研究の進め方に関するアドバイスをまとめたスライド
EVAL-VL-GLUE: 視覚言語モデルを言語モダリティにおいて評価するリポジトリ。視覚言語モデル研究のための簡潔な構成(事前学習済みの画像抽出器とtransformerモデル)を含む。