中文空间语义理解评测

Overview

中文空间语义理解评测


最新消息


一、任务简介

语言交际中存在大量的空间语义信息,理解这些信息是非常重要的。著名认知语言学家Jackendoff在其概念语义学理论中也指出空间结构是语言系统的四种基本结构之一(其余三个层面:语音、句法、概念语义)1

通常认为,对文本中空间信息的理解,不仅需要掌握句段中字词的语义,还需要具备一定的常识或世界知识,甚至是超出语言范畴的空间想象等认知能力。考察机器的空间认知能力是一项系统性的工作。作为初步尝试,北京大学与复旦大学的研究团队针对中文文本中空间语义的正误判断与归因,提出了本次评测任务。

如果机器具备了空间认知能力,那么它不仅要能够识别常规、正确的空间信息,还应该能够识别异常、错误的空间信息。如对于“在四面签一个名字”,人类能够意识到其中存在异常,因为“一个名字”通常不会签在“四面”;又如对于“走过火车下”,人类能够清楚地知道通常不会有人在火车的“下”方走路。可以看出,这些异常是多种多样的,具体包括:跟空间语义理解有关的词语搭配问题、上下文信息冲突问题、与常识冲突的问题等。为了方便进行不同的后续处理,机器在识别异常的同时,也需要能够对异常的原因加以解释。

基于上述观点,本次评测试图考察计算机的以下能力:(1)计算机能否正确区分正常与错误的空间语义表达;(2)计算机能否解释空间语义表达错误的原因;(3)计算机处理上述两个任务的综合能力。对应为如下三个任务:

子任务1,中文空间语义正误判断:要求参赛系统对给定的中文文本中是否存在空间关系异常加以判断。

子任务2,中文空间语义异常归因合理性判断:要求参赛系统判断给定的归因是否可以用来解释给定的中文文本中所存在的空间关系异常。这些异常被分为词语搭配问题、语义问题、语境问题、常识问题以及其他问题(详情请看后文介绍)。

子任务3,中文空间语义判断与归因联合任务:参赛系统首先需要判断给定的中文文本中是否存在空间关系异常,如果存在异常,则再判断所给定的归因是否可以用来解释这一异常。


二、数据介绍

数据以json格式发布(参见后附数据样例),各个字段说明如表1所示。

表1 数据字段说明

字段 类型 说明
qID int 试题编号。
context string 文本材料。
reason string 子任务2及子任务3中,对文本材料中空间关系异常的归因。
judge1 bool 子任务1中,对文本是否存在空间异常的判断。true表示句子成立,无异常;false表示句子不成立,有异常。
judge2 bool 子任务2及子任务3中,对归因是否能够解释材料的空间关系异常的判断。true表示归因成立;false表示归因不成立。

评测任务中的语料主要来源于CCL语料库,涵盖小说、散文、词典等文体。需注意实际使用的文本材料是在原始语料的基础上,替换了具有空间方位意义的词语之后,再进行人工标注和检验后得到的。最终得到7782段有效文本材料,合计86万字。各段材料字数的平均值为110.52,标准差为53.00。这些材料根据性质和任务需要被划分至评测的三个任务的不同数据集中,具体分布情况如表2所示2

表2 各子任务的数据集分布情况

子任务 训练集 验证集 测试集 总计 备注
1、中文空间语义正误判断 4,237 806 800~ 5.8k~ 三个数据集之间,所使用的原始语料没有交集,下同。
2、中文空间语义异常归因合理性判断 5,989 2,088 2k~ 10k+ (1)任一数据集所使用的context与子任务1的验证集和测试集无交集。(2)训练集使用的context与子任务1的训练集有交集。
3、中文空间语义判断与归因联合任务 0 1,203 1k+ 2k+ (1)不提供训练集。(2)验证集和测试集中使用的context与子任务1的相应数据集相同。

在子任务2及子任务3中,使用了多种归因类型。类型之间并不完全独立,每段材料可能对应多种归因类型。参赛系统不需要在归因类型之中做选择,而只需要判断所提供的类型是否适合用来解释材料中的错误。各类型的简介如表3所示。每种类型的具体数据样例请看 样例

表3 归因类型说明

类型 内部编号 描述 形式
搭配问题 A text1text2不能搭配,主要是因为语法、韵律、习惯等因素,通常不会这样说,而不是因为它们语义不兼容。 text1”和“text2”不宜搭配
语义问题 B text1text2通常不一起使用,主要是因为它们语义通常不兼容,而不是因为语法、韵律、习惯等因素。 text1”和“text2”语义冲突
语境问题 C text1text2之间存在冲突,主要是因为在当前语境中,具体信息存在冲突,而不是因为二者语义不兼容。 text1”与上下文“text2”存在信息冲突
常识问题 D text1所描述的内容不符合常识,这个常识由commonsense描述。 text1”与常识不符[:commonsense]

三、评价标准

对于子任务一子任务二,使用准确率(Acc,Accuracy)作为评价指标。

Acc = 命中正确答案的题数 / 题目总数

对于子任务3,使用F1值作为评价指标。公式如下,其中 PR 分别代表准确率(Precision)和召回率(Recall):

F1 = 2*P*R / (P+R)

PR 的计算公式如下,其中 TPTNFPFN 分别代表命中数量、正确拒绝数量、误报数量、漏报数量,下标表示judge所属的步骤。

P = (TP_2 + TN_2) / (TN_1 + FN_1)
R = (TP_2 + TN_2) / (TN_1 + FP_1)

注意上面公式中 TP_2TN_2 只计算judge1判断为false 的情况。

评分的计算脚本可参考: evaluate.py (注:此脚本仅供参考,发现任何问题请联系我们)。

最终排名:在所有参赛队伍的评测结果产生之后,计算每个任务下各个队伍的标准分数(Z-score),对三个任务的标准分数取平均,作为最终排名的依据。标准分数计算公式如下,其中 为平均数, s 为标准差:

Z = (X - X̄) / s
基线系统

我们提供一个基线系统供参赛队伍参考: SpaCE2021-Baseline


四、比赛日程

日期 事项
2021年4月1日 开放报名,发布训练集以及无答案的验证集
2021年4月5日 开放结果提交
2021年6月1日 发布验证集答案
2021年7月1日 发布无答案的测试集,开始提交最终模型及技术报告
2021年7月5日 最终模型提交截止
2021年7月15日 技术报告提交截止
2021年7月23日 公布结果,比赛结束
2021年8月13日-15日 CCL 2021评测研讨会

五、报名方式

请填写在线报名表: 点击此链接填写报名表

请注意:

  1. 报名时间:2021年4月1日至2021年6月1日;
  2. 一个团队只需由负责人或联系人填写一次报名表单即可;
  3. 报名即表示已经阅读并承诺遵守参赛协议( Agreement.md );
  4. 如有其他问题,请直接联系评测委员会:[email protected] (孙春晖);
  5. 主办方会在每个工作日检查新的报名队伍并通过邮件发送回执。

六、奖项设置

评测奖金由华为公司赞助,奖池共计40000元:

一等奖(1名),奖金15000元;

二等奖(2名),各奖8000元;

三等奖(3名),各奖3000元。

七、委员会

单位:北京大学,复旦大学

主席:詹卫东,穗志方(北京大学);邱锡鹏(复旦大学)

委员:孙春晖,唐乾桐,秦梓巍,董青秀,李卓,张洁(北京大学);李孝男(复旦大学)等

联系人:孙春晖  联系方式:[email protected]


脚注

1 参看 Jackendoff(2002)著作《Foundations of language: Brain, meaning, grammar, evolution》第1.2、1.5节。

2 每段材料配合不同归因将会形成不同题目,因此题目数量大于材料数量。

Google and Stanford University released a new pre-trained model called ELECTRA

Google and Stanford University released a new pre-trained model called ELECTRA, which has a much compact model size and relatively competitive performance compared to BERT and its variants. For furth

Yiming Cui 1.2k Dec 30, 2022
TruthfulQA: Measuring How Models Imitate Human Falsehoods

TruthfulQA: Measuring How Models Imitate Human Falsehoods

69 Dec 25, 2022
Yet Another Compiler Visualizer

yacv: Yet Another Compiler Visualizer yacv is a tool for visualizing various aspects of typical LL(1) and LR parsers. Check out demo on YouTube to see

Ashutosh Sathe 129 Dec 17, 2022
GPT-Code-Clippy (GPT-CC) is an open source version of GitHub Copilot, a language model

GPT-Code-Clippy (GPT-CC) is an open source version of GitHub Copilot, a language model -- based on GPT-3, called GPT-Codex -- that is fine-tuned on publicly available code from GitHub.

Nathan Cooper 2.3k Jan 01, 2023
Toward a Visual Concept Vocabulary for GAN Latent Space, ICCV 2021

Toward a Visual Concept Vocabulary for GAN Latent Space Code and data from the ICCV 2021 paper Sarah Schwettmann, Evan Hernandez, David Bau, Samuel Kl

Sarah Schwettmann 13 Dec 23, 2022
This repository will contain the code for the CVPR 2021 paper "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields"

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields Project Page | Paper | Supplementary | Video | Slides | Blog | Talk If

1.1k Dec 27, 2022
Beautiful visualizations of how language differs among document types.

Scattertext 0.1.0.0 A tool for finding distinguishing terms in corpora and displaying them in an interactive HTML scatter plot. Points corresponding t

Jason S. Kessler 2k Dec 27, 2022
Treemap visualisation of Maya scene files

Ever wondered which nodes are responsible for that 600 mb+ Maya scene file? Features Fast, resizable UI Parsing at 50 mb/sec Dependency-free, single-f

Marcus Ottosson 76 Nov 12, 2022
Bnagla hand written document digiiztion

Bnagla hand written document digiiztion This repo addresses the problem of digiizing hand written documents in Bangla. Documents have definite fields

Mushfiqur Rahman 1 Dec 10, 2021
The code for two papers: Feedback Transformer and Expire-Span.

transformer-sequential This repo contains the code for two papers: Feedback Transformer Expire-Span The training code is structured for long sequentia

Meta Research 125 Dec 25, 2022
This repository contains examples of Task-Informed Meta-Learning

Task-Informed Meta-Learning This repository contains examples of Task-Informed Meta-Learning (paper). We consider two tasks: Crop Type Classification

10 Dec 19, 2022
Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

Weitang Liu 1.6k Jan 03, 2023
Calibre recipe to convert latest issue of Analyse & Kritik into an ebook

Calibre Recipe für "Analyse & Kritik" Dies ist ein "Recipe" für die Konvertierung der aktuellen Ausgabe der Zeitung Analyse & Kritik in ein Ebook. Es

Henning 3 Jan 04, 2022
Healthsea is a spaCy pipeline for analyzing user reviews of supplementary products for their effects on health.

Welcome to Healthsea ✨ Create better access to health with spaCy. Healthsea is a pipeline for analyzing user reviews to supplement products by extract

Explosion 75 Dec 19, 2022
This project converts your human voice input to its text transcript and to an automated voice too.

Human Voice to Automated Voice & Text Introduction: In this project, whenever you'll speak, it will turn your voice into a robot voice and furthermore

Hassan Shahzad 3 Oct 15, 2021
Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research.

Tensor2Tensor Tensor2Tensor, or T2T for short, is a library of deep learning models and datasets designed to make deep learning more accessible and ac

12.9k Jan 07, 2023
Simple Text-To-Speech Bot For Discord

Simple Text-To-Speech Bot For Discord This is a very simple TTS bot for discord made with python. For this bot you need FFMPEG, see installation to se

1 Sep 26, 2022
💬 Open source machine learning framework to automate text- and voice-based conversations: NLU, dialogue management, connect to Slack, Facebook, and more - Create chatbots and voice assistants

Rasa Open Source Rasa is an open source machine learning framework to automate text-and voice-based conversations. With Rasa, you can build contextual

Rasa 15.3k Jan 03, 2023
Code for CVPR 2021 paper: Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning

Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning This is the PyTorch companion code for the paper: A

Amazon 69 Jan 03, 2023