CBLUE的全名是ChineseBiomedicalLanguageUnderstandingEvaluation,是由中国中文信息学会医疗健康与生物信息处理专业委员发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、夸克、鹏城实验室、北京大学、哈尔滨工业大学(深圳)、同济大学、郑州大学等开展智慧医疗研究的单位共同协办。
CBLUE挑战榜覆盖了医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类和医学问答4大类常见的医学自然语言处理任务,共包含8个子任务,榜单为多个任务提供了统一的评测方式,目的是考察模型的泛化能力。榜单任务数据集由CHIP[1]大会往届的学术评测比赛和部分医疗搜索场景业务数据集组成,业务数据集的特点是数据真实且有噪音,因此对模型的鲁棒性提出了更高的要求。
CBLUE榜单的任务简介如下:
医学信息抽取:
CMeEE(ChineseMedicalEntityExtractiondataset):医学实体识别任务。评测任务共标注了个文件,47,个句子,包含了种常见的儿科疾病、7,种身体部位、12,种临床表现、4,种医疗程序等9大类医学实体,训练、验证和测试集分别为15,、5,和3,条。数据集来源于CHIP学术评测比赛,由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供。
CMeIE(ChineseMedicalInformationExtractiondataset):医学关系抽取任务。评测数据集来源于儿科和百余种常见疾病(其中儿科训练语料来源于种儿科疾病,常见疾病训练语料来源于种常见疾病),共标注了2.8万疾病语句、近7.5万三元组数据和53种关系类型。数据集来源于CHIP学术评测比赛,由“郑州大学”、“北京大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供。
医学术语归一化:
CHIP-CDN(CHIP-ClinicalDiagnosisNormalizationdataset):医学术语标准化任务,要求将给定的医学症状实体映射到医学标准字典ICD-10上(如:“右肺结节住院”-“肺占位性病变”)。评测任务包括训练集6,条,验证集2,条和测试集10,条。数据集来源于CHIP学术评测比赛,由医渡云(北京)技术有限公司提供。
医学文本分类:
CHIP-CTC(CHIP-ClinicalTrialCriteriondataset):医学文本分类问题。主要针对临床试验筛选标准进行分类,共有44个类别。评测任务包括训练集22,条,验证集7,条和测试集10,条。数据集来源于CHIP学术评测比赛,由同济大学生命科学与技术学院提供。
KUAKE-QIC(KUAKE-QueryIntentionClassificationdataset),医学文本分类问题。针对医疗搜索引擎用户查询进行意图识别,共有11种类别。评测任务包括训练集6,条,验证集1,条和测试集1,条。数据集由夸克提供。
医学问答:
CHIP-STS(CHIP-SemanticTextualSimilaritydataset):医学句子语义匹配问题。数据集包含5大类疾病,给定来自不同病种的问句对,要求判定两个句子语义是否相同或者相近,是2分类问题(0/1两类标签)。评测任务包括训练集16,条,验证集4,条和测试集10,条。数据集来源于CHIP学术评测会议,由平安医疗科技公司提供提供。
KUAKE-QTR(KUAKE–Query/TitleRelevancedataset):典型的“检索词-页面标题”相关度匹配问题,是一个4分类问题(相关性分为0~3分4档)。评测任务包括训练集24,条,验证集2,条和测试集5,条。数据集由夸克提供。
KUAKE-QQR(KUAKE–Query/QueryRelevancedataset):典型的“检索词-检索词”相关度匹配问题,主要用于解决搜索长尾词的检索结果提升问题,是一个3分类问题(相关性分为0~2分3档)。评测任务包括训练集15,条,验证集1,条和测试集1,条。数据集由夸克提供。
作为国内首个医疗信息处理领域公开的benchmark,中国中文信息学会医疗健康与生物信息处理专业委员会副主任兼秘书长汤步洲老师表示,以合法开放共享的理念组织医学信息学领域的基础和核心任务的评测,构建公开统一共识的医学信息系统性能评估平台,可以推动医学信息学的快速发展,并助力健康中国战略!
相信CBLUE的建设能有效推动医学标准数据集的建设和领域技术的发展,并在医学AI人才培养、医学临床研究和医疗人工智能技术落地上都发挥重要作用。希望医界、学界和业界的同行们一起加入到CBLUE多任务排行榜的挑战和建设中,共同助力医疗健康行业的发展。
打榜流程请进入CBLUE专题页进行查看: