春节接近尾声,你是否还沉浸在年味里?
到腊月二十九、三十,家家户户贴上了红红的春联,春节就正式拉开了序幕。
春联也称为「对联」、「门对」、「楹联」,是汉语所独有的一种艺术形式,有着悠久的历史。年,中国国务院把楹联习俗,列为第一批国家非物质文化遗产名录。
对联对联,讲究的就是「成对」,要对仗工整,平仄协调。不过现代人的对对联技能,已经远不如古代的文人墨客,甚至有时候可能连上下联都傻傻分不清楚。而聪明的AI已经学会自己写对联了。
▍70万条对联数据,教会AI对对子
在现有公开的对联数据集中,以冯重朴_梨味斋散叶_的博客所发布的couplet-dataset数据最为庞大、使用也最为广泛。
前两张分别为训练集的上联和下联
后两张分别为测试集的上联和下联
这份数据集共包含70余万条对联数据,按字切分。
数据集分为训练集、测试集以及词汇表。
其中,如上图节选内容所示,训练集分输入、输出两部分,分别为对联的上联与下联,按次序一一对应,测试集同理。
数据集详细信息如下:
couplet-dataset
对联数据集
数据来源:冯重朴_梨味斋散叶
包含数量:70万条对联
数据格式:.txt
数据大小:59.7MB(压缩文件27.4MB)