今天,达摩院发布全球最大规模的
中文文本预训练语言模型——PLUG
PLUG的参数规模达270亿
它集语言理解与生成能力于一身
在小说创作、诗歌生成、
智能问答等领域表现突出
还以80.614分刷新了CLUE分类榜单纪录
排名仅次于“人类”组
今天阿云也挑了几部经典作品让PLUG来挑战一下仿写
《红楼梦》仿写
原文(上)
黛玉只就宝玉手中看了一看,便问道:“还是单送我一人的,还是别的姑娘们都有呢?”周瑞家的道:“各位都有了,这两支是姑娘的了。”
AI续写(下)
黛玉却想道:“我如今是个孤女,他们送的那些东西,还有什么可看的。”因此自己心下不乐,只是独自一个人在那里摆弄那些物事。
原文(下)
黛玉再看了一看,冷笑道:“我就知道,别人不挑剩下的,也不给我。替我道谢罢!”周瑞家的听了,一声儿不言语。
《水浒传》仿写
原文(上)
武松在路上行了几日,来到阳谷县地面。此去离县治还远。当日晌午时分,走得肚中饥渴望见前面有一个酒店,挑着一面招旗在门前,上头写着五个字道:“三碗不过冈”。
AI续写(下)
武松看了,心中想道:“这个酒店好生不识气力,他家又不曾招得一个客人来,怎么开得门!”又走了五里多程,只见有一所村舍,三面墙垣都是矮墙,一面是一条大路。武松看了道:“却好走路!”就墙上钉着一张白纸,写道:“三碗不过冈。”武松把白纸放在面前,走入村中去了。
原文(下)
武松入到里面坐下,把哨棒倚了,叫道:“主人家,快把酒来吃。”只见店主人把三只碗,一双箸,一碟热菜,放在武松面前,满满筛一碗酒来。武松拿起碗一饮而尽,叫道:“这酒好生有气力!主人家,有饱肚的,买些吃酒。”洒家道:“只有熟牛肉。”
《孔乙己》仿写
原文(上)
孔乙己一到店,所有喝酒的人便都看着他笑,有的叫道,“孔乙己,你脸上又添上新伤疤了!”他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”
AI续写(下)
孔乙己也不回答,也不管他们的笑骂。有几个看他不顺眼的,故意叫道,“孔乙己,你又不是小偷,你不至于上当的。我们这儿的人,可从来不把偷字挂着,你又何必怕人家笑你!”其余的人哈哈的大笑。但孔乙己只是吃喝自如,不言不动。
原文(下)
孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”
《背影》仿写
原文(上)
我看见他戴着黑布小帽,穿着黑布大马褂,深青布棉袍,蹒跚地走到铁道边,慢慢探身下去,尚不大难。可是他穿过铁道,要爬上那边月台,就不容易了。他用两手攀着上面,两脚再向上缩;他肥胖的身子向左微倾,显出努力的样子。
AI续写(下)
他爬不上去,就弯下腰去,用两手扶着铁轨。我看见他的两手在空中挥着,可是他的头却低着,脸在流汗。汗珠从额角上渗出来,滴在草叶子上,落在铁轨上,融成一片小小的水洼。我想我的心和铁轨之间产生了很大的距离。
原文(下)
这时我看见他的背影,我的泪很快地流下来了。我赶紧拭干了泪。怕他看见,也怕别人看见。我再向外看时,他已抱了朱红的橘子往回走了。过铁道时,他先将橘子散放在地上,自己慢慢爬下,再抱起橘子走。
如何实现这样的“仿写”能力?
原来,PLUG集成了达摩院自研的语言理解及语言生成双模型,并通过构建输入文本双向理解能力显著提升输出文本的相关性。
PLUG采用了1TB以上中文文本训练数据,涵盖新闻、小说、诗歌、问答等领域。未来,PLUG还将扩大参数规模至2000亿级,进一步提升文本生成质量。
文学创作,只是PLUG的能力之一。之后它有望广泛应用于文本生成领域,成为“万能写作神器”。更重要的是,PLUG等超大规模语言模型,对提升中文NLP技术表现有重要作用。
达摩院语言技术实验室负责人司罗表示:“将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让AI没有难懂的语言,探索通用人工智能之路。”