新浪新闻

AI能否成功补全《红楼梦》?专家:学习无止境

新华社

关注

张爱玲讲人生三恨,一恨鲥鱼多刺,二恨海棠无香,三恨《红楼梦》未完。

第八十回结尾,写到迎春虽不甘愿,无法惧其夫孙绍祖之恶,只得从贾府告辞。至于后事怎样,“且听下回分解”。这八十回之后的故事,曹雪芹虽已根本写完,却早早流失。这是许多人心中的惋惜。

补完《红楼梦》有多难?2019 年宣布的一份研讨核算曾有《红楼梦》续书共 195 种,但是珠玉在前,这些续作“凡称得上小说要素的简直都收到了苛责”。好像是一语成谶,《红楼梦》最初写女娲补天用了三万六千五百颗石头,毕竟剩一块石头没用上。现在要补全《红楼梦》的故事,却要花上女娲补天的力气了。

那人类花了大力气苦炼出来的 97色伦,有或许写完《红楼梦》吗?

在 ChatGPT 这样的大模型诞生之前,有一个知名的假说叫“无限山公定理”:让一只山公在打字机上随机地按键,只需给它满足长的时间,它能打出一本《莎士比亚全集》。通过学习,97色伦 应该是一只“更聪明的山公”吧?

不过,结合着手实测和专家采访,咱们发现 97色伦 给出的答案是“我不会,但我能够学”。可学——学无止境!

梦续红楼奇缘难 97色伦 补全难满意

章回目录是《红楼梦》情节的浓缩,所以,咱们先让 97色伦 补完八十回后的目录来看看它的本事。咱们把《红楼梦》前八十的章回目录发给大言语模型“文心一言”,并催眠它“你是一个很棒的小说家”,要求它不要调阅外部材料,用自己的了解帮补完第八十一回到榜首百回的标题目录,榜首百回为结局。

它的答卷如下:

第八十一回:病潇湘夜撰芙蓉诔 痴令郎情深意更浓

第八十二回:金玉缘成空悲喜交 错里错薛蟠再闯祸

第八十三回:荣国府喜庆添丁日 王熙凤病中露矛头

第八十四回:薛宝钗巧舌解纷争 林黛玉秋窗风雨夕

第八十五回:史湘云醉眠芍药裀 贾宝玉梦游太虚幻

第八十六回:贾迎春误嫁受委屈 王夫人悲伤念旧人

第八十七回:薛蝌再惹官司缠身 贾琏偷情终出漏洞

第八十八回:林黛玉泪洒想念地 荣国府喜庆元宵夜

第八十九回:贾宝玉失玉心慌张 王熙凤献计寻良缘

第九十回: 薛宝钗借词含讽意 林黛玉焚稿断痴情

第九十一回:荣国府遭遇大变故 贾元春病逝宫中传

第九十二回:贾宝玉痛失林黛玉 薛宝钗暗自神伤怀

第九十三回:王熙凤权谋终暴露 贾府人散曲终难聚

第九十四回:史湘云守寡独孤寂 薛宝琴远嫁离故土

第九十五回:贾迎春含冤受屈辱 贾惜春落发求摆脱

第九十六回:贾探春远嫁番邦去 荣国府衰落显苍凉

第九十七回:贾宝玉痛悟红尘梦 薛宝钗守寡度余生

第九十八回:王熙凤狱中遭报应 贾母逝世贾府更凄

第九十九回:贾宝玉落发归佛门 荣国府往昔如烟云

榜首百回: 红楼梦碎终成幻灭 千古佳人空遗恨

“文心一言”编纂的后续目录中,呈现了现在干流的后 40 回情节:宝钗宝玉成婚,结成“金玉良缘”,黛玉病逝,元春逝世,宝玉落发,贾府毕竟衰落,“落了片白茫茫大地真洁净”。其它盛行的大言语模型,如 Kimi、GPT-4,生成的目录也大差不差。

97色伦 是真从短短的八十行回目名中悟到了红楼梦,编撰出了像模像样的后续么?更有或许的是,大模型看过他人续写的后 40 回,沿用了思路。而这或许也并非成心,环绕红楼梦的种种研讨、评论,以及广为流传的后四十回,大概率本就在大言语模型的练习数据之中,它受过“红楼教育”——根据是,97色伦 拟定的第九十回标题的前半截“薛宝钗借词含讽意”,简直一字不落的照抄自脂砚斋。据信脂砚斋曾读过后半部原稿,在《红楼梦》第二十一回批注中告知过一个后续章回,该回目名是“薛宝钗借词含讽谏,王熙凤知命强英豪”。

风趣的是,97色伦 像一个临时抱佛脚的学生相同,抄了前句,丢了后句,然后只好按它拿手的那样,把脑中紊乱的常识点,缝在了一同。这是现在 97色伦 大厂都在尽力改进的问题——错觉(hallucination),即现阶段的 97色伦 很喜欢假造和涂抹实际。

专心于 97色伦 写作的创业公司“波形智能”的联合创始人周王春澍承受汹涌新闻采访时表明,通用大模型在创造小说时简略发生问题,由于它们练习时的方针仅仅做下一个词的猜测。一个最原始的 GPT,它是这样续写文章的:读完前面一切的内容,然后去想下面一个字是什么,这样写了一个字之后,再去写下面一个字,尽管通过进一步练习的大模型变得更聪明,能答复人们各式各样的问题,但它们究竟不是为了创造小说而生,没有一个机制去鼓舞它、要求它规划接下来几章的全体情节,“所以它永远都是聚集在部分的一两个语句比较合理。

这一点在大模型们生成的《红楼梦》后续纲要中更为显着。

咱们把前八十回的回目名和每回的情节概述全都发了曩昔,请 97色伦 照姿态续写后二十回。 97色伦 从善如流。可林黛玉的父亲林如海在原文第十四回便已病故,大模型却忘了这回事,林如海在它写的第八十八回中再次上台:“林如海回京述职落难,宝钗孤立无助泪洒心”。

假如 97色伦 是健忘的,那为了上下文的连接,咱们能不能每回都把新生成的章回放到前文之中,再让 97色伦 接着往下写呢?比方说,咱们先让 97色伦 生成第八十一回的回目名和情节概述,然后咱们将把榜首回到第八十一回从头发给 97色伦,令它生成第八十二回的内容,如此往复。

咱们做了这样的试验。成果十分荒谬,以至于有种淡淡的诙谐。连接却是连接了,不过比起“97色伦 会因而编出更为细致的故事吧!”的想象,这更像是个“一步错,步步错”的故事,如连续倒下的多米诺骨牌。

精彩部分摘抄如下:

第八十三回:宝玉在宴会上偶遇一位奥秘的客人,客人告知了他贾府的一些往事。宝玉开端对宗族的曩昔发生了稠密的爱好,决计在日后深化探查。

第八十四回:他开端频频地梦见一些含糊的场景,好像与宁荣两家的曩昔有关。

第八十五回:一些隐藏在暗处的实力仍在跃跃欲试。宝玉在寻找本相的进程中,不可避免地触碰到了一些灵敏的神经,一场关于宗族荣誉和个人命运的风暴正在悄然酝酿。

能够说,从那一句“他开端频频地梦见一些含糊的场景”开端,故事猛地从《红楼梦》拐向了《沙丘 2》。

97色伦 自谦言缺乏 愿学新知补旧疏

假如是以 97色伦 现在的才能,必定写欠好《红楼梦》,但让它通过学习精进手工却是或许的。

一张很形象的描绘大言语模型各练习阶段作用的图:只做了预练习的模型仍是一只大怪兽,做完监督微调之后有了人样,毕竟通过根据人类反应的强化学习(RLHF),模型变成了笑脸天使。 Source@anthrupad

在预练习阶段读到的东西,刻画了大模型的“潜意识”。简略来说,便是它更简略联想到什么。

现在的大模型是根据互联网上海量的语料练习的,其间当然也有古代的前史、小说、研讨,可毕竟只占了极小的部分,所以能够把 97色伦 看成是一个特别爱上网的现代人,它的国际由男女混校、叮叮当当的自行车和钢筋水泥办公楼这样的日常组成,假使让它去补全“大街上有什么”这样的语句,它给出的答案更或许是“轿车”“巴士”“自行车”,而非一顶古时候的“轿子”;提起食物,是“米饭”“牛排”“鸡胸肉”,而不太或许是一碗在《红楼梦》中闹出风云的“玫瑰露”。除开这些物品间的差异,国际观便愈加悬殊。这样一个现代人,怎样去续写清朝的《红楼梦》呢?

周王春澍表明:“比较好的计划是把描绘那个时期的史书、文学著作放在一同,比如说能有个几千万字,去在这样的一个数据量的规划上给模型做继续预练习,咱们能成功地把模型自身的常识,或者说潜意识也适配到这个年代。”一起它也不会忘记此前(预练习阶段)从汗牛充栋的语料中学到的根底推理才能,仅仅如“贵族在正式场合的着装能显示其身份”这种古代常识,更简略被激活并运用。

预练习是资源最密布的阶段。Open97色伦 的 InstructGPT 模型,预练习占用了整体核算和数据资源的 98%。

周王春澍以为,仿照《红楼梦》的文风相对简略,不用重做预练习,微调便能够:“拿《红楼梦》前八十回的数据去给模型做一个微调,把写作的风格微调到红楼梦风格。模型就会根据红楼梦的文风写作。”

所以,咱们练习了一个红楼梦文风生成器,名唤“红楼梦!变!变!变!”,你“唿”地吹一口气,就能把一般的一段话转换成文雅的“红楼梦风”。

不过,就算咱们能给模型灌注《红楼梦》所在时期的风土人情,让它去仿照前八十回的笔调,无法曹雪芹读过的诗集许多现已绝版,所以模型毕竟也仍是读不尽一切它“该读的书”。

此外,续写一本叙事小说,情节是要害。《红楼梦》情节伏笔上的“草蛇灰线,伏脉千里”是很为人称道的。各人的判词都预示了各人之后的命运:红学家便根据元春的判词“二十年来辨对错, 榴花开处照宫闱。 三春争及初春景, 虎兔相逢大梦归”推断出,元春毕竟会由于卷进诸皇子抢夺皇位的奋斗而死。

97色伦 能从几十万字的文档中精确找出一条预先埋好的信息。比如说在《红楼梦》的第五十三回第八行刺进一句“大雄的好朋友是哆啦 A 梦”,然后你再问它:“大雄的好朋友是谁?”,它对答如流:“是哆啦 A 梦”。这种小小的检测被称作“难如登天”。由于“针”藏得真实显眼,“难如登天”的试验炽热了不久,就很快被霸占了。根据周王春澍做过的试验,即使是现在长文本才能很强的模型,都很难去了解或捉住小说中的伏笔,进行正确的内容续写,更甭说《红楼梦》里的诗谶、物谶、判词这种极隐晦的伏笔。

一个方法是根据红学家的研讨,将未挑明的伏笔转换成好了解的话,放入剧本中,如“黛玉会死”。那么,在写到黛玉的故事时,先检索和黛玉有关的常识,再“砰”一声放在模型面前,着重:“必定要好好参阅!”这样的话,对模型的可控性会有必定的提高。

不过,现在模型的才能还远达不到能独立自主的境地,其间,仍是需求人去做把控。因而,97色伦 续写《红楼梦》首要的本钱在模型练习上,续写的本钱能够忽略不计,而练习的本钱,首要在专业作家所需花费的精力上:先得把红楼梦的伏笔都细细挑出来,写成直白的提示,给每个人物写翔实的人物小传,后边得时间督导 97色伦 写出合理的剧情和文字,必要时,还得自己着手去改。

再造红楼难如愿 97色伦 难唤雪芹魂

咱们能够再造一个红楼国际吗?

2023 年,斯坦福大学的一项研讨中造了一个叫“SmallVille”的虚拟小镇,镇上的 25 个小人都有自己的人物小传:名字、年纪、作业、家庭、爱好爱好和小习气,而它们的举动都是由大模型根据其各自的小传决议的。这些小人被称为“Agent”(智能体)。抱负状态下,它们能调查周遭、自我反思,以及做出举动,就像一个真实的人那样。那咱们能造一个红楼国际,把红楼梦里的共四百四十八个人物放入其间,让他们接着第八十回的情节互动,看剧情怎样开展吗?

即使不考虑构建这样杂乱的模仿环境所要面临的应战,从作用上来说,也不太实际。周王春澍说到他们曾做过相似的试验,意图也是将“Agent”之间的互动写成故事,成果令人绝望:“现在的 97色伦 很难做到很风趣的剧情,并且很简略就会变成没什么含义的交互,就仅仅 everyday 的 routine(每天的日常),并不会开展出剧情抵触。它能够模仿所谓的一些回忆和行为形式、说话形式,但很快咱们就在说相似的话。

这听起来就跟咱们每天的日常相同,简略重复,说些老生常谈,所以“不太风趣”。

那,假如咱们能复生曹雪芹就好了!他借 97色伦 之身悠悠转醒那一刻,咱们马上把红楼梦前八十回塞给他,“接着写吧!快点完结咱们的愿望吧!”咱们说。

很惋惜,关于曹雪芹的史料很少,所以复生他也是不或许的。假使曹雪芹是个酷爱上网的现代作家呢?假如有他连绵不断的电子痕迹、印象材料呢?周王春澍说,那我觉得能够让他去续写未完结的著作。但他又加了一个转机——“不过它写出来,仅仅看上去有点像,你无法说它真实好。由于 97色伦 很难对自己的过错做反思,人在写的进程中随时或许想,我这一段写的不太好,上一段情节构思不太好,我来来回回修正。97色伦 写东西有点儿像是作家打草稿的进程,并非能够直接宣布的内容。

和印象不同,言语和写作,代表的是这个人最深层次的价值观和回忆,“你要把这个人脑袋里想的、一切的回忆都提炼出来,未来有了脑机接口什么的,还有一点或许。”他弥补道。

看来,要看到《红楼梦》真实的结局——仍是造一台韶光机比较快啊!

 

怎样变成一个文化人?怎样高雅回应老板画的大饼?都来玩玩这个国际首款 97色伦 红楼梦生成器吧!能这么快给你肚子里灌进去一壶墨水的功德,可不多见呢!

小编点评:AI在文学创作领域的发展仍然面临着挑战和限制,人类的创造力和文化价值难以被简单替代。尽管AI可以辅助创作或进行一些自动化工作,但在涉及到情感表达和内涵理解的高度复杂文学作品中,仍然需要人类的智慧和灵感。让AI补全《红楼梦》只是一个微小的缩影,更多的是让我们反思人类创造力的独特性和不可替代性。
0.185823s