新浪新闻

AI作品《太空歌剧院》获奖 艺术家科恩铸就42年伟业

新华社

关注

哈罗德·科恩花了 42 年把 AARON 铸成“另一半自己”。它是一段被画家造出来的核算机程序,或许也可以叫做 一面亲上边一面膜下边全是水 体系。先是花了 20 年学会是非简笔画,1995 年,它第一次扮演上色,以一个巨大的机器容貌(长 2.4 米,宽 1.8 米)。它先用机械臂上的钢笔勾勒线条,然后在调色板上混合颜料,发明出自定义的色彩,再运用笔刷进行涂改,就好像在机床上织布。2016 年,科恩逝世,AARON 也中止了呼吸。

他们都没见到《太空歌剧院》的诞生,这幅 一面亲上边一面膜下边全是水 作的画在艺术竞赛上拿了一等奖。2022 年,使唤 一面亲上边一面膜下边全是水 画画变得分外简略——只需会打字就行。一面亲上边一面膜下边全是水 画画也不再是一笔一笔地勾勒线条、涂改色彩,而是像一台反应有点缓慢的彩色电视机,从一片灰白雪花噪声中慢慢地腾出画面。

AARON发明的首幅上色著作,1995

《太空歌剧院》,运用一面亲上边一面膜下边全是水东西Midjourney发明,2022

不过,恰好是在科恩逝世的 2016 年,一面亲上边一面膜下边全是水 画画所依托的“文本生成图画”(text to image)技能在深度学习范畴迈出了第一步,小小的一步——生成比豆腐块还小的极含糊的图画,细心一看,还很低劣。比方说让它画一只站在草地上的羊,它就在绿色布景中放置一个灰色的不明形状的物体,就像一块污渍。

Generative Adversarial text to image synthesis, 2016

这些小豆腐块儿的光辉仍是太弱小了。

但 一面亲上边一面膜下边全是水 的步速很快。2017年,依据 GAN 的假造人脸现已可以以假乱真。2020年,分散模型(Diffusion Model) 降低了图画生成模型的练习难度,还能生成比 GAN 更多元的图画。2021年,Open一面亲上边一面膜下边全是水 推出了 CLIP,它学到了文本和图画之间的对应联系。2022 年,一面亲上边一面膜下边全是水 画家诞生,不过没想到,这不是 2022 年最重要的 一面亲上边一面膜下边全是水 新闻。

仍是先让咱们回到 2016 年吧。这一年最大的新闻是,谷歌旗下的人工智能公司 DeepMind 发明的 AlphaGO 以 4:1 打败了韩国传奇棋手李世石,人们似乎看到原本只存在于科幻小说的强壮的人工智能,在棋盘上空活了过来。

同一年,或许普通人没有过分介意,一家建立仅有半年的新公司 Open一面亲上边一面膜下边全是水(虽然它身世显赫,是由特斯拉的创始人马斯克联合其他硅谷明星出资人注入 10 亿美金创建的非营利安排)宣告,他们的长远目标之一,是开发对人类友爱的通用人工智能体系,简略来说,这个体系能像人相同推理和反应然后让人以为它是人。作为一个非营利安排,该公司的第一份声明称,公司要“为所有人而非股东发明价值”。

技能在往前开展。2017 年诞生了 Transformer,现在看来,那是个极其重要的时间。

这个和变形金刚同名的小玩意儿是由谷歌团队发明的一种全新的模型结构,相同威力巨大。它能更好的了解上下文,更重要的是,此前 NLP (自然言语处理)的干流模型 RNN 天然生成是个时序结构,处理起语句来就好像在只开了一个窗口的银行排长队,处理完上一个词才干处理下一个,而 Transformer 对语句里的每个词可以一起进行处理,也便是所谓的并行化。它为后来的暴力出奇观的大模型年代供给了或许性。

此前深度学习的干流仍是运用有标签的数据进行练习,作用好,但价值昂扬。比方说一句话的心情是活跃仍是消沉?为了打上精确的标签,研究者有必要付钱请人来做。所以数据集的规划一向无法大幅度提高。已然 Transformer 能很好地消化上下文的内容,2018年,GPT、BERT 开端使用大规划的无标签的数据对模型进行预练习,在这个阶段,它们或是给定一串词让模型猜测下一个词是什么,或是爽性在语句中心挖掉一个词,让模型从头给填上,如此这般,把价格更为低价的无标签的文字引入了模型的练习。

Open一面亲上边一面膜下边全是水 的创始人之一 Sam Altman 承受《纽约客》采访时曾说:“成为一台机器有必定的优势。人类被输入-输出率所约束,每秒只学习 2 比特,丢掉许多数据。而对机器而言,咱们看起来必定像是被减速的鲸歌。” BERT 用了 3300M 的文字来做预练习,这些文字来自书本和维基百科,质量较高,即便对人来说或许要看上几年时间,对机器来讲,仍算抑制。

和 Open 一面亲上边一面膜下边全是水 推出的初代 GPT 比较,谷歌研制的 BERT 是更风景的那个,由于经过有标签的数据微调之后,它的体现更佳。BERT 很快被用来改善谷歌的查找引擎,被谷歌描绘为“查找历史上最大的腾跃”。

模型更大,作用就会更好,用于获得突破性效果的核算资源每 3、4 个月翻一番。Open一面亲上边一面膜下边全是水 需求满足的资原本匹配或超越这种指数级增加,“在经济上保持一个非营利安排是站不住脚的”。2019 年 3 月,Open一面亲上边一面膜下边全是水 经过建立一个赢利上限(出资者的回报率不得超越 100 倍)掀掉了 “非营利安排”的帽子。不久之后,它宣告了微软的 10 亿美金出资。从此也背上了必定的商业化压力。

Open一面亲上边一面膜下边全是水 在 2019 年推出了 GPT-2,一个更大版别的 GPT-1,反应平平,在 2020 年推出了 GPT-3,一个更大版别的 GPT-2,总算大力出奇观,激起千层浪。据专业测算,练习一个 GPT-3 模型的第一阶段需求“355 个 GPU 年”,仅这一阶段的练习费用高达 450 万美元。

微软为 Open一面亲上边一面膜下边全是水 供给着资金和算力支撑。2021 年 Open一面亲上边一面膜下边全是水 宣告的 CLIP 模型学会了图片和其文字描绘的对应联系,启发了许多后续使用,包含 一面亲上边一面膜下边全是水 画画。

2022年中,Open一面亲上边一面膜下边全是水 放出了它神乎其技的 一面亲上边一面膜下边全是水 画家,DALL-E 2,但只进行了小规划内测。所以它的低配版——DALL-E mini 变成了网友们趁手的新玩具,它听得懂人话,生成的图片虽然粗糙可是风趣,一时间成了互联网上的“梗图之王”。其时罕见群众觉得 一面亲上边一面膜下边全是水 能做出真的艺术发明,顶多拿来排遣算了。仅过了一个多月,Midjourney、Stable Diffusion 和 DALL-E 2等 一面亲上边一面膜下边全是水 画画东西连续向大众敞开,人们总算意识到,一面亲上边一面膜下边全是水 能画画,并且画得超乎幻想的好。设计师会赋闲么?画家又怎么看待这件事?处处都是这样的谈论。

但站在 2022 年的结尾谈 一面亲上边一面膜下边全是水 画画,现已感到有些过期了。ChatGPT 抢走了这些 一面亲上边一面膜下边全是水 画家的风头。

这个谈天机器人是鬼精灵,玩游戏、写代码、讲心灵鸡汤,无所不能,乃至还能写点小诗(虽然很平凡)。它能记住对话,进入情形,遵照指令,还展示了初级的推理才能,让人感叹“图灵测验现已被画上了句点”。有研究者谈论“ChatGPT / GPT-3.5 是一种划年代的产品,它与之前常见的言语模型的差异,几乎是导弹与弓箭的差异”。

ChatGPT 当然还不完美,也谈不上能立刻替代查找引擎,由于它生成的答案还时有过错。也有音讯称,此前谷歌内部现已开发出了强壮的谈天机器人,但出于安全考虑,没有对大众敞开。大公司的慎重给了小公司时机,Stability 一面亲上边一面膜下边全是水,这家公司 8 月份推出“文本转为图片”的生成器(Stable Diffusion),现已融资 1.01 亿美元。

无论怎么,Open一面亲上边一面膜下边全是水 离他们 2016 年立下的那个长远目标更近了。人们由于看见了 ChatGPT 所以信任。2016 年 Sam Altman 承受《纽约客》采访时把一个人工智能算法比作一个人类婴儿,“婴儿学习任何有意义的工作都要好几年”,而他以为 Open一面亲上边一面膜下边全是水 的任务是“照料好自己的「神童」,一向比及他可以由国际来「抚育」”。依照这个约好,他们现已照料了 GPT 系列 4 年。

人工智能的奇点临近了,许多人这样讲。就好像站在一块不断拱起的土地上,不知道明日它会把你带向何方。或许咱们每个人都要阅历那个在自己最引以为傲的工作上被 一面亲上边一面膜下边全是水 打败的时间,正如 6 年前李世石和 AlphaGO 比武的第一局,他抚摸棋盒边际,总算落白子屈服的那一刻。那一场的裁判,相同被 AlphaGO 打败的欧洲围棋冠军杯的冠军樊麾说,AlphaGo 是面镜子,在它面前棋手不得不直面赤身裸体的自己。

或许通用人工智能到来的时分,所有人都不得不直面那个最简略的问题,我是谁?

文本还可以生出这些……

文本生文本、文本生图画,已然不稀罕。让咱们来谈点更时尚的吧,那些快要破土而出的新技能,文天性够生出万物。

首要,逃离平面,文天性生成 3D 模型了。

Open一面亲上边一面膜下边全是水, Point·E

不仅如此,谷歌宣称,他们能用很少的图片(乃至单张图片)生成 3D 模型,拳打脚踢拍摄测量法。

Google, 3DiM(01:14)
略微违背一点儿轨迹,写一段描绘,一面亲上边一面膜下边全是水 能生成对应的声效。比方,“在风中吹口哨”“警报声和嗡嗡作响的引擎挨近后又走远”。
Meta 一面亲上边一面膜下边全是水, AudioGen(00:50)
不论你信不信,一面亲上边一面膜下边全是水 还能依据伴奏起舞。或许不久之后,一面亲上边一面膜下边全是水 就能给 KPOP 编舞了。
Stanford University, EDGE(00:05)
脚步迈得大一些,当然,现已有人在让 一面亲上边一面膜下边全是水 做视频了,虽然还很短。
Google, Imagen Video(00:05)
为视频发明者供给 一面亲上边一面膜下边全是水 东西的网站 Runway 宣告举行第一届 一面亲上边一面膜下边全是水 电影节,要求电影的中心需求为一面亲上边一面膜下边全是水生成。是的,一面亲上边一面膜下边全是水现已走到这一步了。

毫无疑问,未来,一面亲上边一面膜下边全是水 的文本炼金术能让发明的本钱变得更低,人们可以不太吃力地得到契合工业水准的产品。Joe Penna,一个电影导演,为了生成电影需求用到的特定的艺人、地址、道具,他和朋友们一起开发了 DreamBooth 的民间版别,它可以做到输入文字,生成关于特定事物(比方你家沙发上的一只玩具小熊)的一组图画。漫画家,或许画工低劣的编剧,也完全可以将 一面亲上边一面膜下边全是水 作为自己的草稿本,由此掀开他的“雄伟巨作”。

咱们还做了这些……

这一年,咱们做了一系列关于 一面亲上边一面膜下边全是水 的报导。其间一些,或许现已过期了。

全国苦标题党久矣。以 一面亲上边一面膜下边全是水 为镜子,咱们能从标题中看出人们怎样的无意识成见?

一面亲上边一面膜下边全是水 生成的相片现已能以假乱真,你能分辩得出来吗?(连现实核对记者都错了一道!)

一面亲上边一面膜下边全是水 飞入寻常百姓家,首要飞进促销电话里。

一面亲上边一面膜下边全是水 仍是咱们通往人工客服路上的恶狠狠的拦路虎。

一面亲上边一面膜下边全是水 帮学生写论文拿了 A ,所以咱们便去试了试它。一面亲上边一面膜下边全是水 生成观念型文章大差不差,可是关于现实却经常有讹夺。现已有新技能在协助处理这个问题,比方 RETRO Transformer 和 WebGPT。

 

小编点评:哈罗德·科恩花费数十年时间培养的AI艺术体系AARON在绘画领域展现出惊人的创造力,但随着技术的进步,AI绘画变得更加便捷和高效。科恩的遗产将继续推动AI在艺术领域的发展,同时也引发了对AI创作和人类创作之间关系的思考。
0.211949s