第八届网络社会年会|列夫·马诺维奇:一封给年轻艺术家的信,如何在生成式人工智能时代生存?
文/列夫·马诺维奇(Lev Manovich)
整理翻译/袁孟如
校对/黄孙权
很多人认为我是媒体学者或者新媒体学者,但实际上,我是一名艺术家。我于1960年生于俄国莫斯科,在1981年随父母移民到了美国纽约。从 14 岁开始我开始接受视觉艺术训练,包括现代主义绘画和古典绘画。这与亚洲仍存在的一种体系有些相似,要进入艺术学院必须通过考试,我当时要进的是建筑学院。我参加的考试主要是关于古典素描的,如画古希腊头像、描绘纹理、强调透视和栩栩如生的绘画。我接受了这样的训练,1981年来到纽约后,我在纽约大学电影学院度过了一些年头。
近四十年前,1984年,我开始从事计算机动画和计算机图形工作。我有人文学科的博士学位,主攻视觉文化,在过去20年里,我在东海岸甚至加州教授课程,在视觉艺术系任教,尽管大学根据我的著作和书籍对我进行评估,大部分教学内容是面向艺术家的实践工作室课程。十年前,我搬到纽约,并成为计算机科学和数据科学博士课程的教授。现在,我教授计算机科学专业的学生。
我已经有32年没有进行传统的素描或绘画了,大约在90年代停止了画画,在过去的30年中,我参与了从模拟到数字,再到计算。随着计算转向AI,数字已经成为既定事实,每个人都在写关于数字文化的东西。我觉得我可以为我的生活增添些其他东西,所以我重新开始了绘画。刚好在这两周后,Midjourney公开发布了,它的出现掀起了生成媒体(generative media )的革命。
众所周知,过去的15年是非凡的。中国公司一直在发布他们自己的版本,支持其应用。在西方,我们有ChatGPT,我们有Dalle 3;现在,生成式人工智能已经整合到谷歌搜索中。毫无疑问,我们正处于一个全新、彻底革命性的时代的开端。许多人,包括我自己,相信这场革命的规模可以与90年代互联网的发展,与19世纪摄影的兴起相媲美。
在我此次演讲中,我将谈论视觉生成媒体(visual generative media),并用我的作品加以阐释。在过去的15个月里,我使用人工智能创作了许多图片,大约有6万张。我以系列的方式创作图片;每个系列都有一个电影,有时是一部抒情电影,有时是一个概念性的电影。我在许多群展中展示了这些作品,其中一些在个展展出。其中一场将于两周后在葡萄牙开幕,第二场将于十二月开幕。
所以,在我谈论的同时,我将开始展示我的作品,你将会看到它们之间的联系。我将演讲的第一部分称为“碎片的美学”。
在过去的15个月里,我每周都在使用人工智能工具制作图片。在其中一些图片中,你会看到一些内部空间,看起来是由一系列工具组合而成,但当然,全部都是仿真的工具,如版画的蚀刻、雕刻等等。这些空间展示了充满无尽物品的架子。这个奇异的空间让我同时联想到了书库、仓库、自然历史博物馆的展览,也许还有欧洲静物画传统。在架子之间、缺失的墙壁之间,经常出现精致、微妙、常常难以看清的图案——有些是二维的,有些是三维的,像线条的编织。现在换个话题。就在一瞬间,有时我们呈现为抽象,但通常意味着某些明确的东西——一些对象、形状、来自我们人类世界的意义。
这些是什么碎片?这些未定义、未命名、放置在架子末端的物件是什么?这些物体的线条,目前还不清楚它们是二维的还是三维的。它们是墙上画作的一部分还是存在于现实中?有时我们明确;有时我们不太确定,所以你得到了一种碎片的状态。是的,我们看到了碎片,但是什么碎片?在常规艺术博物馆里,有古代文明的碎片——花瓶、玻璃杯、盘子,还有小工具、雕像等等,就像我去奥地利并去了当地美术馆的那一天一样。甚至在地下室,他们有着许多文明的碎片,大约在1500年、1800年前,它们是普通的容器。你真的能感受到博物馆,就是这些物质碎片的集合。
但人工智能的“碎片”有着不同的选集。AI通过数亿张图像提取“模式”(patterns),并将它们分布到数万亿个连接中。在生成式人工智能网络训练中,这些神经网络被喂了数亿张素材,在某些情况下是可信的图像,以及几种描述内嵌的HTML代码,然后我们以像素为单位进行分析,发现了表现某种东西的老练的边线和细节,以及一些我们不太确定的面。我们只知道这种过程,碎片化的同时也在分解和重组,然后这些模式分布在人工神经网络的数万亿个连接中。可以说,在这个过程中,图像的数字实质被进一步虚拟化、蒸发和扩散了,但仍然被保留着。而你在我的图像中看到的生成的“碎片”就像气味,微风中看不见的运动,海岸边的周期性运动在场景上留下痕迹。这些都是我们世界中碎片的碎片。我的意思是,我无意与你就图片呈现的这些形象进行交流,我真正感兴趣的是空间,被称为无尽静物的空间。有时是可识别的物体,一系列的细节,我喜欢当它无目的地再生时的碎片化,你不太知道它到底是什么——比如这些物体或者墙壁是什么?这些图像里面有什么?我们不知道这里是什么。所以,这些碎片的碎片沉积了如此多破碎的形式,也许比意大利画家所仰慕的18世纪的废墟更加碎片化。它们不是“故障”(glitches)。
它们也不是数学家克劳德·香农(Claude Shannon)的信息论所指的噪音,这是数字通信的一种破坏力量。所以这不是故障也不是噪音,它是人工生成的产物,可能是智能美学的产物。它是分布式知识和分布式愿景。60多年前,由保罗·巴兰(Paul Baran)在50年代末发明的未来互联网协议建议将整个信息分解成组,以更可靠地从遥远的网络传输;将某物分解成随机的部分,矛盾地确保了它的生存。
保罗·巴兰在20世纪60年代首次发表了“封包交换”(packet switching)概念,1960年,当时他在美国的一家公司工作。你知道吗,他的封包交换的想法为之后的互联网奠定了基础,同时也是始于1969年加利福尼亚的ARPANET的前身。他当时的想法是,我们处于冷战之中,俄罗斯可能很快就会发动进攻,也许会发生不可避免的核战争。这听起来非常熟悉,因为60年后,我们又回到了一个非常相似的时刻,普京进行的核试验,使得世界又受到了核威胁。但无论如何,让我们回到那个60年代,当时的想法是这场战争将会发生,而我们要如何让政府、军队通信等等。所以,我们要创建这个网络,而矛盾的是,巴兰所展示的是,如果你能将一条信息拆分成封包,然后发送这些封包,然后这些封包可以独立传播,它可以在最终点被组装起来,即使你拿走了这个网络的部分,你仍然会得到大部分的消息。所以那就是封包交换。他不是为了互联网提出的这个想法的,但互联网可以说是诞生于此惊人的想法:为了在未来的核战争中生存下来,并且抵御苏联的进攻,我们必须将消息部分拆分或分解为碎片。
但在同一时间段,有两位乌克兰数学家(当时乌克兰是苏联的一部分)。亚历克西·伊瓦赫年科(Alexey Ivakhnenko)和瓦连京·拉帕(Valentin Lapa),两位在乌克兰工作的苏联数学家,发明了另一种有效利用消息片段的基本方法。当然,我指的是一项基础性的发明。他们发明了深度神经网络的概念和数学方法,这在神经网络的历史中并不经常被讨论,但你可以去维基百科或各种文章中找到相关信息。所以,深度神经网络也是在将近60年前发明的。这概念于1962年提出,在1966年有了整本书来阐述。第一个深度神经网络的发明最终导致了当今大规模网络的出现,这些网络也用于生成AI。在机器学习过程中将文化制品分解成片段(例如图像像素和部分单词),然后分阶段处理这些片段,这些片段逐渐使这些网络获得知识。它可以给我们合成的文本、音乐、空间、代码、图像。简而言之,通过将历史上的人类文化分解为碎片,我们得到了我们的新“生成式人工智能” (generative AI)文化。
由ChatGPT等应用程序“写成”的文本极其连贯,一次指示一个词。这种所谓的盲目“语言计算机”无法预见一个词以上的事,但它以一个词与另一个词相关联,第二个与第三个相关联的方式,将这些关联向前推进,使我们得到了诗歌、故事、求职信、分层文件、教科书章节、计算机程序等等。数字媒体的历史以及人类文明的历史急需一个碎片理论。因为,在数字时代,在数字媒体中,计算机代表事物,模块化使用物质性,这是数字媒体的原则之一,这在我的著作《新媒体的语言》中详细讨论过,现在已经翻译成中文,几年前在中国出版发行。所以,这个观点是现实图像由像素组成——你知道,由计算机呈现的自由空间,由粒子对象、多边形等组成。但通常情况下,如果我有一种新型的转化,就像我说的网络那样,会带来图像、文本、3D模型以及从学习过程中提供给它们的任何其他数据中提取模式,这些模式我们还不知道如何可视化,因此我们无法可靠地观察神经网络内部。
但我认为人们也许能够分布在数万亿个连接中,虽然还不清楚,类似于人类大脑的运作方式。这就是让网络合成这些新图像的原因。因此,这些图像有目的地由AI驱动的Midjourney创建充满碎片的场景,后来我意识到这可以作为谈论AI的一种隐喻。所以,数字媒体的历史,以及人类文明的整个历史,迫切需要一个关于碎片的理论。一个分类体系将确立存在数十种类似的品类。因此,在这里你也看到了这种美丽的碎片,这种美丽的神经噪音,可以说是在墙上,有时形成书籍,有时形成衣柜,但它们都是被组合在一起的碎片。当然,其他人曾经考虑过这样的分类学,这让我再次回想起18世纪欧洲废墟美学的例子。这呼应了现代科学对物质元素的追求,比如分子、原子和基本粒子。
19世纪欧洲艺术家开始认真地用可见的文字描绘碎片。印象派画家将其分解成单独的彩色笔触;乔治·修拉(Georges Seurat)和保罗·西涅克(Paul Signac)依赖于机械式的不规则点。后来,在1905-1907年间,有一群称为分色主义的艺术家,他们使用小方形的画笔笔触,这是点彩画派的新版本。保罗·塞尚(Paul Cézanne)在1878年左右迈出了另一个关键的一步。他宣称所有的形状都应该用圆柱、球体和圆锥来表示。但矛盾的是,这种看似对现实的固化实际上只是一种新的、更极端的分裂方式。印象派展现了我们感知的片段,而塞尚则是分裂了世界本身。他作品中的桌布,比如《玩纸牌的人》(1892年),不再是一整块连续的织物。相反,它是一组碎片,是多个方向的平面集合。1907-1932年间,暴力分裂的美学来到了欧洲,莫斯科、柏林、布拉格、华沙、罗茨、巴黎等地的现代主义视觉的中心。我们在各处都能看到:毕加索和布拉克的拼贴画;让·梅辛格(Jean Metzinger)、阿尔伯特·格莱兹(Albert Gleizes)、费尔南·莱热(Fernand Léger)、罗伯特·德劳内(Robert Delaunay)等人的立体主义;娜塔莉亚·冈察洛娃(Natalia Goncharova)、亚历山大·埃克斯特(Aleksandra Ekster)、柳博夫·波波娃(Lyubov Popova)、马列维奇等人的立体未来主义;汉娜·霍赫(Hannah Hoch)、莫霍利-纳吉(Moholy-Nagy)、罗德琴科的拼贴照片;维尔托夫和艾森斯坦的电影剪辑;瓦尔特·本雅明(Walter Benjamin)未完成的“拱廊街计划”的文化历史蒙太奇甚至引发了更多文化分裂理论的解读。
我认为,时机成熟了,我们正在思考人工智能的理论,也许是我,也许是你,将成为下一代的理论家,不是媒体理论家,不是即时理论家,不是数据理论家,也不是软件理论家,而是人工智能理论家。我相信在这个房间里有些人可能会提出同样有趣的网络分割理论,这构成了生成式媒体的基础。如果你要实时量化,你需要动手操作,学习计算机科学,亲自学习编程网络,因为理论化媒体的方法之一就是深度的物质主义式的。大多数关于数字文化的人文泛化都毫无意义,因为这些人个人害怕技术;其次,我们意识到自己变得越来越不重要;再者,我们根本不了解这些事物的运作方式。因此,请务实一些,亲自动手,深入连接、共进化的世界,构建层层叠加的图像等,也许我们甚至能够看到利用深度网络从其图像数据库中提取的所有模式,展示出难以想象分辨率的巨型可视化图表。
但作为一个一直投身于数字美学的艺术家,我很高兴能创造出我在这里向你展示的私人独特的图像空间。我喜欢这种绘画般、生长般的空间质感,以及相似的、复杂的主体,我有得到这些图像的秘法。但我最感兴趣的还是这些空间本身,奇怪的图书馆,到处散落的书籍。我确实指定了我的人群,比如2005年在北京,或2013年在首尔,或1995年在上海等地工作室工作的艺术家,但我也有其他技巧,尽管他们看起来在一个奇怪的空间,这些空间既是文化的空间,也是碎片的空间。
所以,对于这些碎片的结论是,它们呈现的关于人类文化的历史是一部缓慢遗忘、非常罕见、几乎永远不可能记住的历史。著名的艺术家、作家、评论家和引起关注的人们在我们的记录中逐渐消失。对于更幸运的少数人来说,他们只能被记住几件事。例如,当人们遇到我时,会说“哦,你是列夫·曼诺维奇,你写了《新媒体的语言》。但我同时也写了几百篇文章,800次演讲,至少有一百多个艺术项目展览,编辑和出版了15本书。现在我已经只记得用书来回应,而且我不知道能持续多久。一个工作了超过60年的艺术家被缩减为几张标志性的图像。一个终身从事写作的作家如果幸运的话,也只能被缩减为一本书。所以,我是幸运的。历史的压缩是残酷而没有余地的,而现在由生成式人工智能所提供的分解、选择性重组和合成的机制可能相对没那么残酷。
当然,如果要使你在深度神经网络的训练中被记住,首先得需要它被幸运地数字化,对吧?因此,某物必须被数字化,某物必须被捕捉,某物必须在可以从网络上获取,然后也许这个对象、这个人工制品,在计算机科学家下载网页时会很幸运地被搜集到,被纳入到神经网络中。
我正在一个小镇里一家过去四年都没有游客参观的小博物馆里作画,也许这幅画很幸运,因为它出现在当地一张周末来访的高中生情侣的自拍照背景中,但是旁边的画却没那么幸运。是的,我们无论如何都会得到碎片,但也许碎片会比以前更多,比之前更为严格的人类记忆和更为残酷的印刷文化所允许的更多。毕竟,Stable Diffusion 已经在超过50亿张图片上进行了训练,所以也许你的自拍照或者你14岁时画的那幅画,在网上某处也存在。
这种更宽容、不那么二元的遗忘和复活过程可能是人工智能美学中最好的一面。这是历史的仁慈。最后,我想说另外一件事。前几天我在社交媒体上发了一条信息,因为现在我可以阅读那些文章。或者像一些西方艺术家抗议AI在未经授权的情况下所使用他们的作品,等等。我认为总的来说有点矛盾,你可能会喜欢这种东西。如果你的图片最终出现在用于生成式人工智能训练的庞大神经网络的数据集中,那么你可能会很幸运,因为在这种方式下你将被记住,你成为了这种用于生成式人工智能训练的碎片简历中的一部分。然后,当我们的艺术设计师和我们的文化产业从业者创造出图像、空间、概念艺术、视频游戏、建筑等等新的像素时,你也间接地进入了其中。我的意思是,因为每个由规范人工智能生成的图像都不会直接克隆现有的图像,对吧?它通过数万亿个连接组合事物。实际上,最近一个统计表明,我们看到的由一个生成式人工智能网络生成的图像中,直接引用现有图像的部分只有6%。所以,认为AI直接将人们的图像串联起来是荒谬的。也许当你进入这座新博物馆的野生展墙时,你应该感到幸运。这个博物馆分布在各个连接领域,并最终为新的机制、新的想象力和新的创造提供了养料。所以,我就在这里停下来,也许你们有一些时间提问和讨论。谢谢。
问答环节
Q:在更多的情况下,艺术家其实也是普通人,也会淹没在新媒体的洪流当中,那么普通人应该怎么面对AI的洪流呢?
Manovich:当然,我认为普通人,包括艺术家,都从人工智能中获益匪浅。请记住,人工智能不仅仅是生成式媒体,它也是一种加快和提高效率的方式。所以,如果你在手机上打字,任何形式的字母识别都是由人工智能实现的。对不起,我举的例子都是来自于西方软件,比如谷歌,因为我不住在中国。当然,我知道中国的腾讯,所以如果我提到了西方的东西,请原谅我。只要记住,请用你们对等的东西替换。人工智能在某种程度上正在推动一切,对吧?人工智能也在推动搜索。所以,人工智能的一部分就像是一种加快事物进程的方式。另一个重要的事情实际上是我从英伟达CEO那里听到的。他说,人工智能的发展要体现在每个人都可以编程。以前,你在学习编程前需要学习代码,以前是Pascal或 C 或 C++ 或 Python 这样的特殊语言,但现在你可以通过对计算机说点什么来编程。对 ChatGPT 或我们的应用程序说点什么,包括使用谷歌镜头,你可以进行开发,中国也有自己的开发版本,所以每个人都成了一个程序员。编程使你能够控制事物,进行沟通,制定规则,创造即时。
所以,人工智能给社会带来了巨大的好处。我们也知道,各国对人工智能可能产生一些意想不到的后果感到担忧,并且在欧洲、美国和中国都在进行监管。看到中国处于领先地位的事实相当令人鼓舞。中国在监管人工智能方面采取了最激进的方式,这是一种好方式,可以相信技术的可能性……我不确定任何技术是否有好坏之分,如果你想产生好的结果,你也得到坏的结果,但我们应该努力去监管它。我很高兴看到中国正在努力做到这一点。但总的来说,我认为技术更多的是作为信息源,它让人们能够简单地找到工作,找到感兴趣的渠道,让人们创造。我是说,简单地使用生成式媒体工具的愉悦感,让很多人得到了在现实生活中得不到的玩耍体验。所以我认为人们受益匪浅。我认为知识分子们应该开阔眼界,让他们的理论更接近普通人所做的事情。你知道,中国取得了显著的系统性进步,也是世界的进步。从1990到2015,全球40%的人口摆脱了极度贫困,并且不再贫困,实际上是因为亚洲,特别是中国的进步,你知道,全世界中产阶级从90年代的7亿人增加到今天的四五十亿人。这一切的发生是因为资本主义和技术。
所以资本主义、技术和人工智能是最进步、最积极的力量。我认为知识分子们应该停止攻击资本主义,停止攻击技术,他们应该意识到这是社会进步的动力。当然,资本主义并非只有积极面,它也有负面的一面,但并非一切都是那么简单。这就是我给大家的信息,包括会议中的参与者,因为我注意到一些韩国人对资本主义感到不满,但你们在中国,因为资本主义,你们才能乘飞机,因为资本主义,你们才有互联网,因为资本主义,你们的餐桌上才有食物。在20世纪,共产主义曾经作出了好的尝试但遭遇了挫折,但这个尝试使数以亿计的人死去了,也许光中国就有这么多人死去了。所以人工智能、资本主义是我所追求的,这就是我的信息,我的宣言,让他们睁开眼睛看现实。我们可以做社会、文化和技术的理论,让普通人也能理解,而不仅仅是我们之间。谢谢。
讲者简介
Lev Manovich 艺术家、作家,也是全球最有影响力的数字文化理论家之 一。马诺维奇目前是纽约城市大学研究生中心计算机科学系的校长教授和文化分析实验室主任。马诺维奇在四个新研究领域的创建方面发挥了关键作用:新媒体研究(1991年-)、软件研究(2001年-)、文化分析(2007年-)和人工智能美学(2018年-)。
Lev Manovich is an artist, writer, and one of the most influential theorists of digital culture worldwide. Manovich is currently a Presidential Professor of Computer Science at the City University of New York’s Graduate Center and the Director of the Cultural Analytics Lab. Manovich played a key role in creating four new research fields: new media studies (1991-), software studies (2001-), cultural analytics (2007-) and AI aesthetics (2018-).