我们将 AI 骗入了一场电话游戏 – 这是发生了什么
快速阅读: 据《MakeUseOf 的》称,AI图像生成模型常产出有问题的图像。测试显示,无论是人类提示还是AI自动生成的提示,结果都不可预测。AI在处理复杂或抽象图像时尤其困难,表明技术仍有局限性。
由人工智能驱动的图像生成模型正在快速进步,但它们依然经常生成有问题的图像。人们很容易认为问题出在人类的提示上,于是我决定测试一下,看人工智能是否更容易处理由自身生成的提示。
几年前,当人工智能图像生成模型首次问世时,我们都以为这将是所有从事视觉媒体工作的人都会欢迎的技术。然而,事实并非如此。尽管这些模型可以生成超现实的照片,但它们生成的图像往往属于不可预测的类别,尤其是当你需要一些更复杂的东西时(例如,人工智能在处理手部细节时往往存在问题)。你可以将这个问题归咎于人工智能模型本身,也可以归咎于人类和我们不一致的提示技能。
自然地,要测试谁应该负责,最直接的方法就是看看如果输入生成的提示,图像生成模型是否会表现得更好。为了验证这个假设,我会使用Gemini创建一系列提示,避免提到我要生成的对象或照片的名字。这将有助于检查人工智能“理解”指令的能力。当然,仍然有可能模型会大量借鉴其训练数据(特别是在重现现有照片时),但这就是现状,就像孩子们常说的那样。
我用来生成图像的工具将是必应(是的,必应仍然存在)图像创建器,它基于DALL-E 3。为了测试模型的能力,我会从简单的形状开始,随着实验的进展逐步过渡到更复杂的图像。
如果你使用过ChatGPT及其同类产品,你已经知道它的某些回答是多么冗长无用,而我在“试运行”期间从模型中得到的提示也是如此。因此,我决定将自己限制在500个字符内,以保持提示的一致性。
**人工智能在简单形状上的表现**
让我们从一个简单的正方形开始。我要求Gemini描述一个正方形而不提及它的名字,它给出了这样的描述:
将这个描述输入DALL-E后,我得到了以下结果:
确实是个正方形,不过我觉得它在几何上过于复杂。接下来增加难度,我要求人工智能详细描述一个立方体。结果令人惊讶:
还记得我们说过人工智能模型不可预测吗?在这里,DALL-E确实生成了一个立方体,但它有点困惑,把它变成了一个魔方。尽管刻意避免使用“立方体”这个词,人工智能还是部分搞错了——这可能是由于这种匈牙利玩具的流行。
**带有真人主体的摄影中的AI表现**
立方体的情况表明,即使有了详细的“客观”描述,人工智能仍可能误解相当直接的指示。那么,让我们来看看它在处理经典图像的人工智能生成描述方面的表现如何,比如多萝西娅·兰格的《移民母亲》。
这是原作:
多萝西娅·兰格(1895-1965),公共领域
这是DALL-E对该著名照片的解释:
足够接近!虽然不是完全准确,因为DALL-E显然忽略了“被她的孩子包围,孩子的脸隐藏或转向别处”的部分,而且原本是“母亲”把手放在脸上,现在变成了其中一个孩子承担了这个角色。
让我们尝试更复杂的东西。你可能见过经典的“大楼顶上的午餐”:
作者未知
这个巧妙的提示带来了出色的结果:
一旦你忽略了人工智能图像的经典标志(相同的碗和“复制粘贴”的主体),在构图和整体氛围上几乎可以说是惊人的。不过,这并不意外——不仅这张图片非常受欢迎,而且它还处于公共领域,所以我怀疑DALL-E在训练过程中就已经重现了它的内容。
**人工智能能处理复杂照片吗?**
既然这是实验中的最后一个“测试”,那就全力以赴吧!虽然人工智能在处理人像方面表现不错,但在面对复杂且更具隐喻性的场景时通常会崩溃。那么,让我们来看看阿波罗8号从月球轨道拍摄的经典照片“地球升起”呢?
威廉·安德斯,1933-2024
Gemini在这个描述上表现不佳(或者我应该说是球)。考虑到这太抽象了,我在提示中加入了“从近月轨道拍摄”的短语,但这并没有太大帮助:
这是一个很棒的前卫摇滚专辑封面,但与“地球升起”毫无关系。
为了结束实验,我选择了迄今为止最晦涩的照片之一,爱德华·韦斯顿的工业杰作“Armco钢铁”:
爱德华·韦斯顿,1866-1958
看起来是一个不错的提示,让我们看看Dall-E是否同意:
虽然我喜欢科幻氛围,但它看起来一点也不像原作。我不想以巨大的失败结束这个实验,所以我决定通过在提示末尾加上“1920年代照片”来帮助机器。我的想法是这个特定术语可能有助于澄清我所指的图像。不幸的是,人工智能再次让我失望,创造出了另一个前卫摇滚专辑封面:
这个实验的结果很有趣,我们可以得出的结论是,人工智能图像生成是非常不可预测的,尤其是在处理更抽象的概念时。无论提示是由人工智能生成的精确提示还是由人类提供的不完美提示,结果似乎都是随机的。所以,下次当你想责怪自己和你的提示技巧时,记住即使两个机器之间进行沟通,结果可能也差不多。
(以上内容均由Ai生成)