我们将 AI 骗入了一场电话游戏 – 这是发生了什么

发布时间:2025年3月19日    来源:szf
我们将 AI 骗入了一场电话游戏 – 这是发生了什么

快速阅读: 据《MakeUseOf 的》称,AI图像生成模型常产出有问题的图像。测试显示,无论是人类提示还是AI自动生成的提示,结果都不可预测。AI在处理复杂或抽象图像时尤其困难,表明技术仍有局限性。

由人工智能驱动的图像生成模型正在快速进步,但它们依然经常生成有问题的图像。人们很容易认为问题出在人类的提示上,于是我决定测试一下,看人工智能是否更容易处理由自身生成的提示。

几年前,当人工智能图像生成模型首次问世时,我们都以为这将是所有从事视觉媒体工作的人都会欢迎的技术。然而,事实并非如此。尽管这些模型可以生成超现实的照片,但它们生成的图像往往属于不可预测的类别,尤其是当你需要一些更复杂的东西时(例如,人工智能在处理手部细节时往往存在问题)。你可以将这个问题归咎于人工智能模型本身,也可以归咎于人类和我们不一致的提示技能。

自然地,要测试谁应该负责,最直接的方法就是看看如果输入生成的提示,图像生成模型是否会表现得更好。为了验证这个假设,我会使用Gemini创建一系列提示,避免提到我要生成的对象或照片的名字。这将有助于检查人工智能“理解”指令的能力。当然,仍然有可能模型会大量借鉴其训练数据(特别是在重现现有照片时),但这就是现状,就像孩子们常说的那样。

我用来生成图像的工具将是必应(是的,必应仍然存在)图像创建器,它基于DALL-E 3。为了测试模型的能力,我会从简单的形状开始,随着实验的进展逐步过渡到更复杂的图像。

如果你使用过ChatGPT及其同类产品,你已经知道它的某些回答是多么冗长无用,而我在“试运行”期间从模型中得到的提示也是如此。因此,我决定将自己限制在500个字符内,以保持提示的一致性。

**人工智能在简单形状上的表现**

让我们从一个简单的正方形开始。我要求Gemini描述一个正方形而不提及它的名字,它给出了这样的描述:

将这个描述输入DALL-E后,我得到了以下结果:

确实是个正方形,不过我觉得它在几何上过于复杂。接下来增加难度,我要求人工智能详细描述一个立方体。结果令人惊讶:

还记得我们说过人工智能模型不可预测吗?在这里,DALL-E确实生成了一个立方体,但它有点困惑,把它变成了一个魔方。尽管刻意避免使用“立方体”这个词,人工智能还是部分搞错了——这可能是由于这种匈牙利玩具的流行。

**带有真人主体的摄影中的AI表现**

立方体的情况表明,即使有了详细的“客观”描述,人工智能仍可能误解相当直接的指示。那么,让我们来看看它在处理经典图像的人工智能生成描述方面的表现如何,比如多萝西娅·兰格的《移民母亲》。

这是原作:

多萝西娅·兰格(1895-1965),公共领域

这是DALL-E对该著名照片的解释:

足够接近!虽然不是完全准确,因为DALL-E显然忽略了“被她的孩子包围,孩子的脸隐藏或转向别处”的部分,而且原本是“母亲”把手放在脸上,现在变成了其中一个孩子承担了这个角色。

让我们尝试更复杂的东西。你可能见过经典的“大楼顶上的午餐”:

作者未知

这个巧妙的提示带来了出色的结果:

一旦你忽略了人工智能图像的经典标志(相同的碗和“复制粘贴”的主体),在构图和整体氛围上几乎可以说是惊人的。不过,这并不意外——不仅这张图片非常受欢迎,而且它还处于公共领域,所以我怀疑DALL-E在训练过程中就已经重现了它的内容。

**人工智能能处理复杂照片吗?**

既然这是实验中的最后一个“测试”,那就全力以赴吧!虽然人工智能在处理人像方面表现不错,但在面对复杂且更具隐喻性的场景时通常会崩溃。那么,让我们来看看阿波罗8号从月球轨道拍摄的经典照片“地球升起”呢?

威廉·安德斯,1933-2024

Gemini在这个描述上表现不佳(或者我应该说是球)。考虑到这太抽象了,我在提示中加入了“从近月轨道拍摄”的短语,但这并没有太大帮助:

这是一个很棒的前卫摇滚专辑封面,但与“地球升起”毫无关系。

为了结束实验,我选择了迄今为止最晦涩的照片之一,爱德华·韦斯顿的工业杰作“Armco钢铁”:

爱德华·韦斯顿,1866-1958

看起来是一个不错的提示,让我们看看Dall-E是否同意:

虽然我喜欢科幻氛围,但它看起来一点也不像原作。我不想以巨大的失败结束这个实验,所以我决定通过在提示末尾加上“1920年代照片”来帮助机器。我的想法是这个特定术语可能有助于澄清我所指的图像。不幸的是,人工智能再次让我失望,创造出了另一个前卫摇滚专辑封面:

这个实验的结果很有趣,我们可以得出的结论是,人工智能图像生成是非常不可预测的,尤其是在处理更抽象的概念时。无论提示是由人工智能生成的精确提示还是由人类提供的不完美提示,结果似乎都是随机的。所以,下次当你想责怪自己和你的提示技巧时,记住即使两个机器之间进行沟通,结果可能也差不多。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日