当 Google 的工具让我失望时,我使用 ChatGPT 翻译图像文本 – 事情变得很奇怪
快速阅读: 据《ZDNet》最新报道,本文作者测试了AnyCubic Kobra 3 3D打印机的切片软件,发现其界面大部分已翻译成英文但仍有部分保留中文。作者尝试用谷歌翻译和ChatGPT Plus翻译界面文字,虽解决了部分问题,但ChatGPT在翻译过程中对图像进行了重新设计,出现了诸多改动,展现了生成式AI的优势与局限性。
亚历克斯·西尔弗/盖蒂图片社
作为一名技术专栏作家和YouTube制片人,测试新设备是我工作中有趣的一部分。我一直在测试一台AnyCubic Kobra 3 3D打印机,这促使了这篇文章的诞生。
3D打印机使用一种名为切片软件的工具,将3D模型转换为分层结构,然后由3D打印机用熔融塑料逐层打印出来。不幸的是,一个新的趋势是大多数较大的3D打印机公司都采用了开源切片软件Orca Slicer,并重新品牌化用于自己的产品,添加特定于机器的代码以实现与自己打印机的兼容性。
同时:
这个ChatGPT技巧可以揭示你的照片是在哪里拍摄的——而且令人不安
AnyCubic 在其AnyCubic切片器Next中也做了类似的事情,显著改进了他们之前自主研发的切片器。AnyCubic总部位于中国。虽然他们的切片器界面大部分已经翻译成英文,但状态页面仍然保持中文。我相信他们会很快更新它,但我现在正在测试新版本。
你可以在文章中的任何图片上点击右上角的小方块来放大查看。
截图由大卫·格维茨/ZDNET提供
虽然大多数状态页面基于上下文是可以自解释的,但在两个区域我确实想理解文字内容。在(1)处有两个按钮。我不想随意切换按钮直到我知道它们的意思。而在(2)处有一个大大的红色警告。这是一个重要的警告吗?我需要特别注意吗?
谷歌翻译
通常,当我需要翻译时,我会直接把它放到谷歌翻译中。但我过去一直使用谷歌翻译粘贴文本。在这种情况下,我无法粘贴文本,所以我点击了“图片”选项并得到了一个上传界面。
截图由大卫·格维茨/ZDNET提供
然后我上传了我刚才展示给你的截图(原始截图没有绿色数字),并将其发送到谷歌。
我得到了以下屏幕。
截图由大卫·格维茨/ZDNET提供
如你所见,谷歌翻译将大部分中文文本替换成了英文。我可以判断出这两个开关分别控制打印头灯和摄像头灯光。
不幸的是,红色警告文字即使在放大700%后仍然完全无法辨认。
截图由大卫·格维茨/ZDNET提供
这很令人沮丧,所以我决定尝试一下ChatGPT Plus。结果参差不齐。
ChatGPT Plus 文本输出
我在ChatGPT Plus的小加号按钮上输入了我的截图。几乎立刻,我就收到了一页描述每个中文字符串及其对应英文字符串的内容。
截图由大卫·格维茨/ZDNET提供
我注意到了两件事。首先,在(1)处,ChatGPT告诉我需要进行固件更新。谷歌翻译忽略了原图上的蓝色文字,并且在重新渲染的截图中完全没有提供这段文字。
其次,在(2)处,ChatGPT确实翻译了红色警告信息。基本上,它说如果你手动移动打印机头部,你应该注意你在做什么。这是一个有用的建议,但我担心了好几个月的那个红色警告块并不是我需要担心的。
最后,在底部,ChatGPT提供了在原始截图上叠加注释的功能。这是我必须亲眼看看的。
ChatGPT Plus 丢失了主线
ChatGPT已经完成了我需要它做的事情,所以剩下的部分只是作为AI调查员的好奇心驱动。我通过提示它“好的,请在截图上叠加注释”来回应ChatGPT的邀请。
我得到了这个。
截图由大卫·格维茨/ZDNET提供
如你所见,ChatGPT非常体贴地在原始截图上放置了覆盖层。但它这样做时使用的是蓝色中文字符而不是提供英文翻译。一些,比如屏幕中间顶部(1)处的,与那里已有的中文字符相似。另一些,比如屏幕右下角(2)处原本有红色警告消息的地方,放置了比原文少得多符号的蓝色中文字符。
有趣的是,ChatGPT还重新设计了图像。原本读作“Body1_PLA_0.2_52m49s.gcode”的英文文本被修改为“Baby_PLA3_FullNoo.gcode”。四卷丝材被替换成了三卷(4)并且重新着色(5)。
同时:
苹果关于通过Siri构建无代码应用的大胆构想——是炒作还是希望?
作为一个永远乐观的人,我决定再给ChatGPT一次机会。我提示它“请再次尝试,将英文翻译叠加到中文字符上。”
嗯,我得到了一些东西回来。
截图由大卫·格维茨/ZDNET提供
这个显示了所有四个丝材卷,所以那是个进步。它确实用英文单词替换了中文字符,但遗漏了那个我好奇的红色提示以及固件更新通知。
但我想让你注意的是相机视图。如果你仔细对比原始图像,你会发现ChatGPT重新制作了实际的照片。这张照片实际上不需要翻译。左边是原始图像,右边是ChatGPT的重新诠释。
原始图像在左边,ChatGPT的版本在右边。
但我想让你注意的是相机视图。如果你仔细对比原始图像,你会发现ChatGPT重新制作了实际的照片。这张照片实际上不需要翻译。左边是原始图像,右边是ChatGPT的重新诠释。
截图由大卫·格维茨/ZDNET提供
让我们列出ChatGPT所做的更改:
绿色箭头:Kobra 3设备名称,原本是带有斜线形状的模板字体,被替换为简单的“Kobra”。
橙色箭头:不清楚ChatGPT对我的插头阵列做了什么。
青色箭头:打印头原本是一个立方体,在新图像中变成了一个平面物体。
黄色箭头:正在打印的对象形状发生了很大变化,从带有树状支撑物的物品变成了看起来像金色基座的东西。
紫色箭头:“Sided PEI Sheet”变成了“Serial PEI Shoot”。
红色箭头:标签被移动并更改。
品红色箭头:房间里的东西和门被改变了。
同时:
OpenAI最令人印象深刻的动作与AI无关
所以,就是这样。
AI给予也夺走
一方面,我们可以认为ChatGPT确实给了我想要的东西,即红色警告通知的翻译以及那些按钮的作用,而谷歌却让我无法看到警告通知的文字。在这个背景下,ChatGPT胜出了而谷歌输了。
但是,ChatGPT给出纯文本翻译是不是偶然呢?因为如果ChatGPT只给我其中一张截图,我们不得不说谷歌赢了,不是因为它给了我希望的东西,而是因为ChatGPT失去了理智。
一方面,我们可以认为ChatGPT确实给了我想要的东西,即红色警告通知的翻译以及那些按钮的作用,而谷歌却让我无法看到警告通知的文字。在这个背景下,ChatGPT胜出了而谷歌输了。
生成式AI有很多很棒的地方。但时不时也会有一些让人挠头的问题。我确实得到了答案,但也得以窥探了一个非常混乱的AI大脑。
同时:
如何使用ChatGPT:初学者指南
这份工作很有趣。
你是否尝试过使用像ChatGPT或谷歌翻译这样的AI工具来解读图像中的文字?对你来说什么方法最有效?你是否遇到过这里描述的奇怪或意想不到的结果?你在翻译或分析其他语言的界面元素时常用的工具是什么?请在下面的评论区告诉我们。
你可以通过社交媒体关注我的项目更新。一定要订阅我的每周更新通讯,关注我在Twitter/X上的账号@DavidGewirtz,在Facebook上的账号Facebook.com/DavidGewirtz,在Instagram上的账号Instagram.com/DavidGewirtz,在Bluesky上的账号@DavidGewirtz.com,以及在YouTube上的账号YouTube.com/DavidGewirtzTV。
想要更多关于AI的故事?
订阅我们的每周新闻简报创新。
商业和技术领导者在2025年进行AI转型所需的7个战略见解
我是如何仅用一个提示就用这个AI工具构建应用程序的——你也可以做到
2025年最佳编码AI(以及不该使用的)
我现在最喜欢的5个Android AI应用——以及我是如何使用它们的
商业和技术领导者在2025年进行AI转型所需的7个战略见解
我是如何仅用一个提示就用这个AI工具构建应用程序的——你也可以做到
2025年最佳编码AI(以及不该使用的)
我现在最喜欢的5个Android AI应用——以及我是如何使用它们的
(以上内容均由Ai生成)