AI 成像：5 分钟…德里克·米尔恩

快速阅读: 据《InPublishing 出版》称，AI技术在成像中的应用显著提升了工作效率与图像质量，尤其在图像增强、背景移除和元数据自动化方面表现突出。未来，生成系列一致图像及验证图像真实性将是重要发展方向。Pixometry正整合先进AI引擎，拓展图像优化功能，并与软件提供商合作简化工作流程，推动图像处理的效率与质量提升。

摄影：Pixometry。

问：AI技术在成像工作流程中是如何被使用的？
答：AI技术正在成为报纸和杂志出版行业中成像工作流程的基本组成部分，简化生产任务，提升整体图像质量和一致性。这项技术可以作为现有软件的补充功能集成进来，扩展现有工具的功能，或者作为一个自包含系统，能够自动化大量以往需要手动完成的过程。其中最成熟的用例之一是自动图像增强。AI工具现在常规性地调整色调、对比度、锐度和色彩平衡，以满足印刷和数字输出的需求。这确保了跨标题和渠道的一致性，从而实现更快的处理速度和更高的视觉一致性。

背景移除，传统上是一项劳动密集型任务，也被AI彻底改变。即使是经验丰富的成像专业人员，过去需要花几分钟才能完成的裁剪，现在只需几秒钟就能完成，几乎不需要人工干预。这对需要在短时间内处理大量图像的环境尤为重要，尤其是在每日报纸生产中。

另一个值得关注的领域是元数据自动化。AI驱动的关键字标注和图像识别不仅改善了内容系统内的资产管理工作，还支持提高存档内容的可发现性并提升数字出版的SEO表现。一个如今更广泛采用的非常实用的工具是Adobe Firefly的生成填充功能。这是一种半自动化的处理方式，该功能允许操作员以视觉连贯的方式扩展图像边缘，使其符合所需的框架或布局。

一些出版商还在尝试利用生成式AI创建全新图像，特别是在需要插画或概念性图像但资源有限的数字内容中。尽管仍处于早期阶段，这些工具提供了灵活性，尤其是在库存照片或原创内容不可用时。即便读者意识到这不是‘真实的’，他们依然会积极回应并与其互动。随着AI工具不断成熟，它们在成像工作流程中的集成只会更加深入，从而实现更高的效率和创意潜能。

问：在成像工作流程的哪些领域AI的影响最为显著？
答：当前成像工作流程中使用的两种不同类型的AI技术。第一种是手动的、逐张图像的方法，最显著的例子是通过文本提示生成器如Firefly、Ideogram、Midjourney等创造的精美且引人注目的图像。这些由AI创作的艺术作品‘一次性’吸引了公众和媒体的注意。

虽然它们很好地展现了AI成像的想象力和渲染能力，但第二种形式——批量处理自动化——真正释放了AI在出版成像工作流程中的变革潜力。这些解决方案常被忽视，但它们本身也相当强大——默默地承担了成像过程中的大部分繁重任务。

当前成像工作流程中使用的两种不同类型的AI技术。第一种是手动的、逐张图像的方法，最显著的例子是通过文本提示生成器如Firefly、Ideogram、Midjourney等创造的精美且引人注目的图像。从专业成像的角度而言，批量处理功能能够产生同样令人满意的结果，大幅缩短处理周期，将原本需要熟练人员花费数分钟甚至数小时的任务转变为只需几秒即可完成的操作。

目前有三大类工具能够在成像工作流程中实现批量处理自动化：图像增强：从原始图像生成增强图像的技术已存在超过25年；当前的解决方案提供了多种设置和操作选项，可以从看起来较差的图像中创造出惊人的效果，适用于印刷和数字平台。考虑到印刷机、纸张和数字屏幕的限制，图像增强引擎产生一致且高影响力的成果，揭示每张照片的美丽及其微妙细节。实施自动图像增强策略能让成像团队批量处理大多数图像，直接向排版团队提供多个版本。这为专注于需要专家注意和主观润饰的关键视觉提供了时间。

背景移除：背景移除可能是图像优化中最引人注目的例子。虽然熟练的操作员可以相对较快地制作出准确的裁剪，但复杂的图像——例如一位温布尔登网球选手手持球拍且透过球网可以看到人群——可能需要10分钟以上才能完成。最新的AI引擎将此过程减少到仅仅几秒钟，无需任何人工干预即可提供高度准确的即用型结果。传统上，出版商将背景移除外包，周转时间从12到24小时不等。有了成熟的AI工具后，这一过程可以通过云服务带入内部，在不到30秒的时间内产生结果。其准确性如此之高，以至于两家英国大型报纸集团报告称每月的成功率稳定在95%以上。当应用于多份标题时，效率提升本身就足以成为一个强有力的进一步调查理由，无论出版商规模大小。再加上每次裁剪的成本极低，通常为£0.25或更低，整合AI成像平台的价值变得更加诱人。

图像理解：一种截然不同但同样强大的批量自动化过程——图像理解——也大大减少了识别图像内容并创建相关元数据所需的时间。例如，当我们看一张照片时，我们知道这是一个孩子在阳光明媚的日子里拿着冰淇淋站在威斯敏斯特桥上，背后是大本钟，但对于计算机来说，它只是一组像素。图像理解旨在识别并添加标签，包括‘孩子’、‘桥’、‘夏天’、‘太阳’等更多内容。甚至识别大本钟并添加GPS坐标。无缝集成到成像工作流程中——同时扩展到出版商更广泛的生态系统——这项技术模糊了角色和部门之间的界限。丰富关键词的添加显著提升了内容管理系统中的可发现性，使得图像可以轻松找到并反复使用。

问：在成像工作流程的哪些领域需要更多的AI开发？
答：尽管今天的强大工具集可以为出版商带来即时的效率提升，特别是在成像和版面部门，仍有两个关键领域在AI技术快速发展的过程中受益更多。

图像放大：这些工具通过创建像素来增加细节、清晰度并减少低分辨率或拍摄不佳图像中的噪点。虽然这个过程取得了一些令人印象深刻的结果，但它尚未完全准备好部署到完全自动化的流程中。在手动流程中，这无疑是完美的，因为熟练的操作员可以根据需要进一步编辑图像，但目前的结果还不够一致，无法部署到完整的自动成像流程中。还需要考虑的是引入新细节到摄影师原始图像中的潜在问题，比如改变创作者的愿景等。然而，这种形式的AI成像非常令人兴奋，能够从社交媒体截图、屏幕抓取、缩略图和压缩文件中实现清晰、锐利和生动的图像，这是AI在成像领域的重大里程碑——而且并不遥远。

解剖学真实性：AI引擎没有解剖学的概念；它们不知道典型的手有四根手指和一个拇指。相反，引擎从庞大的数据集中学习，识别模式而不是任何结构规则。与面部不同，面部通常以清晰的对称性被捕获，手和手指特别棘手，因为在数据集中它们以无数的变化和手势出现；指向的手指、握紧的拳头、部分可见的、握手或持物的、受透视扭曲的、运动中的等等。所有这些都可能导致引擎认为手的形状、手指数量和大小高度可变。这个问题因AI图像生成器通过噪声精炼图像的方法而加剧（这可以类比于雕塑家雕刻大理石块；最初只是一个粗糙的形状，但随着时间推移，细节逐渐显现）。为了去除噪声，引擎根据从数据集中学到的模式猜测应该是什么样的。当然，随着引擎进化出更高质量的训练数据集和更好的解剖学建模，这种情况将会改变。在此之前，偶尔出现额外的手指或变形的手很可能会成为AI生成图像的一个‘标志’。

问：对于正确应用AI的出版商来说，他们看到了什么样的效率节省？
答：来自世界各地的许多出版商普遍反映，通过实施自动成像工作流程，不仅实现了显著的时间节省——逻辑上也带来了成本降低，同时提高了其标题的整体图像质量。这些成像工作流程带来了多种效率。有些是立即可见的，其他则是通过更广泛的自动化承诺逐渐显现的，随着时间的推移，随着更多部门和渠道采用这项技术，许多效率还会继续增长。

在这个过程中，核心是一个能够满足艺术总监设定的高质量标准，同时高效处理大量图像的图像增强平台——即使是在高峰期也是如此。这包括各种类型的图像，如裁剪、黑白转换、醒目的英雄镜头，甚至是缩略图。成像自动化迅速带来重大收益：它在成像和版面方面节省了大量时间，标准化了图像质量，并改进了印刷和数字格式的再现。熟练的成像团队也从中受益，摆脱了重复性任务，可以专注于优先级较高的图像，帮助提高整体质量，同时增加管理额外标题、特别版和其他内容的能力。

通过在短短几秒内生成高质量增强的图像和精确的裁剪，时间节省可以很快累积到每天几个小时。如果扩展到一个月，这将是一个非常有说服力的财务讨论。

另一个特别有效的效率提升适用于在线标题。通常情况下，由于内容创作者缺乏工具或培训来改善图像，上传的图像往往未经优化。有了AI成像平台，图像会自动优化——不仅仅是视觉上让它们在移动设备和数字屏幕上更具吸引力，而且在技术上也有正确的文件大小、格式和SEO友好的属性。所有这些都在改善搜索性能和整体可见性方面发挥了重要作用。

关键效率：
– 更快的周转时间：自动化编辑任务以帮助满足紧迫的截止日期。
– 降低成本：减少手动工作，释放预算和设计资源。
– 降低成本：更好的图像质量：提供一致、精致的视觉效果，提高参与度。
– 更多产出：加速工作流以便用更少的努力生产更多内容。
– 旧内容复用：使存档图像可搜索和可重复使用，节省新拍摄费用。

问：当使用AI创建图像而非增强图像时，AI的表现如何？
答：基于AI的图像生成，即完全从文本提示生成图像的技术，一直是AI的代表作，并自2023年以来取得了令人难以置信的发展。尽管如此，结果仍然可能不一致，需要在发布前仔细检查。

话虽如此，像Adobe Firefly、Midjourney或Stable Diffusion这样的AI系统可以快速生成适合编辑插图、社交媒体图形或概念艺术的引人注目的视觉效果，为出版商提供了一种方便且有效的方法来生成一次性插图内容。英国一家报纸集团在其日常信息图表以及其他需求中利用了Firefly的功能。用户的学习曲线很短，一旦理解了文本提示，这个过程就成为了日常工作流程的自然延伸，从而在页面上产生了独特且引人注目的图像。

Adobe的Firefly拥有一项极为突出的功能，可以说是手动形式的AI成像技术中最实用且有效的体现。“生成填充”功能通过与现有场景自然融合的内容扩展图像背景。当图像不符合其框架的宽高比要求或封面图片需要多出几毫米以包裹脊线时，这项功能尤为完美。

想象一下一张国王和王后穿过温莎公园的竖向照片，然而它被发布在一个横幅框架内。在几秒钟内，照片般逼真的树木、草地和天空就会填满多余的空白区域，并且由于读者的眼睛自然会被图像的焦点而不是边缘吸引，因此对现实主义的要求可以稍微宽容一些。正是这一功能让影像部门从Firefly中获得了最大益处。

值得一提的是，该功能在解剖学准确性和细节真实性方面存在一些显著限制，正如上面提到的那样。当我们查看人物图像时，我们天生就能察觉到图像中的某些瑕疵；无论是皮肤过于完美、眼睛周围皱纹过多，甚至是虹膜不够圆润，总会有些不自然之处。

问：你认为AI成像的下一阶段发展会是什么？
答：在AI成像领域，一个令人兴奋且切实可行的发展将是能够生成主题相关且可重复生成的图像。与其生产一次性、独立存在的视觉效果，AI将越来越多地能够创建一系列遵循特定视觉风格、品牌美学或编辑主题的一致图像。这对需要在文章、活动或期刊中保持视觉连贯性的出版商和内容创作者来说具有巨大潜力。

另一个关键的发展领域是改进验证图像真实性的工具，特别是判断图像是否为AI生成还是真实的。随着生成式AI继续提高创建高度逼真视觉效果的能力，真实图像与合成图像之间的界限正变得越来越模糊。这对新闻编辑部、出版商以及对视觉真实性要求高的平台都提出了重大挑战。

问：Pixometry有什么计划？
答：Pixometry开发的图像优化平台已经在全球范围内应用于出版业以及其他图像密集型行业，包括创意机构、零售业和超市。虽然平台的基础仍然专注于高质量的自动图像增强，但它已经自然地发展为整合世界领先科技公司提供的第三方AI技术。

在利用这些卓越引擎的第六年里，Pixometry正在关注新的和新兴的AI引擎，这些引擎将扩大图像优化的范围并提高其有效性。如上所述，有一些AI成像工具已经成熟到可以在批量处理环境中持续产生高质量结果的地步。与此同时，更多专业化的AI工具正在出现，每种工具都有不同程度的适用性，具体取决于出版商的具体需求。

借助Pixometry的云端基础设施，这些解决方案可以轻松开启，供感兴趣的用户使用——你可以将其视为图像优化的“自选组合”。此外，新的图像文件格式，如JPEG XL (.jxl) 和 AVIF (.avif)，因其能够在提升视觉质量的同时改善压缩性能而受到关注。这些格式将在数字出版领域变得越来越重要，因为在该领域，图像性能和加载速度是关键考虑因素。

最后，Pixometry正在直接与编辑和CMS软件提供商合作，构建集成的应用程序和工作流程。这使得内容创作者只需点击一下即可生成完全优化且即用的精准图像，从而简化整个图像处理流程。

(以上内容均由Ai生成)