Midjourney v7 推出语音提示和更快的草稿模式——为什么它的评价褒贬不一？

快速阅读: 据《VentureBeat 公司》称，迈极影像推出V7版本，支持语音输入生成图像，新模式下图像生成更快但质量略逊。尽管功能有所更新，但仍存在提示准确性及部分功能缺失等问题，用户反馈褒贬不一。迈极影像计划通过持续更新改善功能和性能。

订阅我们的每日和每周简报，获取关于行业领先AI的最新资讯和独家内容。了解更多迈极影像（Midjourney），这家自2022年推出以来就被众多AI高级用户视为AI图像生成“黄金标准”的自筹资金初创公司，现已推出了备受期待的、最先进的生成器模型版本——迈极影像V7。其最大亮点是提供一种全新的方式来提示模型生成图像。之前，用户只能通过输入文本提示并附带其他图像来指导生成。现在，用户只需对着迈极影像的Alpha网站（alpha.midjourney.com）大声说话即可——前提是他们的计算机上安装了麦克风（或使用带有音频输入的联网设备，如耳机或智能手机）——然后模型会倾听并根据用户的语音描述自动生成文本提示，从而生成图像。目前尚不清楚迈极影像是否全新开发了一套语音输入模型，或者使用了来自其他提供商（如ElevenLabs或OpenAI）的微调或现成版本。我曾在X平台上询问过迈极影像创始人大卫·霍尔兹（David Holz），但他尚未回答。

通过对话式语音输入进入流畅工作状态

与这种输入方法相辅相成的是一个新的“草稿模式”，它比迈极影像V6.1更快地生成图像，有时甚至不到一分钟，甚至在某些情况下仅需30秒。尽管这些图像的初始质量低于V6.1，但用户可以通过点击每个生成图像右侧的“增强”或“变化”按钮来重新渲染草稿以达到全质量。其理念是，人类用户会愿意同时使用这两种模式——实际上，需要开启“草稿模式”才能激活语音输入功能——从而更无缝地进入与模型一起进行创造性草稿的状态，在细化提示语言方面花费更少的时间，而在实时查看新生成图像、对其作出反应，并根据需要自然且快速地调整或微调它们时，更多地通过直接向模型说出想法来实现。“让这个看起来更详细、更暗、更亮、更真实、更具动感、更生动”等是一些用户可以通过新的音频界面提供的指令，以生成更符合他们创意愿景的新调整图像。

开始使用迈极影像V7

要启用这些模式，首先从新的“草稿”功能开始，用户必须首先完成一个新的步骤：迈极影像的个性化功能。尽管此功能已在2024年6月的迈极影像V6中引入，但它是可选的，允许用户在迈极影像网站上对200对图像进行评分（选择用户最喜欢的一张）以创建一个可应用于所有后续生成的个性化风格。用户随后可以启用与他们最喜欢的形象相匹配的风格。现在，迈极影像V7要求用户在首次使用前生成一个专门针对V7的个性化风格。一旦用户完成上述步骤，他们将进入熟悉的迈极影像Alpha网站仪表板，可以从左侧边栏点击“创建”以打开创作标签。然后，在顶部的提示输入框中，用户可以在提示输入框右侧的新“P”按钮上点击以开启个性化模式。迈极影像创始人兼首席执行官大卫·霍尔兹向VentureBeat确认，在X平台上也可以选择V6的旧个性化样式，但不能选择单独的“情绪板”——由用户上传的图像集合组成的样式——但迈极影像的X账号单独提到该功能很快也将恢复。然而，我没有发现选择旧V6样式的机会。尽管如此，用户可以点击个性化按钮右侧的新“草稿模式”按钮以启用这种更快的图像生成模式。一旦用鼠标悬停选择它，它会变为橙色表示已开启，然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式，用户可以再次点击以启用。一旦用户按下这个麦克风按钮进入语音提示模式，他们应该看到麦克风图标从白色变为橙色以表明已启用，并在其右侧出现一条波形线，应随用户的讲话开始波动。模型会听到您的声音并识别您何时说完。实际上，我有时会收到“实时API断开连接”的错误提示，但通常只需停止并重启语音输入模式或刷新页面即可快速解决问题。一旦用鼠标悬停选择它，它会变为橙色表示已开启，然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式，用户可以再次点击以启用。在说了几秒钟后，迈极影像会在顶部提示框下方闪烁几个关键词窗口，同时生成完整的文本提示，并根据用户所说的内容生成一组新的四张图片。用户可以通过继续与模型对话来进一步调整这些新生成的内容，根据需要开启或关闭语音模式。以下是我今天使用它生成一些示例图像的即时演示视频。你会看到这一过程并不完美，但它确实很快，让用户能以一种更自然的方式提示、优化并接收模型生成的图像。

更多新功能……但也存在不少V6/V6.1版本中的缺失功能和限制。

迈极影像计划在未来更新中将这些功能迁移到V7。公司承诺在未来两个月内定期开发，并计划每1至2周发布一次更新。即将推出的重点功能之一是专为V7设计的新角色和对象参考系统，这些功能在旧版迈极影像中通过添加神秘的文本后缀（如–cref和–sref，用于样式）来实现。迈极影像计划通过公共分享空间和反馈渠道与用户互动，并举办路线图优先排序会议以帮助确定未来的开发重点。

迈极影像强调V7是一款全新模型，具备自身的优势和挑战。鼓励用户尝试不同的提示方式并分享他们的体验，以帮助优化平台。

初期反响不一……远不如之前迈极影像发布时的一致好评。

尽管迈极影像在其博客和社交媒体上谨慎地将其称为“Alpha”版本，但许多用户仍期待图像质量和提示准确性有更大提升，也希望改进人体解剖学的理解，特别是手部，这是常见的人工智能图像生成难题，以及文本生成能力，这同样是图像模型一直难以解决的问题，根据初步用户反馈，Ideogram和OpenAI的本地GPT-4o图像生成器在这方面比迈极影像V7更准确。正如@freiboitar在X上所写：

“问题在于V7不像V7，更像是V6.2，”Magnific AI创始人贾维·洛佩兹（Javi Lopez）在X上写道，指出更新显得较为渐进。确实，宾夕法尼亚大学沃顿商学院教授兼AI影响者伊桑·莫利奇（Ethan Mollick）也评论道：“我喜欢他们的新发布，但今天的V7存在一个问题，因为V6已经做得很好了。”

“相同的V6提示在V7中表现得更差，”自称“AI极端主义者”的大卫·夏皮罗（David Shapiro）在X上写道。“所有的旧最爱都变得过时了，”艺术家兼音乐家@CaptainHaHaa说：“手部和文字仍是问题，没有cref，srefs功能也不稳定。但没关系，因为在它让你失望时你还可以与它交流。”

其他人则更加宽容，并对其在V7上的初步测试生成结果感到欣喜，AI高级用户Dreaming Tulipa在X上表示它具有“更好的图像质量”并且“非常艺术化”。同样，AI艺术家兼设计师塔蒂亚娜·茨吉乌列娃（Tatiana Tsiguleva）表示迈极影像V7是“质量的巨大提升！”

不过，迈极影像V7仍处于早期阶段，最初的反应可能朝任何方向发展——要么是对新模型及其设计功能的赞扬，要么是对新模型的不满。

目前，它可供任何拥有迈极影像账户的人开始使用。

每日关于商业用例的洞察 – VB Daily

如果你想给老板留下深刻印象，VB Daily可以帮助你。我们为您提供公司如何使用生成式人工智能的内部信息，从监管变化到实际部署，这样你就可以分享见解以获得最大回报。立即订阅

阅读我们的隐私政策

感谢订阅。查看更多VB通讯在这里。

发生了一个错误。

(以上内容均由Ai生成)