Midjourney v7 推出语音提示和更快的草稿模式——为什么它的评价褒贬不一?
快速阅读: 据《VentureBeat 公司》称,迈极影像推出V7版本,支持语音输入生成图像,新模式下图像生成更快但质量略逊。尽管功能有所更新,但仍存在提示准确性及部分功能缺失等问题,用户反馈褒贬不一。迈极影像计划通过持续更新改善功能和性能。
订阅我们的每日和每周简报,获取关于行业领先AI的最新资讯和独家内容。了解更多迈极影像(Midjourney),这家自2022年推出以来就被众多AI高级用户视为AI图像生成“黄金标准”的自筹资金初创公司,现已推出了备受期待的、最先进的生成器模型版本——迈极影像V7。其最大亮点是提供一种全新的方式来提示模型生成图像。之前,用户只能通过输入文本提示并附带其他图像来指导生成。现在,用户只需对着迈极影像的Alpha网站(alpha.midjourney.com)大声说话即可——前提是他们的计算机上安装了麦克风(或使用带有音频输入的联网设备,如耳机或智能手机)——然后模型会倾听并根据用户的语音描述自动生成文本提示,从而生成图像。目前尚不清楚迈极影像是否全新开发了一套语音输入模型,或者使用了来自其他提供商(如ElevenLabs或OpenAI)的微调或现成版本。我曾在X平台上询问过迈极影像创始人大卫·霍尔兹(David Holz),但他尚未回答。
通过对话式语音输入进入流畅工作状态
与这种输入方法相辅相成的是一个新的“草稿模式”,它比迈极影像V6.1更快地生成图像,有时甚至不到一分钟,甚至在某些情况下仅需30秒。尽管这些图像的初始质量低于V6.1,但用户可以通过点击每个生成图像右侧的“增强”或“变化”按钮来重新渲染草稿以达到全质量。其理念是,人类用户会愿意同时使用这两种模式——实际上,需要开启“草稿模式”才能激活语音输入功能——从而更无缝地进入与模型一起进行创造性草稿的状态,在细化提示语言方面花费更少的时间,而在实时查看新生成图像、对其作出反应,并根据需要自然且快速地调整或微调它们时,更多地通过直接向模型说出想法来实现。“让这个看起来更详细、更暗、更亮、更真实、更具动感、更生动”等是一些用户可以通过新的音频界面提供的指令,以生成更符合他们创意愿景的新调整图像。
开始使用迈极影像V7
要启用这些模式,首先从新的“草稿”功能开始,用户必须首先完成一个新的步骤:迈极影像的个性化功能。尽管此功能已在2024年6月的迈极影像V6中引入,但它是可选的,允许用户在迈极影像网站上对200对图像进行评分(选择用户最喜欢的一张)以创建一个可应用于所有后续生成的个性化风格。用户随后可以启用与他们最喜欢的形象相匹配的风格。现在,迈极影像V7要求用户在首次使用前生成一个专门针对V7的个性化风格。一旦用户完成上述步骤,他们将进入熟悉的迈极影像Alpha网站仪表板,可以从左侧边栏点击“创建”以打开创作标签。然后,在顶部的提示输入框中,用户可以在提示输入框右侧的新“P”按钮上点击以开启个性化模式。迈极影像创始人兼首席执行官大卫·霍尔兹向VentureBeat确认,在X平台上也可以选择V6的旧个性化样式,但不能选择单独的“情绪板”——由用户上传的图像集合组成的样式——但迈极影像的X账号单独提到该功能很快也将恢复。然而,我没有发现选择旧V6样式的机会。尽管如此,用户可以点击个性化按钮右侧的新“草稿模式”按钮以启用这种更快的图像生成模式。一旦用鼠标悬停选择它,它会变为橙色表示已开启,然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式,用户可以再次点击以启用。一旦用户按下这个麦克风按钮进入语音提示模式,他们应该看到麦克风图标从白色变为橙色以表明已启用,并在其右侧出现一条波形线,应随用户的讲话开始波动。模型会听到您的声音并识别您何时说完。实际上,我有时会收到“实时API断开连接”的错误提示,但通常只需停止并重启语音输入模式或刷新页面即可快速解决问题。一旦用鼠标悬停选择它,它会变为橙色表示已开启,然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式,用户可以再次点击以启用。在说了几秒钟后,迈极影像会在顶部提示框下方闪烁几个关键词窗口,同时生成完整的文本提示,并根据用户所说的内容生成一组新的四张图片。用户可以通过继续与模型对话来进一步调整这些新生成的内容,根据需要开启或关闭语音模式。以下是我今天使用它生成一些示例图像的即时演示视频。你会看到这一过程并不完美,但它确实很快,让用户能以一种更自然的方式提示、优化并接收模型生成的图像。
更多新功能……但也存在不少V6/V6.1版本中的缺失功能和限制。
迈极影像计划在未来更新中将这些功能迁移到V7。公司承诺在未来两个月内定期开发,并计划每1至2周发布一次更新。即将推出的重点功能之一是专为V7设计的新角色和对象参考系统,这些功能在旧版迈极影像中通过添加神秘的文本后缀(如–cref和–sref,用于样式)来实现。迈极影像计划通过公共分享空间和反馈渠道与用户互动,并举办路线图优先排序会议以帮助确定未来的开发重点。
迈极影像强调V7是一款全新模型,具备自身的优势和挑战。鼓励用户尝试不同的提示方式并分享他们的体验,以帮助优化平台。
初期反响不一……远不如之前迈极影像发布时的一致好评。
尽管迈极影像在其博客和社交媒体上谨慎地将其称为“Alpha”版本,但许多用户仍期待图像质量和提示准确性有更大提升,也希望改进人体解剖学的理解,特别是手部,这是常见的人工智能图像生成难题,以及文本生成能力,这同样是图像模型一直难以解决的问题,根据初步用户反馈,Ideogram和OpenAI的本地GPT-4o图像生成器在这方面比迈极影像V7更准确。正如@freiboitar在X上所写:
“问题在于V7不像V7,更像是V6.2,”Magnific AI创始人贾维·洛佩兹(Javi Lopez)在X上写道,指出更新显得较为渐进。确实,宾夕法尼亚大学沃顿商学院教授兼AI影响者伊桑·莫利奇(Ethan Mollick)也评论道:“我喜欢他们的新发布,但今天的V7存在一个问题,因为V6已经做得很好了。”
“相同的V6提示在V7中表现得更差,”自称“AI极端主义者”的大卫·夏皮罗(David Shapiro)在X上写道。“所有的旧最爱都变得过时了,”艺术家兼音乐家@CaptainHaHaa说:“手部和文字仍是问题,没有cref,srefs功能也不稳定。但没关系,因为在它让你失望时你还可以与它交流。”
其他人则更加宽容,并对其在V7上的初步测试生成结果感到欣喜,AI高级用户Dreaming Tulipa在X上表示它具有“更好的图像质量”并且“非常艺术化”。同样,AI艺术家兼设计师塔蒂亚娜·茨吉乌列娃(Tatiana Tsiguleva)表示迈极影像V7是“质量的巨大提升!”
不过,迈极影像V7仍处于早期阶段,最初的反应可能朝任何方向发展——要么是对新模型及其设计功能的赞扬,要么是对新模型的不满。
目前,它可供任何拥有迈极影像账户的人开始使用。
每日关于商业用例的洞察 – VB Daily
如果你想给老板留下深刻印象,VB Daily可以帮助你。我们为您提供公司如何使用生成式人工智能的内部信息,从监管变化到实际部署,这样你就可以分享见解以获得最大回报。立即订阅
阅读我们的隐私政策
感谢订阅。查看更多VB通讯在这里。
发生了一个错误。
(以上内容均由Ai生成)