Midjourney v7 推出语音提示和更快的草稿模式——为什么它的评价褒贬不一?

发布时间:2025年4月5日    来源:szf
Midjourney v7 推出语音提示和更快的草稿模式——为什么它的评价褒贬不一?

快速阅读: 据《VentureBeat 公司》称,迈极影像推出V7版本,支持语音输入生成图像,新模式下图像生成更快但质量略逊。尽管功能有所更新,但仍存在提示准确性及部分功能缺失等问题,用户反馈褒贬不一。迈极影像计划通过持续更新改善功能和性能。

订阅我们的每日和每周简报,获取关于行业领先AI的最新资讯和独家内容。了解更多迈极影像(Midjourney),这家自2022年推出以来就被众多AI高级用户视为AI图像生成“黄金标准”的自筹资金初创公司,现已推出了备受期待的、最先进的生成器模型版本——迈极影像V7。其最大亮点是提供一种全新的方式来提示模型生成图像。之前,用户只能通过输入文本提示并附带其他图像来指导生成。现在,用户只需对着迈极影像的Alpha网站(alpha.midjourney.com)大声说话即可——前提是他们的计算机上安装了麦克风(或使用带有音频输入的联网设备,如耳机或智能手机)——然后模型会倾听并根据用户的语音描述自动生成文本提示,从而生成图像。目前尚不清楚迈极影像是否全新开发了一套语音输入模型,或者使用了来自其他提供商(如ElevenLabs或OpenAI)的微调或现成版本。我曾在X平台上询问过迈极影像创始人大卫·霍尔兹(David Holz),但他尚未回答。

通过对话式语音输入进入流畅工作状态

与这种输入方法相辅相成的是一个新的“草稿模式”,它比迈极影像V6.1更快地生成图像,有时甚至不到一分钟,甚至在某些情况下仅需30秒。尽管这些图像的初始质量低于V6.1,但用户可以通过点击每个生成图像右侧的“增强”或“变化”按钮来重新渲染草稿以达到全质量。其理念是,人类用户会愿意同时使用这两种模式——实际上,需要开启“草稿模式”才能激活语音输入功能——从而更无缝地进入与模型一起进行创造性草稿的状态,在细化提示语言方面花费更少的时间,而在实时查看新生成图像、对其作出反应,并根据需要自然且快速地调整或微调它们时,更多地通过直接向模型说出想法来实现。“让这个看起来更详细、更暗、更亮、更真实、更具动感、更生动”等是一些用户可以通过新的音频界面提供的指令,以生成更符合他们创意愿景的新调整图像。

开始使用迈极影像V7

要启用这些模式,首先从新的“草稿”功能开始,用户必须首先完成一个新的步骤:迈极影像的个性化功能。尽管此功能已在2024年6月的迈极影像V6中引入,但它是可选的,允许用户在迈极影像网站上对200对图像进行评分(选择用户最喜欢的一张)以创建一个可应用于所有后续生成的个性化风格。用户随后可以启用与他们最喜欢的形象相匹配的风格。现在,迈极影像V7要求用户在首次使用前生成一个专门针对V7的个性化风格。一旦用户完成上述步骤,他们将进入熟悉的迈极影像Alpha网站仪表板,可以从左侧边栏点击“创建”以打开创作标签。然后,在顶部的提示输入框中,用户可以在提示输入框右侧的新“P”按钮上点击以开启个性化模式。迈极影像创始人兼首席执行官大卫·霍尔兹向VentureBeat确认,在X平台上也可以选择V6的旧个性化样式,但不能选择单独的“情绪板”——由用户上传的图像集合组成的样式——但迈极影像的X账号单独提到该功能很快也将恢复。然而,我没有发现选择旧V6样式的机会。尽管如此,用户可以点击个性化按钮右侧的新“草稿模式”按钮以启用这种更快的图像生成模式。一旦用鼠标悬停选择它,它会变为橙色表示已开启,然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式,用户可以再次点击以启用。一旦用户按下这个麦克风按钮进入语音提示模式,他们应该看到麦克风图标从白色变为橙色以表明已启用,并在其右侧出现一条波形线,应随用户的讲话开始波动。模型会听到您的声音并识别您何时说完。实际上,我有时会收到“实时API断开连接”的错误提示,但通常只需停止并重启语音输入模式或刷新页面即可快速解决问题。一旦用鼠标悬停选择它,它会变为橙色表示已开启,然后在这个按钮右侧会显示一个带有麦克风图标的按钮。这是语音提示模式,用户可以再次点击以启用。在说了几秒钟后,迈极影像会在顶部提示框下方闪烁几个关键词窗口,同时生成完整的文本提示,并根据用户所说的内容生成一组新的四张图片。用户可以通过继续与模型对话来进一步调整这些新生成的内容,根据需要开启或关闭语音模式。以下是我今天使用它生成一些示例图像的即时演示视频。你会看到这一过程并不完美,但它确实很快,让用户能以一种更自然的方式提示、优化并接收模型生成的图像。

更多新功能……但也存在不少V6/V6.1版本中的缺失功能和限制。

迈极影像计划在未来更新中将这些功能迁移到V7。公司承诺在未来两个月内定期开发,并计划每1至2周发布一次更新。即将推出的重点功能之一是专为V7设计的新角色和对象参考系统,这些功能在旧版迈极影像中通过添加神秘的文本后缀(如–cref和–sref,用于样式)来实现。迈极影像计划通过公共分享空间和反馈渠道与用户互动,并举办路线图优先排序会议以帮助确定未来的开发重点。

迈极影像强调V7是一款全新模型,具备自身的优势和挑战。鼓励用户尝试不同的提示方式并分享他们的体验,以帮助优化平台。

初期反响不一……远不如之前迈极影像发布时的一致好评。

尽管迈极影像在其博客和社交媒体上谨慎地将其称为“Alpha”版本,但许多用户仍期待图像质量和提示准确性有更大提升,也希望改进人体解剖学的理解,特别是手部,这是常见的人工智能图像生成难题,以及文本生成能力,这同样是图像模型一直难以解决的问题,根据初步用户反馈,Ideogram和OpenAI的本地GPT-4o图像生成器在这方面比迈极影像V7更准确。正如@freiboitar在X上所写:

“问题在于V7不像V7,更像是V6.2,”Magnific AI创始人贾维·洛佩兹(Javi Lopez)在X上写道,指出更新显得较为渐进。确实,宾夕法尼亚大学沃顿商学院教授兼AI影响者伊桑·莫利奇(Ethan Mollick)也评论道:“我喜欢他们的新发布,但今天的V7存在一个问题,因为V6已经做得很好了。”

“相同的V6提示在V7中表现得更差,”自称“AI极端主义者”的大卫·夏皮罗(David Shapiro)在X上写道。“所有的旧最爱都变得过时了,”艺术家兼音乐家@CaptainHaHaa说:“手部和文字仍是问题,没有cref,srefs功能也不稳定。但没关系,因为在它让你失望时你还可以与它交流。”

其他人则更加宽容,并对其在V7上的初步测试生成结果感到欣喜,AI高级用户Dreaming Tulipa在X上表示它具有“更好的图像质量”并且“非常艺术化”。同样,AI艺术家兼设计师塔蒂亚娜·茨吉乌列娃(Tatiana Tsiguleva)表示迈极影像V7是“质量的巨大提升!”

不过,迈极影像V7仍处于早期阶段,最初的反应可能朝任何方向发展——要么是对新模型及其设计功能的赞扬,要么是对新模型的不满。

目前,它可供任何拥有迈极影像账户的人开始使用。

每日关于商业用例的洞察 – VB Daily

如果你想给老板留下深刻印象,VB Daily可以帮助你。我们为您提供公司如何使用生成式人工智能的内部信息,从监管变化到实际部署,这样你就可以分享见解以获得最大回报。立即订阅

阅读我们的隐私政策

感谢订阅。查看更多VB通讯在这里。

发生了一个错误。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日