图像生成的突破
快速阅读: 据《每天 3 夸克》最新报道,过去两周,谷歌和OpenAI推出多模态图像生成能力意义重大。此前,大型语言模型生成图像时仅提供文本提示,由其他系统完成图像生成,导致图像质量参差不齐。新进展或将改善这一状况。
在过去两周里,先是谷歌,然后是开放人工智能公司(OpenAI)推出了它们的多模态图像生成能力。这件事意义重大。
在此之前,当大型语言模型(大型语言模型)生成图像时,其实这些模型并未真正参与到图像生成的过程中。相反,人工智能系统会将文本提示发送给一个独立的图像生成工具,并展示返回的结果。具体来说,人工智能负责生成文本提示,但另一个相对不那么智能的系统负责生成图像。
举例来说,如果提示内容为“展示一个没有大象的房间,并确保标注图像以显示为什么不可能存在大象”,不够聪明的图像生成系统可能会因为多次看到“大象”这个词而将其加入图片中。因此,由人工智能生成的图像往往质量平平,包含扭曲的文字和随机元素;有时候确实有趣,但很少能在实际应用中派上用场。
(以上内容均由Ai生成)