Qwen-Image 的问世,是图像生成技术中在“文字渲染 + 图像编辑”方面的一次重要进步。它不仅技术含量高、效果亮眼,而且贴近许多实际创意/设计/内容制作中的痛点。

在生成式 AI 日益成熟的今天,图像生成/编辑能力的发展越来越受到人们的期待。而在所有能力中,“文字渲染”(尤其是中文/中英混排/长段落/复杂布局字体等)的精度,一直是个难点。今天,我们要介绍的是通义千问系列中的最新图像基础模型 —— Qwen-Image,它在文字渲染与图像编辑方面取得了显著突破,是内容创作者、设计师和视觉工作者的有力助手。

什么是 Qwen-Image

Qwen-Image 是一个 20B 规模的 MMDiT 模型,是通义千问系列中首个专注于图像生成基础模型的产品。它不仅在风格与场景生成上有表现,更在文字渲染和图像编辑的一致性、精细度上有明显提升。

Qwen-Image 致力于解决“复杂文字在图像里的清晰、高保真且自然呈现”这一难题。无论是中英混排、多行段落、书法风格还是排版设计,Qwen-Image 都有能力准确输出。

如何体验

如果你想体验 Qwen-Image,可以前往https://modelscope.cn/aigc/imageGeneration?tab=default,选择“快速生图”中的“Qwen Image”。在提示词描述你希望的场景 + 要渲染的文字内容,并选择图片比例,然后点击【开始生图】即可生成。

核心能力亮点

优秀的文本渲染能力

  • 支持多行布局、段落文字、书法风格、广告牌牌匾、标志、海报等多种情境下的文字生成。无论中文还是英文,Qwen-Image 都能做到“若隐若现”的细节与“清晰可读”的文字并存。
  • 在中英文混排场景,也能自然切换,不会出现文字模糊、变形、错位等常见问题。

一致性高的图像编辑能力

  • 能进行对象增删、风格转换、细节增强、人物姿态调整等多样编辑操作,且编辑前后风格一致,不会出现不和谐的“拼贴感”。
  • 在编辑过程中,保持图像中的文字与图像内容的空间布局、光影、透视等自然协调。

公开基准上的强劲表现

  • 在多个生成与编辑的基准测试中:GenEval、DPG、OneIG-Bench(生成任务);GEdit、ImgEdit、GSO(编辑任务)等,Qwen-Image 都取得了目前领先的成绩。
  • 在专门测试文本渲染的基准:LongText-Bench、ChineseWord、TextCraft 等,尤其在中文文字渲染上,大幅超越现有最先进模型。

典型应用场景举例

1. 海报创作

提示词:清新春日为主题,采用 3D卡通渲染风格。画面中心是一本打开的书,书页上长出媺绿的叶子,书放置在一个类似小岛的平台上。小岛上有书店元素(如书架、书本陈列)、绿植(小树、花、小建筑(带有喜马拉雅标识)朵),周围环绕着湖水和荷叶,背景是蓝天白云和起伏的绿色山丘。文字内容:海报顶部有“微信读书”小标识 ;主标题为“世界读书曰”,副标题为“遇见更好的自己”,底部左侧有手写体“每本好书都是一条长河,带我们游历世间美好”文案,右侧“上微信读书423,4/10-4/30开启春日读书计划”信息。底部信息呈现在一个有曲线的绿色渐变色块上面:整体色彩以清新的蓝绿色系为主色调,搭配明亮的橙色、黄色等,营造出活泼、充满生机的春日氛围

生成图片

2. 古风动漫场景

提示词:宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。

生成图片

3. 书法对联 + 室内传统布景

提示词: 一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。

生成图片

4. 英文文本渲染

提示词: Bookstore window display. A sign displays “New Arrivals This Week”. Below, a shelf tag with the text “Best-Selling Novels Here”. To the side, a colorful poster advertises “Author Meet And Greet on Saturday” with a central portrait of the author. There are four books on the bookshelf, namely “The light between worlds” “When stars are scattered” “The slient patient” “The night circus”

生成图片

5. 中英混排

提示词: 一个穿着”QWEN”标志的T恤的中国美女正拿着黑色的马克笔面向镜头微笑。她身后的玻璃板上手写体写着 “Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑”

生成图片

Qwen Image能带来什么改变

降低创作者门槛

过去,要在图像里准确渲染中文文字或复杂排版,往往需要人工设计、后期修图/排版。Qwen-Image 可直接通过 prompt(提示词)生成,有效节省设计师/内容团队成本与时间。

推动产业应用

在广告海报、品牌视觉设计、社交媒体素材、PPT/海报制作、出版/宣传物料等,对文字排版与风格要求极高的场景中,Qwen-Image 的应用可实现更高质量与效率。

增强内容表达力与美感

文字本身是视觉内容的重要组成部分。文字若能清晰、风格统一、与图像内容协调,就能使整体视觉体验更好,也更容易传达信息与情感。

结语

Qwen-Image 的问世,是图像生成技术中在“文字渲染 + 图像编辑”方面的一次重要进步。它不仅技术含量高、效果亮眼,而且贴近许多实际创意/设计/内容制作中的痛点。

对于设计师、内容创作者、宣传/品牌/教育等行业的从业者来说,Qwen-Image 提供了全新的可能 —— 在图像里融合文字与图像的方式,将不再被文字排版之难所拖累,而是更自由、更富创意。

文章来自:51CTO

Loading

作者 yinhua

发表回复