剁椒鱼头论坛

注册

 

发新话题 回复该主题

能画对夫妻肺片的文生图大模型来了与 [复制链接]

1#

能理解并生成“夫妻肺片”“胸有成竹”的中文开源大模型出现了。

5月14日,腾讯宣布,旗下混元文生图大模型全面升级并对外开源,目前已在HuggingFac平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

据悉,升级后的混元文生图大模型采用了与sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。南都记者实测发现,目前混元文生图大模型已能充分理解中文成语、诗句和快速生成图片,同时支持用户在多轮对话中对图片进行调整。

采用Sora同款架构,中文俚语理解力增强

南都记者了解获悉,升级后的腾讯混元文生图大模型采用了Sora和StablDiffusion3的同款架构和关键技术。据悉,随着参数量的提升,基于Transformr架构的扩散模型能展现出更好的扩展性,有助于进一步提升模型的生成质量及效率。

试验发现,腾讯混元文生图大模型能实现多轮对话,其长文本理解能力最多能支持字符的内容输入。用户可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

去年3月,一批最先推出文生图模型的厂商火出圈的不是产品,而是模型给用户开出的各式脑洞。比如,当网友对文心一言等模型输入“车水马龙”“鱼香肉丝”等关键成语时,模型大多按照字面意思输出“一辆车、一滩水、一条龙”和“用肉丝做成的鱼”。

南都记者了解获悉,文生图模型出现这样的开脑洞现象,多是因为核心数据集以英文为主,对中文的语言、美食、文化、习俗都理解不够。腾讯文生图负责人芦清林在沟通会上表示,过去大家通常都是用国外的东西在中文的数据上做一个新调,这种情况下意味着首先要把国外的数据做一层翻译,翻译过程中会造成很多损失和歧异。但混元文生图并没有经过这样的翻译过程,直接用中文原生的数据进行训练,所以它能理解中文。

在此次沟通会上,腾讯方面还透露,新一代腾讯混元文生图大模型视觉生成整体效果相比前代提升超过20%,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著,能生成古诗词、俚语、传统建筑、中华美食等中国元素。

南都记者试验发现,当输入炎炎夏日中的“映日荷花别样红”时,混元能理解诗句并生成正常的荷花和夏景。输入去年在多个文生图大模型中“翻车”的“鱼香肉丝”和“夫妻肺片”名菜,模型也能生成符合人类理解的菜品。

不过,在随机输入“请画一盘蚂蚁上树”时,混元画出的图片按照字面意思理解,南都记者调整提示词为“请画一道叫蚂蚁上树的菜”时,画出来的才是川菜“蚂蚁上树”。

全面开源,今年将应用到QQ、企业

分享 转发
TOP
发新话题 回复该主题