当前位置:首页 > 消费与科技

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案

网络3年前 (2023-04-25)消费与科技823

机器之心原创

作者:小舟

AIGC,不只是一场狂欢。

最近,社交平台上一些 AI 作画工具引起广泛关注,比如因「情侣合影」刷屏的 Midjourney v5 和刚刚开启公测的 Stable Diffusion XL。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第1张Midjourney v5 和 Stable Diffusion XL 生成的图像。

AI 生成的图像天马行空,在互联网上掀起了一场狂欢,AIGC(人工智能生成内容)也成为一个爆款词汇,人们惊呼 AI 技术的迅速发展。

狂欢之后,我们需要想想:AIGC 的现实价值是什么?

AIGC 被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,人们期待 AI 能够掀起新一轮内容生产变革。当前,大部分 AI 作画工具是面向个人消费者(to C)的应用产品,这些产品的生成效果的确让人眼前一亮。

但想让 AIGC 赋能各行各业,提升生产力,做出面向 B 端客户的高效、专业的应用才是关键。

最近,长期深耕 to B 业务的商汤科技宣布推出秒画 SenseMirage,为 AI 作画打开了商业应用的新格局。

秒画是基于商汤自研的文生图大模型,依托商汤 AI 大装置 SenseCore 强大算力集群的 AI 作画平台。在秒画平台上,B 端客户可以使用商汤自研的文生图大模型快速生成图像。

其效果如何?背后技术是什么?有哪些特色与优势?让我们一一为你揭秘。

多种风格、秒速生成

不同于 Stable Diffusion、Midjourney,秒画是一个 to B 的 AI 作画平台,将广泛应用于设计、营销、游戏动画、工程建筑、医学、教育科普等领域。我们来看一些秒画平台中商汤自研文生图大模型的生成样例。

首先,面向时尚设计领域,商汤自研大模型生成的「中国女士时尚街拍图如下」:

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第2张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——中国女士时尚街拍图。

还能生成巴黎时装周摄影风的模特图像:

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第3张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——巴黎时装周模特图片。

我们也和其他文生图模型进行了效果对比,例如生成图像:一只戴着珍珠耳环的鹦鹉,商汤自研模型的生成效果如下:

Prompt:(混合语言输入)一只戴着珍珠耳环的鹦鹉,维米尔风格,12K,高画质,高清,octane render

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第4张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——戴珍珠耳环的鹦鹉。

同样的 prompt 翻译成英文后,我们尝试用 Stable Diffusion XL 生成,但并没有得到符合要求的结果。部分图像没有以鹦鹉作为主体,部分即便生成了鹦鹉,但缺少珍珠耳环等细节。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第5张Stable Diffusion XL 生成的一组图像。

在游戏动画领域,商汤自研的文生图模型也有很强大的生成能力,生成的图像符合文本描述,且细节丰富,有动画感染力。例如生成一只「愤怒的皮卡丘」:

Prompt:(中文输入)愤怒的皮卡丘,它的眼睛是红色的,周围电闪雷鸣,超写实主义风格

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第6张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——愤怒的皮卡丘。

同样的 prompt 翻译为英文输入后,Stable Diffusion XL 生成的结果不尽如人意,要么是皮卡丘不够愤怒,要么是图像细节不到位。

Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第7张Stable Diffusion XL 生成的一组图像。

我们发现,秒画平台中商汤自研的文生图模型可以生成符合要求的高质量图像,而且非常适用于设计和游戏动画行业。下面我们就看一下这个文生图大模型的具体细节。

超 10 亿参数的自研文生图大模型

要想让大模型足够好、AI 作画足够逼真,就要具备三个核心元素,包括模型架构、优化方法和底层基建。

首先,模型本身的结构设计要足够高效。一般来讲,神经网络变得更大,模型学习能力就会更强。但如何保证在同等超大参数量下,模型能够具有性能优势,这就需要在模型的神经网络结构设计上多下功夫。

从 2019 年开始,商汤就研发了一套半自主的超大模型结构设计 pipeline。它能够帮助研究员在模型参数量特别大的情况下,设计出高效的神经网络算子,同时商汤还使用 AutoML 平台把这些算子结合起来。

因此,商汤自研的大模型是基于研究人员和 AI 一起设计出来的超大神经网络结构。在这个结构下,相同的数据、相同的参数量,商汤自研的模型在性能上就有显著的优势。经过训练的模型,在生成效果上会比单纯把深度、宽度加大一些量级的模型好很多。

第二,在这套模型架构设计 pipeline 里,研究人员会手工设计一些优化方法。

传统的神经网络训练都是用 SGD、Adam 优化器等等。而在过去的几年里,商汤在超大神经网络的梯度下降优化方法上做了非常多的研究。

特别大的模型在优化上有一个非常严重的问题,是模型训练过程的收敛性很难保证。这可能因为优化器不够好,也可能是因为数据里有噪声,导致模型在极个别错误的样本下产生极大的损失函数值。此外,对于基于扩散模型的生成式模型来说,生成的语义完备性、物体宏观结构、细节(比如手指、四肢等)、推理步的加速等都有较大改进空间。商汤的研究团队基于这些问题做了大量的优化,以确保商汤自研的文生图、视觉感知等大模型都能够在一个很长周期内保持训练稳定、高效。

具体来说,为了让该模型生成的图像质量更高、细节更丰富、风格更多样,商汤的研究团队自研了分层推理专家(hierarchical inference experts)、图像质量感知的分布式训练(image quality-aware distributed training)、图像纹理指导的交叉注意力学习(texture-guided cross-attention learning)等优化算法。

第三,算法与底层基建要绑定配合,联合优化。当模型的体量足够大,就需要用 3D 切割的方法从神经网络深度,宽度以及数据 batch 的三个维度来切割神经网络,再分配到上千块 GPU 上,在每个 GPU 上进行局部计算,就会涉及到非常多机器学习系统的问题。比如在计算每一个分块计算的全局结果时,需要把不同卡的计算结果结合起来。而这又会导致一个问题 —— 每个 GPU 上的子模型在相互通信时,带宽要求会非常大。

然而,机器学习系统中通常是一个 POD 内的 P2P 通信带宽很大,POD 之间的通信带宽很小,因此商汤的研究团队专门针对这个问题对神经网络的结构进行了特异性设计,让只能在一个 POD 内通信的子模型尽量放在一个 POD 里,而通信带宽要求相对较小的一些模块(比如不同的 experts)就放到不同的 POD 之间,这就可以让大模型与商汤的 AI 大装置进行联合优化,以获得更高的训练效率。

这三个技术要素让商汤自研的文生图大模型具备了更优的文本理解能力和逼真的生成效果。在 prompt 比较详细复杂的时候,该模型可以生成带有故事性的逼真图像。例如提供 prompt 让模型生成皮卡丘和马里奥打斗的场景:

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第8张

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第9张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像——皮卡丘和马里奥打斗。

在秒画平台上,商汤自研的文生图大模型是一个基础模型,B 端客户仅用少量数据就可以迅速微调得到一个适用于下游任务的垂类模型,大大降低了训练门槛。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第10张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像。

独具优势的文生图平台

除了商汤自研的文生图大模型,秒画还是一个可以导入其他开源模型的平台,被称为「模型超市」。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第11张可从第三方平台导入模型,并启动秒画 SenseMirage 平台的模型编译技术进行推理加速的效果展示。

在秒画平台上,用户可以一键导入 Hugging Face、Civitai、GitHub 等第三方社区的开源模型,并且添加至用户「我的模型库」列表中,方便进行体验,让用户免除本地化部署的繁琐流程。

这是为了大幅降低 AI 作画的商用门槛。对于一些中小型企业来说,本地化部署大模型的成本是非常高的。硬件方面,训练垂类模型需要搭建一定规模的 GPU 算力集群,还需要专业的技术团队,人力成本也是比较高的。

秒画为商汤自研文生图模型和开源模型提供了一套算法框架和强大的算力基础设施 ——AI 大装置 SenseCore。B 端用户可以直接在秒画平台上训练定制化的 LoRA 模型,基于现有商汤自研文生图模型的高度泛化性,B 端用户只需要拖拽 20 张左右图片作为训练集,最低仅需 5 分钟就能完成一个高质量模型的训练。这让中小型企业也能轻松拥有属于自己的垂类模型。

此外,秒画还提供了特异性推理优化服务,开源模型导入后会自动采用秒画平台底层的模型编译技术进行加速。借助这项加速技术,在本地 RTX 3070 显卡上需要 10 秒生成的图像,秒画只要 2 秒的推理时间就可以生成。

总体来说,秒画是一个依托商汤 AI 大装置 SenseCore 的 to B 文生图平台,它基于商汤自研的超 10 亿参数文生图大模型,也能一键导入第三方开源模型,为 B 端客户免去了本地化部署的繁琐流程,并提供了简单快速的训练服务和推理加速功能。

打开 AIGC 的商业价值

随着生成式 AI 模型迎来爆发式增长,越来越多的人开始探索 AIGC 的潜在应用场景。不同于 to C 的应用软件,to B 的 AIGC 平台需要为各行业找到合适的商业模式。

作为深耕 to B 业务的公司,商汤自去年开始就为 B 端用户提供定制化的文生图模型,当时的常见做法是根据用户的需求为客户训练并封装成 SDK 来交付。这样的业务积累也让商汤有了构建通用文生图平台的新思路,秒画应运而生。

在文生图领域,设计、营销、游戏动画等行业未来将成为 AI 作画的主要应用场景。作为 to B 的文生图平台,秒画具备赋能这些行业的优势。

例如,对比同类产品的生成效果,秒画更适用于商业设计和产品营销。在下面这个生成汽车图像的例子中,相比于 Stable Diffusion,商汤自研模型的生成结果更符合 prompt 中的「概念设计」和「水墨」这两个关键词。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第12张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像与Stable Diffusion模型生成图像

类似地,在游戏动画行业,图像的展现效果将直接影响产品的质量,这对赋能该行业的 AIGC 工具提出了更高的要求,包括图像生成效果和对文本的理解能力两方面。以下图生成「梦幻的蝴蝶」为例,基于商汤自研模型的优化技术,秒画在图像风格、细节刻画等方面都更符合行业要求。

赚足眼球的AI作画,如何实现AIGC的价值,商汤给出了答案  消费与科技 第13张“商汤秒画 SenseMirage”基于商汤自研 AIGC 模型生成的图像与Stable Diffusion模型生成图

一方面,秒画为 B 端客户大幅降低了文生图垂类模型的构建门槛和商用成本;另一方面,秒画也符合当前主流 AI 作画的应用场景,提高了文生图模型的实用价值。

在 AI 作画赚足眼球的今天,秒画平台从赋能行业的角度出发,为 AIGC 打开商业价值提供了一个新的思路。

最后,我们想说,文生图只是 AIGC 的方向之一。随着生成式 AI 模型的迅速发展,AI 生成文本、AI 生成视频等等多个领域都在加快应用落地,AI 终将掀起内容生产的新一轮变革。

关注并使用“百度APP”访问无忧岛数码家电,各种价格便宜大牌精品数码产品等你发现~

分享给朋友:

相关文章

“黑五”海淘战升级|亚马逊还是舍不得中国

“黑五”海淘战升级|亚马逊还是舍不得中国

视觉中国这个“黑五”(即黑色星期五,指的是每年11月第4个星期四感恩节的后一天),跨境电商市场的火药味儿异常浓烈。在宣布电商业务退出中国7个月后,不甘心的亚马逊又回来了。就在&…

小米否认明年IPO:媒体报道存偏差 估值暂以上次融资时为准    

      来源:华尔街见闻                    …

高通骁龙630有多省电 实际用用就知道

高通骁龙630有多省电 实际用用就知道

我们回顾2016-2017年的手机市场,高端处理器可谓是一年一个花样,在2016年火了一整年的骁龙820/821处理器,在进入2017年过后,似乎一瞬间就被更加强大的骁龙835处理器完全取代了,除了还…

電池又出問題 三星Note 8電量耗盡後無法充電

據科技網站 Android Authority 12月28日報導,多位用戶在三星論壇上反映,Galaxy Note8在電池電量耗盡並關機後,無法充電和開機。另外,多位用戶反映 Galaxy S8 Pl…

马云揭秘:其实2018年最赚钱的是这个行业,傻子都成了千万富豪!

马云揭秘:其实2018年最赚钱的是这个行业,傻子都成了千万富豪!

很多人都想创业,但他们似乎有一个同样不创业的理由:我没有钱,我要是有钱的话,怎么怎么样......似乎只要有钱,他就一定能创业成功。可是马云的创业经历告诉我们,没钱,同样可以创业,同样可以创出一番伟大…

苹果降频之后,消费者希望iPhone电池容量翻倍

苹果降频之后,消费者希望iPhone电池容量翻倍

(原标题:How Apple can get beyond Batterygate)网易科技讯 12月31日消息,据国外媒体USA Today报道,对于苹果来说,这次“电池门”发生的时机简直是再糟糕不…

為挖礦需求而生,FSP 推出具備 16 個 PCIe 輔助電源插頭 2000W 電源

為挖礦需求而生,FSP 推出具備 16 個 PCIe 輔助電源插頭 2000W 電源

對於使用顯示卡挖礦的玩家來說,電源供應器長時重負載運作的穩定度相當重要,輸出瓦數規格也是越高越好,畢竟使用多個產品並聯 PS_ON 訊號也是件麻煩事。FSP 全漢即將推出 1 款瓦數規格高達 2000…

日本「最強黑絲」總選舉第一回! 測試30款黑絲舒適度 6款獲評級A (下编)

日本「最強黑絲」總選舉第一回! 測試30款黑絲舒適度 6款獲評級A (下编)

20. GUNZE・Sabrina Heat Top 2枚組易著,但著的時候好勁靜電!質感:B質地的伸縮力:B靜電:D© 由 NM+ 新Monday 提供 日本黑絲 GUNZE・Sabrina Hea…

AMD 反擊 Intel:AMD 處理器受影響程度近乎零

早前 Intel 發聲明指不剩止 Intel 處理器有設計缺陷引致安全性漏洞,連其他品牌的處理器亦有影響。AMD 發表聲明,指 AMD 處理器由於處理器架構上不同,在早前網媒公佈的安全性漏洞當中,對…

著岀經典復古風 Converse ALL STAR CHUCK 70s Vintage系列

著岀經典復古風 Converse ALL STAR CHUCK 70s Vintage系列

2017年度Converse所推岀的ALL STAR CHUCK 70s絕對為波鞋界帶來驚喜。重塑岀Converse經典布鞋,加入黑牌All Star以及亮面皮線,如此歷久常新的鞋款叫潮人們瘋搶。踏入…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。