“再生”达利+机器人瓦力，文字生成图片的AI升级版来了！

liukang20243个月前 (05-25)吃瓜入口829

这是一张AI体系DALL-E 2依据文字描绘“戴着贝雷帽和穿黑色高领毛衣的柴犬”（Shiba Inu dog wearing a beret and black turtleneck）生成的图画。时隔一年，DALL-E的升级版来了！

当地时间4月6日，人工智能研讨机构OpenAI发布DALL-E 2（文本到图画生成程序）。DALL-E 2具有更高分辨率和更低推迟，精确度改进了71.7%，写实度改进了88.8%，解析度更是本来的4倍，还可结合概念、特色及风格打造更生动的图画，如以莫奈（Claude Monet）的风格画出草原上的狐狸。

一起新增两大功用：更细颗粒度的文字部分修正图画，以及生成原图的多重风格变体。前者比方这样！

上下分别为在原图的1区域和2区域添加一个小狗DALL-E 2在更细的层面上运用DALL-E的文本到图画的才能。用户能够从现有的图片开端，挑选一个区域，并告知模型怎么来修正它。模型能够填充（或删去）物体，一起考虑到暗影方向、反射与质地等细节。后者比方这样！

以同一张图画为基准，树立不同风格或编列的版别。

生成的图片是1024 x 1024像素，比原始模型供给的256 x 256像素有了腾跃DALL-E的称号来自于艺术家萨尔瓦多·达利（Salvador Dalí）和《机器人总动员》的主角WALL-E，第一版于2021年1月初次露脸。DALL-E奠基在具有1750亿个参数的GPT-3模型上，但它仅运用120亿个参数，使用一个文字与图画配对的材料集，以文字叙说来发生图画。

萨尔瓦多·达利（Salvador Dalí）

《机器人总动员》的主角机器人WALL-E（瓦力）OpenAI研讨科学家Prafulla Dhariwal标明：“DALL-E 1仅仅从语言中采用了GPT-3办法，并将其运用于生成图画：咱们将图画压缩成一系列单词，然后学会猜测接下来的内容”。可是单词匹配并不一定能捕捉到人类认可的要点，并且猜测进程约束了图画的真实性。所以用CLIP（OpenAI上一年发布的计算机视觉体系）来调查图画，并以人类的方法总结它们的内容。

DALL-E体系依据文字“牛油果型的扶手椅”主动创造的部分图画CLIP是原版DALL·E功用完成的根底，DALL-E 2则结合了CLIP和分散模型两种技能的长处。DALL·E图画生成的“分散”（diffusion）进程能够理解为从“一堆点”动身，用越来越多的细节把图画填充完好。分散模型的特色在于，在献身多样性的前提下，能大大提高生成图画的逼真度。

DALL-E 2依据“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描绘生成的图画为防止生成的图片被乱用，现在OpenAI现已施行了一些内置的保护办法。

该模型在已除掉不良数据的数据集上进行练习，将由通过OpenAI检查的合作伙伴进行测验，用户被制止上传或生成“非G级”和“或许形成损伤”的图画，以及任何触及仇视符号、裸体、猥亵手势，或“与正在发生的严重地缘政治事情有关的严重诡计或事情”的图画。

该模型也无法依据名字生成任何可辨认的人脸，即便要求的是“蒙娜丽莎”之类的内容。一起，DALL·E 2 在生成的图片上都标有水印，以标明该著作是 AI 生成的。抱负情况下这些办法能够约束其发生不良内容的才能。

与之前相同，该东西并未直接向大众发布。但研讨人员能够提交请求预览该体系，OpenAI期望今后将DALL·E 2归入该安排的API东西会集，使其可用于第三方运用程序。

Dhariwal说道，“咱们期望分阶段进行这个进程，以从取得的反应中不断评价怎么安全地发布这项技能。”

(本文来自汹涌新闻，更多原创资讯请下载“汹涌新闻”APP)

告发/反应