期刊介绍
期刊导读
- 12/13科技论文论文格式排版(科学论文排版)
- 12/09科技论文论文题目(科技论文的题目)
- 12/07科技论文具有哪些特征
- 10/22为芦笋种植“开处方”,潍坊的科技特派员把论
- 10/13喜讯!青岛地质院何鹏被授予“优秀科技工作者
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它
GPT-3 也完全没令人失望,在小范围开放测试 API 之后,外界人士用它开发出了各种各样神奇的 demo,展示了写段子、翻译公式、解数学题、完成用户界面设计、生成财务报表等能力。
当然话说回来,这些只是我自己的解读和感受,绝不可能是模型的“本意”。但是有趣的艺术作品不正应该是这样嘛,让人能够发现一些巧妙的“彩蛋”,甚至浮想联翩,解读出另外的含义。
就像 DALL·E 的根源是语言超大模型 GPT-3,Imagen 的根源也是谷歌开发的泛用型超大语言模型 T5。至于 Imagen 的这个命名,其实是图片 (image) +生成 (generate) 的混成词。
模型的质量也值得一提。The Verge、TechCrunch 等美国媒体测试了一些特殊的敏感字段,AI 绿幕生成结果更加抽象了,显示出字节部署的模型在争议字段上可能已经做出了提前规避。
——当然,究竟是 DALL·E 2 和 Imagen 谁的生成结果更好,还是一个很主观的,见仁见智的事情。在技术实现上,这两家其实大同小异,都是用了 Diffusion(扩散)模型生成,然后再用 Super-Resolution(超分辨率) 技术来让生成结果更加清晰。
*注:封面图来自于 TikTok,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。
(听说此事之后,粉丝们还做了一张梗图,嘲笑 OpenAI 那边还在控制测试权限,这边 DALL·E mini 早就给全网玩嗨了……)
这家公司总部位于硅谷 Los Altos,在上周刚刚发布了一个可以免费使用的 AI 图片生成产品 Stable Diffusion。
在这些模型当中,OpenAI 的 DALL·E 是最著名的一款。该模型一代于2021年推出,今年刚刚更新到了二代。用户只需提供自然语言描述,模型就能够生成非常写实 (photorealisitic) 的图片。
右图更有意思,提示是“轰炸”:我完全没有想到如此“不和谐”的字段,TikTok 的模型居然生成的结果却相当的“自洽”,特别是图中的“轰炸机”反而看起来像是代表和平的“白鸽”——是否你也能读出一点讽刺的意味?
我还想单独说一下下面我自己生成的图片:
再比如 DALL·E 2 还具备“启发”的能力,能够根据一张已经给定的图片,生成风格近相同的新照片:
而在硅谷大厂的行列当中,现在谷歌是已知动作最快的,在 DALL·E 2 出来不久后也发布了自己的模型,名为 Imagen。
还有更多规模更小的新创公司也在做 AI 图片生成和艺术创作这件事。
在 TikTok 的特效菜单下,最近增加了一个名叫“AI 绿幕” (AI Greenscreen) 的新选项。
点击这个选项,然后在屏幕中间的对话框里输入一段文字描述,只用不到5秒的时间,TikTok 就可以根据文字描述生成一张竖版画作,用作短视频的背景:
下图左边的提示字段是知名游戏“最后生还者”。生成结果的辨识度太高了,这不正是游戏主角 Ellie 被泥浆血水浸湿的头发吗?
说完这些比较知名的公司,再来看一家名不见经传,但是和 TikTok 一样出手极快的美国公司:Stability AI。
比如它的编辑能力,可以在一张已经存在的照片中,在用户任选的位置“删除”或者“添加”物体,并且编辑后的效果仍然很写实:
从这一角度,我还是非常认可 TikTok 目前部署的这个模型的。
早在2020年,全球知名的人工智能基础科研机构 OpenAI 发布了一个名为 GPT-3 语言模型。当时 OpenAI 的论文题为“Language Models are Few-Shot Learners”,直接点出了超大规模语言模型在多种非训练人物上具备强大、快速的学习和掌握能力。
TikTok 用的这个文字转图片模型,还是非常简单的。硅星人测试了几个含义大相径庭的提示,生成的图片可以说都十分的“迷幻",没有任何写实色彩。
除了从零开始生成全新照片,DALL·E 2 还有更多功能,适合现实中多种艺术工作场景。
几周前我们报道了“新一代梗图之王” DALL·E mini,一个脑洞十分清奇的文字转图片 AI 小工具。当时我们也提到,包括谷歌、OpenAI 等大公司和顶级研究机构都在开发相关模型,就连时尚杂志《COSMO》都采用 AI 来设计杂志封面。
要知道 AI 文字生成图片本来就不是简单技术,避免争议/道德风险更是一项相当复杂的工作。
但这并不是缺点点——正相反,生成结果具有非常强的水彩/油画感觉,风格迁移 (style transfer) 的痕迹明显,而且用的颜色也都鲜亮明快,给人一种耳目一新的感受。
文章来源:《中国科技论文》 网址: http://www.zgkjlwzz.cn/zonghexinwen/2022/0816/856.html
上一篇:【中国那些事儿】外媒:中国科学论文三大指标跃
下一篇:IEEE Fellow 过敏意:从IEEE汇刊主编视角看如何提升