三星|回顾AI生成大爆发的一年！未来还有哪些应用？三星

【三星|回顾AI生成大爆发的一年！未来还有哪些应用？】

文章图片

今年AI席卷全球，从生成图像的Midjourney和Stable Diffusion ，再到本月窜红的ChatGPT ，不论是图像还是文字，都突破了我们的想象，也引发了不少人的担忧。

本周，开发ChatGPT的研究组织OpenAI又推出了一个开源3D模型生成AI「Point-E」，尽管生成结果相较阳春，主要是许多点状生成的「点云」模型仍有诸多限制，但生成速度已经相当快，一个模型只需一到两分钟。

「AI起飞」的2022年

今年4月， OpenAI推出了AI制图模型DALL-E升级后的版本「DALL-E 2」，主打输入叙述文字，就能产生与文字内容相应的图片;但此模型当时并没有开放大众使用，只有开发人员能够「有限制的使用」，主要是因为OpenAI意识到深伪（Deepfake）与散播暴力、虚假内容等风险。

除此之外，还有分别在7、8月开放Beta版供大众使用的Midjourney和Stable Diffusion ，也在网络社群掀起了浪潮，让人人都能成为「艺术家」。甚至在8月底美国的科罗拉多州博览会美术大赛，一张由Midjourney「辅助」创作的作品夺得大奖，更是掀起了大众舆论及正反声浪。

尔后，在10月Meta又推出了短片生成系统Make-A-Video ，尽管明显是假的，甚至模糊扭曲，但这不可否认地又是一项突破。
此外，线上生产力工具Canva、微软旗下的Office也都在近期接连宣布，将把AI图像生成模型引入自家平台，让用户制作出更有创意的文件。虽然图片版权来源仍是许多用户挞伐的缘由，但这也展现了科技巨头拥抱AI的趋势。
只不过，在社会或法律得到一个共识之前，恶意使用的问题仍频传，大数据也赤裸裸地反映文化或性别偏见，甚至可以被使用者很轻易地绕过限制，生成暴力或不适当的影像。

AI核心技术：“扩散” ，原理是什么？

视觉艺术家与设计师们今年连连受到挑战，地位似乎摇摇欲坠，但生成式AI所使用的核心技术「扩散（Diffusion）」，究竟是怎么一回事？
「扩散」一词源自于物理学当中，气体或液体均匀分布到一个空间。但在物理学中，扩散是自然发生的且不可逆的，例如扩散到咖啡中的方糖无法恢复为立方体形式。但是机器学习中的扩散，是重组这些被破坏的数据（即训练AI的数据内容），从而获得从噪声中恢复数据、重组出一块方糖的能力。
更详细的说， AI扩散运作的方式，就是透过添加噪声慢慢破坏数据结构，然后再从这些被「拆解」的数据中，透过筛选、「降噪」与随机采样等步骤，就可以获得一张全新的图。
而想要从文字叙述中获得图像，还得再经过一个模型叫做「CLIP」。扩散这项技术其实已经行之有年，但OpenAI创新的CLIP让扩散变得更实用、精准。
CLIP会在扩散的阶段，根据给定的文字内容对生成的数据（例如图像）「评分」。在训练AI的一开始，生成的CLIP评分会非常低，因为在训练初期AI能生成的主要只有噪声。但随着扩散系统不断从噪声中重建数据，会慢慢接近匹配提示，这就像一个未雕刻的大理石，雕刻大师会告诉新手在哪里雕刻，而CLIP会在不断重复的过程当中引导扩散系统，到更高分数的图像结果。
AI发展，不只在影像
那么由CLIP引导的扩散模型能做什么呢？除了创作图像，研究人员还尝试使用引导扩散模型来创作新音乐。

三星|回顾AI生成大爆发的一年！ 未来还有哪些应用？

三星|回顾AI生成大爆发的一年！未来还有哪些应用？