【三星|回顾AI生成大爆发的一年! 未来还有哪些应用?】
文章图片
今年AI席卷全球 , 从生成图像的Midjourney和Stable Diffusion , 再到本月窜红的ChatGPT , 不论是图像还是文字 , 都突破了我们的想象 , 也引发了不少人的担忧 。
本周 , 开发ChatGPT的研究组织OpenAI又推出了一个开源3D模型生成AI「Point-E」 , 尽管生成结果相较阳春 , 主要是许多点状生成的「点云」模型仍有诸多限制 , 但生成速度已经相当快 , 一个模型只需一到两分钟 。
今年4月 , OpenAI推出了AI制图模型DALL-E升级后的版本「DALL-E 2」 , 主打输入叙述文字 , 就能产生与文字内容相应的图片;但此模型当时并没有开放大众使用 , 只有开发人员能够「有限制的使用」 , 主要是因为OpenAI意识到深伪(Deepfake)与散播暴力、虚假内容等风险 。
「AI起飞」的2022年
除此之外 , 还有分别在7、8月开放Beta版供大众使用的Midjourney和Stable Diffusion , 也在网络社群掀起了浪潮 , 让人人都能成为「艺术家」 。甚至在8月底美国的科罗拉多州博览会美术大赛 , 一张由Midjourney「辅助」创作的作品夺得大奖 , 更是掀起了大众舆论及正反声浪 。
尔后 , 在10月Meta又推出了短片生成系统Make-A-Video , 尽管明显是假的 , 甚至模糊扭曲 , 但这不可否认地又是一项突破 。
此外 , 线上生产力工具Canva、微软旗下的Office也都在近期接连宣布 , 将把AI图像生成模型引入自家平台 , 让用户制作出更有创意的文件 。虽然图片版权来源仍是许多用户挞伐的缘由 , 但这也展现了科技巨头拥抱AI的趋势 。
只不过 , 在社会或法律得到一个共识之前 , 恶意使用的问题仍频传 , 大数据也赤裸裸地反映文化或性别偏见 , 甚至可以被使用者很轻易地绕过限制 , 生成暴力或不适当的影像 。
视觉艺术家与设计师们今年连连受到挑战 , 地位似乎摇摇欲坠 , 但生成式AI所使用的核心技术「扩散(Diffusion)」 , 究竟是怎么一回事?
AI核心技术:“扩散” , 原理是什么?
「扩散」一词源自于物理学当中 , 气体或液体均匀分布到一个空间 。但在物理学中 , 扩散是自然发生的且不可逆的 , 例如扩散到咖啡中的方糖无法恢复为立方体形式 。但是机器学习中的扩散 , 是重组这些被破坏的数据(即训练AI的数据内容) , 从而获得从噪声中恢复数据、重组出一块方糖的能力 。
更详细的说 , AI扩散运作的方式 , 就是透过添加噪声慢慢破坏数据结构 , 然后再从这些被「拆解」的数据中 , 透过筛选、「降噪」与随机采样等步骤 , 就可以获得一张全新的图 。
而想要从文字叙述中获得图像 , 还得再经过一个模型叫做「CLIP」 。扩散这项技术其实已经行之有年 , 但OpenAI创新的CLIP让扩散变得更实用、精准 。
CLIP会在扩散的阶段 , 根据给定的文字内容对生成的数据(例如图像)「评分」 。在训练AI的一开始 , 生成的CLIP评分会非常低 , 因为在训练初期AI能生成的主要只有噪声 。但随着扩散系统不断从噪声中重建数据 , 会慢慢接近匹配提示 , 这就像一个未雕刻的大理石 , 雕刻大师会告诉新手在哪里雕刻 , 而CLIP会在不断重复的过程当中引导扩散系统 , 到更高分数的图像结果 。
AI发展 , 不只在影像
那么由CLIP引导的扩散模型能做什么呢? 除了创作图像 , 研究人员还尝试使用引导扩散模型来创作新音乐 。
- 三星|万元机皇三星S23 Ultra要用2亿像素!老外没兴趣
- 三星|专家:三星扩产或对存储价格造成更大压力
- 12月27日消息|不再galaxys22机型独占,三星承诺向更多机型开放
- 三星galaxys21ultra官翻机直降至4799元
- 据美国有线电视新闻网CNN报道|三星在美召回66万台洗衣机:运行时可能短路或过热
- 12月27日消息|三星galaxys23/s23+配备不缩水
- 如何快速生成二维码?二维码生成办法
- 诺基亚|诺基亚一口气公布6款新品,要杀回CES和三星苹果硬碰硬?
- 支付宝|三星S23官方海报曝光,卢泰文又要捉内鬼了
- ChatGPT的黑暗料理会不会把人送走?一位日本网友@jewel_x12突发奇想试了试。|舌尖上的chatgpt:普通食材,当然要用高端ai生成菜单