人工智能AI图像风格迁移(StyleTransfer),基于双层ControlNet(Python3.10)

人工智能,ai,图像,风格,迁移,styletransfer,基于,双层,controlnet,python3 · 浏览次数 : 580

小编点评

**图像风格迁移(Style Transfer)** **简介:** 图像风格迁移是一种计算机视觉技术,可以将一幅图像的风格应用到另一幅图像上,从而生成一幅新图像,该新图像结合了两幅原始图像的特点。 **方法:** 1. 安装 ControlNet 插件。 2. 启动 Stable-Diffusion-Webui 服务。 3. 下载模型文件:ControlNet-modules-safetensors/tree/main 和 t2iadapter_style_sd14v1.pth。 4. 配置 ControlNet 插件。 5. 上传一张目标风格的图片并点击 Generate 按钮。 **过拟合(Overfitting):** 过拟合是指在训练模型时,模型过度地学习了训练数据的特征和噪声,从而导致模型在新数据上表现不佳的问题。 **权重调整:** 通过调整权重,我们可以控制图像风格的保留程度。 **结论:** 通过 Stable-Diffusion 和 ControlNet 插件,我们可以生成一个新的图像,该图像结合了两幅原始图像的特点,既具有内容图像的内容,又具有风格图像的风格。

正文

图像风格迁移(Style Transfer)是一种计算机视觉技术,旨在将一幅图像的风格应用到另一幅图像上,从而生成一幅新图像,该新图像结合了两幅原始图像的特点,目的是达到一种风格化叠加的效果,本次我们使用Stable-Diffusion结合ControlNet来实现图像风格迁移效果。

安装ControlNet插件

首先确保本地已经安装并且配置好了Stable-Diffusion-Webui服务,关于Stable-Diffusion-Webui,请参见:人工智能,丹青圣手,全平台(原生/Docker)构建Stable-Diffusion-Webui的AI绘画库教程(Python3.10/Pytorch1.13.0),这里不再赘述。

随后进入项目目录,启动Stable-Diffusion-Webui服务:

python3 launch.py

如果是没有N卡的电脑,就使用cpu模式启动:

python3 launch.py --skip-torch-cuda-test --upcast-sampling --use-cpu interrogate

接着访问 http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装,输入插件地址:github.com/Mikubill/sd-webui-controlnet.git

安装成功后,重启WebUI界面。

由于ControlNet默认是一层网络,风格化操作我们需要两层,所以在设置选单(Settings)中,将多层网络设置为2。

设置好之后,下载模型文件:huggingface.co/webui/ControlNet-modules-safetensors/tree/main

将模型放入 stable-diffusion-webui/extensions/sd-webui-controlnet/models目录

这里还需要单独下载一个风格迁移模型,地址是:huggingface.co/TencentARC/T2I-Adapter/blob/main/models/t2iadapter_style_sd14v1.pth

同样放入stable-diffusion-webui/extensions/sd-webui-controlnet/models目录

至此,Stable-Diffusion-Webui服务的ControlNet插件就配置好了。

风格迁移

现在,我们打开ControlNet的第一个图层,将原始图像的轮廓渲染出来,因为需要保证原始图像的基本形状。

这里预处理器选择head,模型使用ControlNet的head模型即可。

可以看到基本轮廓已经得到了保留,风格化只负责颜色和线条。

随后配置第二个ControlNet图层,预处理器选择t2ia_style-clipvison,模型选择刚刚下载的t2iadapter_style_sd14v1.pth,默认图像权重为1,先不要动。

接着上传一张目标风格的图片,这里我们选择文森特梵高的表现主义作品《星空》:

随后点击Generate按钮做图生图(img2img)操作即可。

过拟合问题(Overfitting)

经过一段时间的本地推理,生成结果如下:

效果并不尽如人意,这也是大多数深度学习入门者会遇到的问题,也就是过拟合问题。

过拟合(Overfitting)是指在训练模型时,模型过度地学习了训练数据的特征和噪声,从而导致模型在新数据上表现不佳的问题。

通俗地讲,过拟合就像是一名学生背诵考试答案,但是他只是死记硬背了考试题目的答案,没有真正理解题目的本质和解题思路。当他遇到新的考试题目时,由于没有理解题目的本质和解题思路,他就无法正确回答。

在机器学习中,过拟合的原因是模型复杂度过高,导致模型对训练数据中的噪声和特征都过度追求,并且忽略了数据背后的本质规律和特征。因此,当模型面对新的数据时,由于没有真正理解数据的本质规律和特征,它就无法正确地对新数据进行预测。

说白了,就是对于原始图的特征过分追求,从而淡化了目标图的风格,还记得ControlNet默认权重是1吗?这里我们只需要将权重往下调整,比如调成0.8,再次尝试生成:

效果不错,既保留了原始图的大部分细节,又增加了梵高的表现主义风格。

当然了,权重也不能一味地往下调整,否则也会出现欠拟合(Underfitting)问题,整个风格化迁移的过程也可以理解为是一种“调参”的过程。

结语

通过Stable-Diffusion结合ControlNet插件,我们可以得到一幅新的图像,该图像结合了两幅原始图像的特点,既具有内容图像的内容,又具有风格图像的风格。图像风格迁移也可以应用于其他的领域,比如电影、游戏、虚拟现实和动画创作等等。

与人工智能AI图像风格迁移(StyleTransfer),基于双层ControlNet(Python3.10)相似的内容:

人工智能AI图像风格迁移(StyleTransfer),基于双层ControlNet(Python3.10)

图像风格迁移(Style Transfer)是一种计算机视觉技术,旨在将一幅图像的风格应用到另一幅图像上,从而生成一幅新图像,该新图像结合了两幅原始图像的特点,目的是达到一种风格化叠加的效果,本次我们使用Stable-Diffusion结合ControlNet来实现图像风格迁移效果。 安装Contr

带你从0到1开发AI图像分类应用

摘要:通过一个垃圾分类应用的开发示例,介绍AI Gallery在AI应用开发流程中的作用。 本文分享自华为云社区《AI Gallery:从0到1开发AI图像分类应用》,作者: yd_269359708 。 现如今,人工智能(AI)技术在计算机领域内,得到了越来越广泛的重视,并在各行各业中得到应用。然

基于深度卷积神经网络的时间序列图像分类,开源、低功耗、低成本的人工智能硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 卷积神经网络(CNN)通过从原始数据中自动学习层次特征表示,在图像识别任务中取得了巨大成功。虽然大多数时间序列分类(TSC)文献都集中在1D信号上,但本文使用递归图(RP)将时间序列转换为2D纹理

基于百度AI实现文字和图像敏感内容审核

前言 百度AI是指百度公司的人工智能技术全称。它采用深度学习技术,包括自然语言处理、语音识别、计算机视觉、知识图谱等,可应用于各个领域如互联网、医疗、金融、教育、汽车、物流等。百度AI的发展将帮助人类更好地理解世界和提高生活品质,接下来就通过一个小案例演示实现百度AI在文字和图像敏感审核应用。 项目

KubeEdge SIG AI发布首个分布式协同AI Benchmark调研

摘要:AI Benchmark旨在衡量AI模型的性能和效能。 本文分享自华为云社区《KubeEdge SIG AI发布首个分布式协同AI Benchmark调研》,作者:KubeEdge SIG AI (成员:张扬,张子阳)。 人工智能技术已经在我们生活中的方方面面为我们提供服务,尤其是在图像、视频

铅华洗尽,粉黛不施,人工智能AI基于ProPainter技术去除图片以及视频水印(Python3.10)

视频以及图片修复技术是一项具有挑战性的AI视觉任务,它涉及在视频或者图片序列中填补缺失或损坏的区域,同时保持空间和时间的连贯性。该技术在视频补全、对象移除、视频恢复等领域有广泛应用。近年来,两种突出的方案在视频修复中崭露头角:flow-based propagation和spatiotemporal

一种基于光电容积波的血压测量神经网络算法,开源、低功耗、低成本的人工智能软硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 心血管疾病是最严重的死亡原因之一,每年在全世界造成严重的生命损失。持续监测血压似乎是最可行的选择,但这需要一个侵入性的过程,带来了几层复杂性。这促使我们开发一种方法,通过使用光体积描记图(PPG)

LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理

LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理 LLM 技术图谱(LLM Tech Map)是将 LLM 相关技术进行系统化和图形化的呈现,此图谱主要特点是“专注于技术人视角”,不求从 LLM 产业角度汇聚信息,而是希望让从事相关工作或是想了解 LLM 的技术人

上海成立生成式人工智能质量检验检测中心(质检中心)

文章(新闻):生成式人工智能如何保障可靠可信?上海建立首家质检中心为AI产品“体检” 上海市生成式人工智能质量检验检测中心(质检中心) 两张人眼看上去一模一样的照片,机器人读取后为何会攻击其中一张图呢? 因为不正常的照片中被嵌入了特殊的噪声,人工智能产品读取了带有攻击性的信息。【想起了嵌水印】 同样

AIGC革新,将文字或者LOGO融入AI视频基于PIKA-labs(Python3.10)

很多平台都会禁止用户使用带有网址或者二维码的头像以及文章配图,这样可以有效的防止用户的一些“导流”行为。当然,头像、文章或者视频现在都是AI来审,毕竟现在人工的成本实在太高,但是如果我们把文字元素直接融入图像或者视频之中,如此一来,AI也会很难识别出一些“导流”的元素。 本次我们依靠PIKA-lab