动手学Avalonia:基于硅基流动构建一个文生图应用(一)

avalonia · 浏览次数 : 8

小编点评

**文生图文生图技术简介** 文生图文生图是一种利用AI技术将文本描述转化为图像的技术。它通过深度学习模型,如生成对抗网络(GANs)或变换器(Transformers),来理解和解析文本中的语义信息,并将其转化为视觉表现。这种技术可以应用于多个领域,如创意设计、图像编辑、虚拟现实和游戏开发等。 **Stable Diffusion模型介绍** Stable Diffusion是一种文本到图像的扩散模型,它使用Laion-5B数据库中的一个子集进行训练。该模型采用了一个冻结的CLIP ViT-L/14文本编码器来根据文本提示对模型进行条件设定。Stable Diffusion 3 Medium是目前Stable Diffusion 3系列中最先进、最强大的文本到图像AI模型,它包含20亿个参数。该模型能够处理复杂的提示并生成高度真实的照片级图像。 **硅基流动平台与Avalonia** 硅基流动平台提供了一个调用Stable Diffusion 3的API,并且该API是限时免费的。由于无法在本地上运行Stable Diffusion 3 Medium,你可以考虑使用硅基流动平台的API来进行文本到图像的生成。另一方面,Avalonia是一个跨平台的UI框架,可以使用C#和XAML构建应用程序。通过将Avalonia与SemanticKernel结合使用,可以基于LLM将中文提示词翻译为英文提示词,从而实现文本到图像的生成。 **Avalonia与XAML** Avalonia是一个用于构建跨平台桌面应用的UI框架,它支持C#和XAML作为用户界面文件。在Avalonia中,可以通过修改项目文件来启用对XAML的支持。在创建项目后,将项目更改为.NET 8,并升级相关的包,以避免可能的报错。 **Android端开发注意事项** 在开发Android应用程序时,需要注意以下几点: * 在物理机上进行调试时,需要开启开发者模式,启用USB调试,并允许通过USB安装应用。 * 由于SenmanticKernel对提示模板可能不起作用,因此建议使用英文提示词进行绘画。 **总结** 本文介绍了文生图文生图技术的概念、Stable Diffusion模型的特点以及如何使用硅基流动平台和Avalonia构建跨平台的应用程序。通过学习Avalonia和硅基流动平台的使用,你可以更好地了解文本到图像生成的原理和方法,并将这些技术应用于实际项目中。

正文

文生图

文生图,全称“文字生成图像”(Text-to-Image),是一种AI技术,能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型,如生成对抗网络(GANs)或变换器(Transformers),来理解和解析文本中的语义信息,并将其转化为视觉表现。文生图可以用于创意设计、图像编辑、虚拟现实、游戏开发等多个领域,为用户提供了从文字到图像的创造性转换工具。例如,用户可以输入“一只蓝色的猫坐在月球上”,AI将尝试生成符合描述的图像。

img

Stable Diffusion

Stable Diffusion 是一种潜在的文本到图像扩散模型。得益于 Stability AI 慷慨的计算资源捐赠以及 LAION 的支持,我们得以使用 LAION-5B 数据库的一个子集中的 512x512 图像来训练一个潜在扩散模型。与 Google 的 Imagen 类似,此模型使用一个冻结的 CLIP ViT-L/14 文本编码器来根据文本提示对模型进行条件设定。该模型拥有 8.6 亿参数的 UNet 和 1.23 亿参数的文本编码器,相对轻量,只需要至少 10GB VRAM 的 GPU 即可运行。详情请参阅以下部分和模型卡片。

简而言之,Stable Diffusion 是一个由 Stability AI 和 LAION 支持的项目,使用 LAION-5B 数据库中的图像训练而成。它借鉴了 Google Imagen 的设计理念,使用 CLIP ViT-L/14 文本编码器处理文本提示,具有相对较小的模型大小,使得它在普通 GPU 上即可运行。

Stable Diffusion 3 Medium 是目前 Stable Diffusion 3 系列中最新、最先进的文本到图像 AI 模型,包含 20 亿个参数。它擅长照片级真实感,处理复杂的提示并生成清晰的文本。

stable-diffusion-3-medium模型开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

image-20240710190246175

硅基流动

由于我目前硬件资源不行无法本地运行stable-diffusion-3-medium,但又想试试文生图模型,因此现阶段可以采用调用api的方式来使用。硅基流动平台目前提供了stable-diffusion-3的调用接口,并且限时免费,因为选择调用硅基流动提供的api。

image-20240710190603718

Avalonia

基于Avalonia可以使用C#+Xaml构建跨平台应用。

本项目或许不具备太大的实用价值,权且当做学习Avalonia的一个练手项目。

项目架构:

image-20240710193030861

在使用Avalonia的模板创建项目之后,更改项目为.net8,并升级一下包,这样可能会避免一些报错。

由于发现不支持中文提示词,因此还是使用SemanticKerenl基于LLM将中文提示词翻译为英文提示词,然后根据英文提示词绘图。

观察一下桌面端的依赖项,桌面端引用了核心项目,使用的包是Avalonia.Desktop。

image-20240710193917453

桌面端实现效果如下所示:

image-20240710191656219

观察一下Android端的依赖项,Android端也引用了核心项目,使用的包是Avalonnia.Android与Xamarin.AndroidX.Core.SplashScreen。

image-20240710194047415

Android端调试可以选择模拟器与物理机。

image-20240710193601252

避坑

选择物理机调试时要打开开发者模式,打开USB调试,最重要的是要允许通过USB安装,我之前没有设置这个,就会遇到一个被用户取消的错误提示。

Android端不知道为什么SenmanticKernel对提示模板不起作用如下所示:

现在只能自己写英文提示词绘图。

Android端的实现效果如下:

以上就是动手学Avalonia:基于硅基流动构建一个文生图应用(一)的内容,希望对使用C#构建跨平台应用感兴趣的小伙伴有所帮助。

与动手学Avalonia:基于硅基流动构建一个文生图应用(一)相似的内容:

动手学Avalonia:基于硅基流动构建一个文生图应用(一)

文生图 文生图,全称“文字生成图像”(Text-to-Image),是一种AI技术,能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型,如生成对抗网络(GANs)或变换器(Transformers),来理解和解析文本中的语义信息,并将其转化为视觉表现。文生图可以用于创意设计、图像编辑、虚

动手学Avalonia:基于SemanticKernel与硅基流动构建AI聊天与翻译工具

Avalonia是什么? Avalonia是一个跨平台的UI框架,专为.NET开发打造,提供灵活的样式系统,支持Windows、macOS、Linux、iOS、Android及WebAssembly等多种平台。它已成熟并适合生产环境,被Schneider Electric、Unity、JetBrai

自己动手2小时学会配置游戏辅助

在工作、生活和娱乐中,我们经常遇到一些重复性的鼠标点击操作,我们可能会首先想到使用按键精灵类软件来解放双手,但是它们的使用门槛比较高,还要专门学一门脚本语言。本文介绍的软件完全不需要编程和脚本开发经验,看完就能配置出自己想要的辅助类脚本

[转帖]我偷偷学了这 5 个命令,打印 Linux 环境变量那叫一个“丝滑”!

https://xie.infoq.cn/article/2acfef8d543517619c9202e4e 一、概述 在基于 Linux 和 Unix 的系统中,环境变量是一组动态命名值,存储在系统中,供在 shell 或子 shell 中启动的应用程序使用。简单来说,环境变量是具有名称和关联值的

App复杂动画实现——Rive保姆级教程

在App开发过程中,如果想实现动画效果,可以粗略分为两种方式。一种是直接用代码编写,像平移、旋转等简单的动画效果,都可以这么干,如果稍微复杂点,就会对开发工程师的数学功底、图形图像学功底有很高的要求。

策略梯度玩 cartpole 游戏,强化学习代替PID算法控制平衡杆

cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,给

[WPF]用HtmlTextBlock实现消息对话框的内容高亮和跳转

动手写一个简单的消息对话框一文介绍了如何实现满足常见应用场景的消息对话框。但是内容区域的文字仅仅起到信息展示作用,对于需要部分关键字高亮,或者部分内容有交互性的场景(例如下图提示信息中的“what's the risk?”需要跳转)则无能为力了。本文将介绍如何在WPF中灵活的实现消息对话框中局部文字

动手造轮子自己实现人工智能神经网络(ANN),解决鸢尾花分类问题Golang1.18实现

人工智能神经网络( Artificial Neural Network,又称为ANN)是一种由人工神经元组成的网络结构,神经网络结构是所有机器学习的基本结构,换句话说,无论是深度学习还是强化学习都是基于神经网络结构进行构建。关于人工神经元,请参见:人工智能机器学习底层原理剖析,人造神经元,您一定能看

带你动手做AI版的垃圾分类

摘要:本案例将使用YOLOX模型,实现一个简单的垃圾分类应用。 本文分享自华为云社区《ModelBox社区案例 - 使用YOLOX做垃圾分类》,作者:HWCloudAI。 1 ModelBox社区案例 - 使用YOLOX做垃圾分类 本案例将使用YOLOX模型,实现一个简单的垃圾分类应用,最终效果如下

动手实践丨使用华为云IoT边缘体验“边云协同”

摘要:“边云协同”,即云端与边缘的协同。通过边云通道,部署在边缘节点上,并实现在云端远程管理应用,保障部署在边缘的应用能够正常运行,并通过与云端的连线,将业务执行结果在云端呈现。 本文分享自华为云社区《使用华为云IoT平台的IoT边缘体验“边云协同”【我的IoT端边云体验】》,作者:Jan-tao