与#视觉#相关的内容 - PmDaddy

全部分类数据库前端云计算

视觉语言跨模态特征语义相似度计算改进--表征空间维度语义依赖感知聚合算法 ACM MM

论文链接：Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching (ACM MM23) 代码主页：https://github.com/CrossmodalGroup/X-Dim 主要优

大龄程序员思考

视觉AI很难做近来一直在从事AI 视觉检测方面的工作，外行人可能觉得挺厉害，实际上这钱挣得基本等于搬砖近两年以来，行业不景气、制造业利润上不去，那么在这个产业链中，老板就没有余钱来进行升级改造。老板们是否愿意花钱投入视觉检测，一是老板的认知、二是是否有足够的资金实力；就算最后，老板有需求，也

视觉语言模型详解

视觉语言模型可以同时从图像和文本中学习，因此可用于视觉问答、图像描述等多种任务。本文，我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、搞清楚如何找到真命天“模”、如何对其进行推理以及如何使用最新版的 trl 轻松对其进行微调。什么是视觉语言模型？视觉语言模型是可以同时从图像和文本中

视觉享受，兼顾人文观感和几何特征的字体「GitHub 热点速览 v.22.46」

GitHub 上开源的字体不在少数，但是支持汉字以及其他非英文语言的字体少之又少，记得上一个字体还是霞鹜文楷，本周 B 站知名设计 UP 主开源了的得意黑体在人文观感和几何特征之间找到了美的平衡。而文本编辑器剪视频 autocut 则优雅和便捷之间找到它的平衡，分布式时序数据库 greptime

为视觉语言多模态模型进行偏好优化

为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本，因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种

计算机视觉五大核心研究任务全解：分类识别、检测分割、人体分析、三维视觉、视频分析

> 本篇文章深入探讨了计算视觉的定义和主要任务。内容涵盖了图像分类与识别、物体检测与分割、人体分析、三维计算机视觉、视频理解与分析等技术，最后展示了无监督学习与自监督学习在计算机视觉中的应用。 > 作者 TechLead，拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦

消除视觉Transformer与卷积神经网络在小数据集上的差距

摘要：本文通过多种操作构建混合模型，增强视觉Transformer捕捉空间相关性的能力和其进行通道多样性表征的能力，弥补了Transformer在小数据集上从头训练的精度与传统的卷积神经网络之间的差距。本文分享自华为云社区《[NeurIPS 2022] 消除视觉Transformer与卷积神经网络

OLOR：已开源，向预训练权值对齐的强正则化方法 | AAAI 2024

随着预训练视觉模型的兴起，目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集，因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR（One step Learning, One step Review），把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一

python计算机视觉学习笔记——PIL库的用法

如果需要处理的原图及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/ComputerVisionPractice 这个是之前的笔记，自己看到了就顺带发出来，也是温习一下，内容可能不太全，算是入门贴吧。前言：PIL 图

OpenCV计算机视觉学习（14）——浅谈常见图像后缀（png, jpg, bmp）的区别（opencv读取语义分割mask的坑）

如果需要处理的原图及代码，请移步小编的GitHub地址传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/ComputerVisionPractice 本来不想碎碎念，但是我已经在图像后缀上栽倒两次了。而且因为无意犯错，根本找不到问题。不论是在深度学习的语

#Powerbi 利用视觉对象着色地图，制作数据地图

日常工作中，有时我们会遇到需要地图来展示我们的数据场景，利用POWERBI，我们可以快速的制作自己的业务地图。 Powerbi自带了三大地图，今天我们用到的是形状地图。步骤讲解：第一步：下载对应的地图资源，可以是全国的，也可以是具体省市的，这个根据我们的具体业务来进行选择。 http://dat

PreSTU：一个专门为场景文本理解而设计的简单预训练模型

摘要：在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解（STU）的V&L模型呢？本文分享自华为云社区《场景文本理解预训练PreSTU》，作者： Hint 。【论文摘要】在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺

PPT 笔刷：让你的PPT充满视觉冲击

其实就是下载的AI效果辅助文字展示辅助图片展示创意展示图片，增强视觉冲击力使用删除外面的边框 https://www.bilibili.com/video/BV1ha411g7f5?p=16

记一次 .NET 某工控视觉系统卡死分析

## 一：背景 ### 1. 讲故事前段时间有位朋友找到我，说他们的工业视觉软件僵死了，让我帮忙看下到底是什么情况，哈哈，其实卡死的问题相对好定位，无非就是看主线程栈嘛，然后就是具体问题具体分析，当然难度大小就看运气了。前几天看一篇文章说现在的 .NET程序员不需要学习**WinDbg** ，

MViT：性能杠杠的多尺度ViT | ICCV 2021

论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。来源：晓飞的算法工程笔记公众号论文: Multiscale Vision

微调 Florence-2 - 微软的尖端视觉语言模型

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力，因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。 Florence 开箱即用支持多种类型的任务，包括: 看图说话、目标检测、OCR 等等。虽然覆盖面很广，但仍有可

记一次 .NET某上位视觉程序离奇崩溃分析

一：背景 1. 讲故事前段时间有位朋友找到我，说他们有一个崩溃的dump让我帮忙看下怎么回事，确实有太多的人在网上找各种故障分析最后联系到了我，还好我一直都是免费分析，不收取任何费用，造福社区。话不多说，既然有 dump 来了，那就上 windbg 说话吧。二：WinDbg 分析 1. 为什么

物联网浏览器(IoTBrowser)-基于计算机视觉开发的应用“智慧眼AIEye”

一、起因最近毕业在家:)，准备筹划社区运营和IoTBrowser升级的事务，遇到了一系列物业管理上的问题，本来出于好心提醒物业人员，结果反被误认为是打广告推销的，当时被激怒一下，后面一想也许这也是一个普遍存在的问题，正好IoTBrowser缺少落地的应用场景，遂又撸起袖子搞了一个AI工具。以下是本

记一次 .NET某工控视觉自动化系统卡死分析

一：背景 1. 讲故事今天分享的dump是训练营里一位学员的，从一个啥也不会到现在分析的有模有样，真的是看他成长起来的，调试技术学会了就是真真实实自己的，话不多说，上windbg说话。二：WinDbg 分析 1. 为什么会卡死这位学员是从事工控大类下的视觉自动化，也是目前.NET的主战场，这个

PaliGemma 正式发布 — Google 最新发布的前沿开放视觉语言模型

PaliGemma 是 Google 推出的新一代视觉语言模型家族，能够接收图像与文本输入并生成文本输出。 Google 团队已推出三种类型的模型：预训练（PT）模型、混合模型和微调（FT）模型，这些模型分辨率各异，提供多种精度以便使用。所有模型均在 Hugging Face Hub 的模型库中发

首页
上一页
1
2
3
4
5
6
7
8
9
10
下一页
尾页

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化