聊聊GLM-4-9B开源模型的微调loss计算

概述 Github官方地址:GLM-4 网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的loss计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。 可了解其它loss

一文详解ATK Loss论文复现与代码实战

摘要:该方法的主要思想是使用数值较大的排在前面的梯度进行反向传播,可以认为是一种在线难例挖掘方法,该方法使模型讲注意力放在较难学习的样本上,以此让模型产生更好的效果。 本文分享自华为云社区《ATK Loss论文复现与代码实战》,作者:李长安。 损失是一种非常通用的聚合损失,其可以和很多现有的定义在单

使用自动模型

本文通过文本分类任务演示了HuggingFace自动模型使用方法,既不需要手动计算loss,也不需要手动定义下游任务模型,通过阅读自动模型实现源码,提高NLP建模能力。 一.任务和数据集介绍 1.任务介绍 前面章节通过手动方式定义下游任务模型,HuggingFace也提供了一些常见的预定义下游任务模

Pytorch:使用Tensorboard记录训练状态

我们知道TensorBoard是Tensorflow中的一个强大的可视化工具,它可以让我们非常方便地记录训练loss波动情况。如果我们是其它深度学习框架用户(如Pytorch),而想使用TensorBoard工具,可以安装TensorBoard的封装版本TensorBoardX。最后,需要提到的是,因为Tensorboard太常用了,所以在目前最新的Pytorch版本中已经直接集成进来了。所以,现在使用Tensorboard只需要直接导入torch.utils.tensorboard即可。

[转帖]丢包

http://www.xc66.cc/baike/view.php?id=712a3c9878efeae8ff06d57432016ceb 丢包指数据包由于各种原因在信道中丢失的现象。 中文全称:丢包 英文全称:Packet loss 简称:Packet loss 简介:丢包(Packet loss

[转帖]History of Web Browser Engines from 1990 until today

https://eylenburg.github.io/browser_engines.htm Many tried, few remain... Last updated: January 2023 The loss of browser diversity since the rise of C

AI 0基础学习,数学名词解析

AI学习过程中,常见的名词解析 ### 中位数 将数据从小到大排序,奇数列,取中间值,偶数列,中间两个值的平均,可做为销售指标 ### 众数 一组数据中,数值出现最多的那个。反映哪款产品,销量最好 ### 平均数 比赛中,去掉最高、最低分,然后以平均数做为选手的最终得分 ### 损失函数(loss

  • 首页
  • 上一页
  • 1
  • 下一页
  • 尾页