众所周知,B站是学习网站😄
最近发现一宝藏Up主,主要做科普,主题包括但不限于:大模型的底层算法、量子计算底层原理和硬件设计,以及其他物理或者自然科学主题,总体偏向于理工科。
值得推荐的理由:Up主对底层技术的了解非常透彻,因此举的例子也非常生动(即使如傅里叶变换这类复杂的数学公式,也能用生活中的例子类比)。
Up主的名字:新石器公园
推荐一看。
我是怎么发现这枚宝藏Up主的呢?
源于最近使用metaso.cn搜了一下2024年热点研究方向:
然后挑了几个计算机领域比较相近的研究方向,挨个儿去B站搜索相关领域的视频,顺其自然就找到啦,然后科普视频就看得停不下来,感触比较深的是:
从去年开始,大模型爆发,很明显的一个现象是,随着国内相关政策的不断完善,开源生态也越来越成熟,产业界的跟进落地速度与也越来越快,相关的产品层出不穷。不过,大多数开发人员更关注上层使用,而对底层的细节关注比较少,比如下面几个问题看看你是否能够回答:
1. 大模型的参数是指什么?它和传统的神经网络有什么不同?
2. transformer的自注意力机制是指什么?
3. 扩散模型底层原理是怎样的?大模型为什么能生成视频?
向下扩展到底层技术:
1. 之前频频上新闻的室温超导技术,究竟有啥用?
2. 量子计算机是科学还是玄学?它如何提高计算效率?又会与大模型擦出怎样的火花?
3. 忆阻器与常见的模电器件有何不同?
这些问题,在Up主的科普视频都有解答,对于概念理解而言,是非常好的入门渠道。如果你说,这和我有啥关系?这难道不是科学家要关心的嘛?那向上扩展到应用层,看看以下问题你能否回答:
1. 大模型在工业中是如何发挥作用的?比如之前华为用在了采矿,现在又用在了炼钢,究竟是怎么做的?
2. 大模型在计算机业界,最常用的架构是怎样的?除了RAG,还有其他形式吗?大模型效果评价体系有哪些?
3. 内容向量化是指什么?维度又是什么含义?选取多少维度比较合适?
4. 文本的语义切分怎么做,才能保证效果最优?传统的chunk+overlap是否还有优化空间?用大模型直接做语义切分怎么样?
5. prompt调优有哪些手段?如何评估它们的效果?
是不是发现很多知识明明用了,但是不清楚背后的原理?或者知道原理但不知道如何表达出来?
其实,这都属于知识体系构建不完整的一种体现,很多知识都是一个个孤岛,没有连点成线,更别提连线成面了。
所以,我们要做的是:
1. 在工作之余,花点时间了解平时用到的技术底层原理,慢慢提升认知。这是向下扎根的过程;
2.多关注行业发展趋势,多接触业务领域人员,了解他们对于技术演化趋势的看法,这也很重要,往往决定了技术是否能够搭载产品被推广出去。这是向上生长的过程。
既然谈到了知识体系的构建,那就
最近逛知乎偶然看到的一个话题:
于是有幸拜读了回答的一篇长文,该文从各种角度分析了信息的获取、处理以及分析方式,具体可以去知乎查看,本文不再展开。
还有一本北大博士论文神作,名叫《中县干部》,网上有资源,可以学习下。
总体而言,可以理解为文章讲述了一套概念:找到渠道、了解各类实体、获取各类实体之间的交互关系,并持续关注实体交互关系的动态变化。这与计算机科学中常常提到的知识图谱或者图数据库的构建和更新操作非常相似。
你看,这个世界的很多东西都是相通的,所以多多思考,任督二脉就慢慢打通了。
时间有限,今天就先聊到这里吧,希望能给大家带来一些启发。