[转帖]指令微调数据集整理

指令,微调,数据,整理 · 浏览次数 : 0

小编点评

**开源指令数据集** * **Baize**:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集。 * **斯坦福 52K 中文指令数据**:经过人工精调的中文对话数据集,加入除了alpaca之外的其他中文聊天对话。 * **BELLE Group Dataset**:基于种子prompt的中文指令数据集。 * **BAize**:基于少量种子问题的对话数据。 **垂直领域数据集** * **医疗领域中文数据**:从 HealthCareMagic.com 和 icliniq.com 的患者和医生之间的对话中收集。 * **法律领域中文数据**:由上海交大收集和整理的中国法律数据资源。 **其他资源** * **COIG数据集**:可商用的中文数据集。 * **斯坦福英文数据及中文数据**:基于 GPT4生成的斯坦福 52K 指令数据。 * **ChatGPT翻译**:将英文数据翻译成中文。 * **Belleg Group Dataset**:基于种子prompt的中文指令数据集。

正文

https://blog.csdn.net/dzysunshine/article/details/130870398

开源指令数据集

斯坦福数据

斯坦福52K英文指令数据:https://github.com/tatsu-lab/stanford_alpaca
52K 条指令中的每一条都是唯一的,答案由text-davinci-003模型生成得到的。

斯坦福52K中文指令数据:https://github.com/carbonz0/alpaca-chinese-dataset
与原始alpaca数据json格式相同,数据生成的方法是机器翻译和self-instruct。

斯坦福52K中文指令数据:https://github.com/hikariming/alpaca_chinese_dataset
经过人工精调的中文对话数据集,加入除了alpaca之外的其他中文聊天对话 人工微调,部分并不中文化的问题,我们将重新询问chatgpt或文心一言,重新获取回答并覆盖掉alpaca的回答.

基于GPT4的斯坦福英文数据及中文数据
基于GPT4生成的斯坦福52K指令数据,后用ChatGPT翻译得到的中文数据:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

链家数据

BELLE Group Dataset:https://huggingface.co/datasets?sort=downloads&search=BELLE+Group
链家基于ChatGPT用self-instruct生成的中文指令数据集,其中还包括中文数学题数据和多轮对话数据。由于数据是模型生成的,未经过严格校验!

BELLE项目生成的中文指令数据:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
生成方式基于种子prompt,调用openai的api生成中文指令。包含了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。数据分布如下图所示:
在这里插入图片描述
https://huggingface.co/datasets/BelleGroup/train_0.5M_CN
包含约50万条由BELLE项目生成的中文指令数据。

多轮对话:https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M

Baize(基于少量种子问题的对话数据)

Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。
https://github.com/project-baize/baize-chatbot

垂直领域数据集

医疗领域的英文数据

chatDoctor:https://github.com/Kent0n-Li/ChatDoctor
HealthCareMagic-100k:来自 HealthCareMagic.com的患者和医生之间的 100k 真实对话。

icliniq-10k:来自icliniq.com的 10k 患者和医生之间的真实对话。

5K生成数据:5k 从 ChatGPT生成的GenMedGPT-5k和疾病数据库生成患者和医生之间的对话。

医疗领域的中文数据

Med-ChatGLM:https://github.com/SCIR-HI/Med-ChatGLM/tree/main/data
通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集。

法律领域中文数据

中国法律数据资源,由上海交大收集和整理:https://github.com/pengxiao-song/awesome-chinese-legal-resources

COIG数据集(可商用的中文数据集)

https://hub.baai.ac.cn/view/25750
第一期总共发布了 5 个子数据集,包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令,总计 191k 数据,聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠,而且可以商用。
论文标题:
Chinese Open Instruction Generalist: a Preliminary Release
论文机构:
北京智源人工智能研究院等
论文链接:
https://arxiv.org/pdf/2304.07987.pdf
数据链接:
https://huggingface.co/datasets/BAAI/COIG

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树人工智能深度学习298443 人正在系统学习中

与[转帖]指令微调数据集整理相似的内容:

[转帖]指令微调数据集整理

`https://blog.csdn.net/dzysunshine/article/details/130870398` 文章目录 开源指令数据集斯坦福数据链家数据Baize(基于少量种子问题的对话数据) 垂直领域数据集医疗领域的英文数据医疗领域的中文数据法律领域中文数据 COIG数据集(可商用的

[转帖]OTF TTF .otf .ttf 之间的区别

https://zhuanlan.zhihu.com/p/386035885 OTF 相对于 TTF 是一个较新的数字字体标准,由 Adobe 和 Microsoft 共同开发。 .otf 是指基于 PostScript 开发的 OTF 格式(实际体验中,部分场景微软对其支持不佳,例如:word 无

[转帖]玄铁C910微架构学习(2)——指令高速缓存

https://www.zhihu.com/people/kent-35-40/posts ​ 目录 收起 一、指令提取单元简介 二、指令高速缓存源码的文件结构 三、指令高速缓存的组成 data_array tag_array predecd_array 四、指令高速缓存的回填 五、扩展的指令缓存操

[转帖]linux 调优各项监控指标小记

https://z.itpub.net/article/detail/8A4E4E96522BD59D45AB5A4CA442EDB3 自开始负责生产环境部署,中间遇到了若干线上环境内存以及CPU的问题。由于微服务以及容器的流行,现在已经可以很方便的使用 K8s + prometheus + gra

[转帖]HTTP 框架 Hertz 实践入门:性能测试指南

https://maimai.cn/article/detail?fid=1767401397&efid=R2_kM5y-yEUDCK88FZWrGA 干货不迷路2021 年 9 月 8 日,字节跳动宣布正式开源 CloudWeGo。CloudWeGo 是一套字节跳动内部微服务中间件集合,具备高性能

[转帖]Systemd 指令

一、由来 历史上,Linux 的启动一直采用init进程。 下面的命令用来启动服务。 $ sudo /etc/init.d/apache2 start# 或者$ service apache2 start 这种方法有两个缺点。 一是启动时间长。init进程是串行启动,只有前一个进程启动完,才会启动下

[转帖]Linux系统指令 top 之 %si 占用高,分析实例

https://www.coonote.com/linux-note/linux-top-si-high-instance.html 续“top %wa 高的问题”之后,又遇到top之%si过高(高峰时段超过95%)的问题。 %wa高,说明磁盘忙。譬如磁盘读写次数非常高。 %si高,是否说明软中断忙

[转帖]时钟周期 指令周期 MIPS CPI

https://blog.csdn.net/tuyu265/article/details/105209683?spm=1001.2101.3001.6650.13&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRL

[转帖]Intel PAUSE指令变化如何影响MySQL的性能

https://zhuanlan.zhihu.com/p/581200704 导读 x86、arm指令都很多,无论是应用程序员还是数据库内核研发大多时候都不需要对这些指令深入理解,但是 Pause 指令和数据库操作太紧密了,本文通过一次非常有趣的性能优化来引入对 Pause 指令的理解,期望可以事半

【转帖】Dockerfile文件指令介绍

https://blog.whsir.com/post-5327.html Dockerfile其实就是一个文本文件,这个文本文件名称叫Dockerfile,里面包含了一些指令(可以理解成多个指令集合成了一个脚本来构建docker镜像),然后通过docker build来构建这个Dockerfile