ChatGPT开发实战

chatgpt,开发,实战 · 浏览次数 : 11532

小编点评

**1. Introduction** * ChatGPT 是一个基于 transformer 的语言模型,可以用于文本生成、语义搜索和分类等任务。 * OpenAI 是一个提供 API 的平台,可以帮助开发人员使用 ChatGPT 的 API。 **2. How to Use ChatGPT API** * 获取密钥:访问 OpenAI 的官网申请密钥。 * 注册虚拟手机:通过 OpenAI 的虚拟手机号网站注册虚拟机手机。 * 获取数据:从 OpenAI 的官网下载模拟数据。 * 构建模型:使用 TFIDF Vectorizer 对数据进行矢量化。 * 训练模型:使用 RandomForestClassifier 模型训练数据。 * 评估模型:使用 plot_confusion_matrix() 等函数评估模型的性能。 **3. Example Applications** * 数据集准备: ```python import pandas as pd # 加载数据 data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0']) ``` * 模型训练: ```python # 创建 TFIDF向量izer vectorizer = TfidfVectorizer(max_features=2500, min_df=7, max_df=0.8) # 对数据进行矢量化 tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray() # 使用随机森林模型训练数据 rf = RandomForestClassifier(n_estimators=100) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) rf.fit(X_train, y_train) ``` **4. Conclusion** * OpenAI API 可以用于各种自然语言处理和代码生成任务。 * 开发人员可以通过 API 使用 ChatGPT 的强大功能来构建自己的模型。 * 该文档提供了如何使用 OpenAI API 的指南,并展示了一些示例。

正文

1.概述

前段时间使用体验了ChatGPT的用法,感受到ChatGPT的强大,通过搜索关键字或者输入自己的意图,能够快速得到自己想要的信息和结果。今天笔者将深挖一下ChatGPT,给大家介绍如何使用ChatGPT的API来实战开发一些例子。

2.内容

2.1 ChatGPT起源

这个还得从谷歌发布BERT模型开始了解。BERT 是预训练语言表示法的一种方法。预训练涉及 BERT 如何首先针对大量文本进行训练,例如维基百科。然后,您可以将训练结果应用于其他自然语言处理 (NLP) 任务,例如问答系统和情感分析。借助 BERT 和 AI Platform Training,您可以在大约 30 分钟内训练各种 NLP 模型。

而OpenAI与BERT类似,做出了初代的GPT模型。它们的思想都是类似的,都是预计Transformer这种双向编码器,来获取文本内部的一些联系。

2.2 如何注册ChatGPT

由于OpenAI不允许国内手机注册申请账号,这里我们需要使用到虚拟手机号来注册接收信息(一次性购买使用),关于如果使用虚拟手机号,网上有很多资料和流程,这里就不细说了。大致流程如下:

  • 准备一个邮箱,比如QQ邮箱、GMAIL等
  • 访问OpenAI的官网地址
  • 访问虚拟手机号网站,然后选择OpenAI购买虚拟机手机号(大概1块钱)

然后,注册成功后,我们就可以使用OpenAI的一些接口信息了。体验结果如下:

3.实战应用

3.1 数据集准备

在实战应用之前,我们需要准备好需要的数据集,我们可以从OpenAI的官网中通过Python API来生成模拟数据。具体安装命令如下所示:

pip install --upgrade openai

然后,我登录到OpenAI官网,申请一个密钥,用来获取一些训练所需要的数据。比如我们获取一个差评的代码实现如下:

import openai
import time
import pandas as pd
import numpy as np
openai.api_key = "<填写自己申请到的密钥地址>"

completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
print("Terrible Comment:")
print(completion.choices[0]['text'])

执行结果如下:

 

接着,我们来获取一个好评的代码例子,具体实现如下:

completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
print("Great Comment:")
print(completion.choices[0]['text'])

执行结果如下:

 

现在,我们来获取所需要的数据集代码,具体实现如下所示:

print("Generating 500 good and bad reviews")
good_reviews = []
bad_reviews = []
for i in range(0,500):
  completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
  good_reviews.append(completion.choices[0]['text'])
  print('Generating good review number %i'%(i))
  completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
  bad_reviews.append(completion.choices[0]['text'])
  print('Generating bad review number %i'%(i))
  display = np.random.choice([0,1],p=[0.7,0.3])
# 这里由于OpenAI的接口调用限制,控制一下循环调用频率 time.sleep(
3) if display ==1: display_good = np.random.choice([0,1],p=[0.5,0.5]) if display_good ==1: print('Printing random good review') print(good_reviews[-1]) if display_good ==0: print('Printing random bad review') print(bad_reviews[-1]) # Create a dataframe with the reviews and sentiment df = pd.DataFrame(np.zeros((1000,2))) # Set the first 500 rows to good reviews df.columns = ['Reviews','Sentiment'] df['Sentiment'].loc[0:499] = 1
df['Reviews'] = good_reviews+bad_reviews # Export the dataframe to a csv file df.to_csv('generated_reviews.csv')

执行结果如下:

 

3.2 开始进行算法训练

有了数据之后,我们可以建立和训练一种机器学习算法,当我们处理文本的时候,首先需要做的是使用矢量器,矢量器是将文本转换为矢量的东西。相似的的文本有着相似的向量,不同的文本具有不相似的向量。

而矢量化的步骤有很多方法可以实现,为了实现文本中的功能,我们借助Python的TFIDF矢量器的库来实现。

具体实现代码如下所示:

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix,plot_confusion_matrix
from sklearn.feature_extraction.text import TfidfVectorizer

# Split the data into training and testing
labeled_data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0'])
labeled_data.Sentiment = labeled_data.Sentiment.astype(int)
labeled_data = labeled_data.dropna().reset_index()

# print head of the data
print(labeled_data.head())

头部数据结果如下所示:

 

接着,我们对数据进行矢量化,具体实现代码如下所示:

dataset = labeled_data

vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray()

labels = np.array(dataset["Sentiment"])  # Label is already an array of 0 and 1

rf = RandomForestClassifier(n_estimators=100)

X = tokenized_data
y = labels
X_train, X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)

rf.fit(X_train,y_train)

plot_confusion_matrix(rf,X_test,y_test)

# save the result to disk
plt.title('Confusion Matrix')
plt.savefig('result.png')

这里涉及到使用随机森林的模型,随机森林是一种有监督的机器学习算法。由于其准确性,简单性和灵活性,它已成为最常用的一种算法。事实上,它可以用于分类和回归任务,再加上其非线性特性,使其能够高度适应各种数据和情况。

 

它之所以被称为 “森林”,是因为它生成了决策树森林。然后,来自这些树的数据合并在一起,以确保最准确的预测。虽然单独的决策树只有一个结果和范围狭窄的群组,但森林可以确保有更多的小组和决策,从而获得更准确的结果。它还有一个好处,那就是通过在随机特征子集中找到最佳特征来为模型添加随机性。总体而言,这些优势创造了一个具有广泛多样性的模型。

我们执行这个模型,然后输出结果如下图所示:

 

4.总结

OpenAI API 几乎可以应用于任何涉及理解或生成自然语言或代码的任务。它提供一系列具有不同功率级别的模型,适用于不同的任务,并且能够微调您自己的自定义模型。这些模型可用于从内容生成到语义搜索和分类的所有领域。

与ChatGPT开发实战相似的内容:

ChatGPT开发实战

1.概述 前段时间使用体验了ChatGPT的用法,感受到ChatGPT的强大,通过搜索关键字或者输入自己的意图,能够快速得到自己想要的信息和结果。今天笔者将深挖一下ChatGPT,给大家介绍如何使用ChatGPT的API来实战开发一些例子。 2.内容 2.1 ChatGPT起源 这个还得从谷歌发布B

ChatGPT插件开发实战

1.概述 ChatGPT是一款由OpenAI推出的先进对话模型,其强大的自然语言处理能力使得它成为构建智能对话系统和人机交互应用的理想选择。为了进一步拓展ChatGPT的功能和适应不同领域的需求,OpenAI提供了插件开发平台,让开发者可以定制化和扩展ChatGPT的能力。 2.内容 OpenAI

chatgpt接口开发笔记1:completions接口

chatgpt接口开发笔记1:completions接口 序:写这一系列文章的动机来源于在部署Chanzhaoyu/**chatgpt-web**项目时发现,体验并不好,会存在多人同时提问时回答会夹断,上下文接不上的现象。同时希望搭建的项目能实现前后端分离。于是用webapi写了一套后端接口。我会把

ChatGPT的探索与实践-业务应用篇

本篇文章主要介绍在实际的开发过程当中,如何使用GPT帮助开发,优化流程,恰逢今年京东20周年庆,文末会介绍如何与618大促实际的业务相结合,来提升应用价值。全是干货,且本文所有代码和脚本都是利用GPT生成的,请放心食用。

项目完成小结:使用Blazor和gRPC开发大模型客户端

## 前言 先介绍下这个项目。 最近我一直在探索大语言模型,根据不同场景训练了好几个模型,为了让用户测试使用,需要开发前端。 这时候,用 Gradio 搭建的前端是不太够的,虽说 GitHub 上也有一堆开源的 ChatGPT 前端,但我看了一圈,并没有找到便于二次开发定制的,再一想,这么简单的功能

解放双手!ChatGPT助力编写JAVA框架

亲爱的Javaer们,在平时编码的过程中,你是否曾想过编写一个Java框架去为开发提效?但是要么编写框架时感觉无从下手,不知道从哪开始。要么有思路了后对某个功能实现的技术细节不了解,空有想法而无法实现。如果你遇到了这些问题,看完这篇文章你也能用ChatGPT编写一个简单的JAVA框架。

【保姆级教程】如何用Rust编写一个ChatGPT桌面应用

为什么我们需要一个桌面应用?原因实在太多,我们需要便捷地导出记录,需要在回答长度超长的时候自动加上“继续”,需要收藏一些很酷很实用的prompt...... (首先我假设你是一名如我一样习惯用IDEA开发的java仔)

从好玩到好用:程序员用AI提效的那些事儿

本片内容是【AI思维空间】ChatGPT纵横编程世界,点亮智慧火花的续作,主要记录组内开发小伙伴儿们在开发过程中的实际应用案例,记录典型案例,尽量不要和其他人重复,以解决开发过程中的实际问题为主,设计、方案、编码、测试、集成、部署等等; 目的:贡献最佳实践,分享心得,共同成长! Prompt提问万能

Poe – Fast AI Chat 一款集成AI工具

Poe – Fast AI Chat是由知名问答社区 Quora 开发的 AI 产品,提供实时在线与多个 AI 机器人交流的功能。目前,ChatGPT、Sage、Dragonfly、Claude 机器人都可以免费、无限制、实时使用,只需要一个邮箱即可注册。用户可以随时切换 AI 机器人而对话不中断,对话记录在线保存并且同步到客户端。Poe为用户提供了简单易用、高效便捷的智能交流服务,是企业和组织提高客户服务水平、优化工作流程的好帮手。

口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯