作为背景介绍,这里有一些信息可以帮助您理清当前的 ChatGPT 热门话题,并了解是否 ChatGPT 的兴起 以及如何在您的企业中利用 ChatGPT 以及扩展的大型语言模型 (LLM)。
网上每天都会有关于人们如何试验 ChatGPT 的报道,展示它的新颖之处和弱点,因此,对这项技术有一个基本的了解很重要,这样才能将炒作与现实(以及对你的业务的实用性)区分开来。
考虑到这一点,我们想分享一些指导,以帮助您了解在企业用例中如何考虑 ChatGPT。
什么是 ChatGPT?
ChatGPT 是一种“自然语言生成”形式,它在 Open AI 的 GPT 上运行,以生成文本来响应问答查询。以下是一些简要事实:
- ChatGPT 于 11 月下旬作为聊天机器人发布,是“NLP 生成”的一个例子。
- ChatGPT 的生成能力令人印象深刻,主要是因为 手机号码数据 它可以生成类似人类的语言,通常富有创意或带有权威性。但需要注意的是,它不是基于事实的,可能会出错或编造(通常称为“幻觉”)。
- 如果得到正确提示,ChatGPT 可以在特定情况下提取语言数据,但这并不是 ChatGPT 大规模的核心目的。
- 虽然 ChatGPT 是目前引起轰动的应用程序,但它基于 Open AI 的 GPT 模型。
- GPT 是一种使用深度学习 AI 技术对未标记数据进行预训练的LLM,这种技术已经存在多年。现在有许多 LLM 可用(通常是开源版本),并且它们将继续发展
。
它是如何工作的?
重要的是要理解,ChatGPT 响应请求所生成的内容不是基于对语言中的关系和上下文的理解,而是基于对大量(实际上是海量)语言源的分析和建模的历史输入,对接下来可能出现的单词和句子的预测(因此,LLM)。
其结果就是内容令人信服,通常语法正确、听起来很有智慧并以对话的语气呈现。有时它是事实,但并非总是如此,因为有时缺乏可找到的事实数据,但仍然会产生回应;最重要的是,它无法区分什么 的受访者从其雇主处获得品牌 是事实,什么是虚构。正如Forrester所提到的,这种事实的不均衡和“连贯的胡言乱语”的可能性,在企业应用程序中单独使用时会带来风险。有一些方法可以减轻这种风险,我们将在本文后面介绍。但对于任何 AI 模型,关于 ChatGPT 最重要的事情之一就是了解它如何得出它所生成的信息。
企业内部的 ChatGPT
GPT 和 LLM 具有必须考虑的局限性:
- ChatGPT、GPT 和 LLM基于 公共领域的数据:
- 与其他 LLM 一样,ChatGPT 训练所依据的数据是公开内容(直到特定时间点 – 目前是到 2021 年 9 月)。这些内容包括从文章和书籍到 Reddit 讨论、社交媒体内容和维基百科的所有内容。因此,这些数据存在偏见、歧视和事实准确性参差不齐的问题。这就是 LLM 和 ChatGPT 有可能返回不准确甚至有害的虚假信息和错误信息的原因。GPT,特别是 ChatGPT 所基于的 GPT 版本,已经通过人工输入解决了其中一些问题,并因此得到了改进,但 购买电子邮件列表 它们并没有消除产生有害反应的可能性。话虽如此,据报道,这些内容中偏见和有害语言的“清除”程度取决于外包合同工的工作。
- 因此,这引发了对版权侵犯、数据隐私和同意的担忧,这些担忧涉及个人身份信息 (PII) 的使用和共享以及相关立法,例如欧盟的 GDPR 和其他消费者保护法。Gartner强调OpenAI现有的 ChatGPT 隐私政策缺乏企业级隐私政策,并建议在圈内人员验证输出,并制定限制其使用方式的政策,以避免泄露机密信息。