Sophie Wu

Beauty always leads us to truth.

0%

LLM产品调研[1]

本文第一部分列表展示LLM的主要功能和产品应用方向,第二部分结合文献综述chatbot这个方向的来龙去脉、相关知识。

功能应用

功能分类

语言生成 图片生成 行业应用
自然语言生成 图片解读 客户服务
机器翻译 文生图 教育培训
对话系统 文改图 电商领域
文本生成与摘要 图生图 法律咨询
知识问答 文生视频 金融领域
情感分析 智能政务
智能写作 智慧交通
智能广告 智慧城市
自动编程与代码生成 智能家居
个性化程序 生物信息
智能办公工具 医疗健康
内容审核与过滤 智能制造
语音交互的升级 游戏开发
文本匹配与推荐 虚拟助手
舆情监控与分析 自动驾驶
跨语言应用 机器人

具体应用

功能 应用
自然语言生成 对话系统
智能问答
知识问答
智能客服
商业分析 产业顾问
投资分析报告
商业模型分析(PEST, SWOT, 7S, 4P, rfm, AARRR, SCP)
智能创作 标题创作
文章创作
社交文案(常见社交平台,如小红书、公众号等)
写作改进(扩写、续写、改写、缩写、润色)
文档解读 文章理解
总结摘要
提炼核心论点
文档内容问答
多篇文档总结和对比分析
创意助手 故事创作
头脑风暴
视频脚本
剧本创作
诗词创作
活动方案
编程辅助 代码生成
代码纠错
代码理解
辅助编程
办公效率 邮件撰写
制定规则制度
工作计划撰写
会议摘要
撰写发言稿
写文案
写报告
写通知
写总结
word文档助手
自动生成PPT大纲、模板
自动生成表格和公式
数据分析 数据收集
图表生成
数据分析(对比,找规律)
情感分析 情感交流
人物对话
角色扮演
热门问答

细分领域

ChatBot

chatbot是计算机程序,用于通过文本或语音的形式,模拟跟人类(尤其是互联网用户)的对话,也被称为聊天机器人(chatting robot)、智能机器人(smart bots)、交互性智能体、数码助理等。chatbot的应用场景广泛,包括教育、信息提取、商业、电子商务、娱乐等。chatbot可以集成到群聊中,不同类型的chatbot之间使用知识易于迁移。

发展史

Pre-LLM

chatbot思想最早从1950年图灵提出图灵测试后开始流行。最早的chatbot是1966年开发的Eliza,目的是作为心理咨询师,以问题的形式跟用户交互,技术基础是简单的模式匹配(基于预先设计的模板来给出响应),对话能力有限。随后在1972年开发的Parry在Eliza的基础上有了进一步提升,具有人格。1995年开发的Alice基于人工智能标记语言(Artificial Intelligence Markup Language, AIML),依赖简单的模式匹配算法,构建chatbot知识模块。

pre_LLM chatbot发展史

2001年后出现的chatbot开始投入聊天应用中,比如SmarterChild。之后陆续出现多种虚拟的个人助理,如Apple Siri、Microsoft Cortana、Amazon Alexa、Google Assistant和IBM Watson。2016年之后chatbot获得关注显著增加。因此总体而言,在LLM出现之前,chatbot的发展史可以分成3个阶段,1960-1980早期基础阶段、1981-2009进阶和主流整合阶段、2010-2016智能语音助理阶段。

LLM-based

LLM的工作原理包含一系列步骤。首先是词嵌入(word embedding),把词汇在高维空间中表征成向量,相似的词汇会聚集成簇或类,词簇赋予模型理解词义的能力,因为模型训练基于大量的文本数据,习得根据词汇在特定背景中出现的似然度来预测其含义。位置编码(positional encoding)进一步赋予模型理解序列中词序的能力。模型的核心是transformer架构,该架构包含自注意机制,通过给每个词汇分配不同的权重来理解文本依赖性。

LLM强大的自然语言生成能力为chatbot提供了良好的基础,基于LLM的chatbot从ChatGPT开始如雨后春笋般涌现。

LLM-based chatbot

使用动机

用户使用chatbot的主要动机包括提高生产力、娱乐、社会性因素、新鲜感。所以chatbot需要同时兼顾工具、玩具、朋友的多重属性。

chatbot在商业上流行的主要原因是降低客服成本、可以同时应付多个用户。但chatbot也并不只是作为助理发挥提供信息的功能,也在很大程度上发挥陪伴功能,为用户提供情绪支持,这一类大概占40%的需求。

用户对chatbot的信任有多个影响因素,包括chatbot回复有多像人、专业性、自我表现的方式,还受到服务背景的影响,如chatbot背后的品牌、隐私和安全性。评估chatbot有多像人,可以从外观(使用人类图片,视觉线索)、名字、身份、语言模拟(对话线索)多方面综合考量。

chatbot还缺乏共情和理解意义的能力,不能理解对话背后的暗示。近期Nature Human Behavior上的一篇研究发现,GPT-4已经部分地具备心理理论(追踪他人心理状态的能力),能够识别错误信念,但是还无法理解失态(faux pas)。现有的chatbot还表现出性别偏差,由于chatbot执行的任务跟女性通常的工作角色类似(助理、服务业、秘书),因此常见的chatbot都设定为女性角色。

核心概念

  1. 模式匹配(Pattern Matching):基于模式识别算法,构建刺激-反应模块,对于给定的用户输入(刺激),产生预先设计好的匹配输出,回复完全可预测、不存储过去的回复,有可能陷入循环对话。
  2. 人工智能标记语言(Artificial Intelligence Markup Language,AIML):依赖模式识别的技术,采取刺激-反应方法,基于XML(eXtensible Markup Language)标记语言、基于标签。AIML的基本单元是category,包含用户输入模式(pattern)和chatbot反应模式(template)。
  3. 潜在语义分析(Latent Semantic Analysis,LSA):通过向量表征的方式找出词汇之间的相似性,LSA可以跟AIML互补,后者用于回答模板匹配上的问题,前者用于余下问题。
  4. Chatscript:包含一种开源脚本语言的专家系统,包含跟主题相关联的规则,根据用户输入寻找并执行相应的规则。具有长时记忆,能存储用户信息。
  5. Rivescript:基于行的脚本语言,用于开发chatbot,对多种编程语言有开源接口。
  6. 自然语言处理(Natural Language Processing):AI的一个子领域,探究对自然语言文本和语音的操纵。
  7. 自然语言理解(Natural Language Understanding):NLP任务的核心,用于实现chatbot用户界面的关键技术,目标是提取出自然语言用户输入(可能是非结构化的)的背景和含义,并根据用户意图基于适当的回复。
    1. 意图(intent):用户说的内容与chatbot所采取的动作之间建立映射。意图检测的形式一般是句子分类(给句子打上一个或多个意图标签)。
    2. 实体(entity):从自然语言输入中提取参数的工具。比如“今天北京的天气如何?”中“北京“就是一个实体。

细致分类

chatbot分类有多个依据,包括知识领域、服务类型、输入处理、反应生成方法、是否有人辅助以及构建方法。

  • 知识领域:chatbot所具有或训练的数据领域。
    • 通用(open domain):可讨论一般性主题并给出适宜回复。
    • 垂直(closed domain):聚焦特定知识领域,回答其他问题可能会失败。
  • 服务类型:根据chatbot与用户的情感接近程度、亲密互动的占比以及所处理的任务。
    • 公用(interpersonal):提供诸如酒店预订的信息咨询服务,不必须要有人格。
    • 私用(intrapersonal):用户私人使用,比如一些聊天的app,发挥陪伴功能。
    • 智能体间聊天机器人(inter-agent chatbots):不同智能体之间沟通,比如Alexa-Cortina集成。
  • 目标:根据chatbot主要的目标。
    • 信息型(informative):给用户提供预先存储的信息,信息来源是固定的。
    • 聊天/对话型(chat-based/conversational):像人一样与用户对话,正确回复用户输入的句子。
    • 任务导向型(task-based):指定特定任务,如酒店、机票预订。
  • 信息处理和反应生成方法:根据处理输入信息和产生输出的方式。
    • 基于规则模型(rule-based model):基于预先定义的规则集合,识别用户输入文本中的词汇形式选择系统性回复。所使用的知识是人类手动编码并以对话形式组织呈现的。缺点是对用户输入中的拼写和语法错误不够鲁棒。大多为单轮对话。
    • 基于提取模型(retrieval-based model):首先提取出一些候选反应,之后运用匹配方法从中选出最终反应。
    • 生成式模型(generative model):通过机器学习算法和深度学习技术生成回答,更像人的回复。
  • 是否有人辅助:
    • 有人辅助(human-aided):劳动密集型,不能保证速度和并发。
  • 开发平台的开源与否:
    • 开源(open-souuce platforms)
    • 闭源(closed platforms)

设计开发

设计chatbot需要多种技术的综合,包括准确的知识表征、答案生成策略以及预先定义当用户输入无法理解时给出的中性回复集合。

设计任何系统的第一步都是根据一个标准将系统分成组成部分,从而开展后续的模块化开发。chatbot的一般架构如下图所示,整个过程对用户输入开始,chatbot接收到用户请求之后,语言理解模块将对请求做语法分析(parse)并从中推断用户意图、提取意图相关的信息实体。

chatbot架构

一旦取得最佳的用户输入转译之后,chatbot需要决定如何进行下一步,可以直接处理新信息,也可以要求更多的背景信息。理解需求完成之后,接下来进入动作执行和信息提取,信息来源可能是数据库(即chatbot的知识库knowledge base),也可能是通过API调用的外部资源。信息提取完成之后,自然语言生成(natural language generation, NLG)模块会根据所提取的用户意图、背景信息,通过生成模型(基于规则、基于提取或生成式模型中的一种)生成回复。

chatbot的开发有两种途径,使用任何编程语言(如python,Java等)或使用顶尖平台(如Google的DialogFlow等),前者需要选择合适的框架。开发路径如下图:

chatbot开发路径

评估指标

LLM 的评估指标

指标大致分为生成质量评估(如 BLEU、ROUGE)、排序任务评估(如 MRR、MAP、P@1)、语义相关性评估(如 Cosine Similarity)和语言模型评估(如 PPL)。选择指标时需结合任务类型和目标,如生成任务侧重 BLEU 和 ROUGE,排序任务侧重 MAP 和 MRR。

  • Recall:所有参考答案中,模型正确生成的答案比例,突出减少漏报的重要性。

  • Precision:模型生成的所有答案中正确答案的比例。

  • F1-Score:Precision和Recall的调和平均数,F1=2*(Precision+Recall)/(Precision+Recall)。

  • ROUGE (Recall-Oriented Understudy of Gisting Evaluation):评估生成文本与参考文本的相似性,常用于摘要和对话任务。

  • Accuracy:模型生成正确响应的比例,正确响应数/总响应数。

  • BLEU(Bilingual Evaluation Understudy):生成文本与参考文本在n-gram级别上的相似性。用于翻译、生成式chatbot回答质量评估。

  • PPL(perplexity):困惑度,衡量模型对数据分布的拟合程度,用于评估模型的流畅性和合理性。

  • MRR (Mean Reciprocal Rank):评估排序任务中,正确答案的排名逆序值的平均值。用于评估问答系统或推荐系统。

  • MAP (Mean Average Precision):平均每个查询的 Precision,然后取均值。用于评估排序的准确性,常用于检索系统。

  • P@1 (Precision at Rank 1):模型生成的第一个候选答案是否正确的比例。用于评估模型能否在第一选择中返回正确答案,适合问答任务。

  • Skip Thought Cosine Similarity:利用 Skip-Thought 向量(语义表示)计算生成文本和参考文本的余弦相似度。 用于语义相关性评估。

  • BOW (Bag of Words) and Greedy Matching Scores:基于词袋模型,计算生成文本和参考文本中词汇匹配的得分。用于简单评估生成文本与参考文本的词汇一致性。

    • BOW:统计两者中共同词汇的比例。
    • Greedy Matching:逐词查找最佳匹配,计算匹配词的比例。
  • Vector Cosine Similarity:基于词嵌入(如 Word2Vec 或 GloVe),计算生成文本和参考文本的向量余弦相似度。

  • Embedding Average Cosine Similarity:取生成文本和参考文本中词嵌入的平均值,计算它们之间的余弦相似度。 用于语义层面的评估,适合语义相关性任务。

ChatBot 的评估方式

  • ChatEval:

  • ChatArena: 通过众包选票、打分的方式,随机、匿名对不同LLM进行对战,配对比较两个模型的回复质量。

  • 定性评估:用户体验和场景分析

    • 问卷调查,用户访谈形式,收集反馈意见,了解chatbot在真实使用场景下的表现;分析不同场景下chatbot的表现情况。
  • 程序评估:自动化测试和性能分析

    • 通过自动化测试脚本评估。

ChatBot 的评估指标

  • 商业架构层面:
质量属性 度量指标
用户驱动的经济需求 总用户数,活跃用户,新用户量,最频繁提问的问题,广告点击率
系统和组织驱动的经济需求 每次问题的花费,解决的总问题
对话完成度 人和ChatBot的交互,对话时长,交互率,失败率,目标完成率,ChatBot对话长度,每次对话的问题,理解水平
客户满意度 满意分数,ChatBot活动容量,用户反馈
  • 信息架构层面:
质量属性 指标
ChatBot行为 对话的友好度、主动性、清晰度、自然度、稳健性、重新开启对话的意愿度以及对话相关性分数。
对话行为:可信度
对话行为:心理层面
对话行为:一致性
对话行为:用户控制
对话行为:伦理和依从性
ChatBot外观:吸引力 友好,人性化,可用性分数,用户友好分数
ChatBot外观:复杂度
ChatBot外观:系统整合

社交属性

现有研究提出chatbot应该具备的社交属性可分成三类,分别是会话智能(conversational intelligence)、社交智能(social intelligence)和拟人化(personification)。

chatbot的社交特征

会话智能

chatbot需要管理自己与用户的交互过程。

  1. 主动性:积极主动参与对话,而不拘泥于一问一答模式,chatbot可以自己引入新话题,提出追问,主动吸引和引导用户,同时把握主动的度,不能侵犯用户隐私,让用户产生被操控感。
  2. 责任感:维护对话的主题和上下文,确保对话连贯,大部分用户使用chatbot是为了提高生产力(68%),chatbot需要记住并理解上下文才能处理复杂问题。
  3. 可交流性:向用户传达自己的功能,让用户知道如何使用自己。通过多轮对话逐步展示功能。

社交智能

chatbot需要关注习惯性的社交规范。社交智能是指个体为了实现预期目标而产生适当社交行为的能力。

  1. 伤害控制:以适当的方式应对用户的骚扰和测试行为,需要chatbot可以识别出敏感词汇,识别出超出能力范围的请求,给出符合上下文的回应。
  2. 连贯性:一致的语言风格和精准的语言使用能够显著增加chatbot的可信程度。
  3. 礼貌:使用礼貌词汇营造融洽的对话氛围,减少不愉快对话的负面体验。
  4. 道德准则:根据社会道德观念采取行动,而不能出现种族歧视等不道德行为,这方面主要受制于有偏数据。
  5. 情商:接受、识别和表达情感,对用户的情感做出回应。情商能增强用户对chatbot的信任,使其感受到同理心。增强chatbot情商的可能方法有增强自我披露、展现互惠性。
  6. 个性化:私人订制的chatbot,根据用户个人信息和独特需求定制调整功能,具有隐私泄露风险。

拟人化

chatbot需要具备可感知的身份和个性表现。将人类特质(包括外貌和情感状态)赋予chatbot。

  1. 身份:通过对话风格和行为方式定义来赋予chatbot一定的身份特质。恰当地身份能增强用户的信任。身份建构涵盖多方面,如性别、年龄、语言风格和姓名。身份的赋予很有挑战性,需要注意身份和能力的一致性,避免身份刻板印象。
  2. 人格:就有一致人格的chatbot更具有可预测性和可信度,也更容易让用户感到舒适。不同的用户群体对chatbot的偏好不同,比如学生偏好宜人性、外向性较高的导师式chatbot,而娱乐为目的的人则希望chatbot幽默感更强。

社交属性的选择视领域而定,特定领域中需要定制化的社交属性。比如教育领域需要擅长鼓励、安抚;客服领域需要情商和礼貌。

参考资料

  • 网页:

  • 文献:

    • A. P. Chaves and M. A. Gerosa, “How should my chatbot interact? A survey on human-chatbot interaction design,” International Journal of Human–Computer Interaction, vol. 37, no. 8, pp. 729–758, May 2021, doi: 10.1080/10447318.2020.1841438.

    • W. S. Nsaif, H. M. Salih, H. H. Saleh, and B. T. Al-Nuaimi, “Chatbot Development: Framework, Platform, and Assessment Metrics,” EPSTEM, vol. 27, pp. 50–62, Aug. 2024, doi: 10.55549/epstem.1518314.

    • S. K. Dam, C. S. Hong, Y. Qiao, and C. Zhang, “A Complete Survey on LLM-based AI Chatbots,” Jun. 17, 2024, arXiv: arXiv:2406.16937. doi: 10.48550/arXiv.2406.16937.

    • J. W. A. Strachan et al., “Testing theory of mind in large language models and humans,” Nat. Hum. Behav., May 2024, doi: 10.1038/s41562-024-01882-z.

    • E. Adamopoulou and L. Moussiades, “An Overview of Chatbot Technology,” in Artificial Intelligence Applications and Innovations, vol. 584, I. Maglogiannis, L. Iliadis, and E. Pimenidis, Eds., in IFIP Advances in Information and Communication Technology, vol. 584. , Cham: Springer International Publishing, 2020, pp. 373–383. doi: 10.1007/978-3-030-49186-4_31.