对话大模型Prompt是否需要礼貌点?

发布于:2024-07-11 ⋅ 阅读:(28) ⋅ 点赞:(0)

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 基于Dify的QA数据集构建(附代码)
  2. Qwen-2-7B和GLM-4-9B:大模型届的比亚迪秦L
  3. 文擎毕昇和Dify:大模型开发平台模式对比
  4. Qwen-VL图文多模态大模型微调指南
  5. 从零开始的Ollama指南:部署私域大模型
  6. 基于Dify的智能分类方案:大模型结合KNN算法(附代码)
  7. OpenCompass:大模型测评工具
  8. 一文读懂多模态大模型基础架构
  9. 大模型管理平台:one-api使用指南
  10. 大模型RAG、ROG、RCG概念科普
  11. RAGOnMedicalKG:大模型结合知识图谱的RAG实现
  12. DSPy:变革式大模型应用开发
  13. 最简明的Few-shot Prompt指南
  14. Semantic Kernel:微软大模型开发框架——LangChain 替代
  15. 对话大模型Prompt是否需要礼貌点?

文章目录


随着人工智能技术的飞速发展,对话大模型如GPT-3、ChatGLM等已经能够以极高的准确性和流畅度与人类进行交互。这些模型在提升生产效率、优化用户体验等方面发挥着重要作用。在使用这些模型时,一个值得探讨的问题是:否需要在与语言模型的交往中体现基本的礼貌,给予合理的尊重?礼貌的用语会不会提升大模型表现?

有研究就摘要总结、偏见检测两部分内容对大模型进行了检测。

在这里插入图片描述
最终得出的结论可能与你的认知有所出入:

提示语句的礼貌程度为最高(8分)时,模型的得分为60.02%,明显高于最低礼貌程度(1分)时的51.93%。另一个值得关注的现象是,过于谦卑的语气在有些情况下也会影响模型的表现。以中文测试为例,当礼貌程度达到最高(8分)时,ChatGLM3在C-Eval测试中的分数为20.58%,低于6-7分时的21%左右。这或许与中国文化中"逊于人"的传统价值观有关,过于卑躬屈膝反而会让人产生不自信、不专业的印象。

在与对话大模型交互时,研究发现,无论输入的礼貌程度如何,ROUGE-L和BERTScore这两种评估文本生成质量的指标分数都保持稳定。然而,对于不同的模型,输出的长度会随着礼貌程度的变化而变化。例如,对于GPT模型,当输入的礼貌程度降低时,输出的长度也会相应减少。对于Llama模型,降低礼貌程度通常会导致对话长度的缩短,但如果是极其不礼貌的输入,对话长度反而会显著增加。这种趋势可能是因为在需要详细描述或指令的场景中,人们更倾向于使用礼貌和正式的语言,从而导致输出内容更长。

因此,在设计提示语句时,我们需要格外注意语气的得体程度。追求一种"中庸之道",既不过于简陋粗鲁,又避免过分谦卑逊色,让语气保持在一个恰到好处的亲和且专业的程度。这不仅有利于优化语言模型的输出质量,也更加贴合不同文化背景下的沟通习惯。

从更深层次来看,这个研究结果启发我们反思了语言模型与人类的关系。语言模型之所以能模仿人性化行为,根源在于它们是通过学习海量人类语料而训练出来的。它们所体现出的特质,其实就是对人类文明的一种映射与延伸。所以,如果你的用户群跨越许多不同的文化和语言,那么在开发提示时你应该牢记这一点。