引言
大模型的能力越来越强,但想让它们真正为我们所用,Prompt 的设计依然是关键。很多人一开始写 Prompt 会觉得“玄学”,效果时好时坏。其实在长期实践中,是有一些规律可循的。本文结合我在不同任务和模型上的实际经验,整理了 12 条写 Prompt 的心得,希望对你有所帮助。
一、理解模型差异
不同模型各有所长
一个复杂任务,未必一个模型就能搞定。
示例:大纲生成 → Claude 效果最佳;超长文阅读理解 → Kimi 表现更好。
单任务多模型协同
用不同模型取长补短,往往能解决单个模型卡住的问题。
示例:GPT 写代码失败 → Claude 写一版 → 再交给 GPT 改 → 最终完成任务。
模型能力的边界
如果 Prompt 调整无效,很可能不是写法的问题,而是模型本身能力不足。
建议:多尝试不同模型,先验证可行性。
二、结构化参考信息
大量信息放在 system,而不是 prompt
否则会干扰模型对指令的执行。
帮模型梳理参考数据
将网页数据、文件数据分类标注清楚。
让模型知道“这是什么、那是什么”,而不是一堆乱糟糟的文本。
养成好的信息整理习惯
尽管未来模型可能能自动处理复杂信息,但目前手动整理仍然很重要。
三、优化指令表达
最重要的要求放在最后
模型往往对结尾的指令更敏感。
必要时重复强调
Prompt 里的冗余有时是必须的,尤其当你发现模型总是忽略某个关键点时。
保持简洁,特别是 Claude
Claude 在“大纲生成”任务上验证过:指令越简单,效果越好。
不要中英文混用
英文任务就用英文 Prompt,中文任务就用中文 Prompt,能提高稳定性。
四、任务拆分与工具辅助
复杂任务拆分成多条 Prompt
单条 Prompt 可能无法完成复杂任务,拆分后往往效果更好。
善用 Prompt 工具
例如 Kimi 的 Prompt 专家,能快速生成一个可用的初稿,再自己调整优化,更省时间。
五、关于评测任务的特别经验
如果任务是让 LLM 做评测:
推荐用 GPT-4o,因为它的判断更接近人工标准。
能力较弱的模型在复杂任务上评分偏差大。
在综述写作评测中,我们明显看到 GPT-4o 的结果比其他模型更可靠。
总结
写好 Prompt 并不是玄学,而是技巧与经验的积累。
选对模型,发挥其所长;
整理好信息,让模型“看懂”;
优化表达,简单、清晰、重点突出;
学会拆分与协同,复杂任务分步完成;
多借助工具,节省时间和精力。
最终目标,不是追求一条“完美 Prompt”,而是找到一个“稳定、可复现的流程”,让模型更高效地为我们服务。
要不要我帮你把这篇博客写得更“故事化”,比如加一些失败案例和对比实验?这样读者会觉得更有代入感。