需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文标题:Requirements Elicitation Follow-Up Question Generation
arXiv:2507.02858
Requirements Elicitation Follow-Up Question Generation
Yuchen Shen, Anmol Singhal, Travis Breaux
Comments: 13 pages, 2 figures, accepted at the 33rd IEEE International Requirements Engineering 2025
Subjects: Software Engineering (cs.SE); Computation and Language (cs.CL)
研究背景:需求获取访谈的"迷雾困境"
想象这样一个场景:一位产品经理正在与用户进行需求访谈,用户滔滔不绝地描述使用某款APP的体验,从界面布局到功能流程,信息量巨大。此时,产品经理需要快速消化这些信息,并抛出精准的跟进问题——但大脑可能已陷入"信息超载"的困境:既要理解用户表述的细节,又要判断哪些需求被遗漏,还要确保问题清晰相关。这正是传统需求获取访谈中面试官面临的典型挑战。
领域痛点:被忽视的"访谈黑洞"
- 认知负荷爆炸:面试官如同同时处理多项任务的"杂耍演员",一边听用户讲话,一边构思问题,还要记录关键信息。这种多任务处理导致大脑过载,就像电脑同时运行多个大型程序会卡顿一样。
- 领域知识鸿沟:若面试官不熟悉医疗、金融等专业领域,用户提到的"术语"或"隐性需求"可能成为理解障碍。例如,用户说"希望系统具备容错机制",非技术出身的面试官可能无法深入追问具体场景。
- 信息碎片化陷阱:用户表述常零散无序,如讨论租房APP时,突然跳到"地图导航不精准"的话题。面试官若不能及时捕捉并跟进,就会漏掉关键需求。
传统方法的局限性
过去的研究大多聚焦于访谈的"前期准备"和"后期分析",比如生成访谈脚本或分析转录文本。但对"实时问答互动"这一核心环节,缺乏有效的技术支持——就像造好了船,却没解决航行时的导航问题。
主要作者及单位信息
- Yuchen Shen, Anmol Singhal, Travis Breaux
- 卡内基梅隆大学(Carnegie Mellon University, Pittsburgh, USA)
- 研究团队专注于需求工程与自然语言处理的交叉领域,在LLM应用于软件工程问题上有深厚积累。
创新点:给面试官装上"智能问答大脑"
1. 实时生成:从"事后分析"到"事中辅助"
打破传统研究局限,首次将GPT-4o应用于访谈过程中实时生成跟进问题。就像智能手机的实时翻译功能,让面试官在对话中获得即时支持,而非事后复盘。
2. 错误框架引导:让AI避开"坑"
构建了一个基于14类面试官常见错误的生成框架,例如:
- 避免"问太泛的问题"(如"你觉得这个APP怎么样?")
- 避免"使用专业术语"(如对普通用户说"请描述API调用流程")
通过引导LLM规避这些错误,生成的问题质量显著提升。
3. 人机对决:AI与人类面试官的"公平较量"
设计严格的对照实验,让GPT-4o与人类面试官在同等条件下生成问题,并用"相关性、清晰度、信息量"三大指标进行评分。这就像让AI和人类选手在同一场比赛中比拼,验证其实际应用价值。
研究方法和思路:步步为营的"AI训练手册"
1. 数据收集:打造"访谈数据库"
- 招募4名资深面试官:均有2年以上软件工程经验,接受专业访谈培训。
- 开展14场真实访谈:覆盖租房、餐厅、徒步、医疗四个领域,例如询问"你如何选择就诊的诊所?"。
- 标注146个跟进问题:记录每个问题对应的对话上下文,如用户提到"找公寓时最看重交通",面试官跟进"你能接受通勤时间是多久?"。
2. 实验设计:两场关键"AI能力测试"
实验1:最小引导下的"裸机性能"测试
- 输入:仅提供用户之前的对话内容,不做额外提示。
- 输出:GPT-4o生成跟进问题,如用户说"选餐厅时会看评分",AI生成"你更关注评分星级还是评论内容?"。
- 评估:32名参与者用6点量表评分,对比AI与人类问题的质量。
实验2:错误引导下的"定向优化"测试
- 输入:除对话内容外,额外告知AI需要避免的错误类型,如"不要问太技术的问题"。
- 输出:AI生成规避特定错误的问题,如用户提到"APP加载慢",AI避免问"是不是服务器带宽问题",转而问"加载慢对你的使用体验有什么具体影响?"。
- 评估:通过" Bradley-Terry模型"分析128对问题,判断AI是否更优。
3. 核心技术:让AI懂"访谈潜规则"
- prompt设计技巧:
- 用大写角色标识(如"INTERVIEWEE")减少AI理解错误。
- 将错误描述转为正面引导,如"要考虑替代方案"而非"不要忽略替代方案"。
- 上下文处理:发现70%的问题仅需1轮对话上下文,AI可聚焦最近的用户表述生成问题。
主要贡献:给需求工程领域的"三把金钥匙"
1. 证明AI能当"合格面试官"
实验证实:GPT-4o生成的问题在相关性、清晰度、信息量上与人类相当,部分场景下甚至更优。例如在错误引导实验中,AI问题的相关性评分比人类高25%。
2. 打造"面试官错误避雷指南"
从文献中提炼出14类常见错误,如"问模糊问题"、“索要解决方案"等,并转化为AI可理解的生成规则。这就像给面试官一本"避坑手册”,AI能自动规避这些错误。
3. 开辟"实时AI辅助"新方向
首次验证LLM在访谈过程中实时生成问题的可行性,为开发"智能访谈助手"奠定基础。未来可能实现:面试官佩戴耳机,AI实时推送跟进问题建议,大幅提升需求获取效率。
总结:AI与人类的"需求获取双人舞"
解决的核心问题
- 破解面试官在访谈中面临的认知负荷、信息过载、领域知识不足等难题。
- 填补传统研究在"实时问答互动"环节的技术空白,让AI从"事后分析工具"升级为"事中辅助伙伴"。
主要成果
- 性能验证:GPT-4o生成的问题质量不低于人类,错误引导下更优。
- 方法创新:提出基于错误框架的生成方法,AI错误分类准确率达81%。
- 数据支撑:通过146个问题的标注与128对问题的对比实验,为结论提供扎实证据。
思维导图
详细总结
一、研究背景与目标
- 需求获取访谈的挑战:在需求工程里,访谈是获取利益相关者需求的常用手段,但存在诸多挑战,像面试官可能对领域不熟悉、面临过高的认知负荷,以及信息过载等问题,这些都阻碍了对利益相关者话语的处理。
- LLM的应用潜力:近年来,大语言模型如GPT-4o在自然语言处理任务中表现出色,研究人员探索将其应用于需求获取访谈的跟进问题生成,以支持面试官。
二、研究方法
- 实验设计
- 实验1:对比最小引导下GPT-4o生成的问题与人类创作的问题,评估指标为相关性、清晰度和信息量。
- 实验2:当生成过程以面试官常见错误类型为引导时,对比GPT-4o生成的问题与人类问题。
- 数据收集
- 招募4名有经验的面试官,开展14个关于目录服务(如找公寓、餐厅等)的访谈,获取146个跟进问题及其上下文。
- 从文献中综合出14类面试官常见错误,涵盖跟进问题和问题框架两方面。
- 评估方法
- 采用6点量表,由32名参与者对问题的相关性、清晰度和信息量进行评分。
- 运用混合效应模型分析数据,验证假设。
三、研究结果
- 最小引导实验结果
- GPT-4o生成的问题与人类问题在相关性、清晰度和信息量上无显著差异(p值均>0.05)。
- 跟进问题类型分布:主题转换(71个)、答案探究(27个)、确认(13个)等。
- 错误引导实验结果
- GPT-4o在错误分类上与人类的一致率为81%,在错误避免率上达84.3%。
- 在相关性、清晰度和信息量上,GPT-4o生成的问题评分更高,例如相关性平均分为4.4,高于人类的3.5。
四、讨论与结论
- 提示设计与上下文影响:通过大写角色标识、正面表述错误类型等方式优化提示,可提升LLM性能;多数问题仅需1个先前对话轮次即可生成。
- LLM的优势:当以错误类型为引导时,GPT-4o生成的问题质量更高,这表明明确错误框架有助于提升问题生成效果。
- 未来方向:将LLM集成到实时访谈中,探索多错误同时避免,开展跨领域应用研究。
五、关键数据表格
评估指标 | 人类平均得分 | GPT-4o平均得分 | p值 |
---|---|---|---|
最小引导实验-相关性 | 4.8 | 5.0 | 0.08 |
最小引导实验-清晰度 | 4.9 | 5.1 | 0.10 |
错误引导实验-相关性 | 3.5 | 4.4 | <0.001 |
错误引导实验-清晰度 | 3.9 | 4.5 | <0.001 |
关键问题
- 问题:在需求获取访谈中,GPT-4o生成跟进问题的表现如何?
答案:在最小引导情况下,GPT-4o生成的问题在相关性、清晰度和信息量上与人类创作的问题相当;而当以面试官常见错误类型为引导时,其生成的问题在这三项指标上优于人类,错误分类准确率达81%。 - 问题:该研究中采用了哪些方法来评估LLM生成的问题?
答案:研究设计了两项对照实验,招募32名参与者使用6点量表对问题的相关性、清晰度和信息量进行评分,并运用独立t检验和混合效应模型对数据进行分析。 - 问题:该研究的发现对需求工程实践有何意义?
答案:研究表明,LLM如GPT-4o可助力面试官提升需求获取访谈的质量和效率,尤其是在以错误类型为引导时效果更优,这为开发实时辅助工具提供了依据。
一段话总结
本文聚焦于需求获取访谈中跟进问题生成,探究GPT-4o在该场景的应用。研究基于面试官常见错误类型框架,构建了通过 interviewee 话语生成问题的方法,并开展两项对照实验。结果表明,GPT-4o生成的问题在清晰度、相关性和信息量上不逊色于人类创作的问题,而当以常见错误类型为引导时,其表现更优于人类,这凸显了LLM助力面试官提升需求获取访谈质量与便捷性的潜力。