精彩小说尽在A1阅读网!手机版

绿色小说网 > 其他类型 > 新的解题思路

新的解题思路

阎宸以 著

其他类型连载

首发:AINLPer微信公众号(每日论文干货分享!!)编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型(LLM)展

主角:强倡翌陆俊佚   更新:2023-10-11 21:40:00

继续看书
分享到:

扫描二维码手机上阅读

男女主角分别是强倡翌陆俊佚的其他类型小说《新的解题思路》,由网络作家“阎宸以”所著,讲述一系列精彩纷呈的故事,本站纯净无弹窗,精彩内容欢迎阅读!小说详情介绍:首发:AINLPer微信公众号(每日论文干货分享!!)编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型(LLM)展

《新的解题思路》精彩片段

首发:AINLPer微信公众号”每日论文干货分享!”
编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型”LLM”展现出了杰出的性能,并为我们提供了新的解题思路。
但在实际应用过程中,如何评估大型语言模型的输出质量对于我们来说也至关重要。
因为大模型的输出是概率性的--这意味着同样的Prompt产生的结果都有可能不同,大模型评估能够衡量模型输出的质量水平,能够确保用户的体验。
为此,今天给大家整理了一些LLMs输出结果的评估方法。
一、用户反馈评估的黄金标准”GoldStandard”是收集真实的用户反馈。
即:如果想要深入了解应用程序的质量与实用性,最佳方法是收集真实用户的反馈。
除此之外,其它的评估方法都是从侧面反映出模型的质量水平。
收集用户反馈的具体策略可以有不同的形式,例如:“显式反馈”:通过相关功能来收集用户反馈,例如:对于模型的输出结果,如果觉得好就点个赞,如果觉得不好就点个差;亦或者对输出进行打分评级,特别好9分以上,好8分以上,较好7分以上,一般6分以上,差6分以下等。
“隐式反馈”:通过用户行为分析,例如:对于模型的输出结果并不关心则视为负面结果,对于模型的输出结果停留的时间较长则视为正面结果等。
通过以上两种规则方式,随着越来越多的用户开始使用该模型应用程序,就会收集到很多用户关于该模型的使用数据,根据该数据来分析模型的输出效果,从而不断地改进模型效果。
但该方法也存在一定滞后性。
因为只有当模型上线对客且用户使用一段时间之后,这些数据才能够收集到。
为此,在模型应用上线对客之前我们还需要对其进行评估测试,这就需要下面的这几个方法。
二、人工评估上线对客之前,评估大模型应用输出水平的最佳选择是:让标注人员在预部署阶段评估大模型应用的输出。
典型的评估方法是构建测试数据集,根据测试数据集进行模型评估。
让我们看一个简单的问...

网友评论

发表评论

您的评论需要经过审核才能显示

为您推荐