新的解题思路最新章节列表_新的解题思路最新章节目录

读书简介
免费章节在线阅读
评论

男女主角分别是强倡翌陆俊佚的其他类型小说《新的解题思路》，由网络作家“阎宸以”所著，讲述一系列精彩纷呈的故事，本站纯净无弹窗，精彩内容欢迎阅读！小说详情介绍：首发:AINLPer微信公众号（每日论文干货分享！！）编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型(LLM)展

《新的解题思路》精彩片段

首发:AINLPer微信公众号”每日论文干货分享！”
编辑:ShuYini校稿:ShuYini时间:2023-10-11引言大型语言模型”LLM”展现出了杰出的性能，并为我们提供了新的解题思路。
但在实际应用过程中，如何评估大型语言模型的输出质量对于我们来说也至关重要。
因为大模型的输出是概率性的--这意味着同样的Prompt产生的结果都有可能不同，大模型评估能够衡量模型输出的质量水平，能够确保用户的体验。
为此，今天给大家整理了一些LLMs输出结果的评估方法。
一、用户反馈评估的黄金标准”GoldStandard”是收集真实的用户反馈。
即：如果想要深入了解应用程序的质量与实用性，最佳方法是收集真实用户的反馈。
除此之外，其它的评估方法都是从侧面反映出模型的质量水平。
收集用户反馈的具体策略可以有不同的形式，例如：“显式反馈”：通过相关功能来收集用户反馈，例如：对于模型的输出结果，如果觉得好就点个赞，如果觉得不好就点个差；亦或者对输出进行打分评级，特别好9分以上，好8分以上，较好7分以上，一般6分以上，差6分以下等。
“隐式反馈”：通过用户行为分析，例如：对于模型的输出结果并不关心则视为负面结果，对于模型的输出结果停留的时间较长则视为正面结果等。
通过以上两种规则方式，随着越来越多的用户开始使用该模型应用程序，就会收集到很多用户关于该模型的使用数据，根据该数据来分析模型的输出效果，从而不断地改进模型效果。
但该方法也存在一定滞后性。
因为只有当模型上线对客且用户使用一段时间之后，这些数据才能够收集到。
为此，在模型应用上线对客之前我们还需要对其进行评估测试，这就需要下面的这几个方法。
二、人工评估上线对客之前，评估大模型应用输出水平的最佳选择是：让标注人员在预部署阶段评估大模型应用的输出。
典型的评估方法是构建测试数据集，根据测试数据集进行模型评估。
让我们看一个简单的问...

章节在线阅读

第一章

》》》继续看书《《《

相关小说

网友评论

发表评论

您的评论需要经过审核才能显示

为您推荐