核心内容摘要
小白程序员必看:收藏这份Agent技术学习路线图,从入门到精通大模型!
使用大语言模型改进产品列表某中心的在线目录包含数亿产品每天有数百万产品列表被添加和编辑。
产品数据——包括图片、标题、描述和使用建议——必须完整、准确且具有吸引力以便购物者能快速找到他们寻求的产品。
为确保产品数据的质量某中心传统上依赖于专门的机器学习模型每个模型针对独立的产品类别从庭院家具到耳机进行了优化。
这些模型添加或更新信息识别不准确之处整合信息将文本翻译成不同语言并整合来自第三方来源的数据。
此类模型对于具有较小、结构化属性列表的产品效果最好——例如餐盘其可以通过尺寸、形状、颜色和材料得到很好的描述。
但目录中有许多产品的属性要复杂或细致得多需要专门训练的机器学习模型或人工审核。
为确保产品列表的质量满足购物者的需求转向了更具适应性和普适性的大语言模型。
当使用目录中的属性数据进行提示时大语言模型能适应目录结构和词汇从而能够有效地集成到质量控制流程中。
这些目录人工智能解决方案正在以某中心商店的规模纠正和更新产品属性。
提示词调优为了使大语言模型适应目录质量控制的挑战需要向其“介绍”关于产品目录的“知识”。
换句话说需要系统地引入属性语义和值这些语义和值能最准确地描述数百万产品和产品类型。
但首先需要构建这些知识。
该过程始于按产品类型和属性值对整个目录进行
总结和组织在某种程度上类似于对一张非常庞大且复杂的电子表格的行进行分组。
通过这种重组可以看到各种产品类型的卖家提供的属性值的范围重要的是还可以看到这些值出现的频率和位置的统计数据。
这些统计数据是衡量一个值正确性的相当好的指标。
例如如果一个类别中更高数量的产品使用某个属性值或者具有某个属性值的产品更频繁地被客户查看就可以信任该属性是正确的。
无线耳机可能具有显示为“Bluetooth”、“BT”、“BT
1”或“Bluetooth version
1”的属性但统计数据会表明“Bluetooth”是用于告知大语言模型的最佳候选。
虽然属性统计数据对许多属性效果很好但它们并不适用于所有属性特别是在涉及更多细微差别时。
某些属性的一个挑战是其粒度即它们描述其产品的精确程度。
一个例子是外科手术器械其某个属性可能具有值“不锈钢”或“440不锈钢”。
第二个值更具体即使“不锈钢”是更可能的属性值也不希望消除“440不锈钢”。
在目录中保持这种粒度的方法是通过一个称为提示词调优的迭代过程在此过程中通用大语言模型会接触到将在其中使用的环境中出现的特定模式、规则和术语。
为了给大语言模型增加粒度可能会用短语“返回的值必须与候选列表中值的粒度或宽泛程度相匹配”来提示它。
还可以要求大语言模型解释其响应背后的推理因为这倾向于提高其性能同时也为工程师提供了有助于他们进一步微调提示词的见解。
提示词调优也是处理产品描述的其他细微差别的方式。
这些包括确保表示的一致性例如“men’s shirt”与“men shirt”以及保持有意义的值表示例如电视的“4K UHD HDR”这比“4K”提供更多信息。
经过多轮提示词调优后大语言模型即可接触整个目录在此执行三项主要任务识别标准属性值以确立正确性收集标准值的替代表示或同义词以及检测错误或无意义的数据条目。
新流程确保最新的卖家值能更快地被纳入目录并节省了数千小时的人工审核时间。
更重要的是能够使用大语言模型来增加可监控和更新的语言数量。
基于大语言模型的方法使得能够将质量控制流程扩展到目录的最远端而使用之前的流程探索这些领域在成本上是不可行的。
更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife