发布于 2024-04-29 15:15:40

关于星伴「数据仓」中用户上传文档的调用方式

需求

在日常使用过程中突发奇想，想要上传各种开发语言的官方文档，实现：在使用大模型分析互联网内容协助开发的同时，调用解析的文档内容使答案更准确。

提问 1

根据我对大模型的理解，这种方式对提升准确度理论上是有效的。

但是：从具体实现原理角度，此方式对提高准确度是否有帮助？

提问 2

在具体测试时，我已经上传一系列 Python 的官方最新中文文档并显示解析完成。

随后我分别以 不选用文件直接询问 和 选用问题相关的具体文件并使用「文件问答(beta)」询问 这两种方式来询问星伴「如何配置 Python 程序的日志」，而最终得到的结果如下：

直接询问

使用 ACT（一长串回答，但是结尾并没有显示「答案来源」）

从结果来看，直接提问使用了互联网内容且偶尔会使用文件内容（在之前使用时偶尔会显示「答案来自xx文件」），而使用 ACT 直接询问文件时似乎并不搜索互联网内容。

那么，如何稳定地实现：在使用互联网内容的同时调用上传的文件，只能通过自己编写 ACT 吗？

提问 3

对于上传文件的调用，我猜测能做到的是：将上传的文件全都解析为元数据并储存，当后续相关内容需要被使用时即可直接调用相关内容，因此能实现类似于 跨源文件 查找内容的功能。

那么：我的猜测是正确的吗？如果正确，这是否意味着「提问 2」中类似的场景下，选择多个文件（5 个及以上？）同时提问是可行的，且对整体速度的影响并没有特别大？

提问 4

在向星伴提问时发现了 「深度问答模式」，这个模式与「普通问答模式」有什么区别？

使用帮助

浏览 (327)

克拉斯克 2024-04-30 20:26:27

1、对提高准确度有提升，能解决很多在大模型中出现的的幻觉问题。 2、普通问答和深度问答:是基于用户数据舱中的知识库和互联网知识融合后的问答。文件问答act: 仅基于用户在数据舱知识库中选择的文件问答。如果想实现指定文件集和互联网知识的融合，需要单独开发act 3、目前文件问答(长文)问答已经支持选择多个文件。目前可以跨文件问答，选择文件的多少，对问答速度影响不大 4、主要的区别在于，深度模式会更深入的分析用户的问题，并从多个角度来回答用户提出的问题。而普通问答的回答较深度更为简洁

克拉斯克

2024-04-30 20:33:31

2、在聊天模式下，已实现指定数据仓文件和互联网的模式

2024-05-08 15:34:01

好的，感谢回答！

道哥 2024-04-30 19:39:35

目前我们的自动问答已经排序过互联网内容和自己星伴知识库里的文档内容，做了一个优先级的取舍了。如果你希望调整默认的优先级，除了标准用法外，可能需要写个ACT，最好再加个评估器来做更好的效果判断。

2024-05-08 15:32:01

这样，了解了