发布于 2024-04-09 15:01:47

对大模型的几个疑问，希望跟大家交流学习一下

问题1：大模型在各类业务中是怎么运作的？
问题背景：跟头部大厂做搜广推（搜索广告推荐）算法的同学了解，他们业务的大模型是基于开源算法做的优化，然后通过线上的用户日志数据去持续训练，达到业务最优效果。算法的主要工作在prompt优化这部分，极少部分涉及到对大模型的调优。
我的疑问：通用大模型的方向是不是通用？针对各个专业领域大模型的应用，比如互联网广告业务，用户维度与商品维度的匹配，大模型只能做用户特征和商品特征的分析和匹配。但是这个业务的大模型得基于这个业务的数据训练而成，它是定制的，而非通用的？

问题2：在大模型应用到各个业务中，算力对大模型影响是越来越大还是越来越小？
问题背景：跟算法同学交流，他对这两年大模型智能化的理解是，通用大模型是基于堆算力实现的效果，算力和大模型效果目前还处于一个正向曲线，但是这个曲线的斜率是否会一直很高是未知的，且算力到达一定程度，就是投入产出比的问题。另外看到傅盛公众号发的猎豹移动做大模型的思路，不卷千亿大模型，通过私有化百亿大模型就可以实现很好的业务效果。
我的疑问：傅盛介绍的商业模式跟我算法同学介绍他们业务中大模型的应用是一个逻辑。百亿大模型和千亿大模型，在同样专业领域的数据训练后，效果会有几倍差别？这里是否无法量化，需要根据不同业务的复杂程度来看？那业务越复杂，大模型堆算力的效果是越好还是越差？

问题3：大模型的终局是怎么样的？
问题背景：研究了市面上几家做大模型的比较出名的应用和开发者文档。大部分都是把大模型当做云服务在卖，另外再做一个大模型对话APP，当demo演示。
我的疑问：这是一门toB的生意，类似把大厂算法的成功经验赋能给养不起算法团队的小公司和传统行业。我之前在头部的RTC厂商任职过一段时间，RTC服务之所以能够快速覆盖到各个行业中去，除了低延迟对用户体验数据的提升外，本身RTC的产品特点能够跟业务解耦，低门槛的接入到各个业务中。大模型目前看貌似跟业务的耦合度还很高？大模型的未来是不是会像人类成长一样，主线任务是各个领域的基础知识学习。至于在各个行业的应用，实际还是需要人类去完成定制化和专项训练？

问题4：关于kimi。
问题背景：看了月之暗面的官网和开发者文档，从开发者文档看，跟大厂一样，就是一个toB的云服务。但是长时间体验kimi助手后，感觉这个toC的demo，想象空间更大。
我的疑问：想了解从技术的角度看kimi助手的几个产品特性设计，是否跟大模型训练有关，还是单纯的功能设计如此？
（1）kimi的对话中，提问不支持复制。
官方给的解释是：
Kimi智能助手的设计是为了提供流畅、高效的用户体验。在交互过程中，鼓励用户直接输入问题，这样可以确保对话的实时性和互动性。
如果用户尝试复制粘贴问题，可能会影响这种互动体验。此外，直接输入问题还有助于避免可能出现的格式错误或误解，确保Kimi能够准确理解并回应用户的需求。
当然，Kimi智能助手会不断优化和改进，以满足用户的各种需求。如果有任何建议或反馈，欢迎随时提出，以便我们不断改进服务。
（2）kimi的每次对话都是独立的。
官方给的解释是：Kimi智能助手的设计理念是确保每次对话的高效和准确性。通过将每段对话视为独立的交互，Kimi可以专注于理解并回应当前用户的问题，避免由于上下文混淆而导致的理解错误。
这种方法有助于提高对话的清晰度和响应的质量。每个独立的问题都允许Kimi集中处理用户当前的需求，而不受之前对话的影响，这样可以确保用户总是得到针对其具体问题的最佳答案。
此外，独立的对话还有助于保护用户的隐私和数据安全。通过避免跨对话的信息串联，Kimi可以更好地确保用户信息的私密性和安全性。
Kimi智能助手始终致力于提供更好的用户体验，并不断优化其功能和服务。如果用户有任何建议或反馈，都欢迎提出，以便我们不断改进和满足用户的需求。

交个朋友

浏览 (391)

宇宙公民65638101 2024-04-12 16:42:09

这个帖子发给算法同学看了一下，关于问题1的部分地方，需要纠偏一下，因为我理解偏差的问题，导致描述不够精准。问题1：搜广推业务中，算法的工作主要是基于用户日志训练的模型，不是现在一般所说的大模型（LLM），一般只是参数小的深度模型，这部分不会涉及到prompt的优化。

道哥 2024-04-10 11:24:41

我尝试着回答一下。问题一：大模型在走向通用的道路上还有很长的路要走，就是达到所谓的终极目标AGI。当前的大模型只是在自然语言理解上具备了一定的通用性，这种通用性的浅薄的，背后是因为把互联网上的公开语料都训练完了，然后在大规模算力加持下突然具备了比较好的理解能力。这种“通用”还没有涉及到复杂的逻辑推理能力（可能GPT-5会进一步提高），在精确控制上也有问题。你描述的场景，如果是特定的广告搜推业务，大模型的效果不一定比专用小模型的效果好。大模型能发挥的作用是在处理数据上会高效很多，能简化整个程序的架构、降低开发的复杂度。但在最后的提升效果上，特定场景的小模型说不定效果还会更好。问题二：大模型的scaling law包括了算力和数据两方面，所以不是单一的算力规模大，也需要数据规模大，尤其是高质量数据的规模。答案应该是明确的，规模越大，效果越好。但这里面又涉及到复杂的工程问题，所以还要看不同家的工程水平怎么样，涉及到很多内部细节的调优和对齐。一般来说，在transformer架构下的大模型，规模越大，效果越好。但未来一旦突破了transformer架构，有了一个更好的架构，这点可能会再次发生一些变化。问题三：大模型为基础的AI还在发展的很早期阶段，可以说刚刚拉开新时代的序幕。未来一定会深入到各个行业和领域，个性化的AI会变得极其重要。关于你的疑问可以参考我以前的文章《世界需要什么样的智能系统》，以及最近在墨问上发的短文《Programming留给人类，Coding留给AI》。核心观点是：人有人的用处。问题四：kimi目前还没有实现“推理即训练”，就是说大模型还没有进入到基于业务数据自训练的阶段，这是下一个阶段的重点方向。所以你遇到的问题和大模型训练无关。第一个关于复制的问题我没看懂，可能是交互设计上的问题。第二个问题是因为大模型不像人那么聪明，你跟他东拉西扯一下它就被忽悠晕了，所以才需要通过独立会话的形态来固定上下文，大模型才不会被你搞晕。

2024-04-12 17:46:43

关于问题3，看了道哥说的2篇文章。看来AI取代信息化阶段的核心竞争力是要懂技术思维。这里道哥有啥推荐的文章或者书籍，来学习技术思维的么？

道哥回复宇宙公民65638101

2024-04-27 20:31:44

看我的《计算》啊，哈哈