kamu
发布于

喧嚣过后,用AI来梳理“胖猫事件”

我用**“帮我梳理胖猫事件的时间线,并给出一些深度评论,并附上深度评论的信源和链接”**,分别让秘塔、kimi、文心一言、百川大模型、讯飞星火、智谱清言、豆包,来输出。

结果:
文心一言的时间线梳理虽不完整,但相比较来说效果最优;深度评论,大同小异,区别度不大。我在文心一言梳理的时间线上对事件做了完善,在kimi的深度评论上做了调整,输出了一个AI加持下的人工版本。几个大模型输出的结果以及我完善的版本附在后面,可以对比来看。

对于胖猫和谭竹的相识有三种说法:
1、2021年,网上游戏相识;
2、2022年,语音聊天软件相识;
3、说不清(但采用了2022年)

这些是由于不够权威的自媒体信源对较早的事件真实性没有核实造成的。秘塔梳理的结果有事实性错误,讯飞星火根本不知道“胖猫”这个事。

再提醒一点的是:这场热点事件舆论主战场“微博”的内容没有被任何一个大模型引用到,之前文章里提到过AI搜索范围有限的问题,就不再重复了。

对于这样一起热点事件,在有限的范围里,各大模型能搜索到内容的重合度很高,比拼的就是信息整合梳理、生成输出的能力。

写在前头的总结:

现在热点事件基本围绕着这样的节奏:
当事人“发声”-自媒体“发酵”-吃瓜群众“发情”-官方通报或者辟谣

这里面“正规媒体”的声音会比较少,为什么?要核实热点事件中的“真实性”,理清整个事件的脉络,并不容易,需要的不是一天两天,可能是一个月,所以还有点“新闻道德”的媒体需要对“真实性”负责,于是就给了不需要对“真实性”负责的自媒体大量的发挥空间。这也是为什么一般热点事件过后的一两个月,《人物》或者《三联生活周刊》的深度报道才会出现,那个时候回头看就会有恍若隔世之感。

我把AI的生成分为两类:

一类是归纳总结式的生成,比如长文总结、事件汇总等等,对应的是封闭式的问题;
一类是扩展发散式的生成,比如观点、解读、评论等等,对应的是开放式的问题,包括文生图和视频;

用户对这两类问题的需求是不一样的:

对“归纳总结式生成”的需求是:完整+真实性
目前的AI(包含搜索和对话)只交付了结果,对生成内容的真实性做的远远不够,给出的链接也只是让用户核对“生成的内容”与“引用内容”的一致性,如果“引用的内容”就是错误的呢?我就遇到过不止一次营销号生成的“虚假内容”被引用,结果就被误导。

如何规避呢?
第一、尽量引用“权威信源”;
第二,如果”权威信源“缺失,也至少给出引用信源的平台名称和账号名称,让用户对信源的可信度进行判断。这也是为什么我整理的胖猫事件时间线中给出了信源“平台名称和账号名称”;
第三,对不同信源的内容进行互相比对,前提是用户能够发现疑点(或者AI给出提示)。

对“扩展发散式生成”的需求是:权威性的多样化呈现。
这里面有两个关键点:
1、信源要权威,需要有份量的内容;
2、内容要多样化,不想只看到一种结果。
对于这样的需求,呈现具有多样化内容的多个权威信源远远比对多个引用信源的内容总结更重要。不信你看看深度评论,是AI的总结有意思还是下面给出的信源内容有意思?

这两个需求有一个共同点就是对信源的要求,“权威性”不一定是指官方的机构和正规的媒体,也包含被更多人认可的自媒体。

​智谱清言

文心一言

百川大模型

豆包

讯飞星火

kimi助手

秘塔搜索

AI+人工版本

浏览 (814)
点赞 (3)
收藏
2条评论
Itou86
Itou86
文章进行了一次对比实验:在信源可被证伪的情况下,大模型在判断信息真实性的方面还是非常弱的,这也和信源本身的质量良莠不齐有关。 新闻的真实性与真实感的博弈一直是很大的问题,而真实感往往与时效有关,事件发生,第一个跳出来的人说的话往往有着压倒性的真实感,也侧面印证了「网络世界的话语权往往属于声音最大的人」。 在此基础上,我们回头看信源本身的问题:如果是根据错误信息得出的结论,大概率也是错误的。那么使用大模型来总结归纳错误结论基本毫无意义(非就事论事,假设)。 那么在未来,AI 可以如何来帮助我们审阅新闻内容?kOS 中有个「矛盾观点排查」和「对比矛盾点」的 ACT,虽然我还没有用过,但从根据 ACT 名称并结合 kOS 的概念,对比两个或多个相关新闻中矛盾的观点显然是可行的(也许在未来版本可行)。现在可以设想一个场景:我通过大模型抓取整理了网络针对某个事件的海量信息,然后通过矛盾观点排查来对信息进行进一步筛选,最终得出了在当下最可信的内容。 数据分析包含了数据的统计整理和数据的分析。如果说大模型实现了数据的统计整理,那么 AI 计算机就可以帮助我们完成数据的分析,到那时,AI 就可以真正的解放生产力,进入下一个阶段。 (图文无关)
点赞
评论
道哥
道哥
附上kOS的:
点赞 5
评论
kamu
胖猫事件的官方公告出来了,更体现“信源”的重要。
点赞
评论