秦【原文】本义:禾。假借为专名用字。
禾【原文】本义:谷物的总称。
六月禾未秀,官家已修仓-聂夷中《田家》
取禾三百亿。
取禾三百囷。
【裕盛】***谁人假借禾名(谷物)?谷子没有成熟,官家己修仓。“聂夷中”的聂,不让人知道,悄悄的进行。夷,表示坏{犹【原文】又如:犹预(犹与。犹夷。犹豫(预字篇【原文】案:经典通用豫。与,本亦作豫。)}
禾表示谷物。
谁人取禾三百亿?

焦【原文】五谷焦死-《墨子.非攻下》。墨子:墨【原文】本义:“书画的染料,用松烟等原料制成”。
【裕盛】***把人熏染黑的“子”,应当是带人学坏的意思。注:“子表示被告(讼【原文】子曰:听讼吾犹人也,必也使无讼乎。注:“无”本义:乐舞。”)。注:“非表示没有礼貌的犹”。
犹攻下了谁(五谷确切表示谁人?)

楚人一炬,可怜焦土-唐.杜牧《阿房宫赋》
楚人即犹人,为什么选择使用“楚”字?楚字拆开,上林下疋,应该是被告们利用无中生有的谣言破坏我家庭,对林实施了勾引,打算利用“林”的谎言进行混讹(疋:混讹)。“林”是“原告之”的前夫,林是在场人,胆小怕事。被告方在原审法院庭审时撒谎称“刘清云和林当时都不在场(只有把对方当成自己人的时候才敢指望对方帮助撒谎。刘清艳偷扒走我母亲家障子板皮都拽进她母亲家院子里,由刘清云和小六子把守板皮。我过去制止,刘清艳挠伤我,刘清云和小六子抓着我,我家孩子爸喊她们撒开,她们不撒开,我家孩子爸跑回去拉开她们,刘清云和刘清艳见到我家孩子爸就开始瞎编没有的事造谣诽谤我。我两次要扔回障子板皮,遭到她们暴力拦阻,刘清云抓着我往外推,刘清艳拿小斧要劈我,被她母亲和小六子抓住。刘清云匪得要帮我家孩子爸干这活。我家孩子爸接了个电话往外走,刘清云叉腰开骂:x他妈的,全家没好人,就这么一个好人还走了,就这么一个好人,剩下就没好人,骂人的意思是夸我家孩子爸好。估计我家孩子爸走远了,她进屋了。半小时左右,我家孩子爸回来继续去被告母亲家院子里往我母亲家院子里扔回障子板皮,刘清云又忙不迭从她母亲家屋里出来帮林干活。晚上要夹障子时,林在我母亲家院子这边,刘清云三步两步的到林身边表达:“她啥话都得找这个好人说”。整个扒障子过程被告们没有说一句于障子有关的话。刘清云从见到我家孩子爸就没有离开过,不算林外出,林送我回家,刘清云都跟进我母亲家院子里,故意靠近林,还是对林捏造“我和朱老二有那事儿……等。刘清艳捏造我去她妹妹家做流产等,我说她们:“胡说八道,天打雷劈”,刘清艳回:“不劈呀,不劈呀”。刘清云为了证明她没有勾引林,找了证人证明她送我到我母亲家院子里,然后就出去了。事实是我要扔回板皮,刘清云抓着我往外推,林怕再打起来,拉我回家,说他把板皮扔回去,刘清云是紧随林跟进我母亲家院子里的,故意靠近林,还是对林捏造:“我和朱老二有那事儿……等”。林听她们胡说八道也不干活了,是我出去到被告母亲家院子里二次要扔回障子板皮,刘清艳拿小斧要劈我,被她母亲和弟弟拉住,林再次跑去拉我回家,刘清云是跟随林回到她母亲家院子里。如果是扒障子的事儿,两家中间的障子扒开了,两家院子是通开的,被告们扒下来的障子板皮应该是直接扔进我母亲家院子里,就是向前一放利索完事,被告们为什么要自找麻烦?事实看被告们偷扒走我母亲家障子板皮都拽进她们母亲家院子里就是寻衅滋事。)”,因被告们在法庭上撒谎,我回家去找林给我出个案发事实的证据。林不给出,对我说:“家里去了七八个人找我,不让我再告了(2010年林打电话让我回家办离婚手续。我回家商量他给我出个案发事实过程的证据,他给出了证据。因林给出了他在场拉开被告们三个人挠抓我的证据。省高法一次听证被告们没去,二次听证只去刘清云一人,她带了个旁听人员。省高法听证时刘清云又撒谎“她本人不在场,我告她她的精神都不太好了”,对我栽赃诬陷。我拿出派出所刘清艳的笔录念了一段证明刘清云在场,刘清云起身就要走,审判法官孙锡玲不让她走,留她签完字再走。我指责刘清云说她们真能撒谎,刘清云不语,我说怀疑她勾引我家孩子爸,她回答:“她根本就不认识”。在往下刘清云就一句话都不说了,又站起来要走,法官再次留她签完字再走。这是最后一次开庭,此后申诉上访十多年至今立案不能,案件程序没有走完就被终结,错误终结至今没有监督渠道。)”。只要有人威胁林,林就怕。
犹要烧哪里?是要烧阿房宫?还是在阿房宫作出的“楚人一炬,可怜焦土”?亦或是,像“躬【原文】已躬命之-《仪礼·士昏礼记》。注:“犹亲也。”;匪【原文】匪手携之,言示之事;匪面命之,言提其耳-《诗·大雅》”这些无中生有胡说八道对“原告之”栽赃诬陷的滥吹?

又是寻衅滋事找茬打架肇事的信息。
豫字篇【原文】预先,事先。通“预”
“重门击柝,以待暴客,盖取诸豫-《易·系辞下》 。注:诸:辩。/多个。
【裕盛】***《系辞下》:辞表示被告们。
“重门击柝,以待暴客,盖取诸豫”:意思是寻衅滋事击门,等待挨骂、挨打制造案件(预字篇【原文】“案:经典通用豫”。即豫表示案。)
“诸豫”:多个案件。说明被告们在不停的寻衅滋事想要制造多个案件。也说明几次往我母亲家门前脚垫上送狗屎以及往母亲家窗户上两次泼油污的缺德做损勾当都与被告们有关。往我母亲家门前脚垫上送狗屎事件找过社区、找过警察,都不起作用,后来扔掉了脚垫,门前不再使用脚垫。往我母亲家窗户上泼油污事件两次都于社区打了招呼。

因被告们偷扒走我母亲家障子板皮寻衅滋事挠伤我、瞎编没有的事造谣诽谤我;她们二次重夹的障子又挤进我母亲家院子里挤的我母亲家后门开不到位;我家孩子爸听信被告们瞎编的谣言离开了我和孩子;我母亲气病住院做了手术。我把被告刘清云和刘清艳告到派出所,起诉到法院。
原审判决认定事实不清,漏项审查。
我因对判决不服,合法申诉被抓进劳教所。
我母亲家2011年就由桃山搬到铁力市。我妹妹同学的哥哥拆迁住在那里,有人冒充我弟弟和我哥撵走了我妹妹同学的哥哥,对我母亲家后仓房进行了改造,扒走的我母亲家后仓房的板子和后障子板皮,给换上了石棉瓦,仓房房檐下边闪开了很大的空子,都能钻进去猫。
她们扒走了我母亲家后院门,给换上了一个黄色的门。
应该是她们用钉障界剩下的石棉瓦换走了我母亲家仓房板子和后障子板皮。
原来我母亲家后仓房是用板子钉的严严实实的,仓房外面又钉了一层板皮障子。

我妹妹的同学搬走后,那里一直没人住,我们也没有起诉。

圊粪蛆虫在这里炫耀犯罪,明显这下三滥是以寻衅滋事制造案件为能。
被告们一贯撒谎欺诈骗、胡搅蛮缠赖,缺德做损不要脸。
字典信息里被告们为寻衅滋事违法犯罪编出了诸多个理由:其中有验法、有缉熙、有灭燎原火、有拿食物给人吃制造稻草人、有因国昏必要使贪奸者淫惑、有夸铅红《淘金》、有谗口嚣嚣-《诗.小雅》.衣服在躬其名为罔.以诬无中生有专门陷害好人、有制造社会昏暗{秋/黑/昏【原文】秋天漠漠向昏黑(旻:秋天。大雅召旻.小雅小旻)}、有以案毁则败法、有开通渎风、有栽赃陷害制造冤案、有求荣卖国、被告们黑.匪.寇.淫。总体意思是她们接了个可以随便欺负人乱搞破鞋胡说八道栽赃陷害制造冤案的不归路,编了个验法的谎言进行骗讹。但字典信息里被告们制造案件这所有的理由都与“原告之”无关,原告之是无辜的,被告们是因为需要利用案件图谋不轨,所以才以真犯罪寻衅滋事于“原告之”,达到制造案件的目的。
这个案件对原告之来说,就是合法维权,请求执法者惩罚犯罪。
被告们利用案件拉人下水,骗人犯罪,故意带坏社会风气,扰乱中国,给国家制造负面影响,想要达到让人们不相信法律和政府的目的,并召同路人意图谋反制造国家分裂。
事实对于被告们来说,真实意思就是以案靠撒行欺诈骗、胡搅蛮缠赖骗讹。
以上信息字典截图都发布过。

问:请问这个观点对不对:“对于搭建企业本地知识库来说,比如使用 RAG 方式,国内几家大模型都可以胜任(用 gpt4的话有点杀鸡用牛刀的意思),关键在于应用端的调教”

先说结论:我觉得没毛病,GPT 3.5 的能力就足够胜任绝大部分场景了,但 GPT-4 不是杀鸡牛刀,而是如虎添翼甚至化腐朽为神奇。

再展开说说细节,以及说说用 GPT-4 是不是杀鸡牛刀。

RAG 的原理其实不复杂,先对文档预处理方便检索,通常会将文档分块,使用 Embedding 将文本向量化处理,提问时,对问题也做 Embedding,找出相关文档,然后交给大语言模型整理返回给用户。根据检索到的内容让大语言总结返回给用户这事,GPT 3.5 就能做的挺不错。

但是这里有很多细节,比如怎么分块,比如怎么检索,比如怎么交给大语言模型生成,这里就不展开讲了,我也只是知道一些皮毛。我只说我知道的部分和大语言相关的部分。

首先是如何借助大语言模型检索?

如果你把用户提的问题直接做 Embedding 扔给向量数据库去检索,通常效果不好,因为用户的问题千奇百怪,语义混乱,有时候自己都不知道自己在说什么,有时候一段话里两三个问题。

所以这时候就需要借助大语言模型对用户的提问预处理,去提炼出核心问题,去分解出多个子问题。这种任务就对大语言模型的能力有要求了,GPT-4 提炼出来的效果肯定是比 GPT-3.5 提炼出来的好很多,结果也好很多。

然后是借助大语言模型做 Ranking(排序)

当你检索出来结果后,可能会有很多结果,但是其中有些跟用户问题相关,有些不那么相关,所以需要对检索出来的结果做一个排序,只返回最相关最重要的信息给大语言模型做总结。

这又是一个体现大语言模型能力的场景,GPT-3.5 也能做,但是 GPT-4 做的效果会更好一些。

最后是借助大语言模型对检索出来的结果汇总

当你把检索的内容交给大语言模型的时候,如何根据用户的问题和检索出来的资料,汇总出来用户希望得到的答案也是体现大语言能力的地方。

而且大语言模型还有个致命缺陷就是幻觉,它可能会胡说八道,明明检索出来的结果并不太相关,但是它可能言之凿凿让你信以为真。这时候如果大语言模型的能力强,就能最大程度的减少幻觉,让生成的结果更准确。

另外还有一点,RAG 不仅仅是会用到你自己的知识库,还可以用到它本身的知识库,所以模型本身知识库的多寡,也会影响生成的结果,GPT-4 相对于 GPT-3.5 的知识库要大不少,所以在回复时,更容易涵盖到问题的各个方面。

所以说,你用 GPT-3.5 也能胜任,但是用 GPT-4 可以做的更好,并不是简单的杀鸡牛刀!

***
补充一些评论:

@Hansimov:首先,现在大部分预处理和rerank的工作都是属于RAG流程的;其次,基于向量的rerank并不需要LLM介入,模型也并不大,例如,bge-reranker的large版本也就2GB出头,base只有1GB;再者,排序部分,类似推荐系统,一般会先用向量/全文检索快速召回,然后再做进一步粗排和精排,性价比并不低。

Hansimov:再补充两点观察。1. 速度并非 RAG 的瓶颈。召回率其实更重要,当然,精确率也需要关注,但由于LLM本身对非相关的上下文有一定过滤能力,所以影响会小一点2. RAG 目前的瓶颈,其实是无法真正“理解”知识和知识间的联系,目前大多是基于语义检取,所以可以视为高阶的模式匹配,而非知识检索

@_沉沉子:这个我有体感。同样是做 RAG,用 4的话不用太多 prompt 效果不错。用能力越低的模型,想达到类似效果,花的额外工作越多。

@largoRomance2:这里有个问题: RAG是实时问答,对响应速度是很敏感的,而预处理和ranking,因为用到了大模型,所以很可能会成为整个问答系统的速度瓶颈。尤其是排序,性价比可能会超低

@小_-柒: 之前也在使用 RAG 方式做本地知识库,分别使用了 GPT 4 和自己部署的千问 1.5 和 bge-m3 两种方式,刚开始的想法也是觉得结果应该是差不多的,实践证明,同样的内容得到的结果差太多了,不过,当时没用到重排序模型

灰机: 从我的经验来说,不是简单选择模型的问题。首先是理解业务场景,文本量、准确性要求、预处理过程对可行性的影响比最后的推理模型更大;然后在实现过程中,总是可以做预处理、prompt 、chain 架构和模型之间的权衡和妥协。在预处理上如果可以接受较高成本,那么 GPT-3.5, Haiku 的确可以支撑很多场景了

laoda: RAG 確實3.5就夠了。GPT-4的強項是reasoning能力和穩定的自然語言轉函數調用的能力!這是其他所有模型無法能及的。


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 多多 也让我陪你七年吧,我想看着你从小有名气变成大明星的那一天。Dear 老薛又到了很爱很爱老薛的时候了,我发现我最近越来越爱薛之谦了。
  • 我们要接受这世上突如其来的失去洒了的牛奶 遗失的钱包 走散的爱人断掉的友情停下来告诉自己要接受 如果不能以微笑面对 那就沉默吧 把你在意的东西看淡一些
  • ””不是不是,是它不会动”哈哈哈原来是本书送给我的这本书我会好好看的[太阳][太阳]不开心的日子里总有人温暖你懂你的人真的不需要你去说太多昨天日记 昨天一整天所
  • 反而像现在这样,他死前托人带给她的那血书手帕已表明心迹“辰此一生,不负天下,唯负十一”而时宜也选择了另一种方式的回应,此生他们之间无法言明的汹涌爱意终是有了归宿
  • 「歌劇『桜蘭高校ホスト部』f」に熊谷魁人らが出演 大海将一郎、斉藤瑞季も初演から続投 葉鳥ビスコ氏のラブコメ漫画を原作とする、「歌劇『桜蘭高校ホスト部』f(フォ
  • #CSR[超话]# #具艺含1007生日快乐# 220926 官咖更新#DUNA[超话]# 相关❤️各位!!! 今天有种时隔一个月再次见到的感觉❤️ 说明非常想
  • 想到假设哪一天我们分手了我会很难受 持续很长很长时间他曾说过 不会很难受 难受也不会很久我试过一段纠缠的孽缘 单方面间断失落一年零一个月 不敢想象我们分手 会怎
  • #王俊凯解忧杂货店##美出了界##带着微博去旅行#说茶 | 1.孩友似一碗白茶,真而自然,纯而不饰。4.贵友像一杯黄茶,启润心脾,高雅脱俗。
  •   四小时级别中,ETH击穿下轨支撑有所反弹,目前站上1500上方,接下来可着重关注是否能够企稳此点位,并依托此点位蓄势反弹,技术指标中,布林通道空头排列向下,
  • #Produce101[超话]# 考古produce202中… 是现在看也还是会心梗的程度啊[泪] 三木、善皓、安安[泪] 真的是我的意难平啊[泪] 特别是三
  • 7,放水后,楼市暴涨概率不大,虽有刺激,但是政府会维护一个温和的涨幅。我发现大部分趋势股都是以波段的形式走上涨趋势。
  • 底线这个新人演员的日记也蛮有趣的,让我想到傅诗淇会不会也曾经这样兴高采烈过,为电视上有一秒钟自己的镜头而高兴,也会拉着爸妈妹妹亲戚朋友一起,看自己家乡的卫视上面
  • 他根本不明白能够在25秒发射完毕、逃逸时速达到100公里的一辆海马斯火炮对于空军来说意味着什么:等你看到对方发射,调转机身前往发射地点的时候,海马斯已经停在距离
  • 不断有手术室空出来,而每次她安排送进去的患者,都不是自己的弟弟……就在你要给出自己惯性思维的审判答案时,最后一分钟,又狠狠反转——地铁里,坐在慧慧周旁边有一个动
  • 周剑挺向记者表示,起初一些规模较大的学校担心自己的藏书“流失”到其他学校,教育局随后明确提出,书的所有者不变,只是在校际间流通,变“学校书”为“系统书”。 数字
  • 【#菲律宾加快技术发展,建设智慧城市#】新冠疫情期间,信息通信技术对菲律宾政府提供政务服务发挥重要作用。阅读更多 作者:菲律宾Gulapa Law律师事务所创
  • 此时行业对华为的认知已经和初代 Mate 发布时天壤之别,Mate 20 搭载了全球首款 7nm 手机芯片麒麟 980,我还记得那年的柏林 IFA 发布会现场座
  • #治愈系##壁纸#从梦中醒来 本来有一大堆文字要抒发 曾经何时我也是个文艺的人 但是什么让我变成如今发一段都拼凑不出什么好的文字 文字码了之后又删除 只发了
  • 这个就是他自己走出来的“路径”而路径依赖让他在做虾上越来越得心应手,其他商家也看到这个促销手段和利润点,纷纷效仿,如果其他店的味道再更好,就能打败吴小松取而代之
  • 关于法律,关于道德,并不是你可以敷衍对待的,也不是你自己“信则有,不信则无”的私事。关于法律,关于道德,并不是你可以敷衍对待的,也不是你自己“信则有,不信则无”