→ neo5277: 樓上這個有專有名詞叫做rerank 我開發系統時有設計 11/03 16:33
→ DrTech: 重點是系統架構設計。rerank完,該怎麼輸出?如果用rerank 11/03 16:44
→ DrTech: 完,LLM生成輸出結果,還是永遠有幻覺。如果rerank完,用t 11/03 16:44
→ DrTech: op-k個答案事實輸出,就不會有幻覺。 11/03 16:44
→ DrTech: 而且當答案只有一個的情況,何必用到複雜的rerank。直接轉 11/03 16:50
推 Chricey: 我也有過關節痛的經驗,真的超痛苦的啦!推薦去看醫生,早點處理比較不會拖延變嚴重。 11/05 07:41→ DrTech: 換成搜尋結果 k選一的classification任務,還比較適合。 11/03 16:50
推 neo5277: 嗯合理同意,下週來玩看看 11/03 18:40
推 prag222: 你可以一個問題問三次,覺得答案不對的就打臉chatGpt 11/03 20:57
→ prag222: 多否定幾次可能就會給你正確答案了,(笑 11/03 20:58
推 Kroner: 看到有人提到關節痛,我就想到有一篇UC2推薦的文章 11/05 07:46→ labbat: 微軟大老建議過了唄 11/03 21:04
推 j0958322080: 重點是這個還要靠人整理啊 11/03 23:26
→ DrTech: 我只是說最簡單的例子,也可做到不用靠人整理,或不要整理 11/03 23:38
→ DrTech: QA。方法就是跟常見的RAG一樣,不整理QA,直接把文章切成c 11/03 23:38
推 Kroner: 有人知道UC2和其他關節保健品的差異嗎? 11/05 09:44→ DrTech: hunk 段落。一樣搜最接近top-K段落,給LLM生成答案,但是 11/03 23:38
→ DrTech: 生成答案後,"不要"信任LLM的生成文字直接輸出,使用傳統 11/03 23:38
→ DrTech: 的NLP去糾錯(spell correct ion),糾錯的候選只能是chunk 11/03 23:38
→ DrTech: 事實中的連續句子。最後輸出糾正到事實的句子。這樣可做到 11/03 23:38
推 Chricey: UC2對膝蓋特別有用嗎?有人能證實嗎? 11/05 10:22→ DrTech: 不整理QA但整個系統只會輸出最正確的事實句子。 11/03 23:38
→ DrTech: 方法變形很多啦,但原則就是:LLM只是選擇或決策的工具, 11/03 23:44
→ DrTech: 非最後的答案生成輸出。這樣就會有同樣聰明,又永遠是事實 11/03 23:44
→ DrTech: 輸出的AI。 11/03 23:44
推 Chricey: 本魯關節痛始祖,葡萄糖胺保證沒用,乖乖吃UC2吧 11/05 11:45推 viper9709: 原來是從問答題變成選擇題 11/04 00:44
→ agario: 假設你說的LLM只輸出1, 2, 3, 4是指只生出一個數字token 11/04 06:54
→ agario: 這樣效果應該不是很好吧,畢竟沒時間一步一步思考 11/04 06:54
→ DrTech: 我只是舉簡單的例子,你先做要CoT然後最後輸出選項,也可 11/04 07:15
推 Kroner: 本魯關節痛始祖,葡萄糖胺保證沒用,乖乖吃UC2吧 11/05 12:35→ DrTech: 以啊。其實許多Agent選tool的概念就是這樣,多種tool用選 11/04 07:15
→ DrTech: 項讓LLM 選,LLM只限定選1,2,3,4這樣選項,也可控制next t 11/04 07:15
→ DrTech: oken只選數字。選tool行為就不會有幻覺,同樣的道理。 11/04 07:15
→ DrTech: viper9709總結得很好。不要有幻覺,就是:問答題轉成,事 11/04 07:17
推 Kroner: 想問一下有沒有關節痛的運動禁忌?怕動得更嚴重… 11/06 11:30→ DrTech: 實的選擇。 11/04 07:17
→ fallcolor: 生成式ai被拿來當判別式ai用 有種泡沫感 11/04 08:11
→ DrTech: 同樣的技術,也可以想成AI更通用了,用得更全面了,即可以 11/04 08:16
→ DrTech: 用於生成,也可以用於判斷與分類。產品能賺得錢更多了。 11/04 08:16
推 Kroner: 樓下關節痛都吃鞏固力 11/09 13:09→ DrTech: LLM產品,何必困於於生成或判別二選一。 11/04 08:18
→ DrTech: causal language model 從來就沒限制next token該怎麼用, 11/04 08:28
→ DrTech: 沒限制下游任務只能用來判別或生成二選一。 11/04 08:28
→ Firstshadow: 沒想到從中國大企業回來的D大連這方面都懂...強! 11/04 21:00
推 Lhmstu: 這種解法我自己是不看好,本末倒置 11/04 23:20
→ DrTech: 你可以去多看論文,OpenAI發表的GPT系列論文,模型評測一 11/05 07:34
→ DrTech: 直都不只是用於生成答案任務,甚至評測LLM 排名的知名benc 11/05 07:34
→ DrTech: hmark dataset, MMLU系列, 就是選擇題。 11/05 07:34
→ DrTech: 這種做法叫本末倒置,質疑了所有做LLM benchmark 研究的所 11/05 07:37
→ DrTech: 有團隊阿。 11/05 07:38
→ DrTech: 你看到許多LLM leaderboard跑出來的分數,許多題目都是測L 11/05 07:41
→ DrTech: LM做多選一的選擇題喔。怎麼大家都這樣利用與評測LLM的能 11/05 07:41
→ DrTech: 力,就你認為是本末倒置呢? 11/05 07:41
→ DrTech: 再來,什麼叫作"本",以使用者為中心,解決使用者困擾才是 11/05 07:46
→ DrTech: 本。一個公司系統需要不會有亂答題的需求。人家才不管你技 11/05 07:46
→ DrTech: 術使用是否用得本末倒置,能解決亂生答案的痛點才是本。 11/05 07:46
→ Lipraxde: 這樣設計要怎麼用 LLM 做行程規劃 or 文字修飾、潤稿? 11/05 09:26
推 Lhmstu: 我是覺得你不用什麼都要爭到自己高人一等,我自己現在就 11/05 09:44
→ Lhmstu: 是做這領域的,你說的這些我當然知道。不過你說是就是吧 11/05 09:44
→ Lhmstu: ,目前確實是這樣,但跟我認為本末倒置沒有出入 11/05 09:44
→ DrTech: 純交流技術而言,不需要用到本末導致,高人一等都詞語吧, 11/05 10:21
→ DrTech: 不同的技術應用哪有高低之分呢。不用太自卑啦,我只是跟你 11/05 10:21
→ DrTech: 交流技術,技術本身並沒有高人一等之說。 11/05 10:21
→ DrTech: 能解決使用者問題,何必去分高低呢。 11/05 10:22
→ DrTech: 你自己就是做這領域了,你解決hallucination了嗎?可以分 11/05 10:28
→ DrTech: 享交流嗎? 至少我在我做的產品都解決了我也很願意跟大家 11/05 10:28
→ DrTech: 分享。 11/05 10:28
推 Lhmstu: 確實,我有些用詞過頭了跟D大說聲抱歉,只是著眼點不同而 11/05 11:45
→ Lhmstu: 已,以軟體應用層面來說目前解法的確如你所說。只是我個 11/05 11:45
→ Lhmstu: 人心理覺得這只是暫時解而已 11/05 11:45
→ Lhmstu: 但是還是很感謝你的分享 11/05 11:46
→ Firstshadow: 對!D大只是實際分享他的技術和應用! 11/05 12:35
推 hobnob: 推技術串,受益良多 11/05 13:28
推 transforman: 推個 11/06 00:14
推 internetms52: 呃…選擇最適合的答案不也是機率嗎?,怎麼就跟幻 11/06 11:30
→ internetms52: 覺沒關係了,不太懂... 11/06 11:30
推 Sportsman: 差別在於使用者看到的都會是人工準備的事實,而不是LLM 11/07 14:31
→ Lipraxde: 因為他是挑人工預先準備好的答案,LLM 只是做選擇題 11/08 12:26
→ sealman234: junior? 11/08 17:19
推 dream1124: 感覺是一套讓AI更可靠的方法,但目前的生成AI沒真正 11/09 13:09
→ dream1124: 認知與理解能力,因此也沒到真的解決問題 11/09 13:10
推 iamOsaka: 推分享 11/10 13:30
推 ohmylove347: 聽起來像是RAG 11/10 20:01