人類擅長“如果 A 則 B”,AI 擅長“這個像那個”。邏輯推理?對它來說是一場災難性的認知挑戰。
前言
在實際使用 AI(尤其是大型語言模型,比如 GPT、Claude、Gemini 等)時,我們常發現一個詭異的現象:它們文采斐然,甚至能講出笑話,但一旦問點小學奧數或邏輯問題,就集體宕機。
例如這個經典問題:
小明比小紅高,小紅比小華高,請問誰最高?
AI 有時會給你“華哥最矮,但不一定是最高”的謎語人答案。
這就引出了本文要講的核心問題:
一、語言模型本質上是“統計填空機”
來看個簡單例子
我們隨便用一個 Transformer 構建一個簡化版語言模型:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizermodel = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')input_text = "小明比小紅高,小紅比小華高,請問誰最高?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')output = model.generate(input_ids, max_length=50, do_sample=False)
result = tokenizer.decode