核心内容摘要
OSI(Open System interconnection)
后来研究者发现词与词之间的关联更能反映语言的规律。
一句话是否合理往往取决于其中的词语搭配是否常见。
例如“我看电视”是合理的因为“我”和“看”常常搭配在一起“看”和“电视”也是自然的组合。
而类似于“我吃电视”或“我打电视”这样的表达则不合常理因为这些搭配在实际语言中几乎不存在。
“常见的搭配就是合理的”是人类语言的一条重要原则也是人类语言最大的秘密。
那么如何让机器判断一句话是否常见呢一种常用的方法是统计句子在大规模语料库中出现的频率称为句子X 的概率记为 P(X)。
概率越高表示该句子越常见也越合理。
图给出了一个语料库中统计由“我”“、看”“、吃”“、打”“、电视”和“电话”六个词组成句子的概率表。
可以看出越常见的句子概率越高而不合理的句子概率则较低。
我们通常将P(X) 称为语言模型。
语言模型本质上通过概率统计来刻画语言的规律。