核心内容摘要
冲刺10万台完全定制Robotaxi,曹操出行估值逻辑升维
当句子较短时直接统计句子的概率还比较简单但随着句子长度增加词与词之间的组合方式呈指数级增长。
例如若词汇表中有 5000 个词句子长度为 10则可能的句子组合数目达到这是一个无法实际计算的天文数字。
为解决这一问题研究者提出了N 元文法N-gram语言模型。
这种模型只考虑一个词在前面N-1 个词后出现的概率然后将这些概率连乘起来得到整个句子的概率。
例如二元文法Bi-gram语言模型统计一个词后面接另一个词的概率如P(吗| 可以) 表示“可以”后面接“吗”的概率。
如果一个句子中有M 个词则将这 M 个词的概率相乘即可得到整个句子的概率。
图
3
3展示了二元文法语言模型的计算过程。
二元文法语言模型的计算过程有了这个N 元文法模型就可以利用它来生成句子。
首先随机生成一个词x1然后根据P(x2|x
生成下一个词x2以此类推即可生成句子和段落。
下面是一段话是利用三元文法生成的一段话我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。
可以看到生成的每句话看起来还是通顺的但当这些句子放在一起就显得杂乱无章没有意义。
这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。