水多多:不止是饮品,更是生命中的灵动之源

核心内容摘要

SP公司日常管教:赋能成长,铸就卓越
破局者:黄品汇MBA智库——重塑职场精英的认知边界与商业底层逻辑

《火影忍者》女忍的坚韧与魅力:一场耐力与风采的视觉盛宴

当句子较短时直接统计句子的概率还比较简单但随着句子长度增加词与词之间的组合方式呈指数级增长。

例如若词汇表中有 5000 个词句子长度为 10则可能的句子组合数目达到这是一个无法实际计算的天文数字。

为解决这一问题研究者提出了N 元文法N-gram语言模型。

这种模型只考虑一个词在前面N-1 个词后出现的概率然后将这些概率连乘起来得到整个句子的概率。

例如二元文法Bi-gram语言模型统计一个词后面接另一个词的概率如P(吗| 可以) 表示“可以”后面接“吗”的概率。

如果一个句子中有M 个词则将这 M 个词的概率相乘即可得到整个句子的概率。

3

3展示了二元文法语言模型的计算过程。

二元文法语言模型的计算过程有了这个N 元文法模型就可以利用它来生成句子。

首先随机生成一个词x1然后根据P(x2|x

生成下一个词x2以此类推即可生成句子和段落。

下面是一段话是利用三元文法生成的一段话我喜欢吃苹果味道很甜我是学生的身份工作人员并学习数据科学很愉快听音乐看电影总是给我很多启发一天我去学校上课和同学们讨论各种问题也喜欢动手做实验锻炼思维非常有趣。

可以看到生成的每句话看起来还是通顺的但当这些句子放在一起就显得杂乱无章没有意义。

这是因为仅考虑最近几个词的上下文还不足以捕捉到复杂的语言规律。

y31成色1.232c-y31成色应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123