自然语言处理中的attention机制ppt课件.pptx

上传者：xiang1982071 2022-07-10 16:47:02上传 PPTX文件 897 KB

NLP中的Attention机制介绍
李世杰
复****br/>Attention机制通用定义
Attention score的计算变体
更多attention种类
总结
内容
利用点积dot得到attention score
利用softmax函数：
attention scores转化为概率分布
按照上一步概率分布：
计算encoder的hidden states的加权求和
Attention机制的一个更加通用的定义（课程里面的定义）
给定一组向量集合values，以及一个向量query，attention机制是一种根据该query计算values的加权求和的机制。
attention的重点就是这个集合values中的每个value的“权值”的计算方法。
有时候也把这种attention的机制叫做query的输出关注了（或者说叫考虑到了）原文的不同部分。（Query attends to the values）
举例：seq2seq中，哪个是query，哪个是values？
从定义来看Attention的感性认识
The weighted sum is a selective summary of the information contained in the values, where the query determines which values to focus on.
换句话说，attention机制也是一种根据一些其他向量表达（query）从向量表达集合（values）中获得特定向量表达（attention）的方法
针对attention向量计算方式变体
Soft attention
Hard attention
“半软半硬”的attention （local attention）
动态attention
静态attention
强制前向attention
Soft attention
Soft attention就是我们上面讲过的那种最常见的attention，是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布
Hard attention
Soft是给每个单词都赋予一个单词match概率，那么如果不这样做，直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为0，这就是Hard Attention Model的思想。

自然语言处理中的attention机制ppt课件

文档来源：https://www.taodocs.com/p-694188333.html

文档标签：IT计算机

自然语言处理中的attention机制ppt课件.pptx

下载地址

文档大全热门下载