1. 首页
  2. 文档大全

自然语言处理中的attention机制ppt课件.pptx

上传者:xiang1982071 2022-07-10 16:47:02上传 PPTX文件 897 KB
NLP中的Attention机制介绍
李世杰
复****br/>Attention机制通用定义
Attention score的计算变体
更多attention种类
总结
内容
利用点积dot得到attention score
利用softmax函数:
attention scores转化为概率分布
按照上一步概率分布:
计算encoder的hidden states的加权求和
Attention机制的一个更加通用的定义(课程里面的定义)
给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。
attention的重点就是这个集合values中的每个value的“权值”的计算方法。
有时候也把这种attention的机制叫做query的输出关注了(或者说叫考虑到了)原文的不同部分。(Query attends to the values)
举例:seq2seq中,哪个是query,哪个是values?
从定义来看Attention的感性认识
The weighted sum is a selective summary of the information contained in the values, where the query determines which values to focus on.
换句话说,attention机制也是一种根据一些其他向量表达(query)从向量表达集合(values)中获得特定向量表达(attention)的方法
针对attention向量计算方式变体
Soft attention
Hard attention
“半软半硬”的attention (local attention)
动态attention
静态attention
强制前向attention
Soft attention
Soft attention就是我们上面讲过的那种最常见的attention,是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布
Hard attention
Soft是给每个单词都赋予一个单词match概率,那么如果不这样做,直接从输入句子里面找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其它输入句子中的单词硬性地认为对齐概率为0,这就是Hard Attention Model的思想。

自然语言处理中的attention机制ppt课件


文档来源:https://www.taodocs.com/p-694188333.html

文档标签:

下载地址