国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="i35sq"><font id="i35sq"></font></ul>

<delect id="i35sq"></delect>

<rp id="i35sq"></rp><fieldset id="i35sq"></fieldset>

haiku實現(xiàn)門控多頭注意力模塊

2年前作者：qq_27390023分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了haiku實現(xiàn)門控多頭注意力模塊。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

在多頭注意力機制中，通常輸入的數(shù)據(jù)包括查詢（Q）、鍵（K）和值（V）。這些數(shù)據(jù)的維度以及權(quán)重矩陣的維度在多頭注意力機制中扮演關鍵角色。下面對數(shù)據(jù)及權(quán)重的維度進行解釋：

輸入數(shù)據(jù)（Queries, Keys, Values）:
- Queries (Q): 表示待查詢的信息，通常對應輸入序列的每個位置。其維度通常為 (batch_size, seq_length, q_dim)，其中 q_dim 是查詢向量的維度。
- Keys (K): 表示用于計算注意力分數(shù)的信息，也通常對應輸入序列的每個位置。其維度通常為 (batch_size, seq_length, key_dim)，其中 key_dim 是鍵向量的維度。
- Values (V): 表示待加權(quán)求和的信息，同樣對應輸入序列的每個位置。其維度通常為 (batch_size, seq_length, value_dim)，其中 value_dim 是值向量的維度。
權(quán)重矩陣：文章來源地址http://www.zghlxwxcb.cn/news/detail-805928.html
- 查詢權(quán)重矩陣 (Q_weights): 用于對查詢（Q）進行線性變換，將其映射到多個注意力頭的維度。其維度通常為 (q_dim, num_heads,?head_dim)，其中 num_heads 是注意力頭的數(shù)量，head_dim 是每個注意力頭的維度。
- 鍵權(quán)重矩陣 (K_weights): 用于對鍵（K）進行線性變換，同樣映射到多個注意力頭的維度。其維度通常為 (key_dim, num_heads,?head_dim)。
- 值權(quán)重矩陣 (V_weights): 用于對值（V）進行線性變換，映射到多個注意力頭的維度。其維度通常為 (value_dim, num_heads,?head_dim)。

def glorot_uniform():
? return hk.initializers.VarianceScaling(scale=1.0,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?mode='fan_avg',
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?distribution='uniform')


def stable_softmax(logits: jax.Array) -> jax.Array:
? """Numerically stable softmax for (potential) bfloat 16."""
? if logits.dtype == jnp.float32:
? ? output = jax.nn.softmax(logits)
? elif logits.dtype == jnp.bfloat16:
? ? # Need to explicitly do softmax in float32 to avoid numerical issues
? ? # with large negatives. Large negatives can occur if trying to mask
? ? # by adding on large negative logits so that things softmax to zero.
? ? output = jax.nn.softmax(logits.astype(jnp.float32)).astype(jnp.bfloat16)
? else:
? ? raise ValueError(f'Unexpected input dtype {logits.dtype}')
? return output


class Attention(hk.Module):
? """Multihead attention."""

? def __init__(self, config, global_config, output_dim, name='attention'):
? ? super().__init__(name=name)

? ? self.config = config
? ? self.global_config = global_config
? ? self.output_dim = output_dim

? def __call__(self, q_data, m_data, mask, nonbatched_bias=None):
? ? """Builds Attention module.

? ? Arguments:
? ? ? q_data: A tensor of queries, shape [batch_size, N_queries, q_channels].
? ? ? m_data: A tensor of memories from which the keys and values are
? ? ? ? projected, shape [batch_size, N_keys, m_channels].
? ? ? mask: A mask for the attention, shape [batch_size, N_queries, N_keys].
? ? ? nonbatched_bias: Shared bias, shape [N_queries, N_keys].

? ? Returns:
? ? ? A float32 tensor of shape [batch_size, N_queries, output_dim].
? ? """
? ? # Sensible default for when the config keys are missing
? ? key_dim = self.config.get('key_dim', int(q_data.shape[-1]))
? ? value_dim = self.config.get('value_dim', int(m_data.shape[-1]))
? ? num_head = self.config.num_head
? ? assert key_dim % num_head == 0
? ? assert value_dim % num_head == 0
? ? key_dim = key_dim // num_head
? ? value_dim = value_dim // num_head

? ? # weights維度（數(shù)據(jù)最后一維的維度數(shù)，注意力頭數(shù)量，每個注意力頭映射的數(shù)據(jù)維度）
? ? q_weights = hk.get_parameter(
? ? ? ? 'query_w', shape=(q_data.shape[-1], num_head, key_dim),
? ? ? ? dtype=q_data.dtype,
? ? ? ? init=glorot_uniform())
? ? k_weights = hk.get_parameter(
? ? ? ? 'key_w', shape=(m_data.shape[-1], num_head, key_dim),
? ? ? ? dtype=q_data.dtype,
? ? ? ? init=glorot_uniform())
? ? v_weights = hk.get_parameter(
? ? ? ? 'value_w', shape=(m_data.shape[-1], num_head, value_dim),
? ? ? ? dtype=q_data.dtype,
? ? ? ? init=glorot_uniform())

? ? # bqa: 輸入張量 q_data 的軸的標記。（batch_size, seq_length, q_dim）
? ? # 'b' ：batch 維度，'q'：查詢序列維度，'a' 查詢向量的維度。所以，'bqa' 表示 q_data 的三個軸。
? ? # ahc：查詢權(quán)重矩陣的形狀， a：查詢向量的維度，h：注意力頭的數(shù)量，c： 每個注意力頭中查詢的維度。
? ? # key_dim**(-0.5) 注意力縮放，避免注意力分數(shù)過大或過小
? ??
? ? # jnp.einsum：Einstein Summation Notation（愛因斯坦求和約定）。
? ? # 一種緊湊、靈活的方式來指定和計算張量的乘積、求和和轉(zhuǎn)置等操作。
? ? q = jnp.einsum('bqa,ahc->bqhc', q_data, q_weights) * key_dim**(-0.5)
? ? k = jnp.einsum('bka,ahc->bkhc', m_data, k_weights)
? ? v = jnp.einsum('bka,ahc->bkhc', m_data, v_weights)
? ??
? ? # 注意力分數(shù)，計算每個查詢（q）和鍵（k）之間的點積，以獲得注意力分數(shù)。
? ? # 結(jié)果維度為bhqk (batch_size, num_heads, num_q, num_k),?
? ? # num_q/num_k為查詢/鍵的數(shù)量，一般為 seq_length。
? ? logits = jnp.einsum('bqhc,bkhc->bhqk', q, k)
? ? if nonbatched_bias is not None:
? ? ? logits += jnp.expand_dims(nonbatched_bias, axis=0)
? ??
? ? # 注意力分數(shù)中加入mask
? ? logits = jnp.where(mask, logits, _SOFTMAX_MASK)
? ??
? ? # 對注意力分數(shù)進行softmax操作，我們得到每個位置對輸入序列的權(quán)重分配。
? ? weights = stable_softmax(logits)
? ??
? ? # 注意力分數(shù)對值進行加權(quán)求和，得到多頭注意力機制的輸出
? ? # 兩個向量的點積可以用于度量它們之間的相似性。如果兩個向量越相似，它們的點積就越大
? ? weighted_avg = jnp.einsum('bhqk,bkhc->bqhc', weights, v)

? ? if self.global_config.zero_init:
? ? ? init = hk.initializers.Constant(0.0)
? ? else:
? ? ? init = glorot_uniform()
? ??
? ? # 帶有bias的門控注意力
? ? if self.config.gating:
? ? ? gating_weights = hk.get_parameter(
? ? ? ? ? 'gating_w',
? ? ? ? ? shape=(q_data.shape[-1], num_head, value_dim),
? ? ? ? ? dtype=q_data.dtype,
? ? ? ? ? init=hk.initializers.Constant(0.0))
? ? ? gating_bias = hk.get_parameter(
? ? ? ? ? 'gating_b',
? ? ? ? ? shape=(num_head, value_dim),
? ? ? ? ? dtype=q_data.dtype,
? ? ? ? ? init=hk.initializers.Constant(1.0))

? ? ? gate_values = jnp.einsum('bqc, chv->bqhv', q_data,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?gating_weights) + gating_bias

? ? ? gate_values = jax.nn.sigmoid(gate_values)
? ? ? # ⊙ 對應元素相乘
? ? ? weighted_avg *= gate_values

? ? o_weights = hk.get_parameter(
? ? ? ? 'output_w', shape=(num_head, value_dim, self.output_dim),
? ? ? ? dtype=q_data.dtype,
? ? ? ? init=init)
? ? o_bias = hk.get_parameter(
? ? ? ? 'output_b', shape=(self.output_dim,),
? ? ? ? dtype=q_data.dtype,
? ? ? ? init=hk.initializers.Constant(0.0))
? ? # 線性變換到輸出維度大小
? ? output = jnp.einsum('bqhc,hco->bqo', weighted_avg, o_weights) + o_bias

? ? return output

到了這里，關于haiku實現(xiàn)門控多頭注意力模塊的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Yolov8漲點神器：注意力機制---多頭上下文集成（Context Aggregation）的廣義構(gòu)建模塊，助力小目標檢測，暴力漲點
目錄 2.Context Aggregation介紹? 3. Yolov8引入ContextAggregation 3.1?修改modules.py中 3.2 注冊tasks.py模塊 3.3??yolov8_ContextAggregation.yam
2024年02月06日
瀏覽(22)
Yolov5漲點神器：注意力機制---多頭上下文集成（Context Aggregation）的廣義構(gòu)建模塊，助力小目標檢測，暴力漲點
目錄 ?1.數(shù)據(jù)集性能驗證 2.Context Aggregation介紹? 3. Yolov5引入ContextAggregation 3.1?修改common.py 3.2 注冊yolo.py模塊
2024年02月07日
瀏覽(75)
【Transformer系列（2）】注意力機制、自注意力機制、多頭注意力機制、通道注意力機制、空間注意力機制超詳細講解
注意力機制一直是一個比較熱的話題，其實在很早之前就提出了，我們在學習圖像分類時在SENet就見到過（直通車：經(jīng)典神經(jīng)網(wǎng)絡論文超詳細解讀（七）——SENet（注意力機制）學習筆記（翻譯＋精讀＋代碼復現(xiàn)））自從谷歌發(fā)表了《Attention Is All You Need》這篇論文后，注意力
2024年02月06日
瀏覽(23)
【NLP】多頭注意力概念（02）
接上文：? 【NLP】多頭注意力概念（01）? ????????將? Q 、K 和? V? 拆分為它們的頭部后，現(xiàn)在可以計算? Q? 和? K? 的縮放點積。上面的等式表明，第一步是執(zhí)行張量乘法。但是，必須先轉(zhuǎn)置 K。 ????????展望未來，每個張量的 seq_length 形狀將通過其各自的張量來識
2024年02月16日
瀏覽(23)
Bert基礎(二)--多頭注意力
顧名思義，多頭注意力是指我們可以使用多個注意力頭，而不是只用一個。也就是說，我們可以應用在上篇中學習的計算注意力矩陣Z的方法，來求得多個注意力矩陣。讓我們通過一個例子來理解多頭注意力層的作用。以All is well這句話為例，假設我們需要計算well的自注意力值
2024年02月21日
瀏覽(23)
【NLP】多頭注意力概念（01）
????????本文是“已實施的變壓器”系列的一篇。它從零開始引入了多頭注意力機制。注意力是變壓器背后的支柱和力量，因為它為序列提供了上下文。 ????????在變壓器模型中，注意力為每個序列提供上下文。這有助于模型了解不同單詞如何相互關聯(lián)，以創(chuàng)建有意義
2024年02月16日
瀏覽(21)
MultiHeadAttention多頭注意力機制的原理
MultiHeadAttention多頭注意力作為Transformer的核心組件，其主要由多組自注意力組合構(gòu)成。在NLP任務中，自注意力能夠根據(jù)上下文詞來重新構(gòu)建目標詞的表示，其之所以被稱之為注意力，在于從上下文詞中去篩選目標詞更需要關注的部分，比如\\\"他叫小明\\\"，\\\"他\\\"這個詞更應該關注
2023年04月21日
瀏覽(21)
多維時序 | MATLAB實現(xiàn)TSOA-TCN-Multihead-Attention多頭注意力機制多變量時間序列預測
預測效果基本介紹 MATLAB實現(xiàn)TSOA-TCN-Multihead-Attention多頭注意力機制多變量時間序列預測。模型描述 MATLAB實現(xiàn)TSOA-TCN-Multihead-Attention凌日優(yōu)化時間卷積神經(jīng)網(wǎng)絡融合多頭自注意力機制的多變量時間序列預測，用于處理時間序列數(shù)據(jù)；適用平臺：Matlab 2023及以上 1.data為數(shù)據(jù)集，格
2024年02月05日
瀏覽(32)
深入理解Transformer，兼談MHSA（多頭自注意力）、Cross-Attention（交叉注意力）、LayerNorm、FFN、位置編碼
Transformer其實不是完全的Self-Attention（SA，自注意力）結(jié)構(gòu)，還帶有Cross-Attention（CA，交叉注意力）、殘差連接、LayerNorm、類似1維卷積的Position-wise Feed-Forward Networks（FFN）、MLP和Positional Encoding（位置編碼）等本文涵蓋Transformer所采用的MHSA（多頭自注意力）、LayerNorm、FFN、位置編
2024年04月12日
瀏覽(51)
multi-head_seft-attention（多頭自注意力）
相比于single-head，multi-head就是將 q i q^i q i 分成了 h h h 份將 q i q^i q i 分成了 h h h 份計算過程對于每個Head，我們可以提取出他的 b 11 b_{11} b 11 ? 到 b m 1 b_{m1} b m 1 ? ，以 H e a d 1 Head_1 He a d 1 ? 舉例將輸入序列進行embedding后，變?yōu)橄蛄?a 1 a_1 a 1 ? , a 2 a_2 a 2 ? , a 3 a_3 a 3 ?
2024年02月13日
瀏覽(19)

<style id="txjgp"></style>

<ul id="txjgp"><font id="txjgp"></font></ul>

<abbr id="txjgp"></abbr>