国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<label id="89r8z"><label id="89r8z"><xmp id="89r8z">

<bdo id="89r8z"></bdo>

分布式深度學(xué)習(xí)中的數(shù)據(jù)并行和模型并行

2年前作者：張小殊.分類：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了分布式深度學(xué)習(xí)中的數(shù)據(jù)并行和模型并行。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

??個(gè)人主頁： https://zhangxiaoshu.blog.csdn.net
??歡迎大家：關(guān)注??+點(diǎn)贊??+評論??+收藏??，如有錯誤敬請指正!
??未來很長，值得我們?nèi)Ρ几案篮玫纳睿?/strong>

前言

對于深度學(xué)習(xí)模型的預(yù)訓(xùn)練階段，海量的訓(xùn)練數(shù)據(jù)、超大規(guī)模的模型給深度學(xué)習(xí)帶來了日益嚴(yán)峻的挑戰(zhàn)，因此，經(jīng)常需要使用多加速卡和多節(jié)點(diǎn)來并行化訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。目前，數(shù)據(jù)并行和模型并行作為兩種在深度神經(jīng)網(wǎng)絡(luò)中常用的并行方式，分別針對不同的適用場景，有時(shí)也可將兩種并行混合使用。本文對數(shù)據(jù)并行和模型并行兩種在深度神經(jīng)網(wǎng)絡(luò)中常用的并行方式原理及其通信容量的計(jì)算方法進(jìn)行介紹。

一、深度神經(jīng)網(wǎng)絡(luò)求解原理回顧

深度神經(jīng)網(wǎng)絡(luò)是通過模仿生物大腦的神經(jīng)元結(jié)構(gòu)而設(shè)計(jì)的一種多層互連結(jié)構(gòu).在其訓(xùn)練過程中，數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)經(jīng)過網(wǎng)絡(luò)的前向傳播過程得到一個(gè)輸出，然后對輸出得預(yù)測值和真實(shí)值求相對誤差將其作為損失函數(shù)，接著，對網(wǎng)絡(luò)進(jìn)行反向傳播求得損失對權(quán)重參數(shù)得梯度信息，最后，使用得到的梯度信息對權(quán)重參數(shù)做梯度下降使得損失函數(shù)越來越小，如此反復(fù)這個(gè)過程，使得神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果變得越來越準(zhǔn)確。
假設(shè)訓(xùn)練數(shù)據(jù)集為 $X=[x_1,x_2...x_N,]$ ，數(shù)據(jù)集經(jīng)過前向傳播后輸出預(yù)測值 $f(x_i)$ ，真實(shí)值為 $y_i$ ，則損失函數(shù)可以表示為如下式所示。

$R_{emp}\left(f\right)=\frac{1}{N}\sum_{i=1}^{N}L\left(y_i,f\left(x_i\right)\right)$

其中， $L(\bullet)$ 為損失函數(shù)，它主要用于衡量預(yù)測值和真實(shí)值之間差異的大小，差異越小，說明模型的預(yù)測越準(zhǔn)確。對于不同問題的求解，往往具有不同的形式。根據(jù)上式可以得到求解深度神經(jīng)網(wǎng)絡(luò)的最優(yōu)化表達(dá)式如下式所示。

$f^{*}=\underset{f \in \boldsymbol{F}}{\arg \min } R_{\mathrm{emp}}(f)$

即在假設(shè)空間 $F$ 中找到一個(gè)最優(yōu)的模型 $f^\ast$ 使得 $R_{emp}(f)$ 最小。

基于梯度的優(yōu)化算法是DL中解決上述優(yōu)化問題應(yīng)用最廣泛的算法。由于二階梯度下降法的計(jì)算復(fù)雜度較高，一階梯度下降法，尤其是帶有mini-batch及其變體的隨機(jī)梯度下降法（SGD）在DL中被廣泛使用。SGD的更新規(guī)則如下式所示。

$G_t\left(x_t\right)=\nabla F_t\left(x_t;\xi_t\right)$

$x_{t+1}=x_t-\gamma G_t\left(x_t\right)$

這里的 $x_t\in R^N$ 是第 $t$ 次迭代時(shí)的N維模型參數(shù)， $\xi_t$ 是隨機(jī)抽樣的小批量數(shù)據(jù)， $\gamma$ 是學(xué)習(xí)率（或步長）。SGD是一種迭代算法，迭代過程通常包含幾個(gè)步驟：

它對一小批數(shù)據(jù)（即 $\xi_t$ ）進(jìn)行采樣。

它執(zhí)行前饋計(jì)算，以計(jì)算目標(biāo)函數(shù)的損失值（即 $F_t\left(x_t;\xi_t\right)$ ）。

它執(zhí)行反向傳播以計(jì)算關(guān)于模型參數(shù)的梯度（即 $?F_t\left(x_t;\xi_t\right)$ ）。

最后，通過公式 $x_{t+1}=x_t-\gamma G_t\left(x_t\right)$ 更新模型參數(shù)。訓(xùn)練深層模型非常耗時(shí)，尤其是對于大型模型或數(shù)據(jù)集。使用分布式訓(xùn)練技術(shù)，利用多個(gè)處理器來加速訓(xùn)練過程變得很常見。

二、數(shù)據(jù)并行

數(shù)據(jù)并行是在不同設(shè)備上放置完整的模型，然后將數(shù)據(jù)劃分在每個(gè)設(shè)備并行計(jì)算，如下圖所示。

數(shù)據(jù)并行性是深度學(xué)習(xí)中普遍存在的一種技術(shù)，對每個(gè)輸入批訓(xùn)練數(shù)據(jù)在所有設(shè)備之間分配，每個(gè)設(shè)備中存儲著網(wǎng)絡(luò)模型完整的權(quán)重。在更新模型權(quán)重之前，梯度在所有設(shè)備之間進(jìn)行通信和聚合。數(shù)據(jù)并行性擁有計(jì)算效率高和易于實(shí)現(xiàn)等優(yōu)點(diǎn)。然而，數(shù)據(jù)并行性依賴于數(shù)據(jù)并行工作塊的數(shù)量來縮放批處理大小，并且不能在不影響模型質(zhì)量的情況下任意增大。對于參數(shù)不能存儲在單個(gè)設(shè)備的大型模型，數(shù)據(jù)并行性便不在適應(yīng)。

在小型分布式規(guī)模下，數(shù)據(jù)并行可以具有非常不錯的擴(kuò)展性。然而，梯度聚合的通信成本隨著深度學(xué)習(xí)模型大小的增大而增加，并極大的限制了大模型和較低通信帶寬系統(tǒng)的訓(xùn)練效率。針對分布式深度學(xué)習(xí)的數(shù)據(jù)并行訓(xùn)練，其訓(xùn)練過程如下：

計(jì)算節(jié)點(diǎn)會從將硬盤或者網(wǎng)絡(luò)中讀出mini-batch大小的數(shù)據(jù)復(fù)制到內(nèi)存中；

將數(shù)據(jù)從 CPU內(nèi)存復(fù)制到 GPU內(nèi)存；

加載GPU kernel并從前到后分層進(jìn)行計(jì)算輸入數(shù)據(jù)的預(yù)測值（正向傳播）；

計(jì)算預(yù)測值和真實(shí)值的損失函數(shù)(loss)并進(jìn)行反向傳播，逐層求出損失對權(quán)重參數(shù)的梯度值；

將各個(gè)結(jié)點(diǎn)的梯度值進(jìn)行同步 (發(fā)送和接收梯度，即，梯度通信)；

利用同步后的梯度值結(jié)合優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)進(jìn)行更新；

以上6步構(gòu)成了一個(gè)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程，也就是一個(gè)Itera。在實(shí)際訓(xùn)練中，為了實(shí)現(xiàn)對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練，必須進(jìn)行多次的訓(xùn)練。在以上的訓(xùn)練過程中，網(wǎng)絡(luò)通信發(fā)生的環(huán)節(jié)為一、二、五步。在第一步中，如果使用本機(jī)磁盤來提供資料，那么就不會有通信處理。第二步包括服務(wù)器之間的通信，這是用PCI-e把數(shù)據(jù)傳送到 GPU。在第五步中，網(wǎng)絡(luò)的參數(shù)量大小和規(guī)模主要由神經(jīng)網(wǎng)絡(luò)的參數(shù)和網(wǎng)絡(luò)層的數(shù)目決定。在一般情況下，一個(gè) Iter中的各個(gè)結(jié)點(diǎn)所需傳送和接收的通信數(shù)據(jù)量均與神經(jīng)網(wǎng)絡(luò)的總參數(shù)值大小相等，而所需傳送的數(shù)目則與神經(jīng)網(wǎng)路的層數(shù)有關(guān)。所以，在每個(gè)層次上傳送的通信數(shù)據(jù)量是不一樣的，而頻率區(qū)間也是由運(yùn)算速度決定的。對于常見的CNN網(wǎng)絡(luò)，其卷積層參數(shù)量要小于全連接層，所以在反向傳輸時(shí)，各個(gè)網(wǎng)絡(luò)層的通信量會出現(xiàn)先大后小的不平衡問題。

因?yàn)閿?shù)據(jù)并行需要每個(gè)設(shè)備將自己模型參數(shù)的梯度信息向其他設(shè)備傳輸。所以其通信容量往往與每一個(gè)批次的數(shù)據(jù)量多少無關(guān)，而與模型的大小和并行的設(shè)備數(shù)量有關(guān)。則對于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)并行訓(xùn)練，其總的通信容量如下式所示。

$V_{communication}=Par×Byte×N×(N-1)$

其中 $P a r$ 表示模型的參數(shù)量， $B y t e$ 是參數(shù)的表示形式，單位為字節(jié)，深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)通常取4字節(jié)即32位來表示參數(shù)。 $N$ 為并行計(jì)算的設(shè)備數(shù)量。

三、模型并行

模型并行是將模型分割成不同的塊放到不同的設(shè)備上，按照劃分方式的不同主要有以下圖所示兩種形式。

在數(shù)據(jù)并行的情況下，整個(gè)模型都存儲在內(nèi)存中，不過有時(shí)會數(shù)據(jù)量很大。如果是一般的計(jì)算機(jī)，那么內(nèi)存就會不夠，面對這種情況，這個(gè)巨大的模型可以分解成不同的部分用不同的機(jī)器進(jìn)行計(jì)算，從計(jì)算角度上講，就是將張量分成幾個(gè)部分，從模型上講，就是將網(wǎng)絡(luò)的結(jié)構(gòu)分割開來。切分方法有兩種，一種是垂直切分（左圖），另一種是水平切分（右圖）。

垂直切分時(shí)形成多個(gè)分區(qū)，相同的分區(qū)放在同一設(shè)備上，每一個(gè)分區(qū)在不同的設(shè)備上并行執(zhí)行。在這種形式下，某一層某個(gè)神經(jīng)元的輸入只有此設(shè)備上來自上一層的特征，而位于其他設(shè)備上的輸入?yún)s不能得到。因此，為了避免這種情況，需要在關(guān)鍵的一些層處進(jìn)行設(shè)備之間的通信，以融合不同設(shè)備上的特征。對于第i層其總的通信容量如下式所示。

$V_i=out\times Byte\times N\times(N-1)$

其中 $o u t$ 表示每一個(gè)設(shè)備上輸出的特征數(shù)量， $B y t e$ 是參數(shù)的表示形式，單位為字節(jié)， $N$ 為并行計(jì)算的設(shè)備數(shù)量。故，對于垂直切分時(shí)的模型并行來說其總的通信容量如下式所示。

$V_{communication}=\sum V_i\ \ \ \ \ i\in(1,2...L)$

其中 $L$ 表示模型總的層數(shù)，這里的 $i$ 根據(jù)具體情況選取 $1$ 到 $L$ 中的幾個(gè)。

從以上兩式中可以看到，對于垂直切分的模型并行來說，其通信容量主要受到輸出特征值數(shù)量、選取的通信層數(shù)量、設(shè)備數(shù)量有關(guān)。

而對于水平切分，在這種模型并行形式下，可以將幾個(gè)層劃分給一個(gè)設(shè)備，不同設(shè)備劃分得到的層不一致，因?yàn)樵谶@種形式下后后面的層需要前面層的輸出結(jié)果，每個(gè)設(shè)備要將自己計(jì)算的特征傳輸給下一層。所以前后階段流水分批工作，然而，在這種情況下，第一個(gè)設(shè)備計(jì)算時(shí)，后面的設(shè)備都處于不工作狀態(tài)，這很大程度上降低了并行性。為了提高并行度，將每一個(gè)層再進(jìn)行按區(qū)劃分，第一個(gè)設(shè)備先執(zhí)行第一個(gè)層的分區(qū)1，執(zhí)行完之后開始執(zhí)行分區(qū)2，這時(shí)設(shè)備2執(zhí)行第二個(gè)層的分區(qū)1，如此反復(fù)計(jì)算傳播以得到最終結(jié)果。對于水平切分時(shí)的模型并行來說其總的通信容量如下式所示。

$V_{communication}=\sum_{i=1}^{N}{{out}_i\times B y t e}$

其中 ${out}_i$ 表示第 $i$ 個(gè)設(shè)備的輸出特征量， $B y t e$ 是參數(shù)的表示形式，單位為字節(jié)， $N$ 為并行計(jì)算的設(shè)備數(shù)量。

從上式中可以看到，對于水平切分的模型并行來說，其通信容量主要受輸出特征值數(shù)量、設(shè)備數(shù)量等影響。

總結(jié)

數(shù)據(jù)并行和模型并行是在分布式計(jì)算中常用的兩種并行計(jì)算策略，用于加速機(jī)器學(xué)習(xí)模型的訓(xùn)練過程。以下是它們的主要特點(diǎn)和區(qū)別總結(jié)：

數(shù)據(jù)并行（Data Parallelism）：

特點(diǎn)：在數(shù)據(jù)并行中，不同的處理單元（通常是不同的計(jì)算節(jié)點(diǎn)或設(shè)備）負(fù)責(zé)處理不同的數(shù)據(jù)子集。每個(gè)處理單元獨(dú)立地計(jì)算模型的梯度，并在一定周期后進(jìn)行參數(shù)更新。

優(yōu)點(diǎn)：數(shù)據(jù)并行易于實(shí)現(xiàn)，尤其是在擁有大量相似數(shù)據(jù)的情況下。它能夠有效地利用大規(guī)模并行計(jì)算資源。

缺點(diǎn)：數(shù)據(jù)傳輸和同步操作可能成為性能瓶頸，尤其是當(dāng)模型參數(shù)量較大時(shí)。此外，對于某些較大的模型結(jié)構(gòu)，數(shù)據(jù)并行可能會受到單卡GPU顯存的限制。

模型并行（Model Parallelism）：

特點(diǎn)：在模型并行中，模型被劃分成多個(gè)部分，不同的處理單元負(fù)責(zé)計(jì)算不同部分的輸出。這通常用于處理較大且無法完全放入內(nèi)存的模型。

優(yōu)點(diǎn)：模型并行可以處理超大規(guī)模的模型，因?yàn)椴恍枰淮涡约虞d整個(gè)模型。這對于深度、復(fù)雜的模型是一個(gè)重要的優(yōu)勢。

缺點(diǎn)：實(shí)現(xiàn)模型并行通常較為復(fù)雜，因?yàn)樾枰_保各個(gè)部分的輸出正確傳遞并在聯(lián)合訓(xùn)練中協(xié)同工作。此外，同步問題也可能影響性能。

總體而言，數(shù)據(jù)并行和模型并行通常可以結(jié)合使用，以充分發(fā)揮分布式計(jì)算資源的優(yōu)勢。同時(shí)，具體選擇使用哪種并行策略取決于問題的性質(zhì)、模型的結(jié)構(gòu)以及可用的硬件資源。

另外，在部分其他文獻(xiàn)或是介紹中，模型并行的垂直切分往往被稱之為Tensor并行，而模型并行的水平切分往往被稱之為流水并行，

文中有不對的地方歡迎指正。文章來源地址http://www.zghlxwxcb.cn/news/detail-821540.html
到了這里，關(guān)于分布式深度學(xué)習(xí)中的數(shù)據(jù)并行和模型并行的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【金猿案例展】智譜AI——基于全閃分布式并行文件存儲打造高速大模型訓(xùn)練平臺...
? 焱融科技案例本項(xiàng)目案例由焱融科技投遞并參與“數(shù)據(jù)猿年度金猿策劃活動——2023大數(shù)據(jù)產(chǎn)業(yè)年度創(chuàng)新服務(wù)企業(yè)榜單/獎項(xiàng)”評選。大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新服務(wù)媒體 ——聚焦數(shù)據(jù)?· 改變商業(yè) 自 ChatGPT 爆火以來，中國的 AI 產(chǎn)業(yè)已經(jīng)進(jìn)入名副其實(shí)的“百模大戰(zhàn)”?！吨袊斯ぶ悄?/p>
2024年02月02日
瀏覽(21)
LLM-分布式訓(xùn)練工具（一）：DeepSpeed【微軟】【大模型分布式訓(xùn)練工具，實(shí)現(xiàn)ZeRO并行訓(xùn)練算法】【zero3配置將模型參數(shù)切分后分配到不同的顯卡中，突破單張顯卡容量不足以加載模型參數(shù)的限制】
DeepSpeed是微軟推出的大規(guī)模模型分布式訓(xùn)練的工具，主要實(shí)現(xiàn)了ZeRO并行訓(xùn)練算法。原始文檔鏈接： DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo
2024年02月16日
瀏覽(23)
torch分布式數(shù)據(jù)并行：torch.nn.parallel.DistributedDataParallel（DDP），代碼書寫步驟
多進(jìn)程做多卡訓(xùn)練；目錄 1 初始化進(jìn)程組： 2 當(dāng)前進(jìn)程所能用到的GPU卡的名稱 3 將數(shù)據(jù)集隨機(jī)分配到不同的GPU上 4 將train_sampler傳入DataLoader中 5 將數(shù)據(jù)進(jìn)行拷貝 6 模型放到GPU上 7 執(zhí)行命令 8 模型保存 9 加載模型 10 注意事項(xiàng) 代碼編寫流程： 1 初始化進(jìn)程組： ‘nccl’ 指定GPU之
2024年02月15日
瀏覽(18)
分布式云計(jì)算與分布式并行計(jì)算研究綜述
In this paper, we present a discussion panel of two of the hottest topics in this area namely distributed parallel processing and distributed cloud computing. Various aspects have been discussed in this review paper such as concentrating on whether these topics are discussed simultaneously in any previous works. Other aspects that have been reviewed in this
2024年02月01日
瀏覽(41)
【云計(jì)算與大數(shù)據(jù)技術(shù)】分布式計(jì)算、虛擬化技術(shù)、并行編程技術(shù)等技術(shù)講解（超詳細(xì)必看）
分布式計(jì)算是一種計(jì)算方法，和集中式計(jì)算相對，隨著計(jì)算的發(fā)展，一些應(yīng)用需要巨大的計(jì)算能力才能完成，如果采用集中式計(jì)算則需要耗費(fèi)很長的時(shí)間，而分布式計(jì)算將應(yīng)用分解成許多更小的部分，分配到多臺計(jì)算機(jī)進(jìn)行處理，這樣可以節(jié)省整體計(jì)算時(shí)間，大大提高計(jì)算效
2023年04月15日
瀏覽(123)
分布式深度學(xué)習(xí)庫BigDL簡述
????????BigDL是一個(gè)在Apache Spark上構(gòu)建的分布式深度學(xué)習(xí)庫，由英特爾開發(fā)并開源。它允許用戶使用Scala或Python語言在大規(guī)模數(shù)據(jù)集上進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和推理。BigDL提供了許多常見的深度學(xué)習(xí)模型和算法的實(shí)現(xiàn)，包括卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）等。由
2024年04月10日
瀏覽(16)
在Kubernetes上部署分布式深度學(xué)習(xí)訓(xùn)練平臺
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 1.1 什么是深度學(xué)習(xí)？ 1.2 為什么需要深度學(xué)習(xí)？ 1.3 深度學(xué)習(xí)平臺架構(gòu)圖 # 2.基本概念術(shù)語說明 2.1 Kubernetes 2.2 GPU 2.3 MPI # 3.核心算法原理和具體操作步驟以及數(shù)學(xué)公式講解 3.1 數(shù)據(jù)加載流程 3.2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì) 3.3 激活函數(shù)設(shè)計(jì) 3.4 損失函數(shù)設(shè)計(jì) 3
2024年02月07日
瀏覽(25)
AI框架：9大主流分布式深度學(xué)習(xí)框架簡介
轉(zhuǎn)載翻譯Medium上一篇關(guān)于分布式深度學(xué)習(xí)框架的文章 https://medium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1fmedium.com/@mlblogging.k/9-libraries-for-parallel-distributed-training-inference-of-deep-learning-models-5faa86199c1f 大型深度學(xué)習(xí)模型在訓(xùn)練時(shí)需要大量內(nèi)
2024年02月09日
瀏覽(59)
Pytorch 分布式并行DDP 卡死掛起
1 、使用A30顯卡，使用分布式并行Distributed Data Parallel，運(yùn)行程序時(shí)顯卡顯存充滿，卡在設(shè)置local_rank處，并未啟動進(jìn)程組 2 、如圖： 0 、最新解決方案，針對Supermicro主板：BIOS-Advanced-NB Configuration-IOMMU-Disabled ==其它型號的主板的BIOS可能還需要禁用ACS： https://zhuanlan.zhihu.com/p/60
2023年04月15日
瀏覽(20)
【深度學(xué)習(xí)】【分布式訓(xùn)練】Collective通信操作及Pytorch示例
相關(guān)博客【Megatron-DeepSpeed】張量并行工具代碼mpu詳解(一)：并行環(huán)境初始化【Megatron-DeepSpeed】張量并行工具代碼mpu詳解(二)：Collective通信操作的封裝mappings 【深度學(xué)習(xí)】【分布式訓(xùn)練】DeepSpeed：AllReduce與ZeRO-DP 【深度學(xué)習(xí)】混合精度訓(xùn)練與顯存分析【深度學(xué)習(xí)】【分布式訓(xùn)練
2023年04月13日
瀏覽(20)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区