国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理

這篇具有很好參考價(jià)值的文章主要介紹了Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

關(guān)注TechLead,分享AI全維度知識(shí)。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)、AI產(chǎn)品研發(fā)經(jīng)驗(yàn)、團(tuán)隊(duì)管理經(jīng)驗(yàn),同濟(jì)本復(fù)旦碩,復(fù)旦機(jī)器人智能實(shí)驗(yàn)室成員,阿里云認(rèn)證的資深架構(gòu)師,項(xiàng)目管理專業(yè)人士,上億營(yíng)收AI產(chǎn)品研發(fā)負(fù)責(zé)人。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-714117.html

Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft

本文內(nèi)容

數(shù)據(jù)整理已經(jīng)成為機(jī)器學(xué)習(xí)項(xiàng)目中最重要的步驟之一。 Azure 機(jī)器學(xué)習(xí)與 Azure Synapse Analytics 集成,提供對(duì) Apache Spark Pool(由 Azure Synapse 支持)的訪問(wèn),以便使用 Azure 機(jī)器學(xué)習(xí)筆記本進(jìn)行交互式數(shù)據(jù)整理。

先決條件

  • 一個(gè) Azure 訂閱;如果你沒(méi)有 Azure 訂閱,請(qǐng)?jiān)陂_(kāi)始之前創(chuàng)建一個(gè)免費(fèi)帳戶。
  • Azure 機(jī)器學(xué)習(xí)工作區(qū)。 請(qǐng)參閱創(chuàng)建工作區(qū)資源。
  • Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶。 請(qǐng)參閱創(chuàng)建 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶。
  • (可選):Azure Key Vault。 請(qǐng)參閱創(chuàng)建 Azure 密鑰保管庫(kù)。
  • (可選):服務(wù)主體。 請(qǐng)參閱創(chuàng)建服務(wù)主體。
  • (可選)Azure 機(jī)器學(xué)習(xí)工作區(qū)中附加的 Synapse Spark 池。

在開(kāi)始數(shù)據(jù)整理任務(wù)之前,請(qǐng)了解存儲(chǔ)機(jī)密的過(guò)程

  • Azure Blob 存儲(chǔ)帳戶訪問(wèn)密鑰
  • 共享訪問(wèn)簽名 (SAS) 令牌
  • Azure Data Lake Storage (ADLS) Gen 2 服務(wù)主體信息

在 Azure 密鑰保管庫(kù)中。 還需要了解如何在 Azure 存儲(chǔ)帳戶中處理角色分配。 下面的部分討論以下概念。 然后,我們將詳細(xì)了解如何使用 Azure 機(jī)器學(xué)習(xí)筆記本中的 Spark 池進(jìn)行交互式數(shù)據(jù)整理。

Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft

使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理

Azure 機(jī)器學(xué)習(xí)在 Azure 機(jī)器學(xué)習(xí)筆記本中提供無(wú)服務(wù)器 Spark 計(jì)算和附加的 Synapse Spark 池,用于與 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理。 無(wú)服務(wù)器 Spark 計(jì)算不需要在 Azure Synapse 工作區(qū)中創(chuàng)建資源。 相反,在 Azure 機(jī)器學(xué)習(xí)筆記本中可以直接使用完全托管的無(wú)服務(wù)器 Spark 計(jì)算。 要訪問(wèn) Azure 機(jī)器學(xué)習(xí)中的 Spark 群集,最簡(jiǎn)單的方法是使用無(wú)服務(wù)器 Spark 計(jì)算。

Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft

Azure 機(jī)器學(xué)習(xí)筆記本中的無(wú)服務(wù)器 Spark 計(jì)算

默認(rèn)情況下,Azure 機(jī)器學(xué)習(xí)筆記本中提供了無(wú)服務(wù)器 Spark 計(jì)算。 若要在筆記本中訪問(wèn)它,請(qǐng)從“計(jì)算”選擇菜單的“Azure 機(jī)器學(xué)習(xí)無(wú)服務(wù)器 Spark”下選擇“無(wú)服務(wù)器 Spark 計(jì)算”。

筆記本 UI 還為無(wú)服務(wù)器 Spark 計(jì)算提供了 Spark 會(huì)話配置選項(xiàng)。 配置 Spark 會(huì)話:

  1. 選擇屏幕頂部的“配置會(huì)話”。

  2. 從下拉菜單中選擇“Apache Spark 版本”。

    重要

    適用于 Apache Spark 的 Azure Synapse 運(yùn)行時(shí):公告

    • 適用于 Apache Spark 3.2 的 Azure Synapse 運(yùn)行時(shí):
      • EOLA 公告日期:2023 年 7 月 8 日
      • 支持結(jié)束日期:2024 年 7 月 8 日。 在此日期之后,將會(huì)禁用運(yùn)行時(shí)。
    • 為了獲取持續(xù)支持和最佳性能,建議遷移到 Apache Sark 3.3。
  3. 從下拉菜單中選擇“實(shí)例類型”。 當(dāng)前支持以下實(shí)例類型:

    • Standard_E4s_v3
    • Standard_E8s_v3
    • Standard_E16s_v3
    • Standard_E32s_v3
    • Standard_E64s_v3
  4. 輸入 Spark 會(huì)話超時(shí)值(以分鐘為單位)。

  5. 選擇是否動(dòng)態(tài)分配執(zhí)行程序

  6. 選擇 Spark 會(huì)話的執(zhí)行程序數(shù)量。

  7. 從下拉菜單中選擇“執(zhí)行程序大小”。

  8. 從下拉菜單中選擇“驅(qū)動(dòng)程序大小”。

  9. 要使用 Conda 文件配置 Spark 會(huì)話,請(qǐng)選中“上傳 conda 文件”復(fù)選框。 然后,選擇“瀏覽”,并選擇具有所需 Spark 會(huì)話配置的 Conda 文件。

  10. 添加“配置設(shè)置”屬性,在“屬性”和“值”文本框中輸入值,然后選擇“添加”。

  11. 選擇“應(yīng)用”。

  12. 在“配置新會(huì)話?”彈出窗口中選擇“停止會(huì)話”。

會(huì)話配置更改將被保存,并可用于使用無(wú)服務(wù)器 Spark 計(jì)算啟動(dòng)的另一個(gè)筆記本會(huì)話。

提示

如果使用會(huì)話級(jí) Conda 包,并將配置變量 spark.hadoop.aml.enable_cache 設(shè)置為 true,則可以改善 Spark 會(huì)話冷啟動(dòng)時(shí)間。 會(huì)話首次啟動(dòng)時(shí),具有會(huì)話級(jí)別 Conda 包的會(huì)話冷啟動(dòng)通常需要 10 到 15 分鐘。 但是,配置變量設(shè)置為 true 時(shí)的后續(xù)會(huì)話冷啟動(dòng)通常需要 3 到 5 分鐘。

從 Azure Data Lake Storage (ADLS) Gen 2 導(dǎo)入和整理數(shù)據(jù)

可以使用 abfss:// 數(shù)據(jù) URI 按照以下兩種數(shù)據(jù)訪問(wèn)機(jī)制之一訪問(wèn)和處理存儲(chǔ)在 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中的數(shù)據(jù):

  • 用戶標(biāo)識(shí)傳遞
  • 基于服務(wù)主體的數(shù)據(jù)訪問(wèn)

提示

要使用無(wú)服務(wù)器 Spark 計(jì)算進(jìn)行數(shù)據(jù)整理、對(duì) Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中的數(shù)據(jù)進(jìn)行用戶標(biāo)識(shí)直通訪問(wèn),需要的配置步驟是最少的。

若要使用用戶標(biāo)識(shí)傳遞開(kāi)始交互式數(shù)據(jù)整理,請(qǐng)執(zhí)行以下命令:

  • 驗(yàn)證用戶身份是否在 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中獲得了“參與者”和“存儲(chǔ) Blob 數(shù)據(jù)參與者”角色。

  • 要使用無(wú)服務(wù)器 Spark 計(jì)算,請(qǐng)?jiān)凇坝?jì)算”選擇菜單中,選擇“Azure 機(jī)器學(xué)習(xí)無(wú)服務(wù)器 Spark”下的“無(wú)服務(wù)器 Spark 計(jì)算”。

  • 要使用附加的 Synapse Spark 池,請(qǐng)從“計(jì)算”選擇菜單中選擇“Synapse Spark 池”下附加的 Synapse Spark 池。

  • 這個(gè) Titanic 數(shù)據(jù)整理代碼示例顯示了 abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA> 格式的數(shù)據(jù) URI 與 pyspark.pandaspyspark.ml.feature.Imputer 的搭配使用。

    import pyspark.pandas as pd
    from pyspark.ml.feature import Imputer
    
    df = pd.read_csv(
        "abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/titanic.csv",
        index_col="PassengerId",
    )
    imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
        "mean"
    )  # Replace missing values in Age column with the mean value
    df.fillna(
        value={"Cabin": "None"}, inplace=True
    )  # Fill Cabin column with value "None" if missing
    df.dropna(inplace=True)  # Drop the rows which still have any missing value
    df.to_csv(
        "abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/data/wrangled",
        index_col="PassengerId",
    )
    

    備注

    此 Python 代碼示例使用 pyspark.pandas。 只有 Spark 運(yùn)行時(shí)版本 3.2 或更高版本才支持此功能。

若要通過(guò)服務(wù)主體按照訪問(wèn)權(quán)限來(lái)整理數(shù)據(jù),請(qǐng)執(zhí)行以下操作:

  1. 驗(yàn)證服務(wù)主體是否在 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中獲得了“參與者”和“存儲(chǔ) Blob 數(shù)據(jù)參與者”角色。

  2. 為服務(wù)主體租戶 ID、客戶端 ID 和客戶端機(jī)密值創(chuàng)建 Azure 密鑰保管庫(kù)機(jī)密。

  3. 在“計(jì)算”選擇菜單中,選擇“Azure 機(jī)器學(xué)習(xí)無(wú)服務(wù)器 Spark”下的“無(wú)服務(wù)器 Spark 計(jì)算”,或者從“計(jì)算”選擇菜單中選擇“Synapse Spark 池”下附加的 Synapse Spark 池。

  4. 若要在配置中設(shè)置服務(wù)主體租戶 ID、客戶端 ID 和客戶端密碼,請(qǐng)執(zhí)行以下代碼示例。

    • 代碼中的 get_secret() 調(diào)用取決于 Azure 密鑰保管庫(kù)的名稱,以及為服務(wù)主體租戶 ID、客戶端 ID 和客戶端密碼創(chuàng)建的 Azure 密鑰保管庫(kù)機(jī)密的名稱。 在配置中設(shè)置這些相應(yīng)的屬性名稱/值:

      • 客戶端 ID 屬性:fs.azure.account.oauth2.client.id.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net
      • 客戶端機(jī)密屬性:fs.azure.account.oauth2.client.secret.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net
      • 租戶 ID 屬性:fs.azure.account.oauth2.client.endpoint.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net
      • 租戶 ID 值:https://login.microsoftonline.com/<TENANT_ID>/oauth2/token
      from pyspark.sql import SparkSession
      
      sc = SparkSession.builder.getOrCreate()
      token_library = sc._jvm.com.microsoft.azure.synapse.tokenlibrary.TokenLibrary
      
      # Set up service principal tenant ID, client ID and secret from Azure Key Vault
      client_id = token_library.getSecret("<KEY_VAULT_NAME>", "<CLIENT_ID_SECRET_NAME>")
      tenant_id = token_library.getSecret("<KEY_VAULT_NAME>", "<TENANT_ID_SECRET_NAME>")
      client_secret = token_library.getSecret("<KEY_VAULT_NAME>", "<CLIENT_SECRET_NAME>")
      
      # Set up service principal which has access of the data
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.auth.type.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net", "OAuth"
      )
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.oauth.provider.type.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net",
          "org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider",
      )
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.oauth2.client.id.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net",
          client_id,
      )
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.oauth2.client.secret.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net",
          client_secret,
      )
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.oauth2.client.endpoint.<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net",
          "https://login.microsoftonline.com/" + tenant_id + "/oauth2/token",
      )
      
  5. 使用 abfss://<FILE_SYSTEM_NAME>@<STORAGE_ACCOUNT_NAME>.dfs.core.windows.net/<PATH_TO_DATA> 格式的數(shù)據(jù) URI 導(dǎo)入和轉(zhuǎn)換數(shù)據(jù),如使用 Titanic 數(shù)據(jù)的代碼示例所示。
    Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft
    Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft

從 Azure Blob 存儲(chǔ)導(dǎo)入和處理數(shù)據(jù)

可以使用存儲(chǔ)帳戶訪問(wèn)密鑰或共享訪問(wèn)簽名 (SAS) 令牌訪問(wèn) Azure Blob 存儲(chǔ)數(shù)據(jù)。 應(yīng)將這些憑據(jù)作為機(jī)密存儲(chǔ)在 Azure 密鑰保管庫(kù)中,并在會(huì)話配置中將其設(shè)置為屬性。

若要開(kāi)始交互式數(shù)據(jù)整理,請(qǐng)執(zhí)行以下操作:

  1. 在左側(cè)Azure 機(jī)器學(xué)習(xí)工作室面板中,選擇“筆記本”。

  2. 在“計(jì)算”選擇菜單中,選擇“Azure 機(jī)器學(xué)習(xí)無(wú)服務(wù)器 Spark”下的“無(wú)服務(wù)器 Spark 計(jì)算”,或者從“計(jì)算”選擇菜單中選擇“Synapse Spark 池”下附加的 Synapse Spark 池。

  3. 若要配置存儲(chǔ)帳戶訪問(wèn)密鑰或共享訪問(wèn)簽名 (SAS) 令牌以便在 Azure 機(jī)器學(xué)習(xí)筆記本中訪問(wèn)數(shù)據(jù),請(qǐng)執(zhí)行以下操作:

    • 對(duì)于訪問(wèn)密鑰,請(qǐng)?jiān)O(shè)置屬性 fs.azure.account.key.<STORAGE_ACCOUNT_NAME>.blob.core.windows.net,如以下代碼片段所示:

      from pyspark.sql import SparkSession
      
      sc = SparkSession.builder.getOrCreate()
      token_library = sc._jvm.com.microsoft.azure.synapse.tokenlibrary.TokenLibrary
      access_key = token_library.getSecret("<KEY_VAULT_NAME>", "<ACCESS_KEY_SECRET_NAME>")
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.account.key.<STORAGE_ACCOUNT_NAME>.blob.core.windows.net", access_key
      )
      
    • 對(duì)于 SAS 令牌,請(qǐng)?jiān)O(shè)置屬性 fs.azure.sas.<BLOB_CONTAINER_NAME>.<STORAGE_ACCOUNT_NAME>.blob.core.windows.net,如以下代碼片段所示:

      from pyspark.sql import SparkSession
      
      sc = SparkSession.builder.getOrCreate()
      token_library = sc._jvm.com.microsoft.azure.synapse.tokenlibrary.TokenLibrary
      sas_token = token_library.getSecret("<KEY_VAULT_NAME>", "<SAS_TOKEN_SECRET_NAME>")
      sc._jsc.hadoopConfiguration().set(
          "fs.azure.sas.<BLOB_CONTAINER_NAME>.<STORAGE_ACCOUNT_NAME>.blob.core.windows.net",
          sas_token,
      )
      

      備注

      上述代碼片段中的 get_secret() 調(diào)用需要 Azure 密鑰庫(kù)的名稱,以及為 Azure Blob 存儲(chǔ)帳戶訪問(wèn)密鑰或 SAS 令牌創(chuàng)建的機(jī)密的名稱

  4. 在同一筆記本中執(zhí)行數(shù)據(jù)整理代碼。 將數(shù)據(jù) URI 的格式設(shè)置為 wasbs://<BLOB_CONTAINER_NAME>@<STORAGE_ACCOUNT_NAME>.blob.core.windows.net/<PATH_TO_DATA>,類似于此代碼片段所示:

    import pyspark.pandas as pd
    from pyspark.ml.feature import Imputer
    
    df = pd.read_csv(
        "wasbs://<BLOB_CONTAINER_NAME>@<STORAGE_ACCOUNT_NAME>.blob.core.windows.net/data/titanic.csv",
        index_col="PassengerId",
    )
    imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
        "mean"
    )  # Replace missing values in Age column with the mean value
    df.fillna(
        value={"Cabin": "None"}, inplace=True
    )  # Fill Cabin column with value "None" if missing
    df.dropna(inplace=True)  # Drop the rows which still have any missing value
    df.to_csv(
        "wasbs://<BLOB_CONTAINER_NAME>@<STORAGE_ACCOUNT_NAME>.blob.core.windows.net/data/wrangled",
        index_col="PassengerId",
    )
    

    備注

    此 Python 代碼示例使用 pyspark.pandas。 只有 Spark 運(yùn)行時(shí)版本 3.2 或更高版本才支持此功能。

從 Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)導(dǎo)入和整理數(shù)據(jù)

Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理,人工智能,azure,機(jī)器學(xué)習(xí),人工智能,microsoft
若要從 Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)訪問(wèn)數(shù)據(jù),請(qǐng)使用 URI 格式azureml://datastores/<DATASTORE_NAME>/paths/<PATH_TO_DATA>定義數(shù)據(jù)存儲(chǔ)上數(shù)據(jù)的路徑。 若要在筆記本會(huì)話中以交互方式處理 Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù),請(qǐng)執(zhí)行以下操作:

  1. 在“計(jì)算”選擇菜單中,選擇“Azure 機(jī)器學(xué)習(xí)無(wú)服務(wù)器 Spark”下的“無(wú)服務(wù)器 Spark 計(jì)算”,或者從“計(jì)算”選擇菜單中選擇“Synapse Spark 池”下附加的 Synapse Spark 池。

  2. 此代碼示例顯示了如何使用 azureml:// 數(shù)據(jù)存儲(chǔ) URI pyspark.pandaspyspark.ml.feature.Imputer 從 Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)中讀取和處理大量數(shù)據(jù)。

    import pyspark.pandas as pd
    from pyspark.ml.feature import Imputer
    
    df = pd.read_csv(
        "azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
        index_col="PassengerId",
    )
    imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
        "mean"
    )  # Replace missing values in Age column with the mean value
    df.fillna(
        value={"Cabin": "None"}, inplace=True
    )  # Fill Cabin column with value "None" if missing
    df.dropna(inplace=True)  # Drop the rows which still have any missing value
    df.to_csv(
        "azureml://datastores/workspaceblobstore/paths/data/wrangled",
        index_col="PassengerId",
    )
    

    備注

    此 Python 代碼示例使用 pyspark.pandas。 只有 Spark 運(yùn)行時(shí)版本 3.2 或更高版本才支持此功能。

Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)可以使用 Azure 存儲(chǔ)帳戶憑據(jù)訪問(wèn)數(shù)據(jù)

  • 訪問(wèn)密鑰
  • SAS 令牌
  • 服務(wù)主體 (service principal)

或提供無(wú)憑據(jù)的數(shù)據(jù)訪問(wèn)。 根據(jù)數(shù)據(jù)存儲(chǔ)類型和基礎(chǔ) Azure 存儲(chǔ)帳戶類型,選擇適當(dāng)?shù)纳矸蒡?yàn)證機(jī)制來(lái)確保數(shù)據(jù)訪問(wèn)。 下表總結(jié)了用于訪問(wèn) Azure 機(jī)器學(xué)習(xí)數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)的身份驗(yàn)證機(jī)制:

存儲(chǔ)帳戶類型 無(wú)憑據(jù)數(shù)據(jù)訪問(wèn) 數(shù)據(jù)訪問(wèn)機(jī)制 角色分配
Azure Blob 訪問(wèn)密鑰或 SAS 令牌 不需要角色分配
Azure Blob 用戶標(biāo)識(shí)傳遞* 用戶標(biāo)識(shí)應(yīng)在 Azure Blob 存儲(chǔ)帳戶中具有適當(dāng)?shù)慕巧峙?
Azure Data Lake Storage (ADLS) Gen 2 服務(wù)主體 服務(wù)主體應(yīng)在 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中具有適當(dāng)?shù)慕巧峙?
Azure Data Lake Storage (ADLS) Gen 2 用戶標(biāo)識(shí)傳遞 用戶標(biāo)識(shí)應(yīng)在 Azure Data Lake Storage (ADLS) Gen 2 存儲(chǔ)帳戶中具有適當(dāng)?shù)慕巧峙?

只有在未啟用軟刪除的情況下,* 用戶標(biāo)識(shí)直通才適用于指向 Azure Blob 存儲(chǔ)帳戶的無(wú)憑據(jù)數(shù)據(jù)存儲(chǔ)。

默認(rèn)文件共享掛載到無(wú)服務(wù)器 Spark 計(jì)算和附加的 Synapse Spark 池。

在 Azure 機(jī)器學(xué)習(xí)工作室中,默認(rèn)文件共享中的文件顯示在“文件”選項(xiàng)卡下的目錄樹中。筆記本代碼可以使用 file:// 協(xié)議以及文件的絕對(duì)路徑直接訪問(wèn)此文件共享中存儲(chǔ)的文件,而無(wú)需進(jìn)行更多配置。 此代碼片段演示如何訪問(wèn)存儲(chǔ)在默認(rèn)文件共享上的文件:

import os
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

abspath = os.path.abspath(".")
file = "file://" + abspath + "/Users/<USER>/data/titanic.csv"
print(file)
df = pd.read_csv(file, index_col="PassengerId")
imputer = Imputer(
    inputCols=["Age"],
    outputCol="Age").setStrategy("mean") # Replace missing values in Age column with the mean value
df.fillna(value={"Cabin" : "None"}, inplace=True) # Fill Cabin column with value "None" if missing
df.dropna(inplace=True) # Drop the rows which still have any missing value
output_path = "file://" + abspath + "/Users/<USER>/data/wrangled"
df.to_csv(output_path, index_col="PassengerId")

備注

此 Python 代碼示例使用 pyspark.pandas。 只有 Spark 運(yùn)行時(shí)版本 3.2 或更高版本才支持此功能。

關(guān)注TechLead,分享AI全維度知識(shí)。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)、AI產(chǎn)品研發(fā)經(jīng)驗(yàn)、團(tuán)隊(duì)管理經(jīng)驗(yàn),同濟(jì)本復(fù)旦碩,復(fù)旦機(jī)器人智能實(shí)驗(yàn)室成員,阿里云認(rèn)證的資深架構(gòu)師,項(xiàng)目管理專業(yè)人士,上億營(yíng)收AI產(chǎn)品研發(fā)負(fù)責(zé)人。

到了這里,關(guān)于Azure - 機(jī)器學(xué)習(xí):使用 Apache Spark 進(jìn)行交互式數(shù)據(jù)整理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 使用Gradio庫(kù)進(jìn)行交互式數(shù)據(jù)可視化:Timeseries模塊介紹

    使用Gradio庫(kù)進(jìn)行交互式數(shù)據(jù)可視化:Timeseries模塊介紹

    ??覺(jué)得內(nèi)容不錯(cuò)的話,歡迎點(diǎn)贊收藏加關(guān)注??????,后續(xù)會(huì)繼續(xù)輸入更多優(yōu)質(zhì)內(nèi)容?? ??有問(wèn)題歡迎大家加關(guān)注私戳或者評(píng)論(包括但不限于NLP算法相關(guān),linux學(xué)習(xí)相關(guān),讀研讀博相關(guān)......)?? 博主原文鏈接:https://www.yourmetaverse.cn/nlp/439/ (封面圖由文心一格生成) 在

    2024年02月13日
    瀏覽(28)
  • Azure 機(jī)器學(xué)習(xí) - 使用 ONNX 對(duì)來(lái)自 AutoML 的計(jì)算機(jī)視覺(jué)模型進(jìn)行預(yù)測(cè)

    Azure 機(jī)器學(xué)習(xí) - 使用 ONNX 對(duì)來(lái)自 AutoML 的計(jì)算機(jī)視覺(jué)模型進(jìn)行預(yù)測(cè)

    本文介紹如何使用 Open Neural Network Exchange (ONNX) 對(duì)從 Azure 機(jī)器學(xué)習(xí)中的自動(dòng)機(jī)器學(xué)習(xí) (AutoML) 生成的計(jì)算機(jī)視覺(jué)模型進(jìn)行預(yù)測(cè)。 關(guān)注TechLead,分享AI全維度知識(shí)。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)、AI產(chǎn)品研發(fā)經(jīng)驗(yàn)、團(tuán)隊(duì)管理經(jīng)驗(yàn),同濟(jì)本復(fù)旦碩,復(fù)旦機(jī)器人智能實(shí)驗(yàn)室成員,阿里云

    2024年02月05日
    瀏覽(15)
  • 【常用bsub指令介紹】使用bsub命令提交作業(yè)、開(kāi)啟交互式窗口,在集群服務(wù)器上用pdb進(jìn)行代碼調(diào)試

    【常用bsub指令介紹】使用bsub命令提交作業(yè)、開(kāi)啟交互式窗口,在集群服務(wù)器上用pdb進(jìn)行代碼調(diào)試

    在一個(gè)服務(wù)器集群中,有很多的人要使用,卻只有很少的GPU。LSF作業(yè)調(diào)度系統(tǒng)則是對(duì)每個(gè)用戶提交的作業(yè)和需要使用的GPU進(jìn)行調(diào)度。一般使用bsub命令來(lái)將待運(yùn)行的作業(yè)提交到集群上。 用bsub run.sh提交了作業(yè),一般是作業(yè)已經(jīng)可以成功跑起來(lái),提交了作業(yè)后直接等作業(yè)運(yùn)行結(jié)束

    2024年01月22日
    瀏覽(32)
  • 人機(jī)交互學(xué)習(xí)-6 交互式系統(tǒng)的設(shè)計(jì)

    人機(jī)交互學(xué)習(xí)-6 交互式系統(tǒng)的設(shè)計(jì)

    Allan Cooper建議不要過(guò)早地把重點(diǎn)放在小細(xì)節(jié)、小部件和精細(xì)的交互上會(huì)妨礙產(chǎn)品的設(shè)計(jì),應(yīng)先站在一個(gè)高層次上關(guān)注用戶界面和相關(guān)行為的整體結(jié)構(gòu) Allan Cooper提出的交互框架不僅 定義了高層次的屏幕布局 ,同時(shí)定義了 產(chǎn)品的工作流、行為和組織 。它包括了6個(gè)主要步驟:

    2024年02月09日
    瀏覽(20)
  • 人機(jī)交互學(xué)習(xí)-5 交互式系統(tǒng)的需求

    人機(jī)交互學(xué)習(xí)-5 交互式系統(tǒng)的需求

    關(guān)于目標(biāo)產(chǎn)品的一種陳述,它指定了產(chǎn)品應(yīng)做什么,或者應(yīng)如何工作 應(yīng)該是具體、明確和無(wú)歧義的 搜集數(shù)據(jù) 解釋數(shù)據(jù) 提取需求 注:了解 功能不同 智能冰箱:應(yīng)能夠提示黃油已用完 字處理器:系統(tǒng)應(yīng)支持多種格式 物理?xiàng)l件不同 移動(dòng)設(shè)備運(yùn)行的系統(tǒng)應(yīng)盡可能小,屏幕顯示限

    2024年02月09日
    瀏覽(27)
  • 使用Azure Data Factory REST API和HDInsight Spark進(jìn)行簡(jiǎn)化數(shù)據(jù)處理

    在這篇文章中,我們將探討如何利用Azure Data Factory和HDInsight Spark創(chuàng)建一個(gè)強(qiáng)大的數(shù)據(jù)處理管道。 在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的世界中,組織經(jīng)常面臨著高效可靠地處理和分析大量數(shù)據(jù)的挑戰(zhàn)。Azure Data Factory是一種基于云的數(shù)據(jù)集成服務(wù),結(jié)合HDInsight Spark,一種快速可擴(kuò)展的大數(shù)據(jù)處理框

    2024年02月10日
    瀏覽(38)
  • 數(shù)據(jù)采集 通過(guò)Apache Spark和Amazon SageMaker構(gòu)建機(jī)器學(xué)習(xí)管道;

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 隨著人們生活水平的提高,收集、整理、分析和處理海量數(shù)據(jù)已成為當(dāng)今社會(huì)所需的工具。而在云計(jì)算時(shí)代,數(shù)據(jù)的價(jià)值及其價(jià)值的獲取越來(lái)越重要。近年來(lái),Apache Spark和Amazon SageMaker的結(jié)合讓數(shù)據(jù)收集變得更加簡(jiǎn)單、高效、可靠,基于這些框

    2024年02月04日
    瀏覽(24)
  • TransformControls 是 Three.js 中的一個(gè)類,用于在網(wǎng)頁(yè)中進(jìn)行 3D 場(chǎng)景中物體的交互式操作。

    TransformControls 是 Three.js 中的一個(gè)類,用于在網(wǎng)頁(yè)中進(jìn)行 3D 場(chǎng)景中物體的交互式操作。

    demo案例 TransformControls 是 Three.js 中的一個(gè)類,用于在網(wǎng)頁(yè)中進(jìn)行 3D 場(chǎng)景中物體的交互式操作。讓我們來(lái)詳細(xì)講解它的輸入?yún)?shù)、輸出、屬性和方法: 輸入?yún)?shù): TransformControls 構(gòu)造函數(shù)通常接受兩個(gè)參數(shù): camera (THREE.Camera):用于渲染場(chǎng)景的攝像機(jī)。這個(gè)參數(shù)是必需的。

    2024年04月15日
    瀏覽(93)
  • 零知識(shí)證明學(xué)習(xí)(三)—— 非交互式零知識(shí)證明(zkSNARKs)

    本節(jié)主要介紹一種新的零知識(shí)證明- z k S N A R K zkSNARK z k S N A R K , z k S N A R K : z e r o ? k n o w l e d g e S u c c i n c t N o n ? I n t e r a c t i v e A r g u m e n t s o f K n o w l e d g e zkSNARK:zero-knowledge Succinct Non-Interactive Arguments of Knowledge z k S N A R K : z e r o ? k n o w l e d g e S u c c i n c t

    2024年01月20日
    瀏覽(30)
  • 用 ChatGPT 嘗試 JavaScript 交互式學(xué)習(xí)體驗(yàn),有用但不完美

    用 ChatGPT 嘗試 JavaScript 交互式學(xué)習(xí)體驗(yàn),有用但不完美

    很好,但還不能取代專家導(dǎo)師,有時(shí)還會(huì)犯錯(cuò)! ChatGPT 教小狗編程( Midjourney 創(chuàng)作) GPT-4剛剛發(fā)布,相較于GPT-3.5,它有顯著的增強(qiáng)功能。其中之一是它在更長(zhǎng)時(shí)間的交互和更大的提示下,能夠更好地保持連貫性。 多年來(lái),我一直致力于建立前端教學(xué)網(wǎng)站,為JavaScript開(kāi)發(fā)人員

    2024年02月02日
    瀏覽(25)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包