Microsoft wprowadza programistę .NET do Apache Spark

Microsoft i .NET Foundation wydały wersję 1.0 platformy .NET dla Apache Spark, pakietu typu open source, który wprowadza programowanie .NET do silnika analitycznego Spark w celu przetwarzania danych na dużą skalę.

Ogłoszono 27 października, że ​​.NET dla Apache Spark 1.0 obsługuje aplikacje .NET przeznaczone dla .NET Standard 2.0 lub nowszego. Użytkownicy mogą uzyskiwać dostęp do interfejsów API Spark DataFrame, pisać Spark SQL i tworzyć funkcje zdefiniowane przez użytkownika UDF).

Platforma .NET for Apache Spark jest dostępna na stronie GitHub platformy .NET Foundation lub w witrynie NuGet. Inne możliwości platformy .NET dla Apache Spark 1.0 obejmują:

  • Struktura rozszerzeń interfejsu API umożliwiająca obsługę dodatkowych bibliotek Spark, w tym Linux Foundation Delta Lake, Microsoft OSS Hyperspace, ML.NET i Apache Spark MLlib.
  • .NET dla programów Apache Spark, które nie są UDF, wykazują taką samą szybkość jak aplikacje oparte na Scali i PySpark, które nie są oparte na UDF. Jeśli aplikacje zawierają UDF, programy .NET dla Apache Spark są co najmniej tak szybkie jak programy PySpark lub mogą być szybsze.
  • NET dla Apache Spark jest wbudowana w Azure Synapse i Azure HDInsight. Może być również używany w innych ofertach chmurowych Apache Spark, w tym Azure Databricks.

Pierwsza publiczna wersja projektu została ogłoszona w kwietniu 2019 r. Rozwój platformy .NET dla Apache Spark spowodował zwiększone zapotrzebowanie na łatwiejszy sposób tworzenia aplikacji Big Data zamiast nauki Scali czy Pythona. Projekt jest obsługiwany przez Fundację .NET i został złożony jako Propozycja Ulepszenia Projektu Spark w celu bezpośredniego uwzględnienia w projekcie Apache Spark.

Patrząc w przyszłość, firma Microsoft zajmuje się przeszkodami, w tym konfigurowaniem wymagań wstępnych i zależności oraz znajdowaniem wysokiej jakości dokumentacji, z przykładami, takimi jak udostępnione przez społeczność „gotowe do uruchomienia” obrazy platformy Docker i aktualizacje .NET dla dokumentacji Apache Spark. Innym priorytetem jest obsługa opcji wdrażania, w tym integracji z potokami CI / CD Devops i zadań publikowania bezpośrednio z programu Visual Studio.