L'Alliance de l'Analytique et de la Fédération de Données : L'Interaction entre SAS 9 et Starburst

Cet article en deux mots :

Pourquoi choisir entre la puissance statistique historique et l'agilité du Cloud ? Dans ce "buddy movie" de la donnée, SAS 9 (le vétéran de l'analyse) fait équipe avec Starburst (l'expert de la fédération SQL).

Imaginez l'affiche avec des explosions en fond et cette fameuse accroche : "L'un est un vétéran qui aime les choses carrées. L'autre est une tête brûlée qui se moque des frontières. Ils n'ont rien en commun, mais pour résoudre cette enquête, ils vont devoir faire équipe."

Dans le rôle de Roger Murtaugh (L'Arme Fatale) : SAS 9. C'est le flic légendaire et respecté du commissariat de la Data. Il maîtrise les enquêtes les plus complexes, de la modélisation statistique au machine learning. Mais voilà, le paysage criminel a changé. Aujourd'hui, les indices (les données) ne sont plus sagement rangés dans un seul entrepôt. Ils sont éparpillés dans les bas-fonds de la ville : un bout dans Hadoop, un autre planqué dans un coffre Oracle, et le reste volatilisé dans le Cloud public. Notre vétéran perd un temps fou à remplir de la paperasse et à conduire des camions d'un bout à l'autre de la ville pour tout ramener au labo (les fameux pipelines ETL). Son état d'esprit du moment ? "Je suis trop vieux pour ces conneries d'extraction de données."

C'est là qu'entre en scène le petit nouveau, dans le rôle de Martin Riggs : StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier.. Agile, rapide, massivement parallèle. Lui, il se fiche des juridictions (les silos de donnéesSegments de données stockés dans des infrastructures hétérogènes (bases de données distinctes, clouds différents, serveurs on-premise) qui ne communiquent pas entre eux, forçant souvent des processus d'extraction (ETL) complexes pour les réunir.). Il ne s'embête pas à déplacer les suspects : il s'infiltre n'importe où, interroge les données directement sur leur terrain avec une simple phrase en SQL, et ramène l'information exacte en un temps record.

Sur le papier, ils n'étaient pas faits pour s'entendre. Mais sur le terrain, c'est le duo ultime. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. s'occupe de défoncer les portes des silos et de rapatrier les indices à la volée, pendant que SAS 9 reste concentré sur ce qu'il fait de mieux : résoudre l'affaire avec une précision redoutable.

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier., c'est l'Arme Fatale de l'analytique moderne. Voici comment ce duo de choc fonctionne sous le capot.

Comment fonctionne l'interaction technique ?

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. repose sur la capacité de SAS à déléguer l'accès aux données via des connecteurs standardisés. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. agit ici comme une couche d'abstraction ou un "hub" de données pour SAS.

Voici les éléments clés de cette architecture :

Les avantages de cette intégration

Associer l'analytique de SAS 9 à la fédération de StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. transforme la manière dont les Data Scientists et les analystes travaillent :

A. Réduction drastique de l'ETL (Extract, Transform, Load)

Historiquement, pour analyser des données externes dans SAS 9, il fallait concevoir des pipelines ETL lourds pour copier physiquement les données dans le format propriétaire SAS (.sas7bdat). StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. élimine ce besoin. Les données restent là où elles sont (Amazon S3, Hadoop, PostgreSQL, Snowflake, etc.), et SAS les interroge à la volée.

B. Accès instantané au Data Mesh

StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. connecte SAS 9 à un écosystème moderne de données. Si votre entreprise adopte une approche "Data Mesh" ou "Data Lakehouse", SAS 9 n'est pas laissé pour compte. StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. agit comme un traducteur universel, permettant à un programme SAS d'effectuer une jointure entre une table client sur Oracle et des logs de navigation stockés sur un stockage objet (S3) en une seule requête.

C. Performance et optimisation des coûts

SAS 9 peut parfois saturer ses propres serveurs de calcul si les volumes de données en entrée sont trop massifs. En déléguant le traitement des grosses jointures et agrégations à StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. (qui est conçu pour la haute performance distribuée en mémoire), on libère les ressources de calcul de SAS pour ce qu'il fait de mieux : les statistiques complexes et le scoring de modèles.

Cas d'usage typique

Contexte : Une banque utilise SAS 9 pour calculer le score de risque de ses clients. Les données transactionnelles historiques sont stockées dans un cluster Hadoop (HDFS), tandis que les données CRM en temps réel sont dans une base de données opérationnelle PostgreSQL.

Sans StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. : L'équipe Data de la banque doit créer des processus nocturnes complexes pour extraire les données d'Hadoop et de PostgreSQL, les charger sur le serveur SAS, puis effectuer les jointures dans SAS avant de pouvoir lancer les modèles de scoring.

Avec StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. : L'analyste SAS écrit simplement :

1
2
3
4
5
6
7
8
9
LIBNAME sb_data odbc noprompt="Driver={Starburst ODBC Driver};Host=starburst-server;Port=443;Catalog=system;";

PROC SQL;
CREATE TABLE work.scoring_data AS
SELECT a.client_id, a.historique_credit, b.statut_crm
FROM sb_data.hadoop.transactions a
INNER JOIN sb_data.postgresql.crm b
ON a.client_id = b.client_id;
QUIT;

StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. gère la complexité de la jointure entre les deux systèmes hétérogènes. L'analyste SAS obtient son dataset de travail instantanément et peut se concentrer sur son algorithme.

En résumé

L'interaction entre SAS 9 et StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier. permet de moderniser l'infrastructure analytique d'une entreprise sans avoir à réécrire les milliers de lignes de code SAS existantes. Elle offre le meilleur des deux mondes : la profondeur analytique de SAS et l'agilité moderne de la fédération de donnéesLa fédération de données est un processus logiciel qui crée une vue virtuelle et unifiée de données provenant de sources multiples et hétérogènes, sans nécessiter de déplacer ou de copier physiquement ces données. propre à StarburstStarburst est une plateforme d'analyse de données ultra-rapide basée sur Trino. Elle permet d'interroger vos données en temps réel, là où elles se trouvent, sans avoir à les déplacer ou à les copier..

Nicolas Housset

Passionné d'informatique, je suis Consultant et expert technique SAS VIYA, également co-fondateur de la société Flexcelite. Spécialisé dans les technologies SAS (Viya, 9.4) et les infrastructures associées (Linux, Hadoop, Azure), ce blog est mon espace pour partager mes mémos techniques et retours d'expérience.