Réflexion initiale
Le corpus est complexe, avec de multiples modalités liées aux plateformes et temporalités de re-publication et réactions.
Ma réflexion s’est naturellement tournée vers une base de données relationnelle. Voici une brève liste, non-exhaustive, des avantages :
- Structuration des données en tables, pour préserver la complexité de la situation sociale et linguistique observée.
- Contrôle de l’intégrité des données, et de la confidentialité.
- Les bases de données relationnelles sont exploitables par les machines (scripts ou LLMs), pour des analyses automatisées (TAL ou analyses de sentiment).
- Scalabilité pour gérer de grandes quantités de données, le modèle peut donc être réutilisé et amplifié avec de nouveaux cas, en cela, la base de données relationnelle permet de lutter contre la crise de la reproductibilité.
- Exploitation facile vers des outils d’analyse et de visualisation, pour une valorisation médiatique scientifique numérique accessible à tous.
La question de l’éthique de la donnée ne peut être ignorée ici encore. J’en profite donc pour ouvrir le tag#Éthique-données, car je sais par avance que ce sera central dans ma thèse et ma carrière ultérieure.
Valorisation data visualisation (Perplexity)
J'ai discuté avec Perplexity.ai pour explorer la valorisation, avec les compétences de développement web, sans les moyens pour lesquels j'ai l'habitude dans le numérique.
Préparation des données
Avant de passer à la visualisation, il est important de bien préparer votre base de données :
- Nettoyage des données : Vérifiez et corrigez les erreurs, les valeurs manquantes ou aberrantes.
- Structuration : Assurez-vous que votre schéma relationnel est optimisé et normalisé.
- Documentation : Créez un dictionnaire de données détaillant chaque table et champ.
Outils de visualisation gratuits
Plusieurs outils open source permettent de créer des visualisations à partir de bases de données relationnelles :
Metabase
Metabase est une solution complète qui permet de se connecter facilement à des bases de données SQL et de créer des tableaux de bord interactifs[^1]. Il offre une interface intuitive pour les non-techniciens.
Grafana
Très populaire pour les séries temporelles, Grafana peut aussi se connecter à des bases SQL classiques. Il excelle dans la création de tableaux de bord en temps réel[^1].
R avec Shiny
Pour les scientifiques, R couplé à Shiny permet de créer des applications web interactives directement à partir de vos analyses R. C’est très puissant pour l’exploration de données[^2].
Éthique de la données
Pour trouver les vraies bonnes pratiques en matière de data-visualisation, j’ai topé le Guide RGPD du CNRS.