Cette page n’a pas pour vocation d’être exhaustive : je vais simplement lister les outils qui me concerne ou pourraient me concerner.
Les outils que j'ai trouvé et que j'aimerais documenter :
- #vault SPARQL
- #vault Heursit - BDD
- #vault Clic and read - ext. navigateur l’Inist-CNRS
- #vault Reveal.JS - Diapo interactifs
- #vault OpenAIRE (repo)
- #vault Gargantext
- Figshare ?? Et il y a ce site qui en référence pas mal !
Collecte de données
Entretiens
Lorsque l’on interroge des enquêtés, dans une perspective#éthique-données , il faut maîtriser la chaîne de traitement. Voici un article de blog qui pose plusieurs questions à ce sujet.
”Rendez-vous” de RENATER
Pour faciliter ce travail, RENATER propose une instance cryptée de bout-en-bout de Jitsi, sur son outil “Rendez-vous”. Celle-ci est accessible gratuitement avec un compte institutionnel universitaire.
La chaîne de traitement des données s’arrête à qui se connecte, avec quel type d’appareil. Et aucune donnée personne identifiante n’est conservée à la suite de la réunion. Les enregistrements sont locaux (sur la machine). Idéal pour des réunions jusqu’à 4 personnes.
Bigbluebutton
À privilégier pour des réunions de plus de 4 personnes.
Tixeo
Très performant, OK RGPD, mais n’est pas gratuit. Voici un article de blog qui traite de la sécurité des données.
Transformation des données
Transcription
NoScribe
Téléchargement | Documentation | Formations |
---|---|---|
MacOS, Windows & Linux | / | Non-nécessaire, l’outil est facile à prendre en main. |
Traduction de la présentation sur Github : Un logiciel basé sur l’IA qui retranscrit des entretiens pour une recherche sociale qualitative ou une utilisation journalistique noScribe est gratuit et open source (GPL-3.0) Il fonctionne entièrement en local sur votre ordinateur. Aucune donnée n’est envoyée sur Internet. Pas de cloud, pas de soucis Il peut distinguer différents locuteurs et comprend 99 langues (plus ou moins, voir ci-dessous) Il comprend un éditeur sympa pour réviser, vérifier et corriger la transcription résultante Il se tient sur les épaules de géants : Whisper d’OpenAI, faster-whisper de Guillaume Klein et pyannote d’Hervé Bredin.
Pourquoi utiliser noScribe ?
La plupart des doctorants recommandent d’utiliser la transcription de Microsoft office word. Cependant cette transcription envoie l’audio vers un serveur de Microsoft pour renvoyer sur l’ordinateur la transcription. Cette façon de faire ne permet pas de garantir la confidentialité des données de l’entretien. noScribe permet de garder la main sur les données, aucun serveur n’est sollicité, et il fonctionne très bien sans connexion. Attention en revanche, c’est gourmand en ressources ! De plus, contrairement à d’autres logiciels, noScribe permet une segmentation (ça facilite l’écoute-correction) et une identification des interlocuteur. L’export est en HTML, directement éditable dans l’interface.
Alternative si on ne possède pas d’ordinateur assez puissant : Les dossiers de transcription de Huma-num.fr, qui embarquent Whisper en tout confidentialité. Pensez simplement à citer Huma-num.fr comme tiers pour le traitement des données.
Traitement de données
Datavisualisation
Palette couleur daltoniens ColorBrewer
Gephi
Téléchargement | Documentation | Formations |
---|---|---|
MacOS, Windows & Linux | / | Régulières dans le réseau URFIST Base tutorielle |
Gephi est un logiciel de visualisation et d’analyse de données en réseau, développé par l’Institut des Systèmes Complexes de Paris (ISC-PIF). Il est conçu pour aider les chercheurs et les professionnels à comprendre et à analyser les structures et les dynamiques de réseaux complexes.
Présentation par Llama
Fonctionnalités de Gephi Gephi offre une large gamme de fonctionnalités pour la visualisation et l’analyse de données en réseau, notamment :
- Importation de données à partir de fichiers CSV, Excel, GEXF, etc.
- Visualisation de réseaux en 2D et 3D
- Analyse de la structure du réseau (densité, centralité, clustering, etc.)
- Détection de communautés et de clusters
- Analyse de la dynamique du réseau (évolution des liens, etc.)
- Intégration avec d’autres outils de visualisation et d’analyse de données
Usages scientifiques de Gephi
Gephi est utilisé dans de nombreux domaines scientifiques pour analyser et visualiser des données en réseau, notamment :
- Sociologie et sciences politiques : analyse des réseaux sociaux, des relations entre les individus et les groupes, des dynamiques de pouvoir et d’influence.
- Biologie et médecine : analyse des réseaux de régulation génétique, des interactions entre les protéines, des réseaux de transmission des maladies.
- Informatique et intelligence artificielle : analyse des réseaux de communication, des réseaux sociaux en ligne, des réseaux de neurones artificiels.
- Économie et finance : analyse des réseaux de transactions financières, des réseaux de commerce international, des réseaux de propriété et de contrôle.
- Géographie et urbanisme : analyse des réseaux de transport, des réseaux d’infrastructure urbaine, des réseaux de migration et de mobilité.
Exemples d’applications de Gephi
- Analyse des réseaux de collaboration scientifique pour comprendre la diffusion des idées et des connaissances.
- Visualisation des réseaux de communication pour comprendre la propagation des informations et des rumeurs.
- Analyse des réseaux de régulation génétique pour comprendre les mécanismes de la maladie et du développement.
- Étude des réseaux de commerce international pour comprendre les flux de biens et de services.
En résumé, Gephi est un outil puissant pour la visualisation et l’analyse de données en réseau, qui peut être utilisé dans de nombreux domaines scientifiques pour comprendre et analyser les structures et les dynamiques de réseaux complexes.
Plugins Gephi utiles :
- Plugin export HTML : web publish gephi
Hyphe
Téléchargement | Documentation | Formations |
---|---|---|
Linux | Installation | Support de formation URFIST Rennes 2 Base tutorielle |
Hyphe nous a été recommandé pour les mêmes applications, à des corpus plus grands. Ils ont une démo ouverte.
Présentation par Llama
Présentation de Hyphe Hyphe est un logiciel de web scraping et d’analyse de données en réseau, développé par l’équipe de recherche en sciences sociales de l’Université de Paris. Il est conçu pour aider les chercheurs et les professionnels à collecter et à analyser des données en ligne, notamment des données de réseaux sociaux et de web.
Fonctionnalités de Hyphe
Hyphe offre une large gamme de fonctionnalités pour la collecte et l’analyse de données en ligne, notamment :
- Collecte de données à partir de sites web et de réseaux sociaux
- Analyse de la structure et de la dynamique des réseaux en ligne
- Détection de communautés et de clusters
- Analyse de la propagation des informations et des idées en ligne
- Intégration avec d’autres outils de visualisation et d’analyse de données
Usages scientifiques de Hyphe
Hyphe est utilisé dans de nombreux domaines scientifiques pour collecter et analyser des données en ligne, notamment :
- Sociologie et sciences politiques : analyse des réseaux sociaux en ligne, des dynamiques de la communication en ligne, des mouvements sociaux et des campagnes politiques en ligne.
- Informatique et intelligence artificielle : analyse des réseaux de communication en ligne, des réseaux de neurones artificiels, des algorithmes de recommandation en ligne.
- Économie et finance : analyse des réseaux de commerce en ligne, des réseaux de finance et de banque en ligne, des marchés en ligne.
- Géographie et urbanisme : analyse des réseaux de transport en ligne, des réseaux d’infrastructure urbaine en ligne, des réseaux de migration et de mobilité en ligne.
Exemples d’applications de Hyphe
- Analyse des réseaux de communication en ligne pour comprendre la propagation des informations et des rumeurs pendant les crises.
- Collecte de données sur les réseaux sociaux pour comprendre les dynamiques de la communication en ligne et les mouvements sociaux.
- Étude des réseaux de commerce en ligne pour comprendre les flux de biens et de services et les marchés en ligne.
- Analyse des réseaux de finance et de banque en ligne pour comprendre les risques et les opportunités de la finance en ligne.
Avantages de Hyphe
- Collecte de données en temps réel et en grande quantité
- Analyse de la structure et de la dynamique des réseaux en ligne
- Intégration avec d’autres outils de visualisation et d’analyse de données
- Utilisation facile et intuitive pour les chercheurs et les professionnels non spécialistes en informatique.
En résumé, Hyphe est un outil puissant pour la collecte et l’analyse de données en ligne, qui peut être utilisé dans de nombreux domaines scientifiques pour comprendre et analyser les structures et les dynamiques de réseaux en ligne.
Iramuteq
Téléchargement | Documentation | Formations |
---|---|---|
MacOS Big Sur & Linux | Officielle | Régulières dans le réseau URFIST |
Iramuteq est un logiciel de traitement et d’analyse de données textuelles, développé par l’équipe de recherche en sciences sociales de l’Université de Paris. Il est conçu pour aider les chercheurs et les professionnels à analyser et à comprendre les données textuelles, notamment les textes écrits et les discours.
Recommandé par L. Alidières et F. Perea dans le cadre du Master Humanités numériques.
Présentation par Llama
Fonctionnalités de Iramuteq
Iramuteq offre une large gamme de fonctionnalités pour le traitement et l’analyse de données textuelles, notamment :
- Importation de données textuelles à partir de fichiers de texte, de bases de données et de sites web
- Prétraitement des données textuelles (nettoyage, tokenisation, lemmatisation, etc.)
- Analyse de la fréquence et de la co-occurrence des mots et des phrases
- Analyse de la structure et de la dynamique des textes (analyse de la syntaxe, de la sémantique, etc.)
- Détection de thèmes et de concepts dans les textes
- Analyse de la sentiment et de l’émotion dans les textes
- Intégration avec d’autres outils de visualisation et d’analyse de données
Méthodes d’analyse de Iramuteq
Iramuteq propose plusieurs méthodes d’analyse de données textuelles, notamment :
- Analyse de la fréquence : analyse de la fréquence des mots et des phrases dans les textes
- Analyse de la co-occurrence : analyse de la co-occurrence des mots et des phrases dans les textes
- Analyse de la structure : analyse de la structure des textes (analyse de la syntaxe, de la sémantique, etc.)
- Analyse de la dynamique : analyse de la dynamique des textes (analyse de la progression des idées, des thèmes, etc.)
- Analyse de la sentiment : analyse de la sentiment et de l’émotion dans les textes
Usages scientifiques de Iramuteq
Iramuteq est utilisé dans de nombreux domaines scientifiques pour analyser et comprendre les données textuelles, notamment :
- Sociologie et sciences politiques : analyse des discours politiques, des textes de loi, des documents administratifs, etc.
- Linguistique : analyse des textes littéraires, des discours, des conversations, etc.
- Psychologie : analyse des textes de patients, des discours thérapeutiques, etc.
- Économie et finance : analyse des textes de rapports financiers, des discours de dirigeants d’entreprise, etc.
Avantages de Iramuteq
- Traitement et analyse de grandes quantités de données textuelles
- Utilisation de méthodes d’analyse avancées (analyse de la fréquence, de la co-occurrence, de la structure, etc.)
- Intégration avec d’autres outils de visualisation et d’analyse de données
- Utilisation facile et intuitive pour les chercheurs et les professionnels non spécialistes en informatique.
En résumé, Iramuteq est un outil puissant pour le traitement et l’analyse de données textuelles, qui peut être utilisé dans de nombreux domaines scientifiques pour comprendre et analyser les données textuelles.
Nettoyage de données
OpenRefine
Téléchargement | Documentation | Formations |
---|---|---|
MacOS, Windows & Linux | Officielle | Base communautaire Tutoriel canal-u |
OpenRefine est un outil de traitement et de nettoyage de données, conçu pour aider les utilisateurs à préparer et à transformer leurs données pour une analyse ou une visualisation ultérieure. Il est développé par l’équipe de Google et est maintenant maintenu par la communauté OpenRefine.
Présentation de Llama
Fonctionnalités de OpenRefine
OpenRefine offre une large gamme de fonctionnalités pour le traitement et le nettoyage de données, notamment :
- Importation de données : OpenRefine permet d’importer des données à partir de différents formats (CSV, Excel, JSON, etc.)
- Nettoyage de données : OpenRefine permet de nettoyer les données en supprimant les doublons, en remplaçant les valeurs manquantes, en corrigeant les erreurs de saisie, etc.
- Transformation de données : OpenRefine permet de transformer les données en réorganisant les colonnes, en fusionnant des colonnes, en divisant des colonnes, etc.
- Ajout de métadonnées : OpenRefine permet d’ajouter des métadonnées aux données, telles que des tags, des descriptions, etc.
- Exportation de données : OpenRefine permet d’exporter les données dans différents formats (CSV, Excel, JSON, etc.)
Méthodes de traitement de données
OpenRefine propose plusieurs méthodes de traitement de données, notamment :
- Traitement de données en masse : OpenRefine permet de traiter des données en masse en utilisant des opérations de traitement de données en bloc.
- Traitement de données en ligne : OpenRefine permet de traiter des données en ligne en utilisant des opérations de traitement de données en temps réel.
- Traitement de données en parallèle : OpenRefine permet de traiter des données en parallèle en utilisant des opérations de traitement de données en parallèle.
Avantages de OpenRefine
- Facilité d’utilisation : OpenRefine est facile à utiliser, même pour les utilisateurs non spécialistes en traitement de données.
- Flexibilité : OpenRefine permet de traiter des données dans différents formats et de les exporter dans différents formats.
- Efficacité : OpenRefine permet de traiter des données en masse et en temps réel, ce qui en fait un outil très efficace pour le traitement de données.
- Communauté active : OpenRefine a une communauté active de développeurs et d’utilisateurs qui contribuent à son développement et à son amélioration.
Domaines d’application de OpenRefine
OpenRefine peut être utilisé dans de nombreux domaines, notamment :
- Recherche scientifique : OpenRefine peut être utilisé pour traiter et analyser des données scientifiques.
- Entreprise : OpenRefine peut être utilisé pour traiter et analyser des données d’entreprise.
- Éducation : OpenRefine peut être utilisé pour enseigner les concepts de traitement de données et d’analyse de données.
- Journalisme : OpenRefine peut être utilisé pour traiter et analyser des données journalistiques.
En résumé, OpenRefine est un outil de traitement et de nettoyage de données qui peut être utilisé pour préparer et transformer les données pour une analyse ou une visualisation ultérieure. Il est facile à utiliser, flexible et efficace, et peut être utilisé dans de nombreux domaines.
Data Research Management
QUARTO
Téléchargement | Documentation | Formations |
---|---|---|
MacOS, Windows & Linux | Officielle - Base templates univ | Régulières dans le réseau URFIST |
QUARTO est un outil de gestion de données et de métadonnées conçu pour les chercheurs et les institutions de recherche. Il permet de gérer et de partager des données de recherche de manière efficace et efficiente, tout en garantissant leur qualité et leur sécurité.
Présentation de Llama
Fonctionnalités de QUARTO
QUARTO offre une large gamme de fonctionnalités pour la gestion de données et de métadonnées, notamment :
- Gestion de données : QUARTO permet de gérer des données de recherche de tous types, y compris des données numériques, des données textuelles et des données multimédias.
- Métadonnées : QUARTO permet de créer et de gérer des métadonnées pour les données de recherche, ce qui facilite leur recherche, leur partage et leur réutilisation.
- Référentiel de données : QUARTO permet de créer un référentiel de données pour les institutions de recherche, ce qui facilite la gestion et le partage de données de recherche.
- Partage de données : QUARTO permet de partager des données de recherche de manière sécurisée et contrôlée, ce qui facilite la collaboration et la réutilisation de données.
Avantages de QUARTO
- Gestion efficace des données : QUARTO permet de gérer des données de recherche de manière efficace et efficiente, ce qui réduit les coûts et les temps de gestion.
- Qualité et sécurité des données : QUARTO garantit la qualité et la sécurité des données de recherche, ce qui est essentiel pour les chercheurs et les institutions de recherche.
- Partage de données : QUARTO permet de partager des données de recherche de manière sécurisée et contrôlée, ce qui facilite la collaboration et la réutilisation de données.
- Flexibilité : QUARTO est flexible et peut être adapté aux besoins spécifiques des chercheurs et des institutions de recherche.
Domaines d’application de QUARTO
QUARTO peut être utilisé dans de nombreux domaines, notamment :
- Recherche scientifique : QUARTO peut être utilisé pour gérer et partager des données de recherche scientifique.
- Institutions de recherche : QUARTO peut être utilisé pour gérer et partager des données de recherche institutionnelles.
- Éducation : QUARTO peut être utilisé pour enseigner les concepts de gestion de données et de métadonnées.
- Industrie : QUARTO peut être utilisé pour gérer et partager des données de recherche industrielles.
En résumé, QUARTO est un outil de gestion de données et de métadonnées qui permet de gérer et de partager des données de recherche de manière efficace et efficiente, tout en garantissant leur qualité et leur sécurité.
Tropy
Gestionnaire de corpus d’images.
Téléchargement | Documentation | Formations |
---|---|---|
MacOS, Windows & Linux | Officielle | Blog |
Un outil de gestion d’images conçu spécifiquement pour les chercheurs et les historiens. Il permet de cataloguer, d’organiser et d’analyser des collections d’images, notamment des photographies et des diapositives. |
Tropy offre plusieurs fonctionnalités intéressantes, telles que :
- La création de métadonnées pour les images, comme des descriptions, des dates et des lieux
- La possibilité de créer des collections et des dossiers pour organiser les images
- Des outils d’analyse et de recherche pour trouver des images spécifiques
- La possibilité d’exporter les métadonnées et les images vers d’autres outils, comme Obsidian, Omeka, etc
Aperçu de leur site
Une iframe vaut 1000 mots…