Cet article explore une question pratique mais profondément politique : quels outils dois-je, chercheuse en sciences humaines, choisir pour accompagner mon travail intellectuel, et pourquoi. Spoiler : ça implique de parler sous-sol, éthique, et autonomie.

Introduction

L’irruption des modèles de langage (LLM) dans nos pratiques de recherche en sciences humaines et sociales ne constitue pas un simple changement technique. Pas du tout. Elle engage des choix de fond qui touchent à l’éthique, à la souveraineté technologique, à l’économie de la recherche et à la nature même de l’activité intellectuelle. Face à un paysage où se multiplient les fournisseurs de services d’intelligence artificielle (OpenAI, Anthropic, Google, Meta, Mistral, et plus récemment Apple avec son modèle embarqué comme j’ai pu l’explorer ailleurs), la question n’est plus si ces outils seront mobilisés, mais comment les articuler aux exigences de la recherche académique.

C’est dans ce contexte que je situe ma réflexion sur l’usage de CCR (Claude Code Router), un routeur de modèles open source, couplé avec Apple Intelligence — le modèle d’IA intégré nativement aux appareils Apple récents —, pour un usage académique. J’interroge ici trois dimensions qui me semblent centrales : les coûts, la confidentialité des données, et la possibilité de travailler hors ligne. Ces trois axes ne sont pas anecdotiques : ils engagent directement les principes de la science ouverte, la protection des participantes et participants dans des contextes sensibles (recherche carcérale, santé mentale), et la continuité du travail de recherche.

Ma démarche s’inscrit dans une tradition des Humanités Numériques qui refuse de considérer les outils comme des boîtes noires neutres. Pour moi, choisir un outil, c’est aussi choisir un cadre théorique, un rapport au terrain et un positionnement éthique (Cocq, 2019). Et accessoirement, c’est assumer ma double casquette : ingénieure HNs ET baby chercheuse, ce qui me permet (je l’espère) d’articuler pratique et théorie sans trop me noyer dans les abstractions.

En toute transparence, je teste actuellement cette configuration sur mon propre setup de recherche. Cet article est donc un retour d'expérience en cours de construction, avec ses certitudes et ses zones d'ombre. Et mes doutes, aussi.

Contexte : CCR et le routage de modèles

Qu’est-ce que CCR ?

Claude Code Router (CCR) est un outil open source développé par Musi Studio qui permet de router les requêtes vers différents modèles de langage via une interface unifiée. Installé localement dans un environnement Conda1, il agit comme un intermédiaire entre moi et les divers fournisseurs de modèles (OpenRouter, OpenAI, Anthropic, Google, etc.). Sa configuration se fait via un fichier JSON ou une interface web, et il offre la possibilité de basculer dynamiquement d’un modèle à l’autre sans modifier l’environnement de travail.

Important

CCR ne crée pas de données ni ne les stocke en dehors de votre machine. Il s’agit d’un simple routeur de requêtes, comparable à un commutateur réseau : il dirige le trafic sans en conserver le contenu. Cela le distingue profondément des plateformes cloud qui traitent et conservent les données sur leurs serveurs.

Le routage comme pratique épistémologique

Au-delà de son utilité pratique (indéniable, soyons honnête), le routage de modèles mérite d’être pensé comme une pratique épistémologique. Il introduit une distance critique entre la chercheuse et le modèle : en rendant visible l’arbitrage entre fournisseurs, CCR fait de la diversité des modèles un objet de choix conscient plutôt qu’une contrainte subie. Cette posture n’est pas anodine dans une discipline comme les Humanités Numériques, où la réflexivité sur les outils est constitutive de la démarche scientifique (Berry, 2008).

C'est le moment où je me reconnais vraiment dans ma posture de "slasheuse" : ingénieure HNs qui bricole ses outils, tout en étant doctorante qui théorise ses pratiques. Parce qu'au fond, bricolage et théorie, c'est un peu ma devise.

Le cas Apple Intelligence

Apple Intelligence, disponible depuis mi-2025 sur les appareils Apple équipés de puces M-series, représente un changement de paradigme significatif : le modèle de langage tourne localement sur la machine de l’utilisateur. Contrairement aux services cloud, aucune donnée n’est envoyée à un serveur externe. Le traitement s’effectue sur la puce neuronale de l’appareil.

Cette configuration locale n’est pas sans rappeler les débats des Humanités Numériques sur l’informatique souveraine et les communs numériquescomme j’ai eu l’occasion d’y réfléchir. Elle offre la possibilité d’un usage académique véritablement maîtrisé, où la chercheuse conserve la maîtrise complète de son environnement de travail. Et ça, c’est précieux.

Analyse des coûts : comparaison cloud vs. local

Le coût des API cloud

L’usage des modèles de langage via des fournisseurs cloud implique un coût variable basé sur la consommation de tokens. À titre indicatif, les tarifs des principaux fournisseurs sont les suivants (prix 2025-2026) :

FournisseurModèleTarif entréeTarif haut de gamme
AnthropicClaude Sonnet~3 $/M tokens input~15 $/M tokens
OpenAIGPT-4o~2.50 $/M tokens input~10 $/M tokens
OpenRouter (agrégateur)VariableGratuit à ~50 $/M tokensVariable
GoogleGemini ProGratuit (quota)~3.50 $/M tokens
Apple Intelligencemodèle local0 $0 $ (inclus)

Pour une utilisatrice ou un utilisateur doctoral en sciences humaines effectuant un usage régulier — rédaction, relecture, analyse de corpus, génération d’hypothèses —, la consommation mensuelle peut varier de 500 000 à 2 millions de tokens, soit entre 5 et 30 euros par mois via un agrégateur comme OpenRouter. Ce coût, sans être prohibitif, s’inscrit dans la durée : sur deux à trois ans de thèse, il représente un investissement significatif pour une doctorante ou un doctorant non salarié·e ou en contrat précaire. Et on sait combien les contrats doctoraux sont… comment dire… optimistes sur la question financière.

Apple Intelligence, en revanche, est inclus dans le coût d’acquisition de l’appareil. Une fois l’équipement choisi, l’usage du modèle est illimité et gratuit. Il n’y a ni compteur de tokens, ni abonnement, ni dépendance à un fournisseur.

Je me permets d'insister sur ce point parce que, soyons honnête, quand on est en thèse, chaque euro compte. Vraiment.

Coût total de possession : une analyse différente

Il serait toutefois malhonnête de présenter Apple Intelligence comme « gratuit » sans nuance. Le coût d’acquisition d’un MacBook Air ou Pro avec puce M-series représente un investissement initial plus élevé que la solution cloud. C’est indéniable. Cependant, dans le cas d’une doctorante ou d’un doctorant amené·e à acquérir un ordinateur performant pour son travail (traitement de données qualitatives, encodage NoScribe, analyse de réseaux Gephi, etc.comme je l’ai documenté ailleurs), le surcoût pour bénéficier d’Apple Intelligence est marginal.

Important

L’argument économique en faveur d’Apple Intelligence prend toute sa force lorsque l’on considère que le traitement local ne génère aucun coût marginal. Chaque requête, chaque analyse, chaque session de travail a un coût égal à zéro. Pour des projets de longue durée comme une thèse ou une habilitation, cette caractéristique transforme radicalement le rapport budgétaire aux outils d’IA. Et sur 3 ans, ça fait une différence.

Le coût caché de la dépendance aux API

Au-delà des coûts directs, il existe un coût institutionnel à dépendre d’API cloud pour la recherche. Les changements de tarification, les ruptures de service, les restrictions géographiques (certains modèles ne sont pas disponibles dans tous les pays) et les décisions unilatérales des fournisseurs créent une vulnérabilité structurelle. Le routage via CCR atténue ce risque en offrant une portabilité entre fournisseurs, mais il ne l’élimine pas tant que la totalité des modèles restent cloud. Apple Intelligence, en revanche, échappe à cette vulnérabilité par sa nature locale. Et ça, c’est un vrai plus.

Confidentialité et éthique des données

La donnée de recherche : un bien sensible

La question de la confidentialité n’est pas accessoire en recherche ; elle est constitutive de l’éthique de la recherche. Les données que je manipule dans le cadre de mes travaux — entretiens, observations ethnographiques, analyses de discours, corpus textuels — relèvent souvent du régime des données personnelles au sens du Règlement Général sur la Protection des Données (RGPD, Règlement (UE) 2016/679). Leur traitement implique des obligations légales : finalité délimitée, durée de conservation limitée, sécurité du traitement, droit des personnes concernées.

Lorsque ces données sont envoyées à une API cloud, elles traversent des réseaux dont le parcours n’est pas nécessairement maîtrisé. Les serveurs peuvent être localisés hors de l’Union Européenne, et les conditions d’utilisation des fournisseurs réservent souvent le droit d’analyser les données reçues pour l’amélioration de leurs modèles. Même lorsque des clauses de non-rétention sont invoquées, la confiance en un tiers reste une forme de fragilité épistémologique et juridique. Et moi, j’ai du mal à déléguer ma responsabilité éthique à une politique de confidentialité que je n’ai pas négociée.

En fait, plus j'avance dans ma thèse, plus je realisedelicate la question de la confidentialité. Notamment parce que mes recherches m'amènent à traiter avec des publics vulnérables.

Le contexte carcéral : un cas d’école

Pensons à la recherche en milieu carcéral. Les données collectées dans ce contexte — entretiens avec des personnes détenues, observations de personnel pénitentiaire, analyses de documents administratifs — sont particulièrement sensibles. Comme nous l’avons détaillé par ailleurs, les protocoles de confidentialité doivent y être d’une rigueur exceptionnelle, les identités des détenu·e·s et des prestataires informatiques devant être strictement séparées dans ma démarche cyberethnographique.

Important

Envoyer des données de recherche carcérale à une API cloud, c’est prendre le risque — même faible — qu’une donnée personnalisée concernant une personne en situation de vulnérabilité extrême soit traitée sur un serveur sur lequel on n’a aucun contrôle, potentiellement localisé dans une juridiction offrant une protection juridique moindre que le RGPD. Et ça, c’est inacceptable éthiquement.

Dans ce contexte, le traitement local via Apple Intelligence n’est pas un simple confort technique : c’est une exigence éthique. Aucune donnée ne quitte l’appareil de la chercheuse. Le risque de fuite, de réidentification ou d’exploitation externe est réduit au strict minimum technique lié à la sécurité de l’appareil lui-même — une maîtrise que la chercheuse peut directement exercer (chiffrement FileVault, mot de passe robuste, etc.). Et pour une fois, on n’a pas à choisir entre éthique et praticité.

Santé mentale et recherche éthique

La question se pose avec la même acuité pour la recherche en santé mentale. Les discours de jeunes internautes sur la santé psychique, les témoignages de souffrance psychologique, les descriptions de parcours de soin — toutes ces données relèvent du secret médical et de l’intimité. Les travaux de cyberethnographie en santé mentale que je mène impliquent une immersion dans des communautés en ligne où des personnes vulnérables partagent des récits personnels comme j’ai commencé à l’explorer.

Traiter ces données localement, c’est respecter le principe de non-malfaisance qui structure l’éthique de la recherche : ne pas exposer les participant·e·s à des risques supplémentaires du fait du traitement de leurs données. Cela rejoint également le principe CARE (Collective benefit, Authority to control, Responsibility, Ethics), initialement formulé pour les données autochtones mais transposable à tout contexte de recherche impliqué, qui insiste sur le droit des communautés à contrôler leurs propres données voir la formation DoraNum sur le sujet.

Science ouverte et confidentialité : une tension productive

Il serait tentant d’opposer science ouverte et confidentialité. En apparence. En réalité, les deux sont complémentaires. La science ouverte exige que les données soient partageables quand elles le peuvent, mais elle n’impose jamais de compromettre la protection des participant·e·s. Le traitement local via Apple Intelligence permet à la chercheuse de travailler sur des données sensibles pendant toute la phase d’analyse, puis de ne publier que les résultats anonymisés et agrégés — ce qui est précisément la bonne pratique.

Au fond, science ouverte et éthique, c'est comme jardin numérique et structure : faut trouver l'équilibre. Et parfois, cet équilibre passe par des choix techniques qui semblent anodins mais sont profondément politiques.

Travail hors ligne et mobilité

La fiction de la connexion permanente

Il est commode d’imaginer que la recherche contemporaine se déroule dans des bureaux équipés d’une connexion internet stable et haut débit. Haha. La réalité est différente : la recherche de terrain implique des déplacements, des terrains éloignés des centres urbains, des participations à des conférences dans des lieux mal couverts, des pannes de réseau fréquentes. La dépendance au cloud pour les outils d’IA rend le travail vulnérable à ces contingences.

Apple Intelligence, fonctionnant localement, offre une continuité de travail indépendante de la connexion. Que la chercheuse soit dans un train régional mal couvert, dans un établissement pénitentiaire où l’accès internet est restreint par nature, ou simplement en mobilité lors d’un travail de terrain prolongé, l’outil reste disponible. Et croyez-moi, quand l’inspiration arrive dans le TGV Toulouse-Paris (où le wifi marche… quand il veut), c’est précieux.

Le cycle de pensée ininterrompu

Au-delà de la simple disponibilité technique, c’est le cycle de pensée lui-même qui bénéficie de cette indépendance. Le travail intellectuel n’obéit pas à un horaire de bureau : les idées surgissent en dehors des heures de travail, lors d’une promenade, d’un trajet, d’une relecture nocturne. Pouvoir solliciter l’IA pour une reformulation, un contre-argument, une suggestion de structure sans dépendre d’une connexion, c’est préserver la fluidité du processus créatif.

Hint

CCR peut être configuré pour utiliser en priorité Apple Intelligence comme modèle local par défaut, tout en gardant les modèles cloud comme solution de repli lorsque la connexion est disponible et que des capacités supérieures sont nécessaires (analyse de corpus massifs, génération de code complexe pour Gephi ou Iramuteq). Cette hybridation représente le meilleur des deux mondes. En plus, c’est ça la vraie souveraineté technologique : choisir quel outil utiliser quand.

Mobilité et recherche qualitative

La cyberethnographie elle-même — méthode centrale de mon travail comme dans le projet LIIPPS — implique une immersion dans des communautés en ligne qui nécessite souvent une attention soutenue et des sessions de travail prolongées. Pouvoir préparer ses guides d’entretien, structurer ses observations, annoter ses transcriptions hors ligne, puis synchroniser avec des outils d’analyse en ligne (NoScribe pour le codage, Gephi pour les réseaux sémantiques), constitue un workflow hybride qui maximise l’efficacité tout en minimisant la dépendance.

En pratique, mon setup idéal : Apple Intelligence pour le quotidien (rédaction, brainstorming, relecture) + CCR qui route vers Claude ou GPT-4 quand j'ai besoin d'analyser un gros corpus. Le tout, synchronisé via mon vault Obsidian. Un petit bonheur de chercheuse.

Limites et perspectives

Les limites actuelles d’Apple Intelligence

Il serait malhonnête intellectuellement de présenter Apple Intelligence comme une solution parfaite. Loin de là. Le modèle local présente des limites :

  • Capacité contextuelle réduite : la fenêtre de contexte est inférieure à celle des modèles cloud comme Claude Sonnet ou GPT-4, ce qui peut limiter l’analyse de corpus volumineux en une seule requête. Pour mes travaux sur les discours polémiques, c’est parfois juste.
  • Absence de multimodalité avancée : la reconnaissance d’images, la génération d’images et certaines capacités spécialisées restent inférieures aux modèles cloud.
  • Évolution non contrôlée : le modèle évolue avec les mises à jour d’Apple, sans que l’utilisateur ou l’utilisatrice n’ait la main sur la version exacte utilisée, ce qui peut poser des questions de reproductibilité.

Ces limites ne sont pas dirimantes pour un usage doctoral en sciences humaines — où les tâches privilégiées sont la rédaction, la relecture, la structuration argumentative et la réflexion conceptuelle — mais elles méritent d’être prises en compte pour des usages plus spécialisés comme l’analyse textuelle quantitative ou l’annotation automatique de corpus. En toute honnêteté, pour 80% de mon travail quotidien, Apple Intelligence fait largement l’affaire.

Y a encore des zones d'ombre, notamment sur la question de la reproductibilité. Mais bon, c'est le lot de toute technologie émergente.

Souveraineté technologique et recherche publique

La question plus large soulevée par ce choix d’outils est celle de la souveraineté technologique de la recherche publique. Les universités et les laboratoires sont-ils en train de déléguer à des entreprises privées étrangères une fonction cognitive essentielle ? Le recours au cloud pour le traitement des données de recherche crée une dépendance structurelle qui va au-delà du simple choix technique.

Important

La souveraineté technologique n’est pas un nationalisme numérique. C’est la capacité pour une communauté scientifique à maîtriser son environnement de travail, à garantir la protection des données qu’elle traite, et à choisir ses outils en connaissance de cause. CCR + Apple Intelligence représente une pierre à cet édifice : un routage explicite des modèles, un traitement local des données, une indépendance vis-à-vis des abonnements cloud. Et ça, c’est un enjeu politique autant que technique.

La recherche en Humanités Numériques, par sa réflexivité constitutive sur les outils, est particulièrement bien placée pour porter cette exigence. Elle doit cependant être accompagnée d’une vigilance critique : Apple elle-même reste une entreprise privée dont les stratégies peuvent évoluer. La solution idéale à long terme resterait des modèles ouverts (type Mistral, Llama, Phi) exécutés localement, offrant une transparence totale sur les poids du modèle et les conditions d’utilisation.

Cela dit, entre un modèle propriétaire cloud et un modèle propriétaire local, je préfère encore le deuxième. Au moins, mes données restent chez moi.

Perspectives : vers une infrastructure de recherche souveraine

J’envisage à moyen terme un écosystème de recherche où :

  1. Le traitement courant (rédaction, relecture, brainstorming, structuration) s’effectue localement via Apple Intelligence, assurant confidentialité et continuité.
  2. Le traitement spécialisé (analyse de corpus massifs, génération de visualisations, traduction de textes longs) fait appel aux modèles cloud via CCR, lorsque les capacités locales sont insuffisantes.
  3. L’archivage et la reproductibilité sont assurés par des outils ouverts (Quarto, Git, dépôts institutionnels), indépendamment du modèle utilisé pour la production initiale.

Cette architecture hybride, où le local est la norme et le cloud l’exception délibérée, me semble constituer un modèle vertueux pour la recherche en sciences humaines. Elle respecte les principes du RGPD, du principe CARE et de la science ouverte, tout en offrant une flexibilité pratique. Et accessoirement, elle me permet de bosser dans le train sans perdre mes moyens.

Au fond, la souveraineté technologique, c'est ça : avoir le choix de ses outils et la maîtrise de ses données. Pas besoin d'être un·e geek accompli·e pour ça, mais ça aide de comprendre comment ça marche.

Conclusion

L’articulation de CCR et d’Apple Intelligence dans un cadre académique ne constitue pas une simple optimisation technique. Loin de là. Elle engage un positionnement éthique, économique et épistémologique qui rejoint les préoccupations fondamentales des Humanités Numériques : la réflexivité sur les outils, la protection des données, la souveraineté technologique et l’accessibilité de la recherche.

Les trois axes que j’ai explorés — coûts, confidentialité, hors ligne — convergent vers une même conclusion : le traitement local, lorsqu’il est disponible, doit être privilégié dans la recherche, particulièrement dans les contextes sensibles (carcéral, santé mentale, populations vulnérables). Le routage via CCR offre la souplesse nécessaire pour combiner cette exigence de souveraineté locale avec la puissance des modèles cloud lorsque le contexte le justifie.

Ce choix, en définitive, n’est pas qu’individuel. Il est collectif et institutionnel. Il revient aux laboratoires, aux Écoles doctorales, aux consortiums de recherche de construire les environnements techniques qui permettent aux chercheuses et chercheurs de travailler dans des conditions éthiquement irréprochables et épistémologiquement réflexives. C’est à ces conditions que les Humanités Numériques pourront assumer leur promesse : faire du numérique un lieu de pensée, et non de dépendance.

Pour conclure : ce setup technique, c'est un peu comme mon jardin numérique. Anarchique en apparence, mais profondément pensé. Et surtout, il me ressemble.


Références

  • Berry, D. M. (2008). Copy, Rip, Burn: The Politics of Copyleft and Open Source. Pluto Press.
  • Cocq, C. (2019). The Where, How and Who of Digital Ethnography. Digital Humanities Quarterly.
  • Maingueneau, D., & Cossuta, F. (entretien). “Les discours constituants”.
  • Nascimento, T. C. do, Suarez, M. C., & Campos, R. D. (2022). An integrative review on online ethnography methods. Qualitative Market Research. https://doi.org/10.1108/qmr-07-2021-0086
  • Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel (RGPD).

J'ai allégé les références par rapport à la version originale. Pour une exploration plus complète, n'hésitez pas à parcourir le reste du vault.

Footnotes

  1. Pour celles et ceux qui se demandent ce qu’est Conda : c’est un gestionnaire d’environnements Python qui permet d’isoler ses installations de logiciels sans mettre le bazar dans son système. Un truc de geek, essentiellement. Mais qui marche.