Semaine 9 Schéma directeur : La boucle « if » de notre première tentative, ainsi que Serge Fleury nous en avertissait en commentaire, était loin de traiter tous les cas de figure. Voici donc un nouvel essai distinguant plus précisément les traitements possibles. Cas de figure 1 : encodage UTF-8 détecté d’emblée Cas de figure 2 :Lire la suite « Convertir le texte des pages aspirées en UTF-8 (deuxième tentative) »
Archives de la catégorie : Journal
Convertir le texte des pages aspirées en UTF-8 (première tentative)
Semaine 8 Schéma directeur : Ce qu’il faut faire, c’est compléter la boucle « for » relativement à l’encodage, en utilisant la commande iconv. Comme suit :
Index de tokens pour le turc : premières tentatives
Semaine 7 Schéma directeur : Ajout d’une colonne « Index » à l’en-tête du tableau d’URLs : Ajout de la génération d’index à la boucle d’aspiration des URLs : Aperçu du tableau qui en résulte : Si le texte brut aspiré se présente bien… (ici 1-15.txt) : … il en va tout autrement de l’index des tokens,Lire la suite « Index de tokens pour le turc : premières tentatives »
Aspiration des pages (HTML et texte brut)
Semaine 6 Schéma directeur : Ajout de colonnes à l’en-tête du tableau d’URLs : Boucle de vérification sur l’accessibilité des URLs préalablement à leur aspiration : Boucle dans la boucle pour la vérification de l’encodage de chaque page aspirée : Aperçu du résultat :
De la liste au tableau d’URL
Semaine 5 Synopsis des consignes : Premier script commenté : En-tête et définition des répertoires d’entrée et de sortie : Ajout – Vérification sur l’existence de valeurs des variables : Remarque : à l’exécution, le terminal renvoie une sortie d’erreur « line 15: 1: command not found » dont l’explication reste incertaine, sans que cela affecte parLire la suite « De la liste au tableau d’URL »
À propos d’une liste d’URL (en turc)
Semaine 4 Rappel des consignes… : Premières recherches, premières hypothèses Recherche via un moteur de recherche usuel paramétré pour privilégier les résultants en langue turque (Türkçe) : En première approche, ont été exclues de la recherche les pages de restaurants, à l’exception de celles (nombreuses) où il est question de dire des recettes de kebab.Lire la suite « À propos d’une liste d’URL (en turc) »
Le nom et le mot
Semaine 3 Consignes (A + B) : A. Script : A. Log d’exécution : B. Script : B. Fichier d’essai en sortie (aperçu) :
Préparation de l’environnement de travail
Semaine 2 Commençons par rappeler les consignes : Voici le script modifié : Voici enfin le log d’exécution :