Convertir le texte des pages aspirées en UTF-8 (deuxième tentative)

Semaine 9 Schéma directeur : La boucle « if » de notre première tentative, ainsi que Serge Fleury nous en avertissait en commentaire, était loin de traiter tous les cas de figure. Voici donc un nouvel essai distinguant plus précisément les traitements possibles. Cas de figure 1 : encodage UTF-8 détecté d’emblée Cas de figure 2 :Lire la suite « Convertir le texte des pages aspirées en UTF-8 (deuxième tentative) »

Index de tokens pour le turc : premières tentatives

Semaine 7 Schéma directeur : Ajout d’une colonne « Index » à l’en-tête du tableau d’URLs : Ajout de la génération d’index à la boucle d’aspiration des URLs : Aperçu du tableau qui en résulte : Si le texte brut aspiré se présente bien… (ici 1-15.txt) : … il en va tout autrement de l’index des tokens,Lire la suite « Index de tokens pour le turc : premières tentatives »

De la liste au tableau d’URL

Semaine 5 Synopsis des consignes : Premier script commenté : En-tête et définition des répertoires d’entrée et de sortie : Ajout – Vérification sur l’existence de valeurs des variables : Remarque : à l’exécution, le terminal renvoie une sortie d’erreur « line 15: 1: command not found » dont l’explication reste incertaine, sans que cela affecte parLire la suite « De la liste au tableau d’URL »

À propos d’une liste d’URL (en turc)

Semaine 4 Rappel des consignes… : Premières recherches, premières hypothèses Recherche via un moteur de recherche usuel paramétré pour privilégier les résultants en langue turque (Türkçe) : En première approche, ont été exclues de la recherche les pages de restaurants, à l’exception de celles (nombreuses) où il est question de dire des recettes de kebab.Lire la suite « À propos d’une liste d’URL (en turc) »

Concevoir un site comme celui-ci avec WordPress.com
Commencer