Nutch & Solr : les premiers pas vers la création d’un robot d’exploration Web

(Dernière mise à jour le: 14 septembre 2022)

 Apache Tutoriels Ubuntu
Page de téléchargement Solr

/home/nom_d'utilisateur/solr-8.5.2
cd ~/solr-8.5.2 
bin/solr start

Ensuite, nous voulons installer Nutch.

/home/nom d'utilisateur/apache-nutch-1.17
/home/username/apache-nutch-1.17/ fourmi

mkdir -p $SOLR_HOME/server/solr/configsets/nutch/
cp -r $SOLR_HOME/server/solr/configsets/_default/* $SOLR_HOME/server/solr/configsets/nutch/

rm $SOLR_HOME/server/solr/configsets/nutch/conf/managed-schema
bin/solr start
$SOLR_HOME/bin/solr create -c nutch -d $SOLR_HOME/server/solr/configsets/nutch/conf/

 Apache Tutoriels Ubuntu  Ouvrez un compte Payoneer et obtenez une carte master-card internationale Valable en Tunisie et dans le monde entier. cliquez ici

Payoneer est le partenaire de choix pour le commerce numérique, partout dans le monde. Des paiements sans frontières à une croissance sans limites.

<?xml version=”1.0"?> 
<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>
<configuration> 
    <property> 
       <name>http.agent.name</name> 
       <value>Nutch Crawler</value> 
    </property>
    <property> 
       <name>http.agent.email</name>                          
       <value>datalake.ng sur gmail d</value>
    </property> 
</configuration>
mkdir -p $NUTCH_HOME/urls
touchez $NUTCH_HOME/urls/seed.txt

# accepter tout le reste 
+.
+^https?://([a-z0–9-]+\.)*nutch\.apache\.org/
  • Ainsi, crawldb contient des liens connus, explorés ou non.
  • Un segment contient tout le contenu renvoyé, y compris leurs liens
  • Une liste de récupération contient des liens à explorer ensuite.
bin/nutch inject crawl/crawldb urls
bin/nutch génère crawl/crawldb crawl/segments
s1=`ls -d analyse/segments/2* | queue -1`
bin/nutch chercher $s1
analyse bin/nutch $s1
bin/nutch mis à jourb crawl/crawldb $s1
bin/nutch génère crawl/crawldb crawl/segments -topN 1000 
s2=`ls -d crawl/segments/2* | queue -1` 
echo $s2bin/nutch chercher $s2 
bin/nutch analyse $s2 
bin/nutch mis à jourb crawl/crawldb $s2
bin/nutch génère crawl/crawldb crawl/segments -topN 1000 
s3=`ls -d crawl/segments/2* | queue -1` 
echo $s3bin/nutch récupérer $s3 
bin/nutch analyser $s3 
bin/nutch mis à jourb crawl/crawldb $s3
bin/nutch invertlinks crawl/linkdb -dir crawl/segments
bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ $s3 -filter -normalize
bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ $s3 -filter -normalize -deleteGone
 Apache Tutoriels Ubuntu
  • Après avoir sélectionné le noyau de noix , cliquez sur requête.
  • Entrez ensuite votre terme de recherche dans le champ q et cliquez sur Exécuter la requête.
 Apache Tutoriels Ubuntu
 Apache Tutoriels Ubuntu
<initParams path="/update/**,/query,/select,/spell"> 
    <lst name="defaults"> 
      <str name="df">_text_</str> 
    </lst> 
  </initParams>
<initParams path="/update/**,/query,/select,/spell"> 
    <lst name="defaults"> 
      <str name="df">texte</str> 
    </lst> 
  </initParams>
FaiblePa malMoyenIntéressantExilent (No Ratings Yet)
Loading...

Laisser un commentaire

Translate »