Forum milbako

Les modérateurs et les administrateurs du forum Milbako.com vous souhaitent la bienvenue! Pour utiliser au mieux ce forum, consultez les règles du forum ainsi que l’aide à l’utilisation du forum.
Avant de poser une question, vérifiez que la solution ne se trouve pas dans la documentation ou le forum grâce à la « Recherche rapide » en haut de cette page. Sinon, postez dans la bonne section afin d’obtenir de meilleures réponses. Si vous avez résolu votre problème, ajoutez [Résolu] au titre de la discussion.


Veuillez ou S’enregistrer pour créer des messages et des sujets de discussion.

Nutch & Solr : les premiers pas vers la création d'un robot d'exploration Web

Page de téléchargement Solr
/home/nom_d'utilisateur/solr-8.5.2
cd ~/solr-8.5.2 
bin/solr start

Ensuite, nous voulons installer Nutch.

/home/nom d'utilisateur/apache-nutch-1.17
/home/username/apache-nutch-1.17/ fourmi
mkdir -p $SOLR_HOME/server/solr/configsets/nutch/
cp -r $SOLR_HOME/server/solr/configsets/_default/* $SOLR_HOME/server/solr/configsets/nutch/
rm $SOLR_HOME/server/solr/configsets/nutch/conf/managed-schema
bin/solr start
$SOLR_HOME/bin/solr create -c nutch -d $SOLR_HOME/server/solr/configsets/nutch/conf/
<?xml version=”1.0"?> 
<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>
<configuration> 
    <property> 
       <name>http.agent.name</name> 
       <value>Nutch Crawler</value> 
    </property>
    <property> 
       <name>http.agent.email</name>                          
       <value>datalake.ng sur gmail d</value>
    </property> 
</configuration>
mkdir -p $NUTCH_HOME/urls
touchez $NUTCH_HOME/urls/seed.txt

# accepter tout le reste 
+.
+^https?://([a-z0–9-]+.)*nutch.apache.org/
  • Ainsi, crawldb contient des liens connus, explorés ou non.
  • Un segment contient tout le contenu renvoyé, y compris leurs liens
  • Une liste de récupération contient des liens à explorer ensuite.
bin/nutch inject crawl/crawldb urls
bin/nutch génère crawl/crawldb crawl/segments
s1=`ls -d analyse/segments/2* | queue -1`
bin/nutch chercher $s1
analyse bin/nutch $s1
bin/nutch mis à jourb crawl/crawldb $s1
bin/nutch génère crawl/crawldb crawl/segments -topN 1000 
s2=`ls -d crawl/segments/2* | queue -1` 
echo $s2bin/nutch chercher $s2 
bin/nutch analyse $s2 
bin/nutch mis à jourb crawl/crawldb $s2
bin/nutch génère crawl/crawldb crawl/segments -topN 1000 
s3=`ls -d crawl/segments/2* | queue -1` 
echo $s3bin/nutch récupérer $s3 
bin/nutch analyser $s3 
bin/nutch mis à jourb crawl/crawldb $s3
bin/nutch invertlinks crawl/linkdb -dir crawl/segments
bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ $s3 -filter -normalize
bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ $s3 -filter -normalize -deleteGone
  • Après avoir sélectionné le noyau de noix , cliquez sur requête.
  • Entrez ensuite votre terme de recherche dans le champ q et cliquez sur Exécuter la requête.
<initParams path="/update/**,/query,/select,/spell"> 
    <lst name="defaults"> 
      <str name="df">_text_</str> 
    </lst> 
  </initParams>
<initParams path="/update/**,/query,/select,/spell"> 
    <lst name="defaults"> 
      <str name="df">texte</str> 
    </lst> 
  </initParams>
Translate »