İlk this tutorial bakabilirsiniz.
Solr ile bir xml (veya csv) Solr itti olacak belge olması gerekir (işlem güncellenmesi denir; indeksleme arama için alanlar kullanılabilir hale getirmek için bir süreçtir). Xml biçimi sth. gibi:
<add>
<doc>
<field name="id">9885A004</field>
<field name="name">Canon PowerShot SD500</field>
<field name="category">camera</field>
<field name="features">3x optical zoom</field>
<field name="features">aluminum case</field>
<field name="weight">6.4</field>
<field name="price">329.95</field>
</doc>
</add>
here daha fazla bilgi için arayın.
But in your case you could use a crawler (appropriated if different or external sources) to get different document formats recognized.
Try to understand if Nutch could help here.
Örneğin Solr, Lucene ve kapta hakkında açıklama için this presentation bakabilirsiniz.