Windows Sharepoint Services 3 PDF Search Not Indexing All Words

На этот вопрос невозможно ответить.

Поставщикам услуг не нравится topublish информация о том, как они классифицируют сообщения как спам - по очевидным причинам. Также существует очень немного стандартных подходов к проблеме. Для некоторых проверок они применяются (особенно байесовская фильтрация), они даже не могут знать, почему система классифицирует некоторые сообщения как спам. Hotmail, например, имеет неоплаченную армию волонтеров, соответствующих никому, кто вручную обучает их байесовские фильтры.

Действительно получите копию spamassassin и взгляните на методы, которые он использует, и посмотрите, как они относятся к Вашему сообщению.

После беглого взгляда на содержание Вы обеспечили, я отмечаю что:

1) электронная почта происходит из hostgator - поставщик, одобренный спаммерами (например, 1,2, 3)

2) 'От' адреса не соответствует источнику электронной почты

3) выглядит, как будто это - встроенный документ HTML, а не вложение со встроенным расположением и альтернативными представлениями

4) 'X-СЦЕНАРИЙ-PHP'/'X-Mailer: PHP' заголовки часто синонимичны с УБЕ


задан 20 August 2012 в 23:07
2 ответа

I had followed the various KB articles from Microsoft, the best one that includes everything you need being here, and afterwards still could not search all text content in PDFs.

I had checked to make sure that searching for words within the PDF itself (in Reader) works, and it did, so it was not an OCR issue. For my problem, the following issues were discovered and had to be changed/reverted:

  • Upgrade to Reader X broke PDF content searching completely. I could still search for titles and descriptions, but contents of PDFs were not searchable. I had to reinstall Adobe Reader 8.
  • The service account that ran the search service needs to be a full administrator on the index server.

Summary: I had to add the service account as full administrator and then make sure the documented steps were followed again (confirmation in my case) and now voila, solved.

ответ дан 4 December 2019 в 14:25

In terms of searchable text in PDF, there are two types of files: ones that were saved from Word/etc... documents that have "always been digital" and then there are ones that were scanned in from paper, and received OCR to guess what the words are on the paper.

iFilter does not OCR the text in your documents. If your documents were originally scanned by other software, the that software is likely suspect. Nearly all OCR is imperfect, and some is horrible. You can use Acrobat Reader on your computer with the document open to search for words in it. That should tell you how good the OCR in the document is.

Also note this post that suggests OCR'ed text may not work in iFilter 8, and you may need to install Reader 9 on the server.

Lastly, if you can search the words inside a PDF using Acrobat Reader fine, then I would take the document and setup SharePoint + iFilter in a lab with default settings and see if it truly is something wrong with the iFilter.

ответ дан 4 December 2019 в 14:25


Похожие вопросы