なぜ、SharePoint は PDF の中身を全文検索できるのか。

検索アーキテクチャ(仕組み)を解説します。

 

アップロードされているファイルの処理は、 CPC (コンテンツ処理) で行われますが、その中で、IFilter が呼ばれます。

この、IFilter にはファイルからテキスト情報、属性情報を抽出する役割があります。

 

Search Architecture with SharePoint 2013

https://searchunleashed.wordpress.com/2013/12/13/271/

 

 

 

IFilter には色々な種類があり、複数の拡張子に対応している IFilter もあれば、一つの拡張子にしか対応していない IFilter もあります。

 

SharePoint 2010 では、既定の IFilter で .pdf がサポートされていないので、既定の動作としては、".pdf の全文検索はされない"という事になります。

 

ファイルの種類と IFilter のリファレンス (SharePoint Server 2010)

https://technet.microsoft.com/ja-jp/library/gg405170(v=office.14).aspx

 

 

 

ただし、PDF iFilter という PDF 用の IFilter が存在し、それを使う事で .pdf の中身を読み込む事ができるようになります。
読み込めるという事は、当然クロールも可能なわけで、その後インデックスを作成し、検索に引っかかるようになる、というわけです。

 

PDF iFilter 64 11.0.01

http://supportdownloads.adobe.com/thankyou.jsp?ftpID=5542&fileID=5550

 

 

 

なお、PDF 用の IFilter にはサードパーティ製品もあり、説明としてはこちらの方が分かりやすいかもしれません。

 

Foxit PDF IFilter

https://www.foxit.co.jp/products/foxit-pdf-ifilter

 

 

 

この、.pdf 用の IFilter は、SharePoint Online や SharePoint 2013 以降や 、FAST Search Server 2010 for SharePoint では、最初から組み込まれています。

 

SharePoint Server 2013 での既定のクロール対象ファイルのファイル名拡張子および解析対象ファイルの種類

https://technet.microsoft.com/ja-jp/library/jj219530.aspx

 

 

 

よって、標準の SharePoint 2010 を使っている場合には、IFilter をインストールしましょう。

 

iFilter のインストール手順

SharePoint におけるPDFテキスト検索

http://sharepointmaniacs.com/archives/107