Извлечение информации
Выполняя подбор документов, Microsoft Search открывает каждый документ и использует фильтры для сбора информации в виде текстового содержания (content), ссылок и определенных свойств документов. Эта программа поддерживает фильтры для распространенных форматов файлов, таких как HTML, документов Microsoft Office, файлов простого текстового формата, а также фильтры третьих фирм для извлечения информации из документов других типов.
Microsoft Search может автоматически определять языки, используемые в собранных документах. Эта особенность помогает в применении соответствующих отличительных признаков слов (word-breakers), служащих для идентификации отдельных слов и соответствующих лингвистических основ, необходимых для производства грамматически правильных вариантов слов.