TF-IDF (аббревиатура от Term Frequency – Inverse Document Frequency) — это статистическая метрика, которая используется для оценки значимости слова в конкретном документе по сравнению с другими документами. На русском языке термин обычно произносится как «ти-эф-ай-ди-эф».
Метод TF-IDF широко применяется в поисковых системах, анализе текстов, обработке естественного языка (NLP) и поисковой оптимизации (SEO) для определения наиболее важных слов и терминов в тексте.
Если слово часто используется в конкретном тексте, но редко встречается в остальных документах, его значение TF-IDF будет высоким. Если же слово встречается практически везде (например, «и», «или», «это»), его вес будет значительно ниже.
Именно поэтому TF-IDF помогает выделить действительно значимые термины, характеризующие содержание страницы.
Метрика применяется для анализа текстов и определения наиболее важных слов в документе.
Она используется для:
Ранее многие SEO-специалисты ориентировались исключительно на плотность ключевых слов. Однако современные поисковые системы анализируют текст значительно глубже.
TF-IDF помогает понять:
Наиболее распространенная ошибка — стремление искусственно подогнать текст под показатели TF-IDF различных сервисов.
Также часто встречаются: