В параметрах предлагаются дополнительные условия для обработки текста:
- очистка url до последнего слеша;
- очистка динамического запроса в url;
- очистка домена от url;
- удаление протокола и порта в url.
Возможность выбора определенных url из текста:
- только домены на латинице и кириллице;
- только домены punycode;
- только ipv4 адреса.
Пример работы функции «Удаление дубликатов»:
Если обработать следующий текст с включенным параметром «оставить исходный url» и «удаление дубликатов»:В результате получим следующий список:f1ru.net/index.php http://sabitoff.ru/board/index.php www.sabitoff.ru
В данном примереexample.com/index.php
www.sabitoff.ruwww.f1ru.net
не будет удален, т.к уникальность проверяется по домену целиком, а не по его части.
Но если сравнитьwww.sabitoff.ru
иhttp://www.sabitoff.ru:8080/index.php
тогда второй url будет удален, т.к является дубликатом первого домена.
Протокол, порт и путь при проверке уникальности будут игнорироваться.