[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Регулярка для выбора всех предложений в тексте
winrol
парсю гугл, не получается подобрать регулярку для выбора предложений в сайтах.
на данный момент

preg_match_all('/\r*\n*\.*\s*[A-Z0-9А-Я]*[a-zа-яА-ЯA-Z\s\,0-9]+\.*\!*\?*[\n\s\r]+/siU', $content, $out);
echo '<pre>';
print_r($out);
echo '</pre>';


$arr[]= implode("\r\n", $out[0]);

echo '<pre>';
print_r($arr);
echo '</pre>';


Может кто сталкивался?

_____________
Заработай легко - много видов проверенного заработка, как Wap та и Web.
arlamar
Ты опиши словами по какому правилу ты будешь определять, что это предложение, а не сокращение, тогда и попробуем написать регулярку.
Имею ввиду что если есть такое текст "т.д., т.п., т.е." ну и ещё куча примеров может быть.
winrol
Ну сначала пробел или перевод строки или точка или !? начало предложения Большая буква или цифра, слова с пробелами, и в конце опять .!? и возможно перевод строки или пробел как-то так.

_____________
Заработай легко - много видов проверенного заработка, как Wap та и Web.
Placido
Многоточия, а также знаки "?..", "!..", "?!" - учитываются?
Цифра в большинстве случаев будет означать не начало предложения.
Предложение может начинаться с тире (прямая речь).
Предложение может начинаться с кавычек (нескольких видов).

И это не полный список.
winrol
ну это все теория код?

_____________
Заработай легко - много видов проверенного заработка, как Wap та и Web.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.