Login
Программка для поиска повторяющихся слов.
NEW 07.09.12 19:52
Привет всем!
Как в заголовке уже видно, я ищу программку, которая могла бы из текста выловить все повторяющиеся слова
и хотя бы их просто маркировать или удалить.
Перерыл уже весь интернет, но вроде ничего путного не нашёл.
Мне нужно часто составлять списки, перечни или просто ключевые слова,
а в ворде или ОО этой возможности похоже нет.
Как в заголовке уже видно, я ищу программку, которая могла бы из текста выловить все повторяющиеся слова
и хотя бы их просто маркировать или удалить.
Перерыл уже весь интернет, но вроде ничего путного не нашёл.
Мне нужно часто составлять списки, перечни или просто ключевые слова,
а в ворде или ОО этой возможности похоже нет.
NEW 07.09.12 22:15
in Antwort Vovan(ator) 07.09.12 19:52
А поиск в ворде не подходит? Он все слова одинаковые показывает последовательно.
Нет "десятки" - нет проблем. ))
NEW 07.09.12 22:40
in Antwort Vovan(ator) 07.09.12 19:52, Zuletzt geändert 07.09.12 22:41 (Corvus_Black)
NEW 07.09.12 22:42
и MsWord и WordPad и даже простой Editor от рождения это прекрасно умеют.
in Antwort Vovan(ator) 07.09.12 19:52
В ответ на:
а в ворде или ОО этой возможности похоже нет.
а в ворде или ОО этой возможности похоже нет.
и MsWord и WordPad и даже простой Editor от рождения это прекрасно умеют.
«Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка» ♂Продам лунный грунт. Предоплата. Самовывоз. ©♂
NEW 07.09.12 22:44
in Antwort serger 07.09.12 22:15
В ворде не совсем, а в EXCEL вроде лучше, но тоже нужно сначала в Дримвивере список в колонку сделать
и сохранить как тхт-файл, а потом в таблицу импортировать.
А потом уже назад через Дримвивер снова в строчку вывести.
Пока проще метода не нашёл.
и сохранить как тхт-файл, а потом в таблицу импортировать.
А потом уже назад через Дримвивер снова в строчку вывести.
Пока проще метода не нашёл.
NEW 07.09.12 22:48
Мне часто нужны ключевые слова допустим для Фотолии.
По этому как исходный материал беру просто набор слов подходящих по теме.
Иногда бывает с десяток слов, а иногда пару листов DIN A4
in Antwort Murr 07.09.12 22:33
В ответ на:
Каковы исходные данные для нарезки?
Каковы исходные данные для нарезки?
Мне часто нужны ключевые слова допустим для Фотолии.
По этому как исходный материал беру просто набор слов подходящих по теме.
Иногда бывает с десяток слов, а иногда пару листов DIN A4

07.09.12 23:08
in Antwort Vovan(ator) 07.09.12 22:48
все-все повторяющиеся слова? в том числе и предлоги? так можно запариться их вычищать. то что ты ищешь видимо "тошнота текста" погугли, в сео это популярная тема
Продвижение сайтов, реклама: https://www.pro33.net
NEW 07.09.12 23:16
in Antwort Vovan(ator) 07.09.12 19:52
дубли можно попробовать искать с помощью Exel или в OpenOffice Calc
NEW 07.09.12 23:22
in Antwort Vovan(ator) 07.09.12 22:48
Иногда бывает с десяток слов, а иногда пару листов ДИН А4
------
Вроде как Я по-русски спрашивал - с какими исходными данными ты работаеш?
Потому как самый простой ответ (программиста) будет - напиши - select distinkt * from tWords
------
Вроде как Я по-русски спрашивал - с какими исходными данными ты работаеш?
Потому как самый простой ответ (программиста) будет - напиши - select distinkt * from tWords

NEW 07.09.12 23:33
Это не полноценные тексты, а или отдельные слова или фразы.
Разделённые между собой запятой.
К примеру "natur, morgen, früh, grün, sommer, ähre, getreide, herbst,"
Это только часть списка.
А полностью список намного больше будет
in Antwort project33 07.09.12 23:08
В ответ на:
в том числе и предлоги?
в том числе и предлоги?
Это не полноценные тексты, а или отдельные слова или фразы.
Разделённые между собой запятой.
К примеру "natur, morgen, früh, grün, sommer, ähre, getreide, herbst,"
Это только часть списка.
А полностью список намного больше будет

NEW 07.09.12 23:43
Гы
Об этом я тоже уже думал, но есть уже и готовые решения.
А я если начну программировать, то не успокоюсь пока не разработаю что-нибудь уникальное и созревшее для патентирования
А если серьёзно, то сейчас времени нет мелочи программировать, других забот хватает.
Я вроде тоже не по китайски написал, что нужно из простого списка (формат не важен)
убрать повторяющиеся слова или фразы и внести его (список) потом в форму для загрузки на сервер.
Посмотрю потом когда освобожусь немного, может в PHP что-нибудь состряпаю.
in Antwort Murr 07.09.12 23:22
В ответ на:
самый простой ответ (программиста) будет
самый простой ответ (программиста) будет
Гы

Об этом я тоже уже думал, но есть уже и готовые решения.
А я если начну программировать, то не успокоюсь пока не разработаю что-нибудь уникальное и созревшее для патентирования

А если серьёзно, то сейчас времени нет мелочи программировать, других забот хватает.
В ответ на:
с какими исходными данными ты работаеш?
с какими исходными данными ты работаеш?
Я вроде тоже не по китайски написал, что нужно из простого списка (формат не важен)
убрать повторяющиеся слова или фразы и внести его (список) потом в форму для загрузки на сервер.
Посмотрю потом когда освобожусь немного, может в PHP что-нибудь состряпаю.
NEW 07.09.12 23:44
Я пока так и делаю, но немного комплицировано получается.
Думал попроще что-нибудь найти.
in Antwort дaктиль 07.09.12 23:16
В ответ на:
дубли можно попробовать искать с помощью Exel
дубли можно попробовать искать с помощью Exel
Я пока так и делаю, но немного комплицировано получается.
Думал попроще что-нибудь найти.
NEW 08.09.12 00:08
in Antwort Vovan(ator) 07.09.12 23:44
а, ну если это только список с разделителем, то тут я согласен с муром - легче самому написать парсер, чем искать готовое решение. пока тема обсуждается можно было уже с десяток таких парсеров наваять
Продвижение сайтов, реклама: https://www.pro33.net
NEW 08.09.12 00:11
in Antwort project33 08.09.12 00:08
Для экселевых акробатов это раз плюнуть. Всегда завидовал :)
NEW 08.09.12 00:28
in Antwort Vovan(ator) 07.09.12 23:43
(формат не важен)
------
Т.е. имеем список каких-то ПДФов, в которые упакованы сканированные с малым разрешением картинки и поверх еще замучено что-то типа шифрации...
Ну русским же языком спрашиваю - каковы форматы исходных данных? для простого текста - 10 минут работы. Для Ворда - полчаса... Для Екселя - не знаю, давно не работал с ним..
------
Т.е. имеем список каких-то ПДФов, в которые упакованы сканированные с малым разрешением картинки и поверх еще замучено что-то типа шифрации...

Ну русским же языком спрашиваю - каковы форматы исходных данных? для простого текста - 10 минут работы. Для Ворда - полчаса... Для Екселя - не знаю, давно не работал с ним..
NEW 08.09.12 00:31
in Antwort project33 08.09.12 00:08
пока тема обсуждается можно было уже с десяток таких парсеров наваять
------
Ну либо глянуть темку про РегЕхп в Программировании - там уже готовый только упростить...
------
Ну либо глянуть темку про РегЕхп в Программировании - там уже готовый только упростить...
NEW 08.09.12 11:42
in Antwort Vovan(ator) 07.09.12 23:44
http://dienst.project33.eu/tools/vovanparser.php лови парсер
Продвижение сайтов, реклама: https://www.pro33.net
NEW 08.09.12 19:14
in Antwort project33 08.09.12 11:42
Классная игрушка 


Именно то, что и нужно.
Просто в управлении и без заморочек.
Я сегодня уже собрался было своё состряпать, да чёт потом руки не дошли
.
А ты молодец




Именно то, что и нужно.
Просто в управлении и без заморочек.
Я сегодня уже собрался было своё состряпать, да чёт потом руки не дошли

А ты молодец


NEW 08.09.12 19:27
in Antwort Vovan(ator) 08.09.12 19:14