русский
Germany.ruForen → Архив Досок→ Computer & Co

Программка для поиска повторяющихся слов.

319  1 2 alle
Vovan(ator) свой человек07.09.12 19:52
Vovan(ator)
NEW 07.09.12 19:52 
Привет всем!
Как в заголовке уже видно, я ищу программку, которая могла бы из текста выловить все повторяющиеся слова
и хотя бы их просто маркировать или удалить.
Перерыл уже весь интернет, но вроде ничего путного не нашёл.
Мне нужно часто составлять списки, перечни или просто ключевые слова,
а в ворде или ОО этой возможности похоже нет.
#1 
serger свой человек07.09.12 22:15
NEW 07.09.12 22:15 
in Antwort Vovan(ator) 07.09.12 19:52
А поиск в ворде не подходит? Он все слова одинаковые показывает последовательно.
Нет "десятки" - нет проблем. ))
#2 
Murr патриот07.09.12 22:33
Murr
NEW 07.09.12 22:33 
in Antwort Vovan(ator) 07.09.12 19:52
Каковы исходные данные для нарезки?
#3 
Corvus_Black старожил07.09.12 22:40
NEW 07.09.12 22:40 
in Antwort Vovan(ator) 07.09.12 19:52, Zuletzt geändert 07.09.12 22:41 (Corvus_Black)
StingArray нет? Например
#4 
R0B0T патриот07.09.12 22:42
R0B0T
NEW 07.09.12 22:42 
in Antwort Vovan(ator) 07.09.12 19:52
В ответ на:
а в ворде или ОО этой возможности похоже нет.

и MsWord и WordPad и даже простой Editor от рождения это прекрасно умеют.
«Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка» ♂Продам лунный грунт. Предоплата. Самовывоз. ©♂
#5 
Vovan(ator) свой человек07.09.12 22:44
Vovan(ator)
NEW 07.09.12 22:44 
in Antwort serger 07.09.12 22:15
В ворде не совсем, а в EXCEL вроде лучше, но тоже нужно сначала в Дримвивере список в колонку сделать
и сохранить как тхт-файл, а потом в таблицу импортировать.
А потом уже назад через Дримвивер снова в строчку вывести.
Пока проще метода не нашёл.
#6 
Vovan(ator) свой человек07.09.12 22:48
Vovan(ator)
NEW 07.09.12 22:48 
in Antwort Murr 07.09.12 22:33
В ответ на:
Каковы исходные данные для нарезки?

Мне часто нужны ключевые слова допустим для Фотолии.
По этому как исходный материал беру просто набор слов подходящих по теме.
Иногда бывает с десяток слов, а иногда пару листов DIN A4
#7 
project33 коренной житель07.09.12 23:08
project33
07.09.12 23:08 
in Antwort Vovan(ator) 07.09.12 22:48
все-все повторяющиеся слова? в том числе и предлоги? так можно запариться их вычищать. то что ты ищешь видимо "тошнота текста" погугли, в сео это популярная тема
Продвижение сайтов, реклама: https://www.pro33.net
#8 
  дaктиль завсегдатай07.09.12 23:16
NEW 07.09.12 23:16 
in Antwort Vovan(ator) 07.09.12 19:52
дубли можно попробовать искать с помощью Exel или в OpenOffice Calc
#9 
Murr патриот07.09.12 23:22
Murr
NEW 07.09.12 23:22 
in Antwort Vovan(ator) 07.09.12 22:48
Иногда бывает с десяток слов, а иногда пару листов ДИН А4
------
Вроде как Я по-русски спрашивал - с какими исходными данными ты работаеш?
Потому как самый простой ответ (программиста) будет - напиши - select distinkt * from tWords
#10 
Vovan(ator) свой человек07.09.12 23:33
Vovan(ator)
NEW 07.09.12 23:33 
in Antwort project33 07.09.12 23:08
В ответ на:
в том числе и предлоги?

Это не полноценные тексты, а или отдельные слова или фразы.
Разделённые между собой запятой.
К примеру "natur, morgen, früh, grün, sommer, ähre, getreide, herbst,"
Это только часть списка.
А полностью список намного больше будет
#11 
Vovan(ator) свой человек07.09.12 23:43
Vovan(ator)
NEW 07.09.12 23:43 
in Antwort Murr 07.09.12 23:22
В ответ на:
самый простой ответ (программиста) будет

Гы
Об этом я тоже уже думал, но есть уже и готовые решения.
А я если начну программировать, то не успокоюсь пока не разработаю что-нибудь уникальное и созревшее для патентирования
А если серьёзно, то сейчас времени нет мелочи программировать, других забот хватает.
В ответ на:
с какими исходными данными ты работаеш?

Я вроде тоже не по китайски написал, что нужно из простого списка (формат не важен)
убрать повторяющиеся слова или фразы и внести его (список) потом в форму для загрузки на сервер.
Посмотрю потом когда освобожусь немного, может в PHP что-нибудь состряпаю.
#12 
Vovan(ator) свой человек07.09.12 23:44
Vovan(ator)
NEW 07.09.12 23:44 
in Antwort дaктиль 07.09.12 23:16
В ответ на:
дубли можно попробовать искать с помощью Exel

Я пока так и делаю, но немного комплицировано получается.
Думал попроще что-нибудь найти.
#13 
project33 коренной житель08.09.12 00:08
project33
NEW 08.09.12 00:08 
in Antwort Vovan(ator) 07.09.12 23:44
а, ну если это только список с разделителем, то тут я согласен с муром - легче самому написать парсер, чем искать готовое решение. пока тема обсуждается можно было уже с десяток таких парсеров наваять
Продвижение сайтов, реклама: https://www.pro33.net
#14 
Simple Nothing is f*cked08.09.12 00:11
Simple
NEW 08.09.12 00:11 
in Antwort project33 08.09.12 00:08
Для экселевых акробатов это раз плюнуть. Всегда завидовал :)
#15 
Murr патриот08.09.12 00:28
Murr
NEW 08.09.12 00:28 
in Antwort Vovan(ator) 07.09.12 23:43
(формат не важен)
------
Т.е. имеем список каких-то ПДФов, в которые упакованы сканированные с малым разрешением картинки и поверх еще замучено что-то типа шифрации...
Ну русским же языком спрашиваю - каковы форматы исходных данных? для простого текста - 10 минут работы. Для Ворда - полчаса... Для Екселя - не знаю, давно не работал с ним..
#16 
Murr патриот08.09.12 00:31
Murr
NEW 08.09.12 00:31 
in Antwort project33 08.09.12 00:08
пока тема обсуждается можно было уже с десяток таких парсеров наваять
------
Ну либо глянуть темку про РегЕхп в Программировании - там уже готовый только упростить...
#17 
project33 коренной житель08.09.12 11:42
project33
NEW 08.09.12 11:42 
in Antwort Vovan(ator) 07.09.12 23:44
http://dienst.project33.eu/tools/vovanparser.php лови парсер
Продвижение сайтов, реклама: https://www.pro33.net
#18 
Vovan(ator) свой человек08.09.12 19:14
Vovan(ator)
NEW 08.09.12 19:14 
in Antwort project33 08.09.12 11:42
Классная игрушка
Именно то, что и нужно.
Просто в управлении и без заморочек.
Я сегодня уже собрался было своё состряпать, да чёт потом руки не дошли .
А ты молодец
#19 
project33 коренной житель08.09.12 19:27
project33
NEW 08.09.12 19:27 
in Antwort Vovan(ator) 08.09.12 19:14
дарю
Продвижение сайтов, реклама: https://www.pro33.net
#20 
1 2 alle