Шпаргалки шпоры по информационным технологиям управления и др. Бухгалтерский управленческий учет - 2 шт. Шпора Программирование и комп- ры Информационные технологии. Понятие информационной технологии. ИТ – средства, методы и системы сбора, передачи, обработки и представления информации пользователю. Существуют 4 этапа эволюции. Например: технологии программирования, СУБД, системы распознавания изображения и тд. Обеспечивают реализацию базовых и прикладных ИТ. На рынке представлены их отдельные компоненты.
Это означает, что переход к высоким информационным технологиям является исключительно сложной и важной задачей. Классификация экономической информации по уровням управления включает в себя входную и выходную.Например: современная микроэлектронная база средств ВТ, перспективные системы и комплексы (оптические и нейрокомпьютеры, транспьютеры). Основные методы организации текстовых файлов. Рядом пишется адресная ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого термина. И к этой подстроке добавляются собственно текстовые файлы. Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок. Преимущества. Если Sk уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес. Параметры, основанные на динамической эффективности. Помимо СП используются такие подходы, которые предусматривают местоположение термина в тексте. Подходы: 1. В индексационные термины включаются те, которые встречаются в названиях документов, названиях глав, разделов и т. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k: f ( j ; k ) = сумм ( i=1 – n ) fij * fjk – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fij * fjk / (сумм ( i=1 – n ) fij ^ 2+ сумм ( i=1 – n ) fjk ^ 2 – сумм ( i=1 – n ) fij * fjk - для расчёта относительного значения этого показателя. Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы. Использование частотных мер в индексировании. Частотный метод – по каждому термину, входящему в документ подсчитывается частота вхождения терминов в документ fik, i – номер документа, k – термин. Эта частота абсолютная. Поэтому эти 2 простейших документа исключают из списка. Терминам с большей частотой присваивают меньший вес, с меньшей частотой – больший вес. Тогда поиск в справочнике заменяется вычислительной процедурой, которая называется хешированием, рандомизацией или перемешиванием. Здесь нет справочника, а существует вычислительная процедура, т. Каждый класс описывается центроидом (профилем) и вектор запроса прежде всего сравнивается с центроидами класса. Преимущества. Здесь исключается ещё одна частота: суммарная или общая частота появления термина k в наборе из n документов и рассчитывается: Fk = сумма (i=1 – n) fik. Шум k –го символа рассчитывается: Nk = сумма(i=1 – n) fik / Fk * log (Fk / fik)Сигнал k – го символа: Sk = log Fk – Nk. Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk, тогда: Nk = сумма (i=1 – n) fik / Fk * log Fk / fik = 0, в этом случае сигнал имеет максимальное значение: Sk = log Fk – Nk = log Fk. С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина: Sk / Nk. Чем больше это отношение, тем больший вес назначается. Строится однозначная таблица. Использование распределения частоты термина при индексировании. Использование распределения частоты термина (уклонения). Уклонение рассчитывается: U = (сумм (fik – fk)) / (n- 1)fk – средняя частота термина k в наборе из n документов. Fk / n. Для оценки веса термина используется не уклонение, а формула Fk* U/ fk Чем больше это отношение, тем больший вес назначается термину. Использование при индексировании параметров, основанных на способности термина различать документы набора. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: . Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны. S ( Di , Dj ) = 0 , если в векторах нет ни одного общего документа. По S рассчитывают средний коэффициент подобия: S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n. Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: Sk( т. Если Sk возрастает относительно S, то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается термину k. Если Sk уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес. Динамическая информативность как метод индексирования. Всем терминам первоначально присваиваются одинаковый вес, затем пользователь формирует запрос, и выдаются документы и пользователь определяет релевантность, система сама уменьшает или увеличивает вес документа, в соответствии с потребностями пользователя, т. Задачи этих методов – построить векторы документов . Исходные данные – массив документов. Нужно выделить те термины, которые раскрывают текст документа tik и присвоить вес wik. Методы: 1. Эта частота абсолютная. Затем документы упорядочиваются в соответствии с возрастанием или убыванием частоты. Если термин имеет большую частоту, то это, скорее всего общеупотребительный термин, не раскрывающий конкретную предметную область (будет много документов). Если термин имеет малую частоту, то он существенно отражает содержание, даже если его включить в дескрипторы (ключевые слова), то он , скорее всего будет использоваться в холостую. Поэтому эти 2 простейших документа исключают из списка. Терминам с большей частотой присваивают меньший вес, с меньшей частотой – больший вес. Здесь исключается ещё одна частота: суммарная или общая частота появления термина k в наборе из n документов и рассчитывается: Fk = сумма (i=1 – n) fik. Шум k –го символа рассчитывается: Nk = сумма(i=1 – n) fik / Fk * log (Fk / fik)Сигнал k – го символа: Sk = log Fk – Nk. Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk, тогда: Nk = сумма (i=1 – n) fik / Fk * log Fk / fik = 0, в этом случае сигнал имеет максимальное значение: Sk = log Fk – Nk = log Fk. С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина: Sk / Nk. Чем больше это отношение, тем больший вес. Назначается. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: . Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны. S ( Di , Dj ) = 0 , если в векторах нет ни одного общего документа. По S рассчитывают средний коэффициент подобия: S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n. Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: Sk( т. Если Sk возрастает относительно S, то термину k присваивается положительный вес. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска. Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы. Постановка задачи увеличения полноты при поиске в текстовой базе данных и основные методы ее решения. Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска. Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k: f ( j ; k ) = сумм ( i=1 – n ) fij * fjk – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fij * fjk / (сумм ( i=1 – n ) fij ^ 2+ сумм ( i=1 – n ) fjk ^ 2 – сумм ( i=1 – n ) fij * fjk - для расчёта относительного значения этого показателя. Абсолютная запись этого ПА между терминами j и k: f ( j ; k ) = сумм ( i=1 – n ) fij * fjk – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fij * fjk / (сумм ( i=1 – n ) fij ^ 2+ сумм ( i=1 – n ) fjk ^ 2 - сумм ( i=1 – n ) fij * fjk - для расчёта относительного значения этого показателя. Причём указанная вероятность Р для этого “приписывания” должна быть больше некоторого порогового значения. Вероятность Р записывается: Р(Т1, Т2, ., Тi , Ск) – вероятность того, что при наличии терминов Тi, документ будет принадлежать классу Ск. Документ, содержащий термин Т1, Т2, ., Тi обязательно должен принадлежать одному из классов Ск. Р(Ск) – вероятность класса Ск. Эта вероятность рассчитывается как частота, в числителе – число документов, находящихся в классе Ск, в знаменателе – общее число документов во всех m классах. Р(Тj, Ск) – дробь, в числителе – общее число появления термина Тj в документах класса Ск, в знаменателе – общее число появления всех терминов в документах класса Ск.
0 Comments
Leave a Reply. |
AuthorWrite something about yourself. No need to be fancy, just an overview. Archives
July 2017
Categories |