inf indeksi knjigeКолико пута сте прегледали индекс појмова на крају неке књиге? Да ли сматрате да вам је био користан? Мислите ли да књига може бити без индекса речи?

Узмимо за почетак просто питање да ли постоји "интелектуални" радник који може да ради без бројне литературе, бројних личних радних бележака, бројних свезака, записаних предавања или лекција? Тешко је замислити постојање човека који је образован бар са средњом школом, а да при томе он нема потребе за великом количином писаних или електронских информација. Током живота и рада интелектуалац прикупи импозанту литературу и нагомила велики број својих записа. Зато је још теже замислити да такав образован човек може да ради у својој професији без најосновнијих знања о томе како се драгоцене муком скупљене информације класификују и индексирају.

Индексирање

У овом тексту нећемо се бавити теоретизирањем или полемисањем са разним постојећим дефиницимама. Бићу као и увек практичан и тачан довољно за суштину области о којој говорим, по цену да изађем изван оквира званичних дефиниција ако је то потребно да би читалац спознао суштину теме.

Индексирање је у најосновнијем облику поступак којим неку књигу, чланак или било какву информацију, снабдете својимinf indeksi mojIndeks списком појмова (десктриптора, како то кажу у библиотечкој струци) са ознаком локације где заинтересовани читалац може у тој књизи да нађе информацију (локатор).

На слици десно имате извод из једног од мојих индекса. Овде се види на први поглед веома очигледна хијерархија: имате основне категорије, и испод њих само један ниво подкатегорија. Тако нпр постоји категорија "алати ручни", испод којих је једна од подкатегорија ручне тестере на страни 131.

Да ли је онда потребно учити нешто овако једноставно и очигледно? Одговор на ово питање већ су имали творци школских програма који чак и не знају шта је индексирање, а камоли да ли је оно потребно или не у школама. А да ли они имају појма о било чему говори виц о зубарима.

inf indeksi zubarВиц: пацијент долази код зубара и жали се на језив бол; био је већ код неколико зубара и ни један није могао да му реши проблем. "Помагајте" - виче он доктору. Доктор му рече да отвори уста; гледа он тако, гледа, гледа, нешто размишља, време пролази... Онда доктор рече: "Аха!". Узе један малени чекић са стола и неосетно куцну зуб на једном месту, и - бол неста као руком однешен! Пацијент у пријатном шоку. Гледа задивљено доктора, а доктор рече: "Устаните, излечени сте." Пацијент у још већем шоку.

"Колико да платим" - пита доктора. "10.000 динара" - рече доктор. "Зар је могуће, толики новац што сте само једном куцнули о мој зуб!" - чуди се пацијент. "Знате господине, то куцкање вас стаје само један динар. Али то што сам знао где да куцнем, е, то стаје 9.999 динара!"

Тако исто политиканти без дана радног стажа не могу ни уз најбољу вољу да претпоставе шта је потребно да ураде да би се рецимо привреда државе опоравила. Наравно да они који немају довољно сопствених знања не могу ни да претпоставе вредност онога што им недостаје, али ни начин како се до знања долази и шта знање подразумева.

Рачунарско и семантичко индексирање

Рачунарско индексирање је познато међу информатичарима или стручњацима за документацију (библиотекарима) као "full text indexing" (енг.). inf indeksi FullTextОво индексирање је први пут шире примењено у IBM системима и до данас се показало као изузетно корисно. Рачунарски програм извлачи из текста кључне речи. Обично има листу речи које треба изоставити, као на пример везнике, прилоге за истицање и слично. Програм распознаје граматичке облике једне исте речи, што је посебно значајно за српски језик. Ову листу сређује алфабетски и ето примитивног индекса - кажете ви. Нетачно!

Рачунарско индексирање је синтаксног типа и не доноси никакво суштинско додатно знање у текст. Ово је најпримитивнија врста индексирања, и често се користи за нижи облик претраживања информација. Рачунар може да допусти претраживање оваквог индекса по фрази или као логички израз (нпр повезујете логичким функцијама AND појмове које желите истовремено присутне у документу који се тражи (ово се зове пост-координација).

Семантичко индексирање захтева човекову интервенцију. У овом систему индексирања, веома је пожељно да индексер познаје дотичну област, и он ће рецимо медицинску књигу индексирати с обзиром на постојећу хијерархију појмова у медицини. Индексер ће креирати појмове који у општем случају не морају да се помињу у дотичној књизи, али тако да стручно читалиште по устаљеном методу у медицини пронађе термине у књизи. Индексер при томе ради читав низ операција које ћемо делимично поменути, како би професионалац или аматер на свој уобичајен начин могао да пронађе оне термине који се најчешће траже у тој групи читалаца. Семантичко индексирање је у ствари право индексирање, а рачунарско је приручно или додатно, у идеалном случају.

Ко ради индексирање

Основни задатак човека који ради индексирање (у даљем тексту "индексер") јесте да уради прилагођење информација према оној читалачком кругу коме је информација намењена. Добар индекс и лош индекс разликују се по томе што у добром индексу читалац проналази информацију а у лошем не. У случају великих документационих система, посебно државних органа, лош индекс чини предметну документацију претежно безвредном за претраживање и своди вас на ручну претрагу буквално или у рачунару.

Добар индекс омогућава не само брзо налажење битне информације, већ и брзо упознавање са материјалом, дакле учење материјала. Прегледом краћег индекса ви веома брзо можете да видите и обим неке информације па чак и њен опсег и логички "положај" у домену знања коме припада.

Као што сте надам се разумели из претходног, ручно семантичко индексирање је далеко боље, стручније и потпуније значењем од простог рачунарског извлачења речи.

А сада предлажем да зауставите ово читање, узмите неку вашу свеску, и пробајте да направите за првих рецимо 10 страница свеске један прост индекс, без икаквих упутстава, узимајући као пример претходни приказани случај једног мог индекса. Кад то урадите наставите даље читање да видите како се то (стварно) ради.

Основни приступ индексирању

inf indeksi RanganatanКад приступате индексирању треба да пођете од тога да ви не правите садржај материјала. Садржај је хронолошка листа наслова материјала и она суштински нема везе с индексом. У индексу ви креативно правите своје појмове као јединице мишљења и онда наводите локаторе (странице, позиције на полици, и слично) где се тај појам (можда у сасвим неком другом синтаксном облику) налази у дотичном материјалу. Само такав индекс има највишу вредност.

У индексирању ви као аутор заузимате став о томе који ћете онтолошки систем да примените: нпр у индексирању материјала из области електротехнике заузећете најчешће став електротехничке струке типичан за уџбенике из ове области, посебно ако је материјал намењен професионалцима. Ако ако ту претрагу желите за шири круг читалаца, можете се определити за лаички преглед или за мешовити стручно-популарни одабир речи индекса.

Пођите увек од тога као да ћете правити само једнонивооски индекс, дакле списак речи без подкатегорија. Касније га можете хијерархијски продубити. Појмови које наводите могу имати једну или више речи, али они увек чине појам. Нпр појам "орган" и појам "вештачки орган" веома су различити и у већини случајева биће равноправни одвојени појмови. Запис увек прилагођавате претраживању, нпр "вештачки орган" ћете најбоље записати као "орган, вештачки - 234", јер претрага у већини случајева иде тим редом. Можете допунити ову констатацију са додатним појмом: "вештачки орган; види орган, вештачки" како би сте се осигурали да и ређе форме претраге буду успешне.

У појму састављеном од више речи некада се користе тзв фазне релације, које је увео фантастичан индијски библиотекар и математичар Ранганатан, човек који је вековима развијене енглеске системе класификовања информација назвао "интелектуланом лењошћу" и учинио их скоро смешним и застарелим својим новим системом класификовања "фесит" методом (узајамно непреклапајући појмови, проширљиви и свесни садржине - eng. literrary warrent). На пример: појам "статистика за библиотекаре - 123" написаћете помоћу фазне релације намене "за" на следећи начин - "библиотекари, статистика за - 123".


Дигресија:

Оно што је Србин Никола Тесла био и остао у домену електротехнике то је Индијац Ранганатан био у библиотекарству. Ово одлично показује како и народи који нису имали историјске прилике да се за њих више чује могу имати појединце који својим великим делима оставе у прашини иза себе ствараоце других "познатијих" народа. То нас наводи да се замислимо да ли "извикани" народи можда имају медијску и топовску буку на својој страни више него неке друге особине.

Појмови од више речи и пре-координисани појмови

inf indeksi SofijaLorenКао што смо рекли, појам може бити формално исказан једном речју, а може и са више речи, типично две. Међутим, постоји и пре-координисани појам, који представља два одвојена појма од којих се оба принципијелно могу налазити у индексу сваки за себе, али и као комбинација оба појма. Пример: "термичка обрада алуминијума" као пре-координисани појам, и два појма "термичка обрада, алуминијума", "алуминијум, термичка обрада".

Пре-координисани појмови се користе тамо где је ова тема или концепт толико значајна за материјал да се можете одлучити да га уведете као таквог, пре свега ако се одвојене теме "термичка обрада" и "алуминијум" сами за себе не користе у материјалу.

Ако и даље имате нејасноћа у вези пре-координисаних појмова, погледајте слику десно на којој је ако се не варам Софија Лорен на снимању једног филма. Софија Лорен има више него довољно разлога да буде засебан појам у нашем индексу, тим пре ако узмемо у обзир све њене специфичне атрибуте које поседује. Са друге стране, зависно од теме материјала, можемо на пример увести појам "Софија Лорен и глумац X.Y". :-)

 

Занимљиви шаблони у индексирању

Има много практичних приступа индексирању заснованих на познатим или на личним шаблонима људи који индексирају. На пример када индексирате индустријске теме можете се послужити следећом поделом да брже издвојите индексне појмове:

  1. ствари и њихови делови (физички објекти и особе, географски појмови, ентитети)
  2. материјали (градивне именице, супстанце, гасови)
  3. активности или процеси (методе, спортови, рад, активност)
  4. догађаји и појаве (друштвене појаве, апстракције као друштвене појаве)
  5. особине или стања особа, ствари, материјала или акција
  6. научне дисциплине
  7. јединице мере
  8. остало, комбиновано

Дакле, при посматрању делова текста, користите дотичне категорије да креирате своју листу појмова. Једна друга помоћна шема је опште научна:

  1. ентитет
  2. апстракција
  3. активност
  4. особненост
  5. хетероген,комбинован

Редослед појмова по Кајзеру:

  1. ствар
  2. процес

Редослед појмова по Ранганатану:

  1. ствар (personality)
  2. материјал
  3. енергија
  4. простор
  5. време

Редослед појмова по Коутсу:

  1. ствар
  2. део
  3. материјал
  4. активност
  5. средство

Редослед појмова по Викерију за медицину:

  1. суштина
  2. орган
  3. саставни део
  4. структура
  5. облик
  6. особина
  7. пацијент
  8. активност
  9. операција
  10. процес
  11. средство
  12. простор
  13. време

Оваквих редоследа и општих категорија појмова има веома много, практично за сваку област или аспект. Редослед који ја примењујем у најопштијем случају је следећи:

  1. главни појам
  2. врста
  3. део
  4. структура
  5. облик
  6. материјал
  7. процес
  8. операција
  9. производ
  10. међу-производ
  11. средство
  12. дисциплина
  13. место
  14. време
  15. метаподаци

Релације

Стандардни индекс осим креираних појмова и хијерархије међу њима користи такође и релације између појмова.

  1. Релација еквиваленције, нпрinf indeksi interakcije:
      со, види натријум хлорид
  2. релација хијерархије - појмови ужег значења, нпр:
      софтвер -543
      NT кориснички 
      NT бесплатни 
      NT крековани
  3. релација хијерархије - појмови ширег значења, нпр:
      кориснички софтвер
        BT софтвер
  4. релација асоцијације, нпр:

  кочиони цилиндар - 234
     RT auto

Како даље

Цео овај текст је замишљен само као веома директан увод у област индексирања. Вредност информације је непосредно одређена способношћу да ту информацију нађемо у прихватљивом временском интервалу и довољно лако. И највреднија информација скривена у ортанизационом хаосу - безвредна је. У доступности информација квалитетно индексирање игра кључну улогу. Ни најбољи рачунари ни софтвери неће имати адекватну примену без стручног индексирања или бар познавања ове области. Колико је ова област значајна види се по томе што у иностранству постоје стандарди и професинална регионална и национална удружења индексера.

Зато је потребно да, ако вас је овај чланак заинтересовао, свакако прочитате неку од књига о индексирању. Потом је потребно да израдите све индексе за своје потребе, потребе своје фирме, како би сте имали бар основно искуство у овоме.

У глобалистичком мраку у коме живимо школовање ако није већ у хаосу, подређено је тренутним потребама глобалистичке уске специјализације, док се опште образовање, опште поимање света и култура људи систематски гуше на сваки начин - школским системом, медијском злоупотребом, материјалном уценом, једном речју целим системом. Зато није чудо што су чак и тако елементарне ствари као што је класификовање информација и индексирање остале неоткривене од шире популације, као уосталом и многа друга сазнања.

 

25.2.2016